Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Matematica
Applicata
Simone Elia
Ingegneria Informatica
Università degli Studi di Bologna
1 - Definizioni di probabilità
@September 16, 2022
Dato un esperimento con un numero finito di possibili esiti equiprobabili, un evento A associato a questo
esperimento ha probabilità:
n° esiti favorevoli ad A
P (A) =
n° esiti possibili
Pro Contro
La definizione vale anche per eventi non equiprobabili. Esiti dell’esperimento devono essere in numero finito.
Non è richiesto di “contare” gli eventi. A volte non è possibile ripetere l’esperimento molte volte →
risultato impreciso.
1 - Definizioni di probabilità 1
2 - Calcolo combinatorio
Principio fondamentale del calcolo combinatorio - Principio di enumerazione
Si supponga di realizzare 2 esperimenti e si supponga che il primo esperimento presenti n possibili esiti,
mentre il secondo esperimento presenti m possibili esiti.
Le coppie ordinate che contengono gli esiti del primo e del secondo esperimento saranno n × m.
Esempio 1
✔ Esempio
Scatola con 6 palline rosse e 5 palline verdi. Estrazione con reimmissione 3 palline. Quale è la
probabilità di ottenere 2R + 1V (senza badare all’ordine di estrazione)?
A = 2R + 1V senza ordine.
n° esiti possibili = 11 × 11 × 11 = 113
n° esiti favorevoli = 6 × 6 × 5 + 6 × 5 × 6 + 5 × 6 × 6 = 3 × 5 × 62
RRV RVR VRR
n° esiti favorevoli 15×62
P (A) = n° esiti possibili
= 113
DEF. CLASS.
Esempio 2
✔ Esempio
Scatola con 6 palline rosse e 5 palline verdi. Estrazione senza reimmissione 3 palline. Quale è la
probabilità di ottenere 2R + 1V (senza badare all’ordine di estrazione)?
A = 2R + 1V senza ordine.
n° esiti possibili = 11 × 10 × 9
n° esiti favorevoli = 6 × 5 × 5 + 6 × 5 × 5 + 5 × 6 × 5 = 3 × 52 × 6
RRV RVR VRR
n° esiti favorevoli 18×52
P (A) = n° esiti possibili = 9×10×11
DEF. CLASS.
Disposizione semplice
n!
Dn,k = n × (n − 1) × ⋯ × (n − k + 1) =
(n − k)!
Dati n oggetti distinti, si dicono disposizioni con ripetizione di n elementi di classe k , tutti gli allineamenti di
k (anche ripetuti) presi dall’insieme degli n elementi dati.
2 - Calcolo combinatorio 1
R
Dn,k = nk
N.B. Le disposizioni con reimmissione sono associate alle estrazioni con reimmissione.
Permutazione semplice
Dati n elementi distinti, si dicono permutazioni semplici degli n elementi, tutti gli allineamenti degli n
elementi.
Pn = Dn,n = n!
Dati n elementi non necessariamente distinti, si dicono permutazioni con ripetizione degli elementi, tutti gli
allineamenti di questi n elementi.
n!
PnR =
K1 !K2 ! … KJ !
Esempio
n = 10
A:3
M :2
T :2
E:1
I:1
C :1
10! 10!
PnR = =
3!2!2!1!1!1! 24
Combinazione semplice
=( )
n! Dn,k n
Cn,k = =
(n − k)!k! Pk k
2 - Calcolo combinatorio 2
n° esiti favorevili
P (C) = n° esiti totali
Per trovare la probabilità che almeno due persone abbiano lo stesso compleanno considero l’evento complementare C C
2 - Calcolo combinatorio 3
3 - Notazione e definizioni preliminari
Unione di eventi
Unione di eventi
Dati A, B ⊂ S , chiamiamo unione di eventi (A ∪ B ) l’evento di S che contiene tutti gli esiti contenuti in
A e/o in B .
Intersezione di eventi
Intersezione di eventi
Dati A, B ⊂ S , chiamiamo intersezione di eventi (A ∩ B ) l’evento di S che contiene tutti gli esiti
contenuti sia in A che in B .
Insieme vuoto
Insieme vuoto
Chiamiamo insieme vuoto ( ∅ ) l’evento che non contiene esiti.
A∩B = ∅
Evento complementare
Evento complementare
Dato A ⊂ S , definiamo evento complementare l’evento AC tale che:
AC ≡ S − A
Proprietà
Dati A, B ⊂ S
AC ∩ BC = (A ∪ B)C
AC ∪ BC = (A ∩ B)C
Notazioni
Dati A1 , A2 , … , Am ⊂S
n
⋃ Ak = A1 ∪ A2 ∪ ⋯ ∪ Am
k=1
n
⋂ Ak = A1 ∩ A2 ∩ ⋯ ∩ Am
k=1
Dato un esperimento che prevede più esiti possibili e a cui è associato uno spazio campione S , e dato un
evento E ⊂ S , si definisce probabilità di E , P (E) ∈ R , il numero tale che:
A1. 0 ≤ P (E) ≤ 1
A2. P (S) =1
A3. Dati E1 , E2 , … , En ⊂ S mutuamente esclusivi, allora
m m
P ( ⋃ Ek ) = ∑ P (Ek )
k=1 k=1
Proprietà 1
Dato E ⊂ S
P (E c ) = 1 − P (E)
📎 Dimostrazione
1 = P (S) = P (E ∪ E c ) = P (E) + P (E c )
A2 ∗ A3
P (E) + P (E c ) = 1
P (E c ) = 1 − P (E)
∗ → E ∪ Ec = S
Proprietà 1bis
P (∅) = 0
📎 Dimostrazione
Sc = ∅
P (∅) = P (S c ) = 1 − P (S) = 1 − 1 = 0
P1 A2
Proprietà 2
Dati A, B ⊂ S con A ⊂ B
P (A) ≤ P (B)
B ∩ Ac = B − A
📎 Dimostrazione
→B = A ∪ (B ∩ Ac )
→ A ∩ (B ∩ Ac ) =∅
≥0
A3 A1
P (B) ≥ P (A) ⇒ P (A) ≤ P (B)
Proprietà 3
📎 Dimostrazione
→ E1 = A\B →A = E1 ∪ E2
→ E2 = A∩B →B = E2 ∪ E3
→ E3 = B\A →A∪B = E1 ∪ E2 ∪ E3
P (A ∪ B) = P (E1 ∪ E2 ∪ E3 ) =
A3
P (A)
A ∪ B = ∅ ⇒ P (A ∩ B) = 0
P (A ∪ B) = P (A) + P (B)
Proprietà 4
Dati A, B, C ⊂ S
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) −
−P (A ∩ B) − P (B ∩ C) − P (A ∩ C) +
+P (A ∩ B ∩ C)
N ∈ N con N < +∞
Quanto vale p?
S =⋃ N e
k=1 k N N N
1 = P (S) = P ( ⋃ ek ) = ∑ p(Ek ) = ∑ p = Np
A2 k=1 A3 k=1 k=1
1
1 = Np ⇒ p =
N
Sia A ⊂ S che contiene m esiti 1 ≤ m ≤ N
A = {e1 , e2 , … , em }
m
A = ⋃ ek
k=1
m m m
1 m
P (A) = P ( ⋃ ek ) = ∑ P (eK ) = ∑ =
N N
k=1 A3 k=1 k=1
m n° esiti contenuti in A
P (A) = =
N n° esiti totali
Probabilità condizionata
Eventi indipendenti
P (A ∩ B) = P (A)P (B)
Teorema
Dati 2 eventi A, B ⊂ S , indipendenti, allora anche A e B c sono indipendenti tra loro. (lo stesso vale per Ac
c c
e B e per A e B )
Dimostrazione
→A = (A ∩ B) ∪ (A ∩ Bc )
A3
P (A) = P ((A ∩ B) ∪ (A ∩ Bc )) = P (A ∩ B) + P (A ∩ Bc )
📎 Dimostrazione
m
A = (A ∩ H1 ) ∪ (A ∩ H2 ) ∪ ⋯ ∪ (A ∩ Hm ) = ⋃ (A ∩ Hk )
k=1
m m
P (A) = P ( ⋃ (A ∩ Hk ) = ∑ P (A ∩ Hk ) =
k=1 A3 k=1
m
= ∑ P (A∣Hk )P (Hk )
k=1
→ P (E ∩ Hj ) = P (E∣Hj )P (Hj )
→ P (E ∩ Hj ) = P (Hj ∣E)P (E)
(con P (E) =
0)
P (E∣Hj )P (Hj )
P (Hj ∣E) = =
P (E)
formula prob. tot.
P (E∣Hj )P (Hj )
= m
∑k=1 P (E∣Hk )P (Hk )
A e B giocano lanciando una moneta. se esce testa (T ) B dà una moneta da 1€ ad A, se esce croce (C ) A
dà una moneta da 1€ a B. Il gioco continua fino a quando uno dei due giocatori rimane senza monete.
Sia k (con 0 < k < n) il numero di monete possedute inizialmente da A ed (n − k) il numero di monete
possedute da B . Qual è la possibilità che A vinca?
A = “A vince” P (T ) = p
P (A) = pk P (C) = 1 − P (T ) = 1 − p = q
ps = “Prob. di vincere possedendo s monete”
pk = pk+1 p + pk−1 q
N.B.:
p0 = 0, pn = 1
p + q = p + (1 − p) = 1
q q
k=1 p2 − p1 = (p1 − p0 ) = p1
p p
0
q q
k=2 p3 − p2 = (p2 − p1 ) = p1 ( )2
p p
p1 pq
q q
k=3 p4 − p3 = (p3 − p2 ) = p1 ( )3
p p
q
p1 ( p )2
…
q q
k = n−1 pn − pn−1 = (pn−1 − pn−2 ) = p1 ( )n−1
p p
p1 (1 + + ( )2 + ⋯ + ( )n−1 ) = 1
q q q
p p p
E quindi:
1
p1 = q
1+ p
+ ( pq )2 + ⋯ + ( pq )n−1
Da qui è possibile considerare prima il caso specifico della moneta equilibrata, poi il caso generico in cui p =
q:
Moneta equilibrata
1 q
Se la moneta è equilibrata p =q= 2
da ciò consegue che p = 1 e quindi
1 1 1
p1 = q = =
1+ p
+ ( pq )2 + ⋯ + ( pq )n−1 1+1+⋯+1 N
pk+1 − pk = pk − pk−1
p2 − p1 = p1 − 0 → p2 = 2p1
p3 − p2 = p2 − p1 → p3 = 3p1
p4 − p3 = p3 − p2 → p4 = 4p1
Ovvero:
j
pj = jp1 =
N
Caso generale
q
Nel caso generale p =
1 è quindi possibile fare:
q
1 1− p
p1 = q × =
1+ p
+ ( pq )2 + ⋯ + ( pq )n−1 1− q
p
1 − pq
= n
1 − ( pq )
j
1 − ( pq )
pj = n
1 − ( pq )
Dispositivi in serie
Se i dispositivi formano un sistema in serie qual è la probabilità che il sistema funzioni?
F = “sistema funziona”
Dk = “ il k-esimo dispositivo funziona”
P (Dk ) = Pk
F = D1 ∩ D2 ∩ ⋯ ∩ Dn
Dispositivi in parallelo
Se i dispositivi formano un sistema in parallelo qual è la probabilità che il sistema funzioni?
E = D1 ∪ D2 ∪ ⋯ ∪ Dn
P (E) = 1 − P (E C )
= 1 − P (E C ) =
= 1 − P ((D1 ∪ D2 ∪ ⋯ ∪ Dn )C ) =
= 1 − P (D1C ∩ D2C ∩ ⋯ ∩ DnC ) =
= 1 − P (D1C )P (D2C ) … P (DnC ) =
= 1 − (1 − P1 )(1 − P2 ) … (1 − Pn ) =
n
= 1 − ∏(1 − Pk )
k=1
Una variabile casuale discreta X è una corrispondenza tra gli eventi di Ω ed un insieme discreto (finito o
numerabile) di numeri reali.
X ∈ {a1 , a2 , … , an }
con ak ∈ R k = 1, 2, … , n
e n finito o numerabile.
p(b) = p(X = b) = {
P (X = ak ) se b = ak k = 1, … , n
0 se b
= ak k = 1, … , n
Proprietà:
Proprietà 1
0 ≤ p(b) ≤ 1 ∀b ∈ R
Proprietà 2
n
∑ p(ak ) = P (S) = 1
k=1
F (b) = P (X ≤ b) ∀b ∈ R
Proprietà
Proprietà 1
0 ≤ F (b) ≤ 1
Proprietà 2
Proprietà 3
Proprietà 4
Proprietà 5
Una variabile casuale si dice continua se ad essa è associata una funzione, detta densità di probabilità.
f(x) ≥ 0 ∀x ∈ R
Proprietà 2
+∞
P (X ∈ R) = P (X ≤ +∞) = 1 ⇒ ∫ f(s)ds = 1
−∞
F (b) = P (X ≤ b) ∀b ∈ R
Proprietà
Proprietà 1
0 ≤ F (b) ≤ 1
Proprietà 2
Proprietà 3
Proprietà 4
F (b) = P (X ≤ b) ≤ P (X ≤ c) = F (c)
F (b) ≤ F (c) con b < c
Proprietà 5
b
F (b) = P (X ≤ b) = ∫ f(s)ds
−∞
dF (b)
f(b) =
db
N.B. f(b) ≥ 0 perchè F (b) è non decrescente.
Considerazioni:
Per una variabile casuale continua non è significativo associare una funzione di massa:
b
p(b) = P (X = B) = ∫ f(s)ds = ∫ f(s)ds = 0
X =b b
∀b ∈ R
p(a, b) = P (X = a ∩ Y = b) = P (X = a, Y = b)
Proprietà
Proprietà 1
p(a, b) ∈ [0, 1]
Proprietà 2
n m
∑ ∑ p(xk , yj ) = 1
k=1 j=1
pX (a) = P (X = a) = P (X = a, Y = qualsiasi) =
m
= ∑ P (X = a, Y = yj )
j=1
pY (b) = P (Y = b) = P (X = qualsiasi, Y = b) =
n
= ∑ P (X = xk , Y = b)
k=1
f(s, t) ≥ 0
Proprietà 2
∬ f(s, t)dsdt = 1
R2
Proprietà
Le prime 4 proprietà sono le stesse del caso discreto
Proprietà 5
a b
F (a, b) = ∫ (∫ f(s, t)dt)ds
−∞ −∞
∂2 F
f(a, b) =
∂a∂b
FX (a) = P (X ≤ a) = P (X ≤ a, Y ≤ +∞) =
a +∞
= F (a, +∞) = ∫ (∫ f (s, t)dt)ds
−∞ −∞
FY (b) = P (Y ≤ b) = P (X ≤ +∞, Y ≤ b) =
b +∞
= F (+∞, b) = ∫ (∫ f (s, t)ds)dt
−∞ −∞
a +∞
dFX (a) d
fX (a) = = ∫ (∫ f (s, t)dt)ds =
da da −∞ −∞
+∞
=∫ f (a, t)dt
−∞
+∞
dFY (b) d b
fY (b) = = ∫ (∫ f (s, t)ds)dt =
db db −∞ −∞
+∞
=∫ f (s, b)ds
−∞
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B)
N.B. La definizione è semplice ma non operativa, non è sempre possibile verificarla ∀A, B ⊂ R. Quindi si ricorre ai tre teoremi seguenti:
Teorema 1:
Condizione necessaria e sufficiente affinché due variabili casuali siano indipendenti è che:
Teorema 2
Condizione necessaria e sufficiente affinché due variabili casuali discrete siano indipendenti è che:
Teorema 3
Condizione necessaria e sufficiente affinché due variabili casuali congiuntamente continue siano indipendenti è che:
Data una variabile casuale X si definisce, se esiste, il suo valore medio o valore atteso o media teorica o
speranza matematica la seguente quantità:
E[X] = { +∞
∑nk=1 xk p(xk ) se X v.c. discreta
∫−∞ xf (x)dx se X v.c. continua
Proprietà
Proprietà 1
E[Y ] = E[h(X)] =
= { +∞
n
∑k=1 h(xk )p(xk ) se X v.c. discreta
∫−∞ h(x)f(x)dx se X v.c. continua
se esistono.
Proprietà 2
E[Y ] = αE[X] + β
m
E[Y ] = ∑ h(xk )p(xk ) =
k=1
m
= ∑(αxk + β)p(xk ) =
k=1
m m
= α ∑ xk p(xk ) + β ∑ p(xk ) =
k=1 k=1
= αE[X] + β
Proprietà 3
E[Z] = E[g(X, Y )] =
= { +∞ +∞
m n
∑k=1 ∑j=1 g(xk , yj )p(xk , yj ) se X, Y v.c. discrete
∫−∞ ∫−∞ g(x, y)f(x, y) se X, Y v.c. continue
se esistono.
Proprietà 4
E[Z] = E[X + Y ] =
+∞ +∞
=∫ ∫ (x + y)f(x, y)dxdy =
−∞ −∞
+∞ +∞ +∞ +∞
=∫ ∫ xf(x, y)dxdy + ∫ ∫ yf(x, y)dxdy =
−∞ −∞ −∞ −∞
+∞ +∞ +∞ +∞
=∫ x(∫ f(x, y)dy)dx + ∫ y(∫ f(x, y)dx)dy =
−∞ −∞ −∞ −∞
+∞ +∞
=∫ xfx (x)dx + ∫ yfy (y)dy =
−∞ −∞
= E[X] + E[Y ]
Proprietà 4-bis
E[X] = { +∞
∑nk=1 xnk p(xk ) se X v.c. discreta
∫−∞ xn f (x)dx se X v.c. continua
con n ∈N
Teorema
E[XY ] = E[X]E[Y ]
Attenzione! La covarianza nulla non implica che i due eventi siano indipendenti, ma se gli eventi sono indipendenti hanno covarianza nulla
+∞ +∞
E[XY ] = ∫ ∫ xyf(x, y)dxdy =
−∞ −∞
Th 3 sulle var. indip.
+∞ +∞
=∫ ∫ xyfX (x)fY (y)dxdy =
−∞ −∞
+∞ +∞
=∫ yfY (y)(∫ xfX (x)dx)dy =
−∞ −∞
E[X ]
+∞
=∫ yfY (y)E[X]dy =
−∞
+∞
= E[X]∫ yfY (y)dy
−∞
E[Y ]
= E[X]E[Y ]
Data una variabile casuale X con valor medio E[X] = μ definito, si dice, se esiste, varianza di X :
Var(X) = { +∞
∑i (xi − μ)2 P (xi ) caso discreto
∫−∞ (x − μ)2 f (x)dx caso continuo
Proprietà
Proprietà 1
La varianza è il quadrato del momento di ordine 1 sottratto al quadrato del momento di ordine 1.
📎 Dimostrazione
Proprietà 2
Caso particolare:
Var(αX + β) = α2 Var(X)
📎 Dimostrazione
→Y = αX + β
→ E[Y ] = E[αX + β] = αE[X] + β
Proprietà 3
Proprietà 3-bis
Caso discreto:
m n
Cov(X, Y ) = ∑ ∑(xk − μX )(yj − μY )p(xk , yj )
k=1 j=1
Caso continuo:
+∞ +∞
Cov(X, Y ) = ∫ ∫ (x − μX )(y − μY )f (x, y)dxdy
−∞ ∞
Proprietà
Proprietà 1
Cov(X, Y ) = Cov(Y , X)
Proprietà 2
Cov(X, X) = Var(X)
📎 Dimostrazione
Proprietà 3
N.B. Se due variabili casuali sono indipendenti E[XY ] = E[X]E[Y ] quindi la covarianza è nulla.
Proprietà 4
Proprietà 5
Siano X1 , X2 , … , XN e Y1 , Y2 , … , YM variabili casuali, allora
N M N M
Cov(∑ Xk , ∑ Yj ) = ∑ ∑ Cov(Xk , Yj )
k=1 j=1 k=1 j=1
Proprietà 6
12 - Covarianza 1
📎 Dimostrazione
→Z =X +Y
→ E[X] = μX ; E[Y ] = μY
→ E[Z] = E[X + Z] = E[X] + E[Y ] = μX + μY
Coefficiente di correlazione
Cov(X, Y )
Corr(X, Y ) = ∈ [−1, 1]
Var(X)Var(Y )
12 - Covarianza 2
13 - Funzioni generatrici dei momenti
@October 25, 2022
Due o più variabili sono identicamente distribuite se hanno la stessa funzione di ripartizione (distribuzione)
di probabilità:
ϕ(0) = E[1] = 1 ∀X
Proprietà 1
dϕ(t) ∣ d ∣ ∣
= E[etX ] = E[XetX ] = E[X]
dt ∣t=0 dt ∣t=0 ∣t=0
Proprietà 2
dk ϕ(t) ∣
= E[X k ] per K ≥ 1
dtk ∣t=0
Proprietà 3
Se X e Y variabili casuali indipendenti
ϕX +Y (t) = E[et(X +Y ) ] =
+∞ +∞
=∫ ∫ et(x+y) f(x, y)dxdy =
−∞ −∞
+∞ +∞
=∫ ∫ et(x+y) fX (x)fY (y)dxdy =
−∞ −∞
+∞ +∞
= (∫ tx
e fX (x)dx)(∫ ety fY (y)dy) =
−∞ −∞
= E[e ]E[etY ] =
tX
= ϕX (t)ϕY (t)
Proprietà 4
Se due o più variabili casuali hanno la stessa funzione generatrice dei momenti allora sono identicamente distribuite.
X ∼ B(n, p)
T ∼ B(m, p)
Allora:
X + T ∼ B(n + m, p)
📎 Dimostrazione
E[X]
P (X ≥ a) ≤
a
N.B. Si riesce a stimare P (X ≥ a) usando solo E[X], affinchè la disuguaglianza dia una stima utile si deve
E[X]
avere a <1
+∞
E[X] = ∫ xf(x)dx =
−∞
x≥0
+∞
=∫ xf(x)dx =
0
a +∞
=∫ xf(x)dx + ∫ xf(x)dx ≥
0 a
+∞
≥∫ xf(x)dx ≥
a
x≥a
+∞
≥∫ af(x)dx =
a
+∞
= a∫ f(x)dx =
a
= aP (X ≥ a)
E[X] ≥ aP (X ≥ a)
E[X]
P (X ≥ a) ≤
a
La dimostrazione è analoga per il caso discreto.
Deviazione standard
σ= Var(Xk )
Disuguaglianza di Čebyčev
Data una variabile casuale X (con media E[X] = μ e varianza Var(X) = σ 2 ) e dato r ∈ R+ :
σ2
P (∣X − μ∣ ≥ r) ≤
r2
2
N.B. La disuguaglianza è utile se σr2 <1
ˉ = X1 , X2 , … , XN
X
N
X1 , X2 , … , XN sono identicamente distribuite: hanno tutte E[Xk ] = μ e Var(Xk ) = σ 2
N
1
ˉ ] = E[
E[X ∑ Xk ] =
N
k=1
N
1
= E[∑ Xk ] =
N
k=1
N
1
= ∑ E[Xk ] =
N
k=1
N
1
= ∑μ =
N
k=1
N
= μ=
N
=μ
N
1
ˉ ) = Var(
Var(X ∑ Xk ) =
N
k=1
N
1
= 2 Var(∑ Xk ) =
N
k=1
N
1
= ∑ Var(Xk ) =
N2
k=1
N
1
= 2 ∑ σ2 =
N
k=1
Nσ 2
= =
N2
2
σ
=
N
⇓
ˉ σ
Var(X ) =
N
ˉ − μ∣ ≥ ϵ) ⟶ 0
P (∣X
N →+∞
ˉ − μ∣ ≥ ϵ) = P (∣X
P (∣X ˉ − E[X
ˉ ]∣ ≥ ϵ) ≤
Dis. di Čeb.
Var(X ˉ) σ2
≤ 2
=
ϵ Nϵ2
ˉ − μ∣ ≥ ϵ) ≤ σ2
P (∣X
Nϵ2
ˉ − μ∣ ≥ ϵ) ≤ 0
lim P (∣X
N →+∞
ˉ − μ∣ ≥ ϵ) ≥ 0
lim P (∣X
N →+∞
ˉ − μ∣ ≥ ϵ) = 0
lim P (∣X
N →+∞
Corollario di Bernoulli
Corollario di Bernoulli
📎 Dimostrazione
N
1
lim P (∣ ∑ Xk − E[Xj ]∣ ≥ ϵ) = 0
N →+∞ N
k=1
X={
X ∼ Be(p) 1 se A si verifica
0 altrimenti
p(a) = p; p(0) = 1 − p = q
Valor medio
E[X] = p
📎 Dimostrazione
E[X] = ∑ xk p(xk ) =
= 0⋅q+1⋅p =
=p
Varianza
Var(X) = pq
ϕ(t) = pet + q
X ∼ B(n, p)
0≤k≤n con (k ∈ N)
Y1 , Y2 , … , Yn ∼ Be(p)
Valor medio
E[X] = np
Varianza
Var(X) = npq
X + Z ∼ B(n + m, p)
Una v. c. si Poisson rappresenta in genere un numero di eventi che si osservano in un certo intervallo
temporale/spaziale a patto che il singolo evento abbia una probabilità bassa di verificarsi (evento raro)
X ∼ P o(λ) con λ ∈ R+
X ∈N
λk −λ
p(k) = P (X = k) = e
k!
Funzione generatrice dei momenti:
t
ϕ(t) = eλ(e −1)
📎 Dimostrazione
+∞ i
→ ∑i=0 αi! = eα per α > 0
ϕ(t) = E[etX ]
+∞
λi −λ
= ∑(eti e )=
i=0
i!
+∞
(et λ)i
= e−λ ∑ =
i! t
i=0 e λ=α
+∞
αi
= e−λ ∑ =
i!
i=0
= e−λ eα =
t
= eλ(e −1)
Valor medio
E[X] = λ
dϕ(t) ∣
E[X] = =
dt ∣t=0
d t ∣
= [eλ(e −1) ] =
dt ∣t=0
t ∣
= eλ(e −1) λet =
∣t=0
=λ
Varianza
Var(X) = λ
📎 Dimostrazione
d2 ϕ(t) ∣
E[X 2 ] = =
dt2 ∣t=0
d t ∣
= [eλ(e −1) λet ] =
dt ∣t=0
t t ∣
= [λet eλ(e −1) + λet eλ(e −1) λet ] =
∣t=0
= λ + λ2
Var(X) = λ + λ2 − (λ)2 = λ
N.B. Una variabile casuale di Poisson si comporta come il limite di una binomiale X ∼ B(n, p) con n ≫ 1 e p ≪ 1. Sostituendo λ =
np.
Rimane valido il principio di riproducibilità:
X ∼ P o(λ) Y ∼ P o(μ)
X + Y ∼ P o(λ + μ)
Esempi
Esempio 1
Primo punto:
P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) =
50 51 52
= e−5 + e−5 + e−5 =
0! 1! 2!
−5 25
= e [1 + 5 + ] =
4
49 −5
= e
4
Secondo punto:
2520 −25
P (Y = 20) = e
20!
X ∼ G(p)
X ∈ N ∖ {0}
k = 1, 2, … , +∞
La probabilità di massa può essere anche interpretata come “probabilità che non succeda A nei primi k − 1 eventi moltiplicata per la
probabilità che succeda A nel k -esimo”
Valor medio
1
E[X] =
p
📎 Dimostrazione
→
+∞
∑i=0 αi = 1
1−α
+∞
E[X] = ∑ kp(k) =
k=1
+∞
= ∑ kqk−1 p =
k=1
+∞
= p ∑ kqk−1 =
k=1
+∞
= p ∑ kqk−1 =
k=0
+∞
d
=p ∑ qk =
dq
k=0 ∗
d 1
=p ( )=
dq 1 − q
p
= =
(1 − q)2
1
=
p
Varianza
q
📎 Dimostrazione
2−p 1 2−p−1
Var(X) = − ( )2 = =
p2 p p2
1−p q
= = 2
p2 p
@November 4, 2022
Si ripete un esperimento in maniera identica e indipendente fino ad osservare l’evento A (successo) r volte
(con r ∈ N ∖ {0})
X = ‘numero di esperimenti necessari per osservare A r volte’
p = P (A) → probabilità del verificarsi di A in un singolo esperimento
X ∼ NB(r, p)
X ∈ {r, r + 1, r + 2, … , +∞}
k = r, r + 1, …
k−1 r
p(k) = ( )p (1 − p)k−r
r−1
p(k) = p(X = k) =
= P (esce A (r − 1) volte in (k − 1) prove)⋅
⋅ P (esce A nella k-esima prova) =
k − 1 r−1
=( )p (1 − p)k−1−(r−1) ⋅ p =
r−1
k−1 r
=( )p (1 − p)k−r
r−1
con Yj ∼ G(p) e Y1 , Y2 , … , Yr
Valor medio
r
E[X] =
p
📎 Dimostrazione
→ E[Yj ] = 1
p
r
E[X] = E[∑ Yj ] =
j=1
r
= ∑ E[Yj ] =
j=1
r
1
=∑ =
p
j=1
r
=
p
Varianza
rq
Var(X) =
p2
📎 Dimostrazione
→ Var(Yj ) = q
p2
r
Var(X) = Var(∑ Yj ) =
j=1
r
= ∑ Var(Yj ) =
j=1
r
q
=∑ =
j=1
p2
rq
=
p2
X ∼ U(α, β) α, β ∈ R α<β
tale che:
f (x) = {
k se x ∈ [α, β]
0 altrimenti
+∞ β
1=∫ f(x)dx = ∫ kdx = k[x]βα = k(β − α)
−∞ α
⇓
1
k=
β−α
quindi:
1
f(x) = { β−α
se x ∈ [α, β]
0 altrimenti
⎧0 se a < α
F (a) = ⎨ β−α
1−α
se α ≤ a ≤ β
⎩
1 se a > β
📎 Dimostrazione
F (a) = P (X ≤ a) =
a
=∫ f(x)dx =
−∞
⎧ ∫−∞
a
0dx se a < α
⎨ ∫−∞
α a 1
= 0dx + ∫α se α ≤ a ≤ β =
⎩ α
β−α
dx
β 1 a
∫−∞ 0dx + ∫α β−α dx + ∫β 0dx se a > β
⎧0 se a < α
= ⎨ β−α
1−α
se α ≤ a ≤ β
⎩
1 se a > β
Valor medio
β+α
E[X] =
2
+∞
E[X] = ∫ xf(x)dx =
−∞
α β +∞
x
=∫ x ⋅ 0dx + ∫ dx + ∫ x ⋅ 0dx =
−inf ty α β−α β
β
x
=∫ dx =
α β−α
1 x2 β
= [ ] =
β−α 2 α
β 2 − α2
= =
2(β − α)
β−α
=
2
Varianza
α2 + β 2 + αβ β+α 2
Var(X) = −( )
3 2
📎 Dimostrazione
α2 + β 2 + αβ β+α 2
Var(X) = −( )
3 2
X ∼ U(α, β) α, β ∈ R α < β
Y ∼ U(γ, δ) γ, δ ∈ R γ < δ
Area(B ∩ R)
P ((X, Y ) ∈ B) =
Area(R)
P ((X, Y ) ∈ B) = P ((X, Y ) ∈ B ∩ R) =
=∬ f(x, y)dxdy =
B∩R
1
=∬ dxdy =
B∩R Area(R)
1
= ∬ 1dxdy =
Area(R) B∩R
Area(B ∩ R)
=
Area(R)
Si definiscono metodi di Monte Carlo i metodi che sfruttano la casualità e la probabilità per calcolare
una quantità deterministica
Esempi
→X ∼ U(0, l1 )
→Y ∼ U(0, l2 )
→ (X, Y ) = “Punto di arrivo della palla di cannone”
Area(L)
P (palla di cannone nel lago) = P ((X, Y ) ∈ L) =
Area(R)
nL Area(L)
≈ P (palla di cannone finisce nel lago) =
n Area(R)
⇓
nL
Area(R) ≈ Area(R)
n
@November 8, 2022
X = “Distanza di M dalla retta più vicina” θ = “Angolo tra la retta di direzione comune passante per M e lo
spillo”
X ∼ U(0, b)
θ ∼ U(0, π)
X ≤ a sin(θ)
dunque:
={ ={
1 1
b se x ∈ [0, b] πse y ∈ [0, π]
0 altrove 0 altrove
π a sin(y)
P (X ≤ a sin(θ)) = ∫ ∫ f(x, y)dxdy =
0 0
π a sin(y)
1
=∫ ∫ dxdy =
0 0 bπ
π
1 a sin(y)
=∫ [x] dy =
0 bπ 0
π
1
= ∫ a sin(y)dy =
bπ 0
a
= [− cos(y)]π0 dy =
bπ
2a
=
bπ
nA
fA =
n
⇓
2a nA 2an
≈ ⇒π≈
bπ n bnA
X ∼ E(λ) λ ∈ R+
tale che:
f (x) = {
λe−λx se x ≥ 0
0 altrove
F (a) = {
0 se a < 0
1 − e−λa se a ≥ 0
📎 Dimostrazione
F (a) = P (X ≤ a) =
a
=∫ f(x)dx =
−∞
{ −∞
a
∫ 0dx se a < 0
= 0 a =
∫−∞ 0dx + ∫0 λe−λx dx se a ≥ 0
={
0 se a < 0
1 − e−λa se a ≥ 0
ϕ(t) = { λ
diverge se λ − t ≤ 0
λ−t
se λ − t > 0
ϕ(t) = E[etX ] =
+∞
=∫ etx f(x)dx =
−∞
0 +∞
=∫ etx dx + ∫ etx λe−λx dx =
−∞ 0
+∞
= λ∫ e−(λ−t)x dx =
0
={
diverge se λ − t ≤ 0
−(λ−t)x =
λ[− e λ−t ]+∞0 se λ − t > 0
={ λ
diverge se λ − t ≤ 0
λ−t se λ − t > 0
Valor medio
1
E[X] =
λ
📎 Dimostrazione
dϕ(t) ∣
E[X] = =
dt ∣t=0
λ ∣
= =
(λ − t)2 ∣t=0
1
=
λ
Varianza
1
Var(X) =
λ2
📎 Dimostrazione
d2 ϕ(t) ∣
E[X 2 ] = =
dt2 ∣t=0
2λ ∣
= =
(λ − t)3 ∣t=0
2λ
= 3 =
λ
2
= 2
λ
2 1 1
Var(X) = − 2 = 2
λ2 λ λ
Proprietà
Proprietà 1
λ
Y = cX ∼ E( )
c
ϕY (t) = E[etY ] =
= E[etcX ] =
= ϕX (tc) =
λ
= =
λ − tc
λ
c
= λ
c −t
Proprietà 2
T ∼ E(λ1 + λ2 + ⋯ + λn )
📎 Dimostrazione
FT (t) = P (T ≤ t) =
= P (min(X1 , X2 , … , Xn ) ≤ t) =
= 1 − P (min(X1 , X2 , … , Xn ) > t) =
= 1 − P (X1 > t, X2 > t, … , Xn > t) =
= 1 − P (X1 > t)P (X2 > t) … P (Xn > t) =
= 1 − { −λ t … { −λ t
1 se t < 0 1 se t < 0
=
e 1 se t ≥ 0 e n se t ≥ 0
={
0 se t < 0
1 − e−(λ1 +λ2 +⋯+λn )t se t ≥ 0
⇓
T ∼ E(λ1 + λ2 + ⋯ + λn )
Proprietà 3
Dati n dispositivi in parallelo, ognuno si comporta come una variabile casuale Xk ∼ E(λk ) con k = 1, 2, … , n. Chiamando
S il tempo di funzionamento del sistema, allora la funzione di distribuzione di probabilità di S sarà:
FS (a) = { n
0 se a < 0
∏k=1 (1 − e−λk a ) se a ≥ 0
📎 Dimostrazione
FS (a) = P (max(X1 , X2 , … , Xn ) ≤ a) =
= P (X1 ≤ a, X2 ≤ a, … , Xn ≤ a) =
= P (X1 ≤ a)P (X2 ≤ a) … P (Xn ≤ a) =
= FX 1 (a)FX 2 (a) … FX n (a) =
={ …{
0 se a < 0 0 se a < 0
=
1 − e−λ1 a se a ≥ 0 1 − e−λn a se a ≥ 0
={ n
0 se a < 0
∏k=1 (1 − e−λ1 a ) se a ≥ 0
Assenza di memoria
Data una variabile esponenziale X ∼ E(λ) con X = “tempo di funzionamento di un dispositivo”
📎 Dimostrazione
P (X > s + t ∩ X > t)
P (X > s + t∣X > t) = =
P (X > t)
P (X > s + t)
= =
P (X > t)
e−λ(s+t)
= =
e−λt
−λs
=e =
= P (X > s)
X ∼ N(μ, σ 2 ) μ ∈ R, σ 2 ∈ R+
Tale che:
1 (x−μ)2
f (x) = e− 2σ2
σ 2π
Funzione di distribuzione di probabilità
a a
1 (x−μ)2
F (a) = ∫ f(x)dx = ∫ e− 2σ 2 dx
−∞ −∞ σ sπ
+∞
I=∫
x2
e− 2 dx
−∞
I=?
Considero I 2
+∞ +∞
y2
I2 = ∫ e− 2 dx ⋅ ∫
x2
e− 2 dy =
−∞ −∞
+∞ +∞
(x 2 +y 2 )
=∫ ∫ e− 2 dxdy
−∞ −∞
x = r cos(θ)
y = r sin(θ)
dxdy = rdrdθ
2π +∞
I2 = ∫ (∫
r2
e− 2 rdr)dθ =
0 0
2π +∞
=∫ [ − e− 2 ]
r2
dθ =
0 0
2π
=∫ 1dθ =
0
= 2π
⇓
I= 2π
📎 Dimostrazione
ϕ(t) = E[etX ] =
(x−μ)2
+∞
etx e− 2σ 2
=∫ dx
−∞ σ 2π
x−μ dx
Applico un cambio di variabile y = σ e dy = σ
+∞
1 y2
= ∫ et(σy+μ) e− 2 dy =
2π −∞
+∞
etμ y2
∫
t2 σ 2 t2 σ 2
= etσy− 2 +(− 2 + 2 ) dy =
2π −∞
t2 σ 2
+∞
etμ+ 2 (y−tσ)2
= ∫ e− 2 dy
2π −∞
+∞ t2 σ 2
etμ+ 2
∫
z2
= e− 2 dz =
2π −∞
t2 σ 2
etμ+ 2
= 2π =
2π
t2 σ 2
= etμ+ 2
Valor medio
E[X] = μ
📎 Dimostrazione
dϕ(t) ∣
E[X] = =
dt ∣t=0
t2 2 ∣
= [etμ+ 2 σ (μ + tσ 2 )] =
∣t=0
=μ
Varianza
Var(X) = σ 2
d2 ϕ ∣
E[X 2 ] = =
dt2 ∣t=0
t2 2 t2 2 ∣
= [etμ+ 2 σ (μ + tσ 2 )2 + etμ+ 2 σ σ 2 ] =
∣t=0
= μ2 + σ 2
Var(X) = μ2 + σ 2 − μ2 = σ 2
Proprietà
Proprietà 1
Y ∼ N(αμ + β, α2 σ 2 )
📎 Dimostrazione
ϕY (t) = E[etY ] =
= E[et(αX +β) ] =
= E[etαX etβ ] =
= etβ E[e(tα)X ] =
= etβ ϕX (tα) =
(tα)2
σ2
= etβ (e(tα)μ+ 2 )=
t 2 α2 σ 2
= et(αμ+β)+ 2
⇓
Y ∼ (αμ + β, α2 σ 2 )
Proprietà 2
Date due variabili casuali normali e indipendenti X ∼ N(μ1 , σ12 ) e Y ∼ N(μ2 , σ22 ) allora:
📎 Dimostrazione
t2 2
ϕX (t) = etμ1 + 2 σ1
2
tμ2 + t2 σ22
ϕY (t) = e
t2 2 2
ϕX +Y (t) = ϕX (t)ϕY (t) = et(μ1 +μ2 )+ 2 (σ1 σ2 )
⇓
T ∼ N(μ1 + μ2 , σ12 + σ22 )
Y = eX ∼ Lognormale(μ, σ 2 )
quindi:
Y = g(x) = eX ≥ 0
a = eX ⇒ X = g−1 (a) = ln(a) con a > 0
con:
∣ dg−1 (a) ∣
fY (a) = fX (g−1 (a))
∣ −1da ∣
dg (a) 1
=
da a
(ln(a)−μ)2
{ aσ 2π
1
e− 2σ 2 se a > 0
fY (a) =
0 se a ≤ 0
P ( Xσ−μ ≤ ln(a)−μ
FY (a) = { σ
) se a > 0
0 se a ≤ 0
📎 Dimostrazione
FY (a) = P (Y ≤ a) =
= P (eX ≤ a) =
={
P (X ≤ ln(a)) se a > 0
=
0 se a ≤ 0
P ( Xσ−μ ≤ ln(a)−μ
={ σ
) se a > 0
0 se a ≤ 0
X −μ
Chiamando Z = σ ∼ N(0, 1)
FZ ( ln(a)−μ
FY (a) = { σ
) se a > 0
0 se a ≤ 0
Valor medio
σ2
E[Y ] = eμ+ 2
📎 Dimostrazione
E[Y ] = E[eX ] =
= ϕX (1) =
t2 2 ∣
= etμ+ 2 σ =
∣t=1
σ2
= eμ+ 2
Varianza
2 2
Var(Y ) = e2μ+σ (eσ − 1)
E[Y 2 ] = E[e2X ] =
= ϕX (2) =
t2 2 ∣
= etμ+ 2 σ =
∣t=2
2
= e2μ+2σ
2 2 2 2
Var(Y ) = e2μ+2σ − e2μ+σ = e2μ+σ (eσ − 1)
Proprietà
Proprietà 1
📎 Dimostrazione
⁍ Y2 = eX 2
T = Y1 Y2 = eX 1 eX 2 = eX 1 +X 2 = eW
Un processo stocastico è una famiglia di variabili casuali che dipendono da un parametro reale (spesso il
tempo)
1. N(0) = 0
2. Il numero di eventi che si verificano in un certo intervallo di tempo dipende dalla lunghezza dell’intervallo,
ma non dipende dalla posizione sull’asse reale (gli intervalli ]0, t] e ]s, s + t] si comportano nello stesso
modo)
3. Il numero di eventi che si verificano in un dato intervallo è indipendente dal numero di eventi che si
verificano in un intervallo disgiunto dal primo
P (N (h)=1)
4. limh→0 h
=λ con λ ∈ R+
P (N (h)≥2)
5. limh→0 h =0
N.B. P (N(t) = k) si comporta come una binomiale B(m, λt
m
), ma per m → +∞:
λt λt
B(m, ) ⟶ P o(m )
m m
⇓
N(t) ∼ P o(λt)
X1 = “Tempo che intercorre tra l’istante iniziale e il verificarsi del primo evento”
X1 variabile casuale continua
Se s ≥ 0:
Xk ∼ E(λ)
Y = g(X)
E[Y ] = E[g(X)] = { +∞
∑nj=1 g(xj )p(xj ) X v.c. discreta
∫−∞ g(x)f (x)dx X v.c. continua
FY (a) = P (Y ≤ a) =
= P (g(X) ≤ a) =
= P (X ≤ x∗ ) =
x∗
=∫ fX (x)dx =
−∞
g −1 (a)
=∫ fX (x)dx
−∞
d
fY (a) = FY (a) =
da
g −1 (a)
d
= ∫ fX (x)dx =
da −∞
d
= fX (g−1 (a)) g−1 (a)
da
FY (a) = P (Y ≤ a) =
= P (g(X) ≤ a) =
= P (X ≥ x∗ ) =
+∞
=∫ fX (x)dx =
x∗
+∞
=∫ fX (x)dx
g −1 (a)
FY (a) = P (Y ≤ a) =
= P (g(X) ≤ a) =
= P (X ≤ x∗1 ∪ X ∈ [x∗2 , x∗3 ] ∪ X ∈ [x∗4 , x∗5 ] ∪ … ) =
x∗1
=∫ fX (x)dx + ∫ x∗x
2 fX (x)dx + ∫ x4 fX (x)dx + …
∗ ∗
3 ∗x5
−∞
E di conseguenza
d
fY (a) = FY (a) = …
da
Si noti che non è possibile scrivere una formula generale.
FZ = P (z ≤ a)
= P (h(X, Y ) ≤ a)
= ∬ f(x, y)dxdy
D
Z =X +Y
📎 Dimostrazione
FZ (a) = P (Z ≤ a) =
= P (Y ≤ −X + a) =
+∞ −x+a
=∫ (∫ f(x, y)dy)dx
−∞ −∞
📎 Dimostrazione
dFZ (a)
fZ (a) = =
da
+∞ −x+a
d
= ∫ (∫ f(x, y)dy)dx =
da −∞ −∞
+∞ −x+a
d
=∫ ( ∫ f(x, y)dy)dx =
−∞ da −∞
+∞
=∫ f(x, −x + a)dx
−∞
di conseguenza:
fz (a) = ⎨ oppure
⎩ +∞
∫−∞ fX (x)fY (−x + a)dx
∑nk=1 Xk − nμ
Yn =
nσ 2
allora ∀a ∈ R:
dove Z ∼ N(0, 1)
Ovvero:
Yn converge in distribuzione ad una v.c. normale standard per n → +∞
Dimostrazione
📎 Dimostrazione
n
Sn = ∑k=1 Xk → variabile casuale
n n
E[Sn ] = E[∑ Xk ] = ∑ E[Xk ] = nμ
k=1 k=1
n n
Var(Sn ) = Var(∑ Xk ) = ∑ Var(Xk ) = nσ 2
k=1 k=1
Sn − nμ
Yn =
nσ 2
⇓
Sn nμ
E[Yn ] = E[ − ]=
σ n σ n
1 nμ
= E[Sn ] − =
σ n σ n
nμ nμ
= − =
σ n σ n
=0
Sn nμ
Var(Yn ) = Var( − )=
σ n σ n
1
= Var(Sn ) =
(σ n)2
1
= 2 nσ 2 =
σ n
=1
Ipotesi aggiuntive
Supponiamo che μ = 0 e σ 2 = 1.
n
∑k=1 Xk
Yn =
n
Ovvero:
t2
lim ln(ϕYn (t)) =
n→+∞ 2
Assegno a L(t) il logaritmo precedente
dL ∣
L′ (0) = =
dt ∣t=0
d ∣
= ln(ϕX k (t)) =
dt ∣t=0
1 ∣
=[
d
ϕX k (t)] =
ϕX k (t) dt ∣t=0
1
= E[Xk ] = 0
1
=0
d2 L ∣
L′′ (0) = =
dt2 ∣t=0
1 dϕX k (t) ∣
= ( )
d
=
dt ϕX k (t) dt ∣t=0
1 dϕX k (t) 1 d2 ϕX k (t) ∣
=( ( )
d
) + =
dt ϕX k (t) dt ϕX k (t) dt2 ∣t=0
1 dϕX k (t) dϕX k (t) ∣ 1
= (( − ) ) + E[X 2 ]
ϕX k (t)2 dt dt ∣t=0 1
= −E[Xk ]2 + E[X 2 ] =
= σ2 =
=1
Riassumendo:
→ ϕX k (t) = eL(t) ∀k = 1, 2, … , n
→ L(0) = 0; L′ (0) = 0; L′′ (0) = 1
t
X1
( t
X1 ) t
ϕ X1 (t) = E[e n
] = E[e n
] = ϕX 1 ( )
n n
Da cui si ricava:
t2
lim ϕYn (t) = e 2 = ϕZ (t)
n→+∞
Applicazioni
Applicazione 1
X ∼ B(n, p)
n
X = ∑ Vk
k=1
X∼
˙ N(np, npq)
Regole di approssimazione
1
→ P (X = k) = P (k − 2 ≤ X ≤ k + 12 )
→ P (X ≤ k) = P (X ≤ k + 12 )
→ P (X < k) = P (X ≤ k − 12 )
→ P (X ≥ k) = P (X ≥ k − 12 )
→ P (X > k) = P (X ≥ k + 12 )
Applicazione 2
Date X1 , X2 , … , Xn variabili casuali indipendenti e identicamente distribuite con μ = E[Xk ] e σ 2 = Var(Xk ):
n 2
ˉ ) ∑ Xk ∼
X
σ
˙ N(μ, )
n n
k=1
Statistica descrittiva
La statistica descrittiva è la disciplina che si occupa di studiare e presentare dati che si riferiscono a tutti gli
individui di una popolazione relativamente ad una o più caratteristiche misurabili
Inferenza statistica
L’inferenza statistica è la disciplina che parte dallo studio di un sottoinsieme della popolazione (detto
campione) ed analizzando le caratteristiche degli individui del campione cerca di inferire qualcosa sulla
popolazione.
N.B. Il campione deve essere scelto in maniera del tutto casuale e deve essere sufficientemente numeroso
Popolazione
Definiamo popolazione un insieme di individui molto numeroso (o infinito)
“Le caratteristiche degli individui di una stessa popolazione si suppongono variabili casuali indipendenti e identicamente distribuite”
Di conseguenza il campione è:
“Insieme di variabili casuali indipendenti e identicamente distribuite X1 , X2 , … , XN , dove N è la numerosità del campione”
e definiamo la statistica:
L’inferenza statistica, a partire dal campione, cerca di determinare le caratteristiche incognite della funzione di distribuzione di probabilità
della popolazione. Essa è definita inferenza non parametrica se la forma della funzione di distribuzione è incognita, inferenza parametrica
se è nota la funzione di distribuzione a meno di una o più parametri.
Nel caso di inferenza parametrica chiamiamo Fθ la funzione e θ il parametro incognito.
Definiamo:
Stimatore
Lo stimatore θ^ una statistica, ovvero una funzione delle variabili casuali del campione che viene impiegata per
stimare θ.
Stima di θ
E[θ^] = θ
Stimatore efficiente
Tra tutti gli stimatori viene scelto quello con varianza minima
Stimatore consistente
lim Var(θ^) = 0
N →∞
22 - Inferenza statistica 1
Si dimostra che per una popolazione gaussiana:
ˉ (media campionaria) è lo stimatore corretto, efficiente e consistente per μ.
X
N
ˉ = ∑ Xk
X
N
k=1
N
1
S2 = ∑(Xk − X
ˉ )2
N −1
k=1
Media campionaria
Per la legge dei grandi numeri abbiamo già dimostrato che la media campionaria è uno stimatore corretto e consistente:
ˉ] = μ ˉ) = σ2
E[X Var(X
N
Caso 1 - X1 , … , XN gaussiane
N 2
ˉ = ∑ Xk ∼ N(μ, σ )
X
N N
k=1
N
ˉ = ∑ Xk
X
N
k=1
Varianza campionaria
N
1
S2 = ∑(Xk − X
ˉ )2
N −1
k=1
→ E[Xk ] =μ ˉ]
→ E[X =μ
→ Var(Xk ) =σ 2 ˉ) =
→ Var(X σ2
N
→ E[Xk2 ] = σ 2 + μ2 ∗ ˉ 2]
→ E[X = σ2
+ μ2 ∗
N
N
1
E[S 2 ] = E[ ∑(Xk − X
ˉ )2 ] =
N −1
k=1
N N N
1
= ( ∑ E[Xk2 ] + ∑ E[X
ˉ 2 ] − 2E[∑ X
ˉ Xk ]) =
N −1
k=1 k=1 k=1
1 σ2
= (N(σ 2 + μ2 ) + N( + μ2 ) − 2NE[X
ˉ 2 ]) =
N −1 N
1
= (N − 1)σ 2 =
N −1
= σ2
22 - Inferenza statistica 2
23 - Distribuzione χ quadro a n gradi di libertà
Date Z1 , Z2 , … , Zn ∼ N(0, 1) indipendenti:
→ E[Zk ] =0
→ Var(Zk ) =1
→ E[Zk2 ] = Var(Zk ) + E 2 [Zk ] = 1
n
Cn = ∑ ∼ χ2n
k=1
n n
E[Cn ] = E[∑ Zk2 ] = ∑ E[Zk2 ] = n ⋅ 1
k=1 k=1
P (Cn ≥ χ2β,n ) = β
(N − 1)S 2
∼ χ2N −1
σ2
N.B. Se Cn ∼ χ2n e n ≫ 1, per il teorema del limite centrale:
Cn ∼
˙ N(n, ?)
Varianza
Var(Cn ) = 2n
→ Zk ∼ N(0, 1)
→ E[Z12 ] = Var(Z1 ) + E[Z1 ]2 = 1 + 02 = 1
n n
Var(Cn ) = Var(∑ Zk2 ) = ∑ Var(Zk2 )
k=1 k=1
t2
ϕZ 1 (t) = e 2
d4 ∣
E[Z14 ] = ϕZ (t) =
dt4 1 ∣t=0
d3 2t t2 ∣
= 3 e2 =
dt 2 ∣t=0
d2 t2 t2 ∣
= 2 (e 2 + t2 e 2 ) =
dt ∣t=0
d t2 t2 t2 ∣
= (te 2 + 2te 2 + t3 e 2 ) =
dt ∣t=0
∣
= [e 2 + t2 e 2 + 2e 2 + 2t2 e 2 + 3t2 e 2 + t4 e 2 ]
t2 t2 t2 t2 t2 t2
=
∣t=0
=3
Var(Z12 ) = 3 − 1 = 2
n
Var(Cn ) = ∑ Var(Zk2 ) = 2n
k=1
→Z ∼ N(0, 1)
→ Cn ∼ χ2n
Tn ∼ tn
Z
Tn = ∈R
Cn
n
P (Tn ≥ tβ,n ) = β
P (Tn ≤ −tβ,n ) = β
La stima puntuale di θ è il valore di θ^ per un certo insieme di misurazioni (per un certo campione), ma questa
stima è troppo sensibile al variare dei risultati sperimentali. Si preferisce dunque utilizzare un intervallo di
valori in cui si ha confidenza che possa cadere il reale valore di θ. Questo intervallo è detto Intervallo di
confidenza.
Seguono esempi di costruzione di intervalli di confidenza, tutti accomunati dall’ipotesi: Popolazione Gaussiana con almeno un parametro
incognito.
utilizziamo
n
ˉ = ∑ Xk
X
N
k=1
come stimatore di μ.
2 ˉ
ˉ ∼ N(μ, σ ) ⇒ X − μ ∼ N(0, 1)
X
N σ2
N
P (Z ≥ zβ ) = β
P (Z ≤ −zβ ) = β ⇒ P (−zβ ≤ Z ≤ zβ ) = 1 − 2β
ˉ −μ
X
P (−zβ ≤ ≤ zβ ) = 1 − 2β
σ2
N
σ ˉ − μ ≤ zβ σ ) = 1 − 2β
P (−zβ ≤X
N N
P (−X ˉ − zβ σ ≤ −μ ≤ −X ˉ + zβ σ ) = 1 − 2β
N N
P (Xˉ + zβ σ ≥ μ ≥ Xˉ − zβ σ ) = 1 − 2β
N N
P (Xˉ − zβ σ ≤ μ ≤ Xˉ + zβ σ ) = 1 − 2β
N N
24 - Intervalli di confidenza 1
ˉ − zβ σ , X
μ ∈ [X ˉ + zβ σ ]
N N
l’intervallo ha ampiezza 2zβ σ , per aumentare l’ampiezza è possibile ridurre zβ (tuttavia questo porterebbe all’aumento di β e quindi
N
alla riduzione della confidenza) oppure aumentare, se possibile, N .
considero poi:
ˉ −μ
X
Z= ∼ N(0, 1)
σ2
N
(N − 1)S 2
CN −1 = ∼ χ2N −1
σ2
tali che:
Z ˉ −μ
X
TN −1 = = ∼ tN −1
CN −1 S2
N −1 N
Allora:
P (−tβ,N −1 ≤ TN −1 ≤ tβ,N −1 ) = 1 − 2β
Xˉ −μ
P (−tβ,N −1 ≤ ≤ tβ,N −1 ) = 1 − 2β
S2
N
ˉ − tβ,N −1 S ˉ + tβ,N −1 S ) = 1 − 2β
P (X ≤μ≤X
N N
ˉ − tβ,N −1 S , X
μ ∈ [X ˉ + tβ,N −1 S ]
N N
N.B. Come nel caso precedente per ridurre l’ampiezza è possibile ridurre tβ,N −1 (ovvero la confidenza) oppure aumentare N .
(N − 1)S 2
CN −1 = ∼ χ2N −1
σ2
con popolazione gaussiana.
ˉ )2
(X i − X
S 2 è lo stimatore di σ 2 con S 2 = ∑i N −1 .
24 - Intervalli di confidenza 2
P (χ21−β,N −1 ≤ CN −1 ≤ χβ,N −1 ) = 1 − 2β
(N − 1)S 2
P (χ21−β,N −1 ≤ ≤ χβ,N −1 ) = 1 − 2β
σ2
χ21−β,N −1 1
P( ) = 1 − 2β
χβ,N −1
≤ 2 ≤
(N − 1)S 2 σ (N − 1)S
2
(N − 1)S (N − 1)S
P( 2 ≥ σ2 ≥ ) = 1 − 2β
χ1−β,N −1 χβ,N −1
(N − 1)S 2 (N − 1)S
P( 2 ≤ σ2 ≤ ) = 1 − 2β
χβ,N −1 χ1−β,N −1
(N − 1)S (N − 1)S
σ2 ∈ [ , ]
χβ,N −1 χ1−β,N −1
24 - Intervalli di confidenza 3
25 - Regressione
Avendo X (1) , X (2) , … , X (n) dati in entrata e un uscita Y , associati da una funzione
Y = βX + α + errore casuale
M
SS 2 = ∑(Yk − (BXk + A))2
k=1
2
essi devono essere scelti in modo da minimizzare SS (si usa il metodo dei minimi quadrati)
∂S S 2
{ ∂S∂AS 2 ⇒{ k
=0 ∑ 2(Yk − (BXk + A)) ⋅ (−1) = 0
∂B =0 ∑k 2(Yk − (BXk + A)) ⋅ (−Xk ) = 0
Si ottiene quindi:
1.
M M M
∑ Yk − B ∑ Xk − ∑ A = 0
k=1 k=1 k=1
M Yˉ − BM Yˉ − MA = 0
Yˉ − BX ˉ −A=0
A = Yˉ − BX
ˉ
2.
M
∑(Yk Xk − BXk2 − AXk ) = 0
k=1
M M M
∑ Yk Xk − ∑ BXk2 − ∑ AXk = 0
k=1 k=1 k=1
M M M
∑ Yk Xk − ∑ BXk2 − ∑ AXk = 0
k=1 k=1 k=1
M M M M
∑ Yk Xk − ∑ BXk2 − Yˉ ∑ Xk + BX
ˉ ∑ Xk = 0
k=1 k=1 k=1 k=1
M M
∑ Yk Xk − ∑ BXk2 − Yˉ M X
ˉ + BM X
ˉ2 = 0
k=1 k=1
M M
B(∑ Xk − M X
2 ˉ 2 ) = ∑ Xk Yk + MX ˉ Yˉ
k=1 k=1
∑
M
Yk Xk − M X ˉ Yˉ ∑
M
Yk (Xk − X ˉ)
B = k=1M = k=1
2
∑k=1 Xk − M X ˉ M 2
∑k=1 Xk − M X ˉ
25 - Regressione 1
RIASSUMENDO:
M ˉ)
∑k=1 Yk (Xk − X
B=
∑ M 2
X − MX ˉ
k=1 k
A = Yˉ − BX
ˉ
Ipotesi aggiuntive
1 - Le quantità X1 , X2 , … , XM sono quantità deterministiche prive di errore:
M
xk
ˉ=∑
ˉ =x
Xk = xk ⇒ X
M
k=1
(non si può parlare di media campionaria dato che Xk non sono variabili casuali appartenenti allo stesso campione)
Yk = βXk + α + errore
˙ N(0, σ 2 ).
Per il teorema del limite centrale ∼
Yˉ = M k è una media aritmetica di variabili casuali ma non è una media campionaria dato che le Yk presentano E[Yk ] diverse (Yk
∑Y
Assunte queste due ipotesi verifico che gli stimatori siano corretti.
Stimatore B
∑k Yk (xk − x
ˉk )
E[B] = E[ ]
∑k x2k − M xˉ2
∑k (xk − x
ˉ)E[Yk ]
= =
∑k x2k − M x
ˉ2
Per l’ipotesi 2:
∑k (xk − x
ˉ)(βxk + α)
= =
∑k x2k − M x
ˉ2
=0
∑(xk − x ˉ)
∑k xk (xk − x
ˉ) k
=β +α =
∑k x2k − M x
ˉ2 ∑k x2k − M x
ˉ2
2 2
∑ x − Mx ˉ
= β k k2 =
∑k xk − M xˉ2
=β
Stimatore A
25 - Regressione 2
E[A] = E[Yˉ − BXˉ] =
ˉ
= E[Y ] − E[B]x
ˉ=
M
Yk
= E[∑ ] − βx
ˉ=
M
k=1
M
1
= ∑ E[Yk ] − β x
ˉ=
M
k=1
M
1
= ∑(βxk + α) − β x
ˉ=
M
k=1
M
xk M
=β∑ +α − βx
ˉ=
M M
k=1
= βx
ˉ + α − βx
ˉ=
=α
Calcolo la varianza di B
M
(xk − xˉ)Yk
Var(B) = Var( ∑ )=
∑k x2k − M xˉ
k=1
M
(xk − xˉ)2
=∑ 2 Var(Yk ) =
(∑k xk − M xˉ2 )2
k=1
=σ 2
∑k (xk − x ˉ)2
= σ2 2
=
(∑k xk − M x ˉ2 )2
2
∑k (xk − x ˉ)
= σ2 =
(∑k (xk − x ˉ)2 )2
σ2
=
∑k (xk − x ˉ)2
Immaginando che σ 2 sia assegnato, per minimizzare la varianza si può intervenire solo sul denominatore, considerando dei valori “molto
grandi” e distanti tra loro.
25 - Regressione 3
Note dell’autore
Gennaio 2023
Carissimi compagni di corso, presenti o futuri. Ho creato questa piccola-grande dispensa per permettere di facilitare tutti
con lo studio e la comprensione degli argomenti. Ovviamente pubblico tutto in maniera gratuita e incondizionata, ma
qualora qualcuno trovasse veramente utile questo libretto, lascio la possibilità di regalarmi qualche spicciolo per un caffè
:).
Auguro a tutti voi buona fortuna e un buon proseguimento degli studi,
vi ringrazio,
Simone Elia
http://paypal.me/simoneeelia
Note dell’autore 1