MSA 02-2024. V.C e Convergenza

15/02/2024
2. Variabili casuali semplici e multiple; convergenza di

una successione di v.c.
Giorgio Alleva
VARIABILI CASUALI (o variabili aleatorie)
Dati k eventi necessari e incompatibili si definisce variabile casuale (v.c.) una funzione che associa a
ogni evento dello spazio campionario a uno ed un solo numero reale.
Se tale corrispondenza è tra ciascun evento ed un attributo è definita una mutabile casuale (m.c.)
Variabili casuali discrete e continue
v.c. discreta X , con x ϵ X p(x) = p(X=x) , probabilità di x
v.c. continua X , con x ϵ X f(x) = p(x  X  x+dx), densità di

probabilità di x.
1
15/02/2024
V.c. Discreta X V.c. Continua X
x1, x2, …, xi, ..., xn x1-x2, x2-x3, …, xn-1-xn
p(xi) = p(X=xi) = pi f(x) x = p(x)
f(x) = p(x  X  x+dx)
funzione di probabilità funz. di densità di prob.
due condizioni: due condizioni:

p(xi)  0 f(x)  0
L
∑𝑛𝑖=1 𝑥𝑖 = 1= l
f ( x) dx = 1
funzione di ripartizione funzione di ripartizione

i
 p(x )
x
F(xi) = p(X xi) = j F(x) = p(X x)= l f ( x) dx
j 1
VARIABILI CASUALI DOPPIE
La v.c. semplice X deriva dall’associazione ad ogni evento di un numero reale e di una probabilità.
La v.c. doppia X, Y deriva dall’associazione ad ogni evento di una coppia di numeri reali e di una probabilità.
 X, Y, e X e Y rappresentano le due v.c. componenti la v.c. doppia.
 p(xi ,yj) sono le probabilità congiunte
 p(x|yj) e p(y |xi) sono le probabilità condizionate
 Sulla v.c. doppia discreta valgono le due condizioni: pij  0, e Si Sj pij = 1
 Sulla v.c. doppia X,Y valgono le due condizioni: f(x,y)  0 e

f(x,y) dx dy = 1
Due v.c. discrete si dicono indipendenti se: Due v.c. continue si dicono indipendenti se:
p(x,y) = p(x) p(y), x, y f(x,y) = f(x) f(y), x, y
2
15/02/2024
V.C. MULTIPLE
Una variabile n-pla ha n v.c. componenti, X1, X2, X3, ……, Xi, ……., Xn
Se le n v.c. sono discrete:

La funzione di probabilità congiunta è:
p(x1, x2, . , xi, ….., xn)=p(X1=x1, X2=x2, …. , Xi=xi, ….., Xn=xn)
Le condizioni sono:
p(x1, x2,..., xn)  0 S1 S 2... S n p(x1, x2,.., xn) = 1
Se le n v.c. sono continue:

La funzione di densità di probabilità congiunta è:
f(x1, x2, …. , xn) = p(x1  X1  x1+dx1, x2  X2  x2+dx2, …. , xn  Xn  xn+dxn)
Le condizioni sono:
f(x1, x2,..., xn)  0 e 1  2...  n f(x1, x2,.., xn) dx1 dx2…dxn = 1
Condizione necessaria e sufficiente per l'indipendenza delle n v.c. casuali:
p(x1, x2, ….., xn) = p(x1) p(x2) ….p(xn) se discrete

f(x1, x2, ….., xn) = f(x1) f(x2) ….f(xn) se continue 5
VALORI CARATTERISTICI DELLE VARIABILI CASUALI
Valore atteso E(X) o mX

E(X) = Sx x p(x) v.c. discreta X, i=1, 2, …, n
E(X) = ∫ x f(x) dx v.c. continua X, - < X < +
Proprietà del valore atteso

Sia c una costante e X e Y due v.c.
• E(c) = c
• E(cX) = c E(X)
• E(X+Y) = E(X) + E(Y)
Data una funzione g(x): E(g(x)) = Sx g(x) p(x) (se discreta) E(g(x)) =∫ g(x) f(x) dx (se continua)
Varianza Var(X) o s2(X)

s2(X) = E(X-m)2 = E(X2) - m2
Proprietà della varianza
Var (aX + b) = a2 Var(X) Varianza di una v.c. trasformata lineare
X-m
Sia Y = s una v.c. standardizzata di Y, allora:
X-m  X-m 
E(Y) = E   =0 e Var(Y) = Var   =1 6
 s   s 
3
15/02/2024
Altre misure di posizione

Mediana xm (o Me, o x0,5): ogni valore tale che p(Xxm)  0,5 e p(X>xm) < 0,5.
Quantile q (di ordine q xq) ogni valore tale che p(Xq)  q e p(X>q) < 1-q, con 0 < q < 1.
Moda: il valore xi di X cui corrisponde la massima probabilità (mutabile o vv.. discreta).
Altre misure di dispersione

La radice quadrata positiva della varianza è lo scarto quadratico medio (o deviazione standard) (sX e il
numeratore della varianza è la devianza della v.c. casuale Dev(X).
Campo di variazione o range: xmax - xmin , rappresenta l'ampiezza dell'intervallo nel quale sono compresi
tutti i valori assunti dalla variabile
Differenza interquartile: 0,75 - 0,25 , rappresenta l'ampiezza dell'intervallo che comprende il 50% delle
osservazioni centrali
Misure della forma di una v.c. Momenti di una v.c.

Tre famiglie di valori medi:
Asimmetria
 X - m  3

 momenti dall'origine di ordine r
1 = E  s 

.
  mr = E(X r) r= 1, 2, …..
Se 1> 0 c'è asimmetria positiva, se 1< 0 asimmetria  momenti centrati di ordine r
negativa.  m r = E(X-m)r r= 1, 2, …..
Curtosi (grado di appiattimento di una distribuzione)  momenti standardizzati di ordine r
 X - m  4 
 X - m  r 
m r = E    r = 1, 2, …..
2= E  s    s   7
 
Alcuni momenti caratteristici:
m1 = m m1 =  m1 =  m 2 = s 2m2m12
m 3 = 1  m 4 = 2
Momenti di una v.c. doppia
Momenti dall'origine di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)

r s
mrs = E(X Y )
Momenti centrati di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)
m r s = E(X-mX)r(Y-mY)s
Momenti standardizzati di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)

 X - m 
r
 Y - mY 
s

 
m r s = E   s   
X
 Alcuni momenti doppi caratteristici:
 X   sY  
m 11 = mXYmXmYsXY m 11 = XY
8
4
15/02/2024
La funzione generatrice dei momenti (f.g.m.) e la funzione caratteristica di una v.c.
Data una v.c. X, una variabile reale t, si chiama funzione generatrice dei momenti di X il valore atteso (se
esiste) di etX:
v.c. discrete v.c. continue
tX tX
MX(t) = E(e ) = Sx e p(x) MX(t) = E(etX) =  etX f(x) dx Tale funzione dipende da t.


t2 t3
La f.g.m. genera tutti i momenti dall'origine. Infatti, dallo sviluppo in serie di etX = 1 + tX + 2! X2 + 3! X3 + …..
t2
M(t) = E(etX) = 1 + tm1 + 2! m2 + t3
m3 + ……..
3!
Derivando r volte M(t) nel punto t=0 si ottengono i momenti dall'origine di ordine r. Infatti:
 1 M(t)  2 M(t)  r M(t)

t 1  t=0 = m1 t 2  t=0 = m2 …………
t r
 t=0 = mr
La funzione generatrice dei momenti, se esiste, è unica e identifica univocamente una v.c.
La funzione caratteristica (f.c.) di X è un altro valore atteso, che genera anch'esso tutti i momenti della
v.c. ma che, rispetto alla f.g.m., esiste sempre.
E’ unica e individua univocamente la distribuzione.
Data una v.c. X e una variabile reale t, si chiama f.c. di X il valore atteso di eitX,
dove i è l'unità immaginaria i = 1 :
v.c. discrete v.c. continue
CX(t) = E(eitX) = Sx eitX p(x) CX(t) = E(eitX) =  eitX f(x) dx



CX come MX è funzione solo di t.
10
5
15/02/2024
Proprietà della funzione caratteristica
Proprietà 1. La funzione caratteristica esiste sempre.
Proprietà 2. La funzione caratteristica è unica e individua univocamente la distribuzione.

Quindi, se due v.c. hanno la medesima f.c. allora hanno medesima distribuzione di probabilità:
Se Cy (t) = CX(t) ovunque allora p(y) = p(x)
Proprietà 3
Se la v.c. X ha f.c. CX(t), la v.c. Y= aX+b, dove a e b sono costanti, ha f.c. CY(t)=eitb CX(at).
Infatti: CY(t) = CaX+b(t) = E(eit(aX+b)) = E(eitb eitaX) = eitb E(eitaX) = eitb CX(at)
Proprietà 4
Se esiste il momento r-esimo mr, allora C(t) può essere sviluppata in un intorno di t=0:
(it ) 2 (it ) r
C(t) = 1 + (it) m1 + 2! m2 + …….. + r! e quindi, derivando r volte rispetto a t nel punto t=0
 r C(t)
si può ricavare il momento di ordine r della v.c. mr = i-r t r
 t=0
11
Valori caratteristici delle distribuzioni di probabilità congiunte
Data una v.c. X,Y doppia, si consideri una funzione g(X,Y):
Eg(X,Y) = SxSy g(x,y) p(x,y) (v.c discreta) e   g(x,y) p(x,y) dx dy (v.c continua)
 
 
Covarianza tra due v.c.
Per g(X,Y) = (X - mX) (Y -mY) (prodotto delle v.c. scarto dalla media)
sXY = Cov(X,Y) = E(X-mX)(Y-mX) = E(XY) - mX mY, compresa tra –sXsY e +sXsY
Il rapporto tra la covarianza e il prodotto degli scarti quadratici medi delle due v.c. è detto
coefficiente di correlazione:
s XY
 = s s , compreso tra -1 e 1.
X Y
12
6
15/02/2024
Teorema.
Se X e Y sono due v.c. indipendenti e g1(X) e g1(Y) due funzioni qualsiasi, allora:
Eg1(X) g2(Y) = Eg1(X) Eg2(Y)
Il valore atteso del prodotto delle due funzioni è uguale al prodotto dei valori attesi.
Tale teorema può estendersi a n v.c. indipendenti.
Esempio: se X, Y sono indipendenti allora E(XY) = E(X) E(Y) e dunque Cov(X,Y) =  = 0

(le due v.c. sono dette linearmente indipendenti o incorrelate)
Dimostrazione
Poiché se X e Y sono indipendenti p(x,y) = p(x) p(y):
E g1(X) g2(Y) = SxSy g1(X) g2(Y) p(x) p(y) =
= SX g1(X) p(x) Sy g2(Y) p(y) =
= Eg1(X) Eg2(Y)
13
V.c. n-pla
Valore atteso di una funzione di n v.c.
Date n v.c. discrete Eg(X1, X2, …., Xn) = Sx1Sx2Sxn g(x1, x2, .., xn) p(x1, x2, .., xn).
Date n v.c. continue Eg(X1, X2, …., Xn) =  . g(x1, x2, .., xn) f(x1, x2, .., xn) dx1, dx2, …, dxn.
  
 
 
Valore atteso di una combinazione lineare di v.c.
Date n v.c. ed essendo c1, c2, ….., cn n costanti reali:
ESi ci gi(X1, X2, …., Xn) = Si ci Egi(X1, X2, …., Xn)
Il valore atteso di una combinazione lineare di funzioni di v.c. è la combinazione lineare dei valori attesi
delle funzioni
14
7
15/02/2024
Somma di v.c.
Date n v.c. X1, X2, …., Xn e n costanti reali c1, c2, ….., cn
Valore atteso: E(Si ci Xi) = Si ci E(Xi)
Il valore atteso di una combinazione lineare di v.c. è la combinazione lineare dei valori attesi delle v.c.
Varianza: Var(Si ci Xi) = Si ci2 Var(Xi) + Si Sj ci cj Cov(Xi, Xj) per i  j
La varianza di una combinazione lineare di v.c. NON è la combinazione lineare delle varianze.
Caso particolare: Se le n. v.c. sono a due a due incorrelate e dunque Cov(Xi, Xj) = 0 per ogni ij allora la
varianza di una combinazione lineare è:
Var(Si ci Xi) = Si ci2 Var(Xi)
15
Convergenza di una successione di v.c.
Data una successione di n v.c X1, X2, …., Xn , indicata con {Xn}, definite su un medesimo
spazio campionario S, e data una v.c. X, definita sullo stesso spazio S, vi sono diversi
modi di definire la convergenza della successione {Xn} alla variabile X.
DEF. 1 - Convergenza forte o convergenza quasi ovunque.
Si dice che la successione {Xn} converge in modo forte a X se:
p (lim n Xn = X) =1.
In alternativa si può affermare che {Xn} converge in modo forte a X se, quasi ovunque:
lim n Xn = X
DEF. 2 -Convergenza in probabilità (convergenza debole o in misura).
Si dice che la successione {Xn} converge in modo debole a X se, per ogni >0:
lim n p(Xn - X>  ) = 0 o anche lim n p(Xn - X   ) = 1

16
8
15/02/2024
DEF. 3 - Convergenza in media quadratica.
Si dice che la successione {Xn} converge in media quadratica a X se:
lim n E(Xn - X)2 = 0
DEF. 4 - Convergenza in distribuzione.
Sia Fn(x) la funzione di ripartizione della generica n-esima v.c. Xn della successione di
v.c. {Xn}.
Si dice che la successione {Xn} converge in distribuzione a X se, in ogni punto di
continuità x di F(x):
lim n Fn(x) = F(x)
17
Relazioni tra i diversi tipi di convergenza
 La convergenza in media quadratica e la convergenza forte implicano entrambe la

convergenza in probabilità.
La convergenza in probabilità implica la convergenza in distribuzione.
Dimostrazione che la convergenza in media quadratica implica la convergenza in

probabilità.
s2
Da Tchebicheff: P(X-m  )   2 e dunque
E( X n  X )2
P(Xn-X )  2
da cui si vede che per n, se E(Xn - X)2 tende a 0, anche P(Xn-X ) tende a 0.
18
9
15/02/2024
LE LEGGI DEI GRANDI NUMERI
Procedendo a misurazioni si commettono molto spesso degli errori.

Se si vuole stimare la misura reale della grandezza oggetto della misurazione, una soluzione è quella
di considerare la media aritmetica delle misurazioni.
All'aumentare del numero di osservazioni la media aritmetica tende infatti a stabilizzarsi intorno ad un
certo valore, che può assumersi come stima dell'entità incognita della grandezza.
La stabilità statistica della media, connessa ad un grande numero di osservazioni, è nota
come legge empirica del caso o legge dei grandi numeri.
Sia {Xn} una successione di v.c. e sia:

n
x
i 1
i
X n la media aritmetica della successione delle n v.c. X , Xn= ,e

n
n
m i
m n la media aritmetica della successione dei valori attesi delle n v.c. X, m n = i 1 .

n
Sotto quali condizioni X n converge alla costante m n ?
Oppure, più in generale, sotto quali condizioni ( X n - m n ) converge a 0? 19
Formulazione di Tchebycheff (n v.c. incorrelate, non identicamente distribuite)
Sia {Xn} una successione di v.c. a due a due incorrelate Cov(X i, Xj)=0, ij ,
sia E(Xn)= mn e Var(X n)=s2n.
n
1
Allora se lim n n 2 s i
2
0
i 1
n
 xi n
 mi
la successione ( X n  m n ) converge in probabilità a 0, dove X n  n
i 1
e mn  n
i 1
Dimostrazione
n
m 1 n
s
i
2
Si noti che E ( X n )  i1n  m n ; inoltre, per l'incorrelazione, Var ( X n )  2 i .
n i 1
Da Tchebycheff:
lim n p( X n - m n  )  lim n
Var( X n )
2
= 0.
Si noti che se mi = m e s2i = s2, persistono le medesime condizioni e {Xn} converge in

probabilità a X. 20
10
15/02/2024
Formulazione di Khintchin
Sia {Xn} una successione di v.c. indipendenti e identicamente distribuite (IID),

n
X i
con media E(Xn)=m. Allora { X n }, dove X n 

i 1
n
è convergente in probabilità a m.
Formulazione di Bernoulli
Teorema di Bernoulli: Sia Rn la frequenza di successi in n prove indipendenti di un

esperimento a 2 alternative, con probabilità p e 1-p = q. Allora:
lim n p(Rn -p  ) = 0
21
Premessa
Sia X la cosiddetta v.c. di Bernoulli (v.c. elementare) che può assumere i valori 1
(successo) e 0 (insuccesso) con probabilità p e 1-p = q. Si ha allora:
E(X) = 1 p + 0 q = p e Var(X) = E(X2) - E(X)2 = (12 p + 02 q) - p2 = p - p2 = p(1-p) = p q.
Si consideri la v.c. Sn = X1 + X2 + … + Xn , numero di successi in n estrazioni
indipendenti, ovvero di tipo bernoulliano. Essendo queste n v.c. IID::
E(Sn) = np e Var(Sn) = npq.
Sn
Sia Rn = n frequenza relativa di successi in n prove indipendenti.
np npq pq
E(Rn) = n = p e Var (Rn) = n 2 = n
Dimostrazione
s2
Da Tchebycheff: p(X-m  )   2 e dunque
pq
p(Rn -p )  n 2
pq
lim n p(Rn -p )  lim n n 2 = 0
22
11
15/02/2024
(n v.c indipendenti, non identicamente distribuite)
(n v.c IID)
23
12

MSA 02-2024. V.C e Convergenza

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

MSA 02-2024. V.C e Convergenza

Caricato da

Copyright:

Formati disponibili

15/02/2024

2. Variabili casuali semplici e multiple; convergenza di

VARIABILI CASUALI (o variabili aleatorie)

Variabili casuali discrete e continue

v.c. discreta X , con x ϵ X p(x) = p(X=x) , probabilità di x

v.c. continua X , con x ϵ X f(x) = p(x  X  x+dx), densità di

V.c. Discreta X V.c. Continua X

x1, x2, …, xi, ..., xn x1-x2, x2-x3, …, xn-1-xn

p(xi) = p(X=xi) = pi f(x) x = p(x)

f(x) = p(x  X  x+dx)

funzione di probabilità funz. di densità di prob.

due condizioni: due condizioni:

funzione di ripartizione funzione di ripartizione

VARIABILI CASUALI DOPPIE

 X, Y, e X e Y rappresentano le due v.c. componenti la v.c. doppia.

 p(xi ,yj) sono le probabilità congiunte

 p(x|yj) e p(y |xi) sono le probabilità condizionate

 Sulla v.c. doppia discreta valgono le due condizioni: pij  0, e Si Sj pij = 1

 Sulla v.c. doppia X,Y valgono le due condizioni: f(x,y)  0 e

Se le n v.c. sono discrete:

Se le n v.c. sono continue:

Condizione necessaria e sufficiente per l'indipendenza delle n v.c. casuali:

p(x1, x2, ….., xn) = p(x1) p(x2) ….p(xn) se discrete

VALORI CARATTERISTICI DELLE VARIABILI CASUALI

Valore atteso E(X) o mX

Proprietà del valore atteso

Varianza Var(X) o s2(X)

Altre misure di posizione

Altre misure di dispersione

Misure della forma di una v.c. Momenti di una v.c.

Alcuni momenti caratteristici:

Momenti di una v.c. doppia

Momenti dall'origine di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)

Momenti centrati di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)

Momenti standardizzati di ordine r,s (r = 1, 2, …..; s = 1, 2, …..)

La funzione generatrice dei momenti (f.g.m.) e la funzione caratteristica di una v.c.

 1 M(t)  2 M(t)  r M(t)

v.c. discrete v.c. continue

CX(t) = E(eitX) = Sx eitX p(x) CX(t) = E(eitX) =  eitX f(x) dx

CX come MX è funzione solo di t.

Proprietà della funzione caratteristica

Proprietà 1. La funzione caratteristica esiste sempre.

Proprietà 2. La funzione caratteristica è unica e individua univocamente la distribuzione.

Valori caratteristici delle distribuzioni di probabilità congiunte

Data una v.c. X,Y doppia, si consideri una funzione g(X,Y):

Covarianza tra due v.c.

sXY = Cov(X,Y) = E(X-mX)(Y-mX) = E(XY) - mX mY, compresa tra –sXsY e +sXsY

Eg1(X) g2(Y) = Eg1(X) Eg2(Y)

Tale teorema può estendersi a n v.c. indipendenti.

Esempio: se X, Y sono indipendenti allora E(XY) = E(X) E(Y) e dunque Cov(X,Y) =  = 0

Valore atteso di una funzione di n v.c.

Valore atteso di una combinazione lineare di v.c.

Date n v.c. ed essendo c1, c2, ….., cn n costanti reali:

ESi ci gi(X1, X2, …., Xn) = Si ci Egi(X1, X2, …., Xn)

Valore atteso: E(Si ci Xi) = Si ci E(Xi)

Varianza: Var(Si ci Xi) = Si ci2 Var(Xi) + Si Sj ci cj Cov(Xi, Xj) per i  j

Var(Si ci Xi) = Si ci2 Var(Xi)

Convergenza di una successione di v.c.

DEF. 1 - Convergenza forte o convergenza quasi ovunque.

Si dice che la successione {Xn} converge in modo forte a X se:

p (lim n Xn = X) =1.

DEF. 2 -Convergenza in probabilità (convergenza debole o in misura).

lim n p(Xn - X>  ) = 0 o anche lim n p(Xn - X   ) = 1