Sei sulla pagina 1di 17

Politecnico di Milano - Scuola di Ingegneria Industriale e dell’Informazione

Probabilità e Statistica - prof. Maurizio Verri

(09) - Appunti di lezione

1 Trasformazioni di variabili multivariate


Se (X; Y ) è una variabile bivariata e u = g (x; y) è una funzione regolare
di due variabili reali, allora la funzione composta U = g (X; Y ) de…nisce
una variabile univariata che è funzione deterministica di X e di Y . Si dice
anche che U è stata ottenuta da (X; Y ) mediante una trasformazione. Questo
concetto si estende immediatamente al caso delle variabili n variate.

Esempio. Riconsideriamo il modello di Maxwell. La trasformazione


q
Vmol = V12 + V22 + V32

de…nisce la velocità molecolare scalare, mentre la trasformazione


1
Ecin = m V12 + V22 + V32
2
dà l’energia cinetica molecolare.

Esempio. Se un canale di comunicazione è disturbato e sovrappone un


“rumore” Y al segnale trasmesso X, il segnale U ricevuto è dato da
U =X +Y.

Si de…nisce valore atteso di g (X; Y ) la media dei valori di g (X; Y ) pesati


con la distribuzione di (X; Y ). Quindi nel caso discreto si ha
X
E (g (X; Y )) = g (xi ; yj ) fX;Y (xi ; yj )
i;j

0
Aggiornamento: 23 marzo 2021
M. Verri - Probabilità e Statistica - Appunti 2

mentre in quello assolutamente continuo è


Z+1 Z+1
E (g (X; Y )) = g (x; y) fX;Y (x; y) dxdy
1 1

L’estensione di queste formule al caso n variato è ovvia.


2 2
Esempio. Sia (X; Y ) N( X; Y; X; Y; ). Allora

1
E (XY ) = p
2 1 2
X Y
Z+1 Z+1 ( " #)
2 2
1 (x X) (y Y) (x X ) (y Y)
xy exp 2 2
+ 2
dxdy
1 2 X 2 Y X Y
1 1

e con un po’di calcoli si trova

E (XY ) = X Y + X Y

Esempio. Nel modello di Maxwell la velocità molecolare media è data da


Z+1 Z+1 Z+1q
E (Vmol ) = v12 + v22 + v32 ' (v1 ; v2 ; v3 ) dv1 dv2 dv3
1 1 1
Z+1 Z+1 Z+1
2 3=2
= 2 v exp v 2 =2 2
dv1 dv2 dv3
1 1 1
p
dove v = v12 + v22 + v32 . Poiché l’integranda ha simmetria radiale,
l’integrale triplo si calcola passando a coordinate sferiche nello spazio
(v1 ; v2 ; v3 ) e, ricordando che dv1 dv2 dv3 = 4 v 2 dv,
r Z +1
1 2
E (Vmol ) = 3 v 3 exp v 2 =2 2 dv
0

In…ne, integrando per parti due volte, si ottiene il risultato …nale


r
8
E (Vmol ) =
M. Verri - Probabilità e Statistica - Appunti 3

Analogamente si calcola l’energia cinetica molecolare media


Z+1 Z+1 Z+1
1
E (Ecin ) = m v12 + v22 + v32 ' (v1 ; v2 ; v3 ) dv1 dv2 dv3
2
1 1 1
Z+1 Z+1 Z+1
m 2 3=2
= 2 v 2 exp v 2 =2 2
dv1 dv2 dv3
2
1 1 1
3 2
= m
2
Quest’ultimo risultato è particolarmente importante perché può es-
sere combinato con una legge …sica nota come Principio di equipar-
tizione dell’energia, secondo cui l’energia cinetica molecolare media è
proporzionale alla temperatura assoluta T del gas
3
E (Ecin ) = kT
2
dove k = 1:3806568 10 23 J K 1 è la cosiddetta costante di Boltz-
mann. Ne segue allora che per un gas perfetto vale la distribuzione
della velocità di Maxwell con
2 kT
=
m
cioè
m 3=2
' (v1 ; v2 ; v3 ) = exp m v12 + v22 + v32 =2kT
2 kT
e quest’ultima è nota come la distribuzione di Maxwell-Boltzmann.
Ex. Calcolare E (XY ) nell’esempio del borsellino, distinguendo i due casi
(con o senza rimessa).

2 Somma di variabili aleatorie


Importanti funzioni deterministiche delle n variabili aleatorie X1 ; :::; Xn sono
la somma
U = X1 + ::: + Xn
e la media campionaria
1
X= (X1 + ::: + Xn )
n
M. Verri - Probabilità e Statistica - Appunti 4

2.1 Valore atteso e varianza di una somma


Un fatto rilevante per le applicazioni è la possibilità di calcolare il valore atte-
so di una somma di variabili senza ricorrere alla loro distribuzione congiunta.
Più precisamente, si può dimostrare che vale la seguente uguaglianza

E (X1 + ::: + Xn ) = E (X1 ) + ::: + E (Xn )

nota come proprietà di additività del valore atteso di una somma di


variabili. Questa proprietà vale in generale, ma qui ci limitiamo a veri…carla
nel caso di due variabili discrete:
X
E (X + Y ) = (xi + yj ) fX;Y (xi ; yj ) =
i;j
X X X X
= xi fX;Y (xi ; yj ) + yj fX;Y (xi ; yj ) =
i j j
| {z } |i {z }
=fX (xi ) =fY (yj )

= E (X) + E (Y )

Esempio. Nell’esempio del borsellino si ha


2 1 4
E (X) = E (Y ) = 1 +2 = Euro
3 3 3
sicché il valore atteso della somma delle monete estratte è E (X + Y ) =
8=3 Euro. Per esercizio, eseguiamo anche il calcolo diretto di tale valore
atteso: per estrazioni senza rimessa si ha
1 1 1
E (X + Y ) = (1 + 1) + (1 + 2) + (2 + 1) + (2 + 2) 0=
3 3 3
= 8=3

e per quelle con rimessa


4 2 2 1
E (X + Y ) = (1 + 1) + (1 + 2) + (2 + 1) + (2 + 2) =
9 9 9 9
= 8=3

Nelle applicazioni capita molto spesso di dover calcolare la varianza della


somma di due o più variabili. Esaminiamo anzitutto il caso di due variabili:
usando l’additività del valore atteso di una somma, proviamo che vale la
seguente formula della varianza di una somma di due variabili

V (X + Y ) = V (X) + V (Y ) + 2C (X; Y )
M. Verri - Probabilità e Statistica - Appunti 5

dove il simbolo C (X; Y ) denota la covarianza di X ed Y

C (X; Y ) = E [(X E (X)) (Y E (Y ))] (1)

Infatti si ha
V (X + Y ) = E (X + Y E (X + Y ))2 = E (X E (X) + Y E (Y ))2 =
= E (X E (X))2 + E (Y E (Y ))2 + 2E [(X E (X)) (Y E (Y ))]
| {z } | {z } | {z }
=V (X) =V (Y ) =C(X;Y )

La formula precedente si estende immediatamente al caso di tre o più varia-


bili. Ad esempio si ha
V (X + Y + Z) = V (X)+V (Y )+V (Z)+2C (X; Y )+2C (Y; Z)+2C (Z; X)

Si veri…ca immediatamente che la (1) si può sempli…care nella seguente


formula ridotta di calcolo della covarianza:
C (X; Y ) = E (XY ) E (X) E (Y )

Una situazione molto frequente è quella in cui gli addendi della somma
sono variabili indipendenti. In tal caso la formula della varianza si sem-
pli…ca notevolmente perché la covarianza di due variabili indipendenti
è sempre nulla:

X ed Y indipendenti =) C (X; Y ) = 0

Veri…chiamo questa importante proprietà nel caso discreto:


X
E (XY ) = xi yj fX;Y (xi ; yj ) =
| {z }
i;j
=fX (xi )fY (yj )
! !
X X
= xi fX (xi ) yj fY (yj ) = E (X) E (Y )
i j

Ne segue allora che


X ed Y indipendenti =) V (X + Y ) = V (X) + V (Y )
o, più in generale,

X1 ; :::; Xn indipendenti =) V (X1 + ::: + Xn ) = V (X1 ) + ::: + V (Xn )

che è la proprietà di additività della varianza di una somma di


variabili indipendenti.
M. Verri - Probabilità e Statistica - Appunti 6

Concludiamo elencando alcune proprietà generali della covarianza, utili


nei calcoli (a e b sono numeri rali):

C (X; Y ) = C (Y; X) ;
C (aX + b; Y ) = aC (X; Y ) ;
C (X + Y; Z) = C (X; Z) + C (Y; Z)

Esempio (importante). Sia (X; Y ) N ( X ; Y ; 2X ; 2Y ; ). Sappiamo


già che E (X) = X , E (Y ) = Y , E (XY ) = X Y + X Y , per
cui si ha C (X; Y ) = X Y . Se allora X ed Y sono indipendenti, da
C (X; Y ) = 0 si deduce che deve essere = 0; siccome il viceversa è
già stato dimostrato, si è così ottenuto l’importante risultato che due
variabili congiuntamente normali X ed Y sono indipendenti se e solo
se sono incorrelate (cioè = 0).

Ex. Veri…care che E [(X E (X)) (Y E (Y ))] = E (XY ) E (X) E (Y ).

Ex. Calcolare V (X + Y ) nell’esempio del borsellino, distinguendo i due casi


con o senza rimessa.

Ex. Siano X tale che P (X = 1) = P (X = 0) = P (X = 1) = 1=3 e Y =


X 2 . Veri…care che C (X; Y ) = 0. (Questo è un esempio di due variabili
la cui covarianza è nulla, ma che non sono indipendenti perché Y è
funzione deterministica di X).

2.2 Correlazione lineare


Date due variabili X ed Y si ha
X Y X Y X Y
0 V =V +V 2C ;
X Y X Y X Y
V (X) V (Y ) C (X; Y )
= 2
+ 2
2
X Y X Y
= 2 (1 )

dove si è posto
C (X; Y )
=
X Y

Se ne deduce che l’indice veri…ca la doppia disuguaglianza

1 1
M. Verri - Probabilità e Statistica - Appunti 7

X Y X Y
I valori estremi 1 si hanno per V = 0, cioè per =c
X Y X Y
(costante):
Y
= 1 () Y = X +c
X
Quindi in questi due casi la massa di probabilità della variabile bivariata
(X; Y ) è interamente concentrata su una retta (Y è funzione deterministica
a¢ ne di X e l’osservazione di X permette di prevedere con certezza il valore
di Y ) e per tale motivo si parla di perfetta correlazione lineare tra X ed
Y (positiva se = 1 o negativa se = 1). Invece, in caso di correlazione
lineare non perfetta ( 6= 1), si può scrivere
Y = 0 + 1X +"
dove 0 e 1 sono numeri da determinrsi e " è una variabile aleatoria. L’in-
terpretazione della formula è la seguente: la variabilità del responso Y è
spiegata dal modello lineare di previsione 0 + 1 X a meno dell’errore
di previsione ". I coe¢ cienti 0 e 1 della retta sono determinati imponen-
do le due condizioni (che caratterizzano il cosiddetto metodo dei minimi
quadrati)
E (") = 0; V (") = min
e si trova che è
Y
0 = Y 1 X; 1 =
X

Veri…chiamo queste due formule. Poiché


"=Y 0 1X

si ha per la linearità del valore atteso


0 = E (") = E (Y 0 1 X) = E (Y ) 0 1E (X)
da cui segue l’espressione di 0. Inoltre, applicando la formula della
varianza di una somma,
V (") = V (Y 0 1 X)
= V (Y 1 X)
2
= V (Y ) + 1V (X) 2 1 C (X; Y )
cioè V (") è una funzione quadratica (parabola convessa perché V (X) >
0) nell’indeterminata 1 . Il suo minimo si ottiene annullandone la
derivata:
d
0= V (Y ) + 21 V (X) 2 1 C (X; Y ) = 2 1 V (X) 2C (X; Y )
d 1
e si ricava così l’espressione di 1.
M. Verri - Probabilità e Statistica - Appunti 8

In de…nitiva si ottiene il cosiddetto modello di regressione lineare di


Y su X
Y = 0 + 1X + "
Se = 0 allora è C (X; Y ) = 0 (X ed Y incorrelate) e 1 = 0, per cui si
deduce che è Y = Y + ", cioè la variabile X non consente di fare previsioni
su Y con il modello lineare, mentre se = 1 il modello lineare è “perfetto”
(" = 0 perché V (") = E (") = 0). Perciò viene detto indice di corre-
lazione lineare ed è interpretato come un valore (adimensionato ed espresso
solitamente in forma percentuale) che quanti…ca appunto la correlazione li-
neare esistente tra responso Y e predittore X, nel senso che il massimo della
concordanza lineare (positiva o negativa) che si può avere nella distribuzione
bivariata di (X; Y ) è il 100 %. Per esprimere a parole l’intensità di tale
correlazione è molto usata la seguente scala qualitativa di Evans:
indice correlazione lineare
= 0% nulla
0% < j j < 20% molto debole
20% j j < 40% debole
40% j j < 60% moderata
60% j j < 80% forte
80% j j < 100% molto forte
= 100% perfetta
Osservazione. La forma funzionale del modello di previsione descritto (cioè
la retta di regressione 0 + 1 X) non è limitativa perché tramite
opportune trasformazioni del predittore e/o del responso si possono
ottenere altri modelli di previsione che magari meglio si adattano ai dati
sperimentali. Casi notevoli sono i modelli potenza ed esponenziale. Nel
modello potenza di (X; Y ) si e¤ettua una trasformazione logaritmica
delle variabili, cioè si fa un modello lineare di previsione per (ln X; ln Y )
ln Y = 0 + 1 ln X + "
dal quale si ricava
Y = e" axb
dove si è posto
a = e 0; b= 1

Analogamente, nel modello esponenziale di (X; Y ) si e¤ettua una


trasformazione logaritmica della variabile Y , cioè si fa un modello
lineare di previsione per (X; ln Y )
ln Y = 0 + 1X +"
M. Verri - Probabilità e Statistica - Appunti 9

dal quale si ottiene


Y = e" aebX
dove a e b sono de…nite come prima. In entrambi i modelli l’errore di
previsione è moltiplicativo anziché additivo.
Una proprietà importante è che nel modello lineare di regressione predit-
tore ed errore di previsione sono variabili incorrelate, cioè
C (X; ") = 0
Infatti, usando il fatto che " = Y 0 1 X, le de…nizioni di e di 1 e le
proprietà dell covarianza si ha
Y 2
C (X; ") = C (X; Y 0 1 X) = C (X; Y ) 1C (X; X) = X Y X =0
X

Ne segue allora che si può applicare la proprietà di additività per calcolare


la varianza di Y
2
V (Y ) = V ( 0 + 1X + ") = 1V (X) + V (")
2
X
= 1 V (Y ) + V (")
Y

e quindi decomporre la varianza di Y (o varianza totale) nella somma di


due termini
2
V (Y ) = V (Y ) + V (")
| {z } | {z } | {z }
varianza totale varianza spiegata varianza residua

La varianza spiegata fornisce la parte di V (Y ) che è “spiegata”dal modello


lineare di regressione. Il parametro 2 (detto indice di determinazione)
si interpreta come la percentuale di variabilità di Y spiegata dal modello
lineare: tanto più 2 è vicino ad uno, tanto meglio la variabilità di Y è
spiegata dal modello lineare. Quindi la retta di regressione spiega il 100 2 %
2
della variabilità di Y , mentre il restante 100 (1 ) % è dovuto all’errore "
(= e¤etto di tutte le altre variabili che possono in‡uenzare il responso e che
non sono state prese in considerazione nel modello).

2.3 Valore atteso e varianza della media campionaria


Ricordando che per ogni numero a si ha E (aX) = aE (X) e V (aX) =
a2 V (X), dalle due proprietà di additività di valore atteso e varianza si ri-
cavano la formula del valore atteso della media campionaria di n
variabili
1
X = E X = (E (X1 ) + ::: + E (Xn ))
n
M. Verri - Probabilità e Statistica - Appunti 10

e la formula della varianza della media campionaria di n variabili


indipendenti

2 1
=V X = (V (X1 ) + ::: + V (Xn ))
X n2

Se in più le n variabili hanno tutte la stessa distribuzione con = E (Xi )


e 2 = V (Xi ) seguono in particolare la formula del valore atteso della
media campionaria di n variabili identicamente distribuite

X =E X =

e la formula della varianza della media campionaria di n variabili


indipendenti e identicamente distribuite
2
2
X
=V X =
n
Questi risultati sono fondamentali per sviluppare procedure statistiche che
riguardano la media di una popolazione.

2.4 Riproducibilità
Il calcolo della distribuzione di una somma (o di una media campionaria)
di variabili è un problema solitamente di¢ cile. Ci sono tuttavia alcuni casi
notevoli nei quali tale problema ha una soluzione molto semplice. Ad esem-
pio, l’intuito suggerisce che, se X B (n1 ; p) e Y B (n2 ; p) con X ed Y
indipendenti, allora S = X + Y B (n1 + n2 ; p) poiché si può pensare ad
una serie di n1 +n2 prove di Bernoulli identiche e indipendenti in cui X conta
il numero di successi nelle prime n1 prove ed Y i successi nelle seguenti n2
prove. Questo risultato è noto come proprietà di riproducibilità della
distribuzione binomiale. Questa ed altre proprietà di riproducubilità sono
elencate nella tabella seguente, dove si intende che X ed Y siano variabili
M. Verri - Probabilità e Statistica - Appunti 11

indipendenti:
X Y =) X +Y

B (n1 ; p) B (n2 ; p) B (n1 + n2 ; p)

B (n1 ; p) B (n2 ; p) B (n1 + n2 ; p)

P ( 1) P ( 2) P( 1 + 2)

2 2 2 2
N ( 1; 1) N ( 2; 2) N( 1 + 2; 1 + 2)

(n1 ; ) (n2 ; ) (n1 + n2 ; )

Sfruttando la proprietà di riproducibilità della distribuzione normale si ot-


tengono in…ne i due risultati seguenti, che sono di importanza fondamentale
in Statistica:
Xn
X1 ; :::; Xn indipendenti e tutte N ( ; 2 ) =) Xi N (n ; n 2 )
i=1

2 1 Xn 2
X1 ; :::; Xn indipendenti e tutte N ( ; ) =) X = Xi N ;
n i=1 n

Ex. Un certo prodotto si ottiene assemblando tre componenti. La lunghezza


totale Y del prodotto è uguale alla somma delle lunghezze X1 , X2 e
X3 dei suoi componenti. Si assuma che le lunghezze dei componenti
siano variabili indipendenti e normalmente distribuite con E (X1 ) = 2,
E (X2 ) = 3, E (X3 ) = 4, V (X1 ) = 0:01, V (X2 ) = V (X3 ) = 0:04.
Calcolare la probabilità che la lunghezza di quel prodotto rispetti un
limite di tolleranza del 2% intorno alla media.
Soluzione: per la riproducibilità della distribuzione normale si ha Y
N 9; (0:3)2 , quindi
jY 9j jY 9j 9
P 0:02 = P 0:02 = (0:6) ( 0:6)
9 0:3 0:3
' 45:15%
M. Verri - Probabilità e Statistica - Appunti 12

Ex. Giusti…care intuitivamente la riproducibilità delle distribuzioni binomia-


le negativa, di Poisson e di Erlang.

3 Legge dei Grandi Numeri


3.1 Il problema del sondaggio (I)
Consideriamo il cosiddetto problema del sondaggio a due risposte (sì/no;
favorevole/contrario; buono/difettoso; ...), che consiste nello stimare numeri-
camente la percentuale p incognita di “favorevoli” in una data popolazione
con la percentuale pb di “favorevoli”osservata in un campione di n individui.
In questo, come in ogni altro problema statistico di stima di un parametro,
si presentano tre questioni fondamentali, tra loro collegate:

1. la precisione della stima, espressa da un margine di errore " che dà il


massimo scarto tra il valore osservato pb e il valore “vero”p (incognito)
del parametro:
jb
p pj < "

2. l’attendibilità della stima, rappresentata da un livello di con…denza


1 , 0 < < 1, che è il minimo valore di probabilità con cui si
desidera a priori che tale stima sia veri…cata (solitamente 90% o più,
cioè = 0:10 o inferiore)

P (jb
p pj < ") 1

3. la dimensione del campione, cioè il minimo numero n di “interviste”


da fare perché la stima abbia un …ssato margine di errore e un …ssato
livello di con…denza.

Per a¤rontare matematicamente il problema, conviene de…nire la variabile


bernoulliana Xi che assume i valori 1 oppure 0 a seconda che l’i esimo inter-
vistato sia favorevole o contrario: allora si ha Xi B (1; p) e la media cam-
pionaria X = (X1 + ::: + Xn ) =n rappresenta la percentuale di “favorevoli”
nel campione. Se assumiamo l’indipendenza delle opinioni degli intervistati,
si ha X = p e 2X = p (1 p) =n, quindi dalla disuguaglianza di Cebicev si
ottiene
p (1 p)
P X p <" 1
n"2
il che signi…ca che per n abbastanza grande è arbitrariamente alta (cioè
vicina ad 1) la probabilità che la percentuale X di favorevoli nel campione
M. Verri - Probabilità e Statistica - Appunti 13

sia prossima quanto si vuole alla percentuale p di favorevoli nella popolazione.


Si usa dire, brevemente, che “X tende a p in probabilità”, e questo giusti…ca
la scelta di X come stimatore pb di p (ovvero la scelta del valore osservato
di X come stima numerica di p). Notiamo poi che la disuguaglianza di
prima permette anche di valutare il numero minimo di interviste da fare per
ottenere la precisione e la con…denza …ssate: infatti, usando la maggiorazione
p (1 p) 1=4 valida per ogni 0 < p < 1, si ha
1
P X p <" 1 1
4n"2
e questa disuguaglianza è soddisfatta pur di prendere n tale che
1
n
4 "2
Ad esempio, per " = 0:05 e 1 = 0:90 si trova n 1000, cioè intervistando
almeno 1000 individui si è …duciosi al 90% che il valore osservato di X ap-
prossimi la percentuale p con un errore più piccolo del 5%. (In realtà questa
stima è grossolana perché ottenuta ricorrendo alla disuguaglianza di Cebicev,
che è in generale poco accurata, e alla maggiorazione p (1 p) 1=4, che è
piuttosto abbondante per valori estremi di p. Più avanti vedremo come si
possano rimuovere entrambe queste limitazioni.)

3.2 Legge dei Grandi Numeri


La convergenza di X a p nel problema del sondaggio è un caso particolare di
un fondamentale teorema di Calcolo delle Probabilità noto come Legge dei
Grandi Numeri (LGN). Questo teorema in sostanza a¤erma la “stabilità
statistica”del valore atteso: la media campionaria di tante variabili indipen-
denti e identicamente distribuite (iid) assume valori vicini alla media teorica
delle variabili con probabilità tanto maggiore quanto più numerose sono le
variabili.

Legge dei Grandi Numeri. Sia X1 ; X2 ; ::: una successione di variabili aleato-
rie iid con = E (Xi ); sia X = (X1 + ::: + Xn ) =n la media campionaria
delle prime n variabili. Allora

8" > 0 8 2 (0; 1) 9n = n ("; ) 8n n n =) P X <" 1


(2)

Dimostrazione. Vediamo la dimostrazione solamente nel caso particolare


in cui le variabili ammettano varianza 2 = V (Xi ) (ma il teorema vale
M. Verri - Probabilità e Statistica - Appunti 14

anche nel caso in cui esse siano dotate solo di media). Poiché X =
e 2X = 2 =n, per la disuguaglianza di Cebicev1 si ha
2
P X <" 1
n"2
e la tesi segue pur di scegliere n in modo che sia
2
1 1
n"2
cioè
2
n
"2

L’intervallo X < " presente in (2) può essere interpretato in due modi.
Anzitutto, si può scrivere

"<X< +"

intendendo che per n su¢ cientemente grande la variabile X assume valori


nell’intorno (deterministico) di di semiampiezza " piccola a piacere con
probabilità alta quanto si vuole (cioè maggiore di 1 ). Si usa esprimere
questo fatto dicendo che X tende a in probabilità, e questa è una lettura
prettamente matematica della LGN.
Alternativamente, l’intervallo X < " si può scrivere

X "< <X +"

cioè per n su¢ cientemente grande la media è contenuta nell’intervallo


(aleatorio) di estremi X ". Questa seconda lettura è tipicamente statistica
e si applica quando il parametro è incognito e si vuole stimarlo sulla base di
un campione casuale di osservazioni X1 ; :::; Xn , avendo …ssato una precisione
" della stima e un suo grado minimo di a¢ dabilità pari a 1 . In questo
modo la LGN giusti…ca la scelta che si fa in Statistica di usare la media
campionaria X come stimatore di . È chiaro inoltre che la situazione del
sondaggio rientra come caso particolare nella LGN assumendo che le variabili
iid siano bernoulliane.
1
Una curiosità: Cebicev ha introdotto la sua celebre disuguaglianza proprio per
dimostrare questo teorema.
M. Verri - Probabilità e Statistica - Appunti 15

Un’immediata generalizzazione della LGN, utile in Statistica, è la seguente.


De…niamo i momenti teorici di ordine k = 1; 2; ::: della comune
distribuzione di probabilità della successione di variabili iid X1 ; X2 ; :::
come
k
k = E Xi

e i momenti campionari di ordine k = 1; 2; ::: delle prime n variabili


della successione come

1X k
n
Mk = X
n i=1 i

(si noti che 1 e M1 X). Allora la (2) si generalizza nel modo


seguente:

8" > 0 8 2 (0; 1) 9n = n ("; ) 8n n n =) P (jMk kj < ") 1

Quindi Mk tende a k in probabilità e ciò giusti…ca la scelta di Mk


come stimatore di k che si fa in Statistica.

3.3 Stima frequentista della probabilità; istogrammi


Un’importante applicazione della LGN è la seguente: è già stato detto che,
in tutte le situazioni pratiche in cui è possibile eseguire molte repliche di un
esperimento casuale, si osserva tipicamente che la proporzione di volte che
un dato evento A si veri…ca (la frequenza relativa empirica di A) tende a
stabilizzarsi intorno ad un valore costante, che viene interpretato come la
probabilità P (A). Questo risultato dell’esperienza, noto come stima fre-
quentista della probabilità, trova una giusti…cazione teorica nella LGN.
Ragionando infatti come nel problema del sondaggio, possiamo de…nire la
variabile Xi che assume i valori 1 oppure 0 a seconda che nell’i esima replica
dell’esperimento l’evento A si sia veri…cato oppure no. Allora si può appli-
care la LGN con = E (Xi ) = P (A), concludendo che la frequenza relativa
empirica di A è uno stimatore di P (A) che converge in probabilità a tale
valore.
La stima frequentista della probabilità permette anche di giusti…care la
procedura, comunemente adottata in Statistica descrittiva, per mezzo della
quale si “approssima” una densità continua di probabilità fX (x) incogni-
ta con un istogramma. Immaginiamo di suddividere il supporto di fX
in intervalli (detti classi) e di eseguire numerose repliche dell’esperimento,
osservando ogni volta il valore che assume la variabile X avente fX come
M. Verri - Probabilità e Statistica - Appunti 16

densità. Ad ognuna delle classi della suddivisione associamo poi il rettangolo


(detto canale) che ha per base l’intervallo stesso e per altezza la percentuale
di osservazioni appartenenti a quell’intervallo divisa per la sua ampiezza. Sia
ora I uno di tali intervalli: in base alla teoria si ha
Z
P (X 2 I) = fX (x) dx
I

e, se l’ampiezza 4x di I è abbastanza piccola, possiamo scrivere

P (X 2 I) ' fX (x) 4x

essendo x il punto medio dell’intervallo. D’altro canto, per quanto detto


prima, possiamo anche stimare la probabilità P (X 2 I) con la percentuale
di osservazioni appartenenti ad I

P (X 2 I) ' % di osservazioni appartenenti ad I

di modo che, combinando le due relazioni, si ricava

% di osservazioni appartenenti ad I
fX (x) '
4x
il che appunto signi…ca approssimare la densità su I con il corrispondente
canale e l’intera densità con l’unione dei canali, cioè con l’istogramma.

Come regola pratica, il metodo descritto dà risultati soddisfacenti se


il numero n di osservazioni è uguale
p o superiore al centinaio e se il
numero di canali è dell’ordine di n; inoltre, i canali devono ricoprire
interamente l’intervallo dei dati, per cui il primo canale deve comin-
ciare un po’prima del dato più piccolo e l’ultimo canale …nire un po’
dopo il dato più grande. In…ne, per ragioni di semplicità, i canali sono
solitamente presi di uguale ampiezza.

Esempio. Con un generatore casuale sono stati estratti 150 dati dalla di-
stribuzione N (4; 1); il dato minimo vale 1:422, quello massimo 6:835 e
l’intervallo tra i dati risulta uguale a 5:413. Facendo iniziare il primo
canale in 1:40 e …nire l’ultimo in 6:90, l’ampiezza totale dell’istogramma
è 5:50. Suddividiamo questo intervallo in 10 classi di ampiezza 0:55 e
contiamo quanti dati (= frequenza assoluta) cadono in ciascuna classe,
M. Verri - Probabilità e Statistica - Appunti 17

frequenza assoluta
costruendo poi questa tabella (altezza del canale = ):
150 0:55

classe frequenza assoluta altezza del canale


1:40 1:95 3 0:036
1:95 2:50 8 0:097
2:50 3:05 13 0:158
3:05 3:60 26 0:315
3:60 4:15 32 0:388
4:15 4:70 25 0:303
4:70 5:25 22 0:267
5:25 5:80 12 0:145
5:80 6:33 7 0:085
6:35 6:90 2 0:024

La …gura seguente confronta l’istogramma così ottenuto con la gaus-


siana N (4; 1).

y 0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6 7
x

Potrebbero piacerti anche