Sei sulla pagina 1di 34

Capitolo 3

Variabili Aleatorie
3.1 – VARIABILI ALEATORIE
Segnare un numero su ciascuna delle sei facce di un dado significa definire un numero che è
aleatorio, perché prima di ogni lancio non è noto, nonostante sia specificato con esattezza. Ogni
numero che viene definito in maniera analoga è per natura aleatorio: tipicamente questo numero
viene indicato col nome di variabile aleatoria. In termini ingegneristici, la variabile aleatoria è una
qualunque variabile che assume un valore non prevedibile a priori, ovvero assume un valore che
dipende dall’esito dell’esperimento casuale.
Per definizione, una variabile aleatoria è una funzione definita sullo spazio campione S che assume
valori in R. In termini matematici possiamo scrivere:

X (E): S ® R

in cui lo spazio campione S è il dominio e l’insieme R il codominio (per semplicità d’ora in avanti
non scriveremo l’argomento della variabile aleatoria). Dal momento che il dominio S e il codominio
R non sono omogenei, la variabile aleatoria più che una funzione è un funzionale: infatti la variabile
aleatoria fa corrispondere ad ogni elemento dello spazio campione S, cioè agli eventi elementari, un
elemento dell’insieme R, cioè un numero reale.
L’insieme dei valori (o modalità o anche realizzazioni) che la variabile aleatoria può assumere
viene normalmente detto supporto, per cui il supporto è una parte del codominio R. Se la variabile è
non negativa, il supporto è R+, cioè [0,+∞[, mentre tutto R è il codominio. Ad esempio, se
consideriamo il lancio di un dado a sei facce, detti E1, E2, E3, E4, E5 e E6 gli eventi elementari,
stabiliamo che la regola di corrispondenza è tale che all’evento E1 sia assegnato il numero 1,
all’evento E2 il numero 2 e così via fino all’evento E6 a cui è assegnato il numero 6.

Ma nulla vieta di stabilire una regola di corrispondenza più complicata, che assegni all’evento E1 il
quadrato di 1, all’evento E2 il quadrato di 2, e così via fino all’evento E6 a cui è assegnato il
quadrato di 6. In entrambi i casi, avendo associato ad ogni evento elementare un diverso valore
della variabile aleatoria, il supporto sarà costituito dall’insieme di sei diversi valori.
In pratica non facciamo altro che codificare la variabile nel modo che ci è più comodo, ragionando
in termini del significato che vogliamo assegnare alla variabile stessa. Per consuetudine, una
variabile aleatoria è indicata con una lettera maiuscola, mentre il valore che può assumere con la
corrispondente lettera minuscola.

Dire che ad ogni evento elementare corrisponde un numero reale, significa dire che è possibile
andare dal dominio S al codominio R in una sola maniera, e per tale motivo la variabile aleatoria è
una funzione propria. Tuttavia non è detto che la variabile aleatoria sia anche una funzione
biunivoca, perché a più eventi elementari, eventualmente, può corrispondere lo stesso numero. Non
è lecito, invece, far corrispondere ad uno stesso evento elementare più di un valore, così come
rappresentato di seguito:

In questo caso, infatti, all’evento elementare E6 dello spazio campione S sono stati assegnati due
diversi valori di R, cioè x2 e x3. Ne deriva che il numero massimo di valori che la variabile aleatoria
può assumere è pari alla cardinalità dello spazio campione.

Se ad ogni evento elementare dello spazio campione S corrisponde un solo valore in R, e se a più
eventi elementari, eventualmente, può corrispondere lo stesso valore, allora la variabile aleatoria,
attraverso i valori che può assumere, induce (in qualche maniera definisce) implicitamente una
partizione dello spazio campione S. Infatti se a due valori diversi della variabile aleatoria non può
corrispondere lo stesso evento elementare, andando a ritroso dall’insieme R verso lo spazio
campione S, ci accorgiamo che ad ogni variabile aleatoria corrispondono uno o più eventi
elementari, come mostrato nel seguente esempio:
in cui alla variabile x1 corrispondono E7 e E4, alla variabile aleatoria x2 corrispondono E2 e E5, alla
variabile x3 corrisponde E6 e E3 ed infine alla variabile x4 corrisponde E1. Essendo tutti gli eventi
elementari individuati [ ( E2 È E5 ) , ( E7 È E4 ) , ( E6 È E3 ) e E1 ] incompatibili ed anche necessari

(perché ad ogni evento elementare è stato fatto corrispondere un valore in R), abbiamo creato una
partizione dello spazio campione S, chiaramente meno raffinata di quella di partenza.

A questo punto possiamo dire che gli eventi possono essere definiti attraverso la simbologia già
introdotta in precedenza (parentesi graffe) o attraverso la variabile aleatoria con i suoi valori. Infatti,
facendo riferimento all’esempio precedente in cui alla variabile aleatoria x1 corrispondono gli eventi
E7 e E4, possiamo scrivere in maniera equivalente:

{ X = x1} o {E7 È E4 }

In pratica, l’evento a cui stiamo facendo riferimento è lo stesso, ma è diversa la codifica adottata per
individuarlo.

OSSERVAZIONE:
C’è da sottolineare un’importante differenza tra queste due diverse modalità di codifica di uno
stesso evento. Normalmente un evento è definito in termini puramente linguistici attraverso
asserzioni logiche che possono risultare vere o false, cioè diciamo “la faccia superiore del dado
mostra sei puntini” o “la faccia superiore del dado mostra due puntini”, per cui di fatto non
possiamo fare una somma, essendo gli eventi definiti in termini linguistici e non numerici. Usando
invece le variabili aleatorie, possiamo far corrispondere alla faccia con sei puntini il numero 6 e alla
faccia con due puntini il numero 2, trasformando così un’informazione linguistica in una numerica.
Soltanto a questo punto possiamo fare una serie di operazioni algebriche sull’informazione
numerica. Chiaramente queste operazioni avranno più o meno senso in base al tipo di codifica
adottata.

Abbiamo detto che definire la probabilità di un evento significa distribuire la probabilità unitaria
attribuita all’evento certo (cioè allo spazio campione S) tra gli eventi che fanno parte dello stesso
spazio campione. Se le variabili aleatorie attraverso i propri valori individuano gli eventi e se per
ciascun evento, quindi per ciascuna variabile aleatoria, possiamo definire una probabilità, parlare
della probabilità dell’evento ( E7 È E4 ) o parlare della probabilità della variabile aleatoria X=x1 è la

stessa cosa:
P ( X = x1 ) = P ( E7 È E4 )

Inoltre se vogliamo calcolare la probabilità di X=x1 o di X=x2, cioè:

P éë( X = x1 ) È ( X = x2 ) ùû

possiamo applicare il terzo assioma in quanto gli eventi sono incompatibili (per come è stata
definita la variabile aleatoria), ed ottenere:

P éë( X = x1 ) È ( X = x2 ) ùû = P ( X = x1 ) + P ( X = x2 )

Prima di introdurre le valutazioni probabilistiche riguardanti una variabile aleatoria è necessario


specificare che le variabili aleatorie vengono distinte in variabili aleatorie discrete e variabili
aleatorie continue: le variabili aleatorie discrete sono quelle che possono assumere un numero
finito di valori o in alternativa infinito ma numerabile (diciamo infinito perché non sappiamo dire
qual è il numero massimo di valori assumibili), mentre le variabili aleatorie continue sono quelle
che possono assumere un’infinità non numerabile di valori diversi (tipo tempo al guasto di un
dispositivo). Chiaramente le valutazioni probabilistiche riguardanti una variabile aleatoria sono
distinte in base al tipo di variabile in esame (discreta o continua): tali funzioni forniscono la
probabilità degli eventi individuati dalla variabile aleatoria attraverso i suoi valori; ne esistono
diverse forme di rappresentazione, equivalenti dal punto di vista del contenuto informativo (cioè
conoscendone una è possibile ricavare le altre), ognuna delle quali permette di mettere a fuoco
aspetti diversi.

Funzione massa di probabilità – Funzione densità di probabilità


Partiamo dal considerare una variabile aleatoria discreta X ed indichiamo con xi l‘argomento della
variabile aleatoria, cioè il valore che essa assume. Ad ogni evento X=xi possiamo assegnare una
probabilità, normalmente indicata con una delle seguenti scritture:

P ( X = x) ü
ï
pX ( x ) ý ® ( funzione massa di probabilità )
pmf X ( x ) o fmp X ( x ) ïþ

dove pmf è l’acronimo di “probability mass function” (allo stesso modo fmp è l’acronimo di
“funzione massa di probabilità”).
Per definizione, la funzione massa di probabilità di una variabile aleatoria discreta X è la legge
pX(xi) che fornisce la probabilità dell’evento X=xi per ogni valore xi possibile per X.
Per poter parlare di funzione massa di probabilità è necessario che siano soddisfatte delle
condizioni, cioè la funzione massa di probabilità deve assegnare probabilità maggiori o uguali a
zero a qualunque evento del tipo X=xi e deve essere tale che la somma delle probabilità di tutti gli
eventi del tipo X=xi restituisca la probabilità dell’evento certo, cioè lo spazio campione S:

P ( X = xi ) = p X ( xi ) ³ 0 ( "i )
n

å p (x ) =1
i =1
X i

La sommatoria delle probabilità dei singoli eventi del tipo X=xi deriva direttamente dal terzo
postulato, perché tutti gli eventi del tipo X=xi sono incompatibili e necessari (per definizione e
costruzione stessa della variabile aleatoria la quale, attraverso i valori che essa può assumere,
definisce implicitamente una partizione dello spazio campione).
Ne consegue che qualunque funzione assegni le probabilità soddisfacendo i due requisiti prima
enunciati è una plausibile funzione massa di probabilità.

Le funzioni massa di probabilità pX(xi) possono essere rappresentate in diversi modi. Una prima
possibile rappresentazione è quella tabellare:

Un secondo modo possibile di rappresentazione è quello grafico:


in cui in corrispondenza di ogni valore xi viene tracciata una barra di altezza pari alla probabilità di
osservare l’evento X=xi.

OSSERVAZIONE:
La rappresentazione grafica è molto più utile delle altre perché permette di individuare facilmente
quali sono i valori della variabile aleatoria più probabili e quelli meno probabili. Per le variabili
discrete che assumono un’infinità numerabile di valori, tali distribuzioni, tipicamente, presentano
delle code infinitesime (dove sono presenti i valori meno probabili). In questo caso, infatti, la
sommatoria delle probabilità di ogni evento del tipo X=xi deve essere fatta per i che va da 1 ad k che
tende all’infinito: affinché sia possibile calcolare questa sommatoria, che deve restituire il valore
unitario, la serie deve essere infinitesima, cioè man mano che k cresce il valore della funzione deve
diventare sempre più piccolo.

Infine, una terza rappresentazione è quella analitica, in cui si assegna una formula che al variare di
xi restituisca il valore della probabilità dell’evento X=xi.

Esempio:
Consideriamo il lancio di un dado bilanciato a sei facce. In questo caso il supporto, cioè l’insieme
dei possibili valori xi che la variabile aleatoria X può assumere, è pari a 1, 2, 3, 4, 5, 6. Essendo il
dado bilanciato, non abbiamo ragione di pensare che una faccia possa uscire con una probabilità
maggiore rispetto alle altre, per cui a ciascun evento del tipo X=xi assegniamo la stessa probabilità,
pari ad 1/6. Ne consegue che la funzione massa di probabilità assume valore 1/6 per ogni xi
appartenente al supporto, mentre assume valore nullo altrove, come mostrato di seguito:

Questo genere di distribuzione viene anche detta “uniforme-discreta” e la probabilità invece


“uniformemente distribuita”.
Abbiamo visto che ad ogni evento del tipo X=xi, definito attraverso una variabile aleatoria discreta
X ed uno dei possibili valori xi che essa può assumere, possiamo assegnare una massa di probabilità,
perché esiste una probabilità finita e concentrata in un punto.
Lo stesso discorso, invece, non può essere fatto per una variabile aleatoria continua, che può
assumere un’infinità non numerabile di valori, in quanto per esse matematicamente non è possibile
parlare di masse di probabilità concentrate per gli eventi del tipo X=xi. Ne deriva che per le variabili
aleatorie continue assegniamo le cosiddette masse di probabilità distribuite su piccoli intervalli, con
le quali la probabilità dell’evento X viene valutata nell’intervallo [x,x+dx], cioè:

P ( x £ X £ x + dx )

In pratica, le probabilità vengono assegnate su piccoli intervalli e possono essere calcolate


definendo la cosiddetta funzione densità di probabilità, indicata con una delle seguenti scritture:

fX ( x) ü
ï
pdf X ( x ) ý ® ( funzione densità di probabilità )
fdp X ( x ) ïþ

dove pdf è l’acronimo di “probability density function” (allo stesso modo fdp è l’acronimo di
“funzione densità di probabilità”). In questo caso, la probabilità è pari all’area sottesa alla curva
fX(x) nell’intervallo [x,x+dx] considerato: se tale intervallo è piccolo, l’area (e quindi la probabilità)
può essere approssimata con quella di un rettangolo di altezza fX(x) e base dx:

P ( x £ X £ x + dx ) = f X ( x ) dx

Anche in questa circostanza, se la funzione densità di probabilità viene utilizzata per calcolare la
probabilità è necessario che vengano rispettate delle condizioni. Innanzitutto se la probabilità di
ottenere un valore compreso nell’intervallo [x,x+dx] è pari all’area del rettangolo di altezza fX(x) e
base dx, essendo dx sicuramente positivo, fX(x) dovrà necessariamente essere maggiore o uguale a
zero. Inoltre, poiché gli eventi individuati dalla variabile aleatoria continua sono incompatibili, la
somma delle probabilità dei singoli eventi deve restituire la probabilità dell’evento certo, cioè l’area
sottesa alla curva fX(x) deve essere unitaria. In altre parole, le condizioni che la funzione densità di
probabilità fX(x) deve soddisfare sono le seguenti:

f X ( x ) ³ 0 "x

ò f X ( x ) dx = 1

A differenza della funzione massa di probabilità che non può mai essere maggiore di 1 (perché essa
restituisce direttamente una probabilità), la funzione densità di probabilità può essere localmente
maggiore di 1 purché l’intervallo di ampiezza dx su cui essa agisce sia inferiore ad 1, in modo tale
che il prodotto fX(x)·dx restituisca una probabilità sempre inferiore all’unità (e mai maggiore).

Tipicamente la funzione fX(x) viene assegnata attraverso un’espressione analitica, specificando il


supporto, cioè l’insieme dei valori in corrispondenza dei quali la fX(x) restituisce valori per i quali
ha senso parlare di probabilità, ed assumendo che all’esterno del supporto stesso la fX(x) valga zero.
Ad esempio, se assumiamo che la variabile è non negativa, cioè tale che il supporto sia (0,+∞), ed
ipotizziamo che la funzione densità di probabilità fX(x) abbia una certa espressione analitica,
implicitamente stiamo assumendo che la fX(x) valga zero al di fuori del supporto. Ne consegue che
l’integrale, anziché tra -∞ e +∞, può essere valutato solamente sul supporto, perché al di fuori di
esso sicuramente il contributo dell’integrale è nullo, essendo fX(x)=0.
Normalmente le rappresentazioni grafiche delle funzioni densità di probabilità hanno forme a
campana (non necessariamente simmetriche), le cui parti più estreme sono dette code: come per la
rappresentazione della funzione massa di probabilità, anche la rappresentazione della funzione
densità di probabilità permette di capire quali sono i valori più probabili (quelli nella parte centrale)
e quelli meno probabili (situati nelle code).
Chiaramente se vogliamo conoscere la probabilità di osservare un evento compreso in un intervallo
[a,b], non infinitesimo, basta calcolare l’area sottesa alla curva fX(x) nell’intervallo in esame, cioè:

b
P ( a £ X £ b ) = ò f X ( x ) dx
a
OSSERVAZIONE:
Dobbiamo osservare che per una variabile aleatoria continua la probabilità di un evento X=x,
qualunque sia x, è nulla, perché tale probabilità sarebbe rappresenta dall’area sottesa alla curva su
un punto.

Funzioni di ripartizione
Abbiamo visto che la funzione massa di probabilità e la funzione densità di probabilità permettono
di capire come si distribuisce la probabilità tra gli eventi individuati attraverso la variabile aleatoria.
Un’altra valutazione probabilistica riguardante le variabili aleatorie sono la funzione massa di
probabilità cumulata cmfX(x) per le variabili discrete e la funzione densità di probabilità cumulata
cdfX(x) per le variabili continue: queste funzioni sono tipicamente dette anche funzioni di
ripartizione FX(x) (si indica allo stesso modo sia per una variabile discreta che per una continua).

FX ( x ) üï
ý ® ( funzione densità di probabilità cumulata )
cdf X ( x ) ïþ
FX ( x ) üï
ý ® ( funzione massa di probabilità cumulata )
cmf X ( x ) ïþ

La funzione di ripartizione assegna la probabilità agli eventi del tipo X≤x, cioè restituisce la
probabilità che la variabile aleatoria assuma valori minori o al più uguali a un qualunque valore di x
appartenente ad R, anche se esterno al supporto.

Partiamo dapprima dal caso delle variabili aleatorie discrete e definiamo la funzione di ripartizione
FX(x) come la probabilità di osservare eventi del tipo X≤x:

FX ( x ) = P ( X £ x )
Consideriamo, a titolo di esempio, la distribuzione uniforme-discreta relativa al lancio di un dado
bilanciato a sei facce:

La variabile aleatoria X può assumere i valori x1=1, x2=2, x3=3, x4=4, x5=5 e x6=6, per cui il
supporto è costituito da sei diversi valori xi.
Vediamo in che modo possiamo rappresentare graficamente la funzione di ripartizione FX(x). In
generale, la funzione di ripartizione per una variabile discreta ha sempre un andamento a gradini:
essa parte da zero, subisce un incremento in corrispondenza della prima massa concentrata, per poi
rimanere costante fin tanto che non incontra la seconda massa concentrata, in corrispondenza della
quale subisce un nuovo incremento, e così via. Quindi possiamo dire che in corrispondenza dei
valori appartenenti al supporto la funzione di ripartizione subisce un incremento pari alla massa di
probabilità concentrata in quel punto, mantenendosi costante su tale valore in corrispondenza dei
valori esterni al supporto (cioè in corrispondenza di quei valori che la variabile aleatoria X non può
assumere).
Se consideriamo l’esempio del lancio di un dado bilanciato a sei facce, l’andamento della funzione
di ripartizione FX(x) per l’esperimento in esame sarà il seguente:

Si evince che la funzione di ripartizione ha un andamento a gradini: parte da zero e subisce un


incremento in corrispondenza delle masse concentrate, incremento pari alla massa di probabilità
concentrata in quel punto, che nel caso in esame è sempre uguale a 1/6, per raggiungere il valore
unitario in corrispondenza dell’ultima massa concentrata.
xi 1 2 3 4 5 6
1 1 1 1 1 1
p X ( xi )
6 6 6 6 6 6
1 2 3 4 5
FX ( xi ) 1
6 6 6 6 6

La rappresentazione grafica della funzione di ripartizione permette di calcolare facilmente i valori


che essa assume in corrispondenza di particolari valori x. L’unico problema si riscontra quando
vogliamo valutare la funzione di ripartizione proprio in corrispondenza delle masse concentrate,
perché apparentemente esistono due “punti” in cui poterla calcolare, subito prima del gradino e
subito dopo (la funzione di ripartizione per una variabile aleatoria discreta, infatti, non è continua).
Per risolvere il problema, allora, dobbiamo capire se la funzione di ripartizione è continua a sinistra
o è continua a destra: in base alla convezione assunta, cioè X≤x, la funzione di ripartizione è
continua a destra, il che significa dire che il valore che la funzione assume in corrispondenza delle
masse concentrate (o in qualsiasi altro punto) si ottiene avvicinandosi dall’alto. Di conseguenza la
funzione di ripartizione FX(x) valutata, ad esempio, in x=1 o in x=3 (dove ci sono le masse
concentrate), ovvero la probabilità dell’evento X≤1 o X≤3 è pari al valore letto sopra al gradino,
cioè:

1
FX ( x1 = 1) = P ( X £ x1 ) =
6
3
FX ( x3 = 3) = P ( X £ x3 ) =
6

A questo punto possiamo ricavare facilmente l’espressione che ci permette di calcolare il valore che
la funzione di ripartizione FX(x) assume in corrispondenza di un valore xi appartenente al supporto
della variabile aleatoria X. Questo valore, infatti, può essere ottenuto sommando tutti i contributi
che stanno a sinistra di xi (xi compreso), cioè in termini matematici:

i
FX ( xi ) = å p X ( x j )
j =1

Se conosciamo la funzione di ripartizione FX(x) possiamo calcolare immediatamente la probabilità


di tutti gli eventi del tipo X>xi, come:

P ( X > xi ) = 1 - FX ( xi )
Inoltre, dati due valori x1 e x2>x1, considerando che:

P ( X £ x1 ) + P ( x1 < X £ x2 ) = P ( X £ x2 )

ricaviamo che:

P ( x1 < X £ x2 ) = P ( X £ x2 ) - P ( X £ x1 ) = FX ( x2 ) - FX ( x1 )

Ne consegue che, essendo P(x1<X≤x2) positivo o al più uguale a zero, FX(x2)≥FX(x1), per cui la
funzione di ripartizione non può mai essere decrescente, ma è sicuramente monotona (non
strettamente) crescente, con discontinuità laddove sono presenti delle masse concentrate.
Per come è stata definita la funzione di ripartizione FX(x), è facile calcolare anche il valore che essa
assume per X≤3.5 (anche se x=3.5 non appartiene al supporto), che sarà pari a:

3
FX ( 3.5 ) = P ( X £ 3.5 ) =
6

Il valore che la funzione di ripartizione FX(x) assume in un generico valore x, non appartenente al
supporto della variabile aleatoria X, è fornito invece dalla seguente relazione:

FX ( x ) = å p (x )
i:xi £ x
X i

cioè è la somma di tutti i contributi relativi alle masse concentrate in corrispondenza dei valori xi
che sono minori o al più uguali a x (i contributi fuori dal supporto, come sappiamo, sono nulli).
Ne consegue, allora, che la funzione di ripartizione assegna una probabilità (eventualmente non
nulla) a qualsiasi evento del tipo X≤x, anche se x è esterno al supporto, a differenza della funzione
massa di probabilità che invece assegna una probabilità nulla ad eventi del tipo X=x quando x non
appartiene al supporto.
Dalla rappresentazione grafica della funzione di ripartizione FX(x) possiamo anche calcolare il
valore che la funzione massa di probabilità assume nel punto x=3, che sappiamo essere 1/6: questa
probabilità, infatti, può essere calcolata come differenza tra i valori che la funzione di ripartizione
assume in x=3 e in x=2:

3 2 1
P ( X = x3 ) = FX ( 3) - FX ( 2 ) = - =
6 6 6
ma anche come differenza tra i valori che la funzione di ripartizione assume in x=3 e in x=3– (cioè
un tantino prima di x=3, essendo comunque costante il valore della funzione di ripartizione da x=2
a x=3–):

3 2 1
P ( X = x3 ) = FX ( 3) - FX ( 3- ) = - =
6 6 6

Chiaramente, per quanto detto fino a questo momento, ricaviamo anche che il valore che la
funzione di ripartizione assume in x=3+ è uguale al valore che la funzione di ripartizione assume in
x=3, ma diverso dal valore che la funzione di ripartizione assume in x=3–, per cui:

FX ( 3+ ) - FX ( 3) = 0
1
FX ( 3+ ) - FX ( 3- ) = FX ( 3) - FX ( 3- ) =
6

Consideriamo ora il caso di una variabile aleatoria continua, che può assumere un’infinità non
numerabile di valori diversi. In questo caso la funzione di ripartizione valutata in corrispondenza di
un valore x, cioè la probabilità di un evento del tipo X<x, è pari all’area sottesa alla curva funzione
densità di probabilità fX(x) tra -∞ e x, cioè in termini matematici:

x
P ( X < x ) = FX ( x ) = ò f X ( u ) du

Dalla precedenza relazione ricaviamo che la funzione densità di probabilità fX(x) è la derivata della
funzione di ripartizione FX(x):

dFX ( x )
fX ( x) =
dx

L’estremo inferiore dell’intervallo di integrazione, per convenzione, è sempre -∞, però nel caso in
cui la variabile aleatoria è non negativa valutare l’integrale da -∞ a x o tra 0 e x è sostanzialmente la
stessa cosa, perché la funzione densità di probabilità a sinistra dello 0 è nulla.
Chiaramente, essendo la funzione densità di probabilità fX(x) maggiore o al più uguale a zero, la
funzione di ripartizione FX(x) è non decrescente (come nel caso delle variabili aleatorie discrete),
ma presenta un andamento continuo (non essendoci masse concentrate). L’andamento della curva
può avere forme più o meno particolari, in base al modello di distribuzione, però qualitativamente
ha quasi sempre una forma ad S:

La probabilità di un evento del tipo X>x è invece pari a:

P ( X > x ) = 1 - P ( X < x ) = 1 - FX ( x )

in cui si è sfruttato il fatto che l’area sottesa alla curva funzione densità di probabilità f(x) è unitaria.
La probabilità di un evento X compreso tra a e b, invece, può essere facilmente calcolata valutando
la funzione di ripartizione in b e la funzione di ripartizione in a e facendo la differenza tra i due
valori ottenuti:

P ( a < X < b ) = FX ( b ) - FX ( a )

Questa differenza restituisce, in pratica, l’area sottesa alla curva funzione densità di probabilità
nell’intervallo in esame:

b
P ( a < X < b ) = ò f X ( x ) dx
a

cioè lo stesso risultato già ritrovato quando abbiamo parlato della funzione densità di probabilità.

OSSERVAZIONE:
Se stiamo considerando una variabile aleatoria continua, non essendoci massa concentrate nel
punto, la probabilità di avere esattamente x è nulla: questo è il motivo per il quale nelle formule
precedenti abbiamo usato direttamente il < o il > e non il ≤ o il ≥. Il discorso cambia, invece, se
stiamo considerando una variabile aleatoria discreta, in quanto per esse le masse concentrate hanno
una notevole importanza: mettere il < anziché il ≤ (o il > anziché il ≥) significa non considerare il
contributo della massa concentrata, per cui il risultato può cambiare notevolmente.
Indichiamo, ad esempio, con x1, x2, …, xk le modalità di una variabile aleatoria discreta X. A
differenza di una variabile aleatoria continua, per valutare attraverso la funzione di ripartizione
FX(x) le seguenti due probabilità:

P ( x2 £ X £ x4 )
P ( x2 < X £ x4 )

dobbiamo ragionare in maniera diversa. Nel primo caso, infatti, la probabilità sarà data dalla
differenza tra il valore della funzione di ripartizione valutata in x4 e il valore della funzione di
ripartizione valutata in x1, perché il contributo della massa concentrata in x2 deve rimanere
(essendoci il ≤). Nel secondo caso, invece, la probabilità sarà data dalla differenza tra il valore della
funzione di ripartizione valutata in x4 e il valore della funzione di ripartizione valutata in x2, perché
il contributo della massa concentrata in x2 non deve essere considerato (essendoci solo il <).

P ( x2 £ X £ x4 ) = FX ( x4 ) - FX ( x1 )
P ( x2 < X £ x4 ) = FX ( x4 ) - FX ( x2 )

Allo stesso modo si ricava che:

P ( x1 £ X £ x3 ) = FX ( x3 )

In questo caso, tale probabilità è direttamente la funzione di ripartizione calcolate in x3, cioè FX(x3),
perché a sinistra di x1 (che è la più piccola modalità assumibile dalla variabile aleatoria X) non ci
sono contributi da sommare (la funzione di ripartizione, infatti, parte da zero).
Un discorso simile deve essere fatto anche quando vogliamo calcolare, ad esempio, le seguenti
probabilità, sempre attraverso la funzione di ripartizione:

P ( X ³ x3 )
P ( X > x3 )

Se si tratta di una variabile aleatoria continua, la prima e la seconda probabilità sono uguali, perché
in x3 non c’è nessuna massa concentrata e quindi nessun contributo da considerare.
Per una variabile aleatoria discreta, invece, la prima probabilità sarà pari a 1 meno la funzione di
ripartizione calcolata in x2, in quanto il contributo della massa concentrata in x3 deve rimanere
(essendoci il ≥), mentre la seconda probabilità sarà pari a 1 meno la funzione di ripartizione
calcolata in x3, perché il contributo della massa concentrata in x3 non deve essere considerato
(essendoci soli il >).

P ( X ³ x3 ) = 1 - FX ( x2 )
P ( X > x3 ) = 1 - FX ( x3 )

Variabili identicamente distribuite


Due variabili aleatorie X e Y si dicono identicamente distribuite quando hanno la stessa
distribuzione, per cui la probabilità che l’una e l’altra assumano valori maggiori di un qualunque
valore di x è la stessa:


ý i.d . Û FX ( x ) = FY ( x )

Per confrontare tra di loro due variabili aleatorie non identicamente distribuite si possono valutare i
cosiddetti momenti, come ad esempio la media.
Due variabili W e Z, invece, si dicono equivalenti quando sono proprio la stessa variabile definite
però attraverso una codifica diversa. Due variabili equivalenti, chiaramente, sono anche
identicamente distribuite (non vale il contrario)

Operatore speranza matematica – Indici di posizione e Indici di dispersione


La media e la varianza servono a fornire informazioni sintetiche sulla legge di probabilità di una
variabile aleatoria: in particolare la media e la varianza forniscono indicazioni, rispettivamente,
sulla posizione e sulla dispersione di una variabile aleatoria. Volendo fare un’analogia con la
geometria delle masse, la media è il “baricentro” della variabile aleatoria, mentre la varianza ne
fornisce il “momento di inerzia”.
Per il calcolo di questi indici si utilizza il cosiddetto operatore speranza matematica E(·).

OSSERVAZIONE:
Abbiamo detto che una variabile aleatoria è un’applicazione che fa corrispondere ad ogni evento
elementare di S un valore in R. Supponiamo che lo spazio campione sia costituito da tre eventi
elementari E1, E2 e E3.
Indichiamo con X(E) la variabile aleatoria che può assumere due valori x1 e x2 e facciamo
corrispondere all’evento E2 il valore x2 e agli eventi E1 ed E3 il valore x1. Se di questa variabile
aleatoria X(E) consideriamo una qualunque altra trasformata g(X) che battezziamo, ad esempio, Y:

Y = g(X )

ad ogni valore di x possiamo far corrispondere un valore di y, in particolare a x1 facciamo


corrispondere y1 e a x2 facciamo corrispondere y2:

Ci accorgiamo quindi che, essendo x una modalità della variabile aleatoria X, anche y lo è, perché,
anche se indirettamente, non abbiamo fatto altro che far corrispondere ad ogni evento elementare E
un valore di y. Se è vero che Y è pari a g(X), allora, ad E1 e ad E3 corrisponde x1 e poi y1, mentre ad
E2 corrisponde x2 e poi y2.
Ne consegue che ogni trasformazione ragionevole di una variabile aleatoria è anch’essa una
variabile aleatoria, a patto di scegliere g(X) tra le funzioni misurabili, cioè tra le funzioni per le
quali abbia ancora senso parlare di probabilità.

Fissata una variabile aleatoria X e una sua qualunque trasformata g(X), l’operatore speranza
matematica è così definito:

ì k
ï å g ( xi ) p X ( xi ) ( se X è una variabile discreta )
ï i =1
E éë g ( X ) ùû = í +¥
ï g ( x ) f ( x ) dx ( se X è una variabile continua )
ò
ïî -¥ X

in cui pX(xi) e fX(x) sono, rispettivamente, la funzione massa di probabilità e la funzione densità di
probabilità della variabile aleatoria X.
Se la g(X) è la funzione identità, la speranza matematica fornisce (se esiste) la media µX (o valore
atteso o ancora momento primo) della variabile aleatoria X:
ì k
ï å xi × p X ( xi ) ( se X è una variabile discreta )
ï i =1
µ X = E ( X ) = í +¥
ï x × f ( x ) dx ( se X è una variabile continua )
ò X
ïî -¥

Il valore atteso di una variabile aleatoria X ha una logica nel senso dell’esperimento ripetuto:
quando facciamo un esperimento, alcune volte possono uscire valori maggiori del valore atteso,
altre volte valori minori del valore atteso, però mediamente nel lungo periodo i valori osservati
“ballano” intorno alla media. Ne consegue, allora, che il valore atteso è un’informazione utile
solamente nel caso in cui l‘esperimento viene ripetuto diverse volte.
Non è detto che il valore atteso di una variabile aleatoria X (discreta o continua) esista. La media di
X, infatti, esiste se e solo se la sommatoria e l’integrale sono assolutamente convergenti, cioè se
E(|X|)≠∞ (per dire che la media esiste è necessario che esistano sommatoria e integrale con il valore
assoluto).

In generale, la E(Xr), con r intero ≥1, fornisce il cosiddetto momento r-esimo µr della variabile
aleatoria X.

ì k r
ï å xi × p X ( xi ) ( se X è una variabile discreta )
ï i =1
µr = E ( X ) = í +¥
r

ï x r × f ( x ) dx ( se X è una variabile continua )


ò
ïî -¥ X

Esempio:
Supponiamo di avere dieci biglie con sopra scritti dei numeri messe in un’urna, tali che su più biglie
ci sia lo stesso numero: ad esempio immaginiamo di avere quattro biglie con il numero 1, una biglia
con il numero 3 e cinque biglie con il numero 7. L’esperimento consiste nell’estrarre una biglia
dall’urna e assegnare ad una variabile aleatoria X il numero estratto. La variabile aleatoria, quindi,
può assumere solamente tre valori diversi x1, x2 e x3:

X = { x1 = 1, x2 = 3, x3 = 7}

La probabilità che X sia proprio pari a 1, a 3 o a 7 è:

4 1 5
P ( X = 1) = ; P ( X = 3) = ; P ( X = 7) =
10 10 10
Calcoliamo il valore atteso di X=g(X), cioè la media della variabile aleatoria X:

3
æ 4ö æ1ö æ 5 ö 42
µ X = E ( X ) = å xi × P ( X = xi ) = (1) ç ÷ + ( 3) ç ÷ + ( 7 ) ç ÷ =
i =1 è 10 ø è 10 ø è 10 ø 10

Volendo calcolare il valore medio di tutti i numeri segnati sulle biglie, possiamo anche moltiplicare
ciascun numero segnato sulla biglia per il corrispondente numero di biglie e dividere per il numero
totale di biglie:

µX = E ( X ) =
(1)( 4 ) + ( 3)(1) + ( 7 )( 5 ) = 42
10 10

ritrovando così lo stesso risultato.


Calcoliamo il valore atteso di X2=g(X), cioè il momento secondo della variabile aleatoria X:

3
æ 4ö æ1ö æ 5ö 258
µ2 = E ( X 2 ) = å xi2 × P ( X = xi ) = (1) ç ÷ + ( 3) ç ÷ + ( 7 ) ç ÷ =
2 2 2

i =1 è 10 ø è 10 ø è 10 ø 10

Volendo dare un’interpretazione fisica al valore atteso di X2=g(X), possiamo dire che il momento
secondo è legato al momento di inerzia rispetto all’origine.

Se la funzione g(X) è qualsiasi, non possiamo ricavare facilmente la media di g a partire, ad


esempio, dalla media di X, cioè in generale non è vero che il valore atteso di g(X) è uguale alla g
valutata in corrispondenza del valore atteso di X:

E éë g ( X ) ùû ¹ g éë E ( X ) ùû

Questa eguaglianza, come vedremo tra poco, è vera solamente quando la g(X) ha una forma
particolare.
Supponiamo che g(X) sia una funzione lineare della variabile aleatoria X del tipo:

g ( X ) = aX + b

e valutiamone il valore atteso (supponiamo per semplicità che la variabile aleatoria X sia continua):
+¥ +¥
E éë g ( X ) ùû = E [ aX + b ] = ò g ( x ) f ( x ) dx = ò ( ax + b ) f ( x ) dx =
X X
-¥ -¥
+¥ +¥
= ò ( ax ) f X ( x ) dx + ò ( b ) f X ( x ) dx =
-¥ -¥
+¥ +¥
=a ò-¥ ( x ) f X ( x ) dx + b -¥ò f X ( x ) dx =
!""#"" $ !"#"$
E( x) 1

= aE ( x ) + b

per cui, se vogliamo calcolare il valore atteso di g(X)=aX+b, dobbiamo semplicemente moltiplicare
a per la media di X, cioè E(x), e sommare b. Ne consegue, allora, che l’operatore speranza
matematica è un operatore lineare. In questo caso possiamo dire che è valida la seguente
eguaglianza:

E éë g ( x ) ùû = g éë E ( x ) ùû

perché il valore atteso di g(X) è uguale alla g valutata in corrispondenza del valore atteso di X:

E éë g ( X ) ùû = ( aX + b ) X = E = aE ( X ) + b
(X )

Abbiamo detto che la media fornisce il valore intorno al quale “ballano” i risultati di un esperimento
casuale quando eseguiamo un numero elevato di prove. Per tale motivo la media è un indice di
posizione.
La media, tuttavia, non sempre esiste e non sempre è un valore tipico. Immaginiamo, ad esempio,
che in gruppo di individui ci sia una persona molto ricca; se calcoliamo il reddito procapite, il
valore trovato sicuramente sarà più rappresentativo del reddito della sola persona ricca che non di
tutti gli altri individui. Esistono, infatti, delle distribuzioni di probabilità che non sono simmetriche,
ma presentano una forte asimmetria, in quanto la variabile aleatoria può assumere valori molto alti
ma con una frequenza bassa. In questi casi, quindi, la media o può essere molto distante dal valore
tipico della popolazione (tende a spostarsi verso la coda) o addirittura può non esistere.
Esistono per tale motivo altri indici di posizione che, similmente alla media, forniscono
informazioni sulla tendenza centrale di una variabile aleatoria e che possono essere usati con
maggiore validità: moda, mediana e quantili.
La moda di una variabile aleatoria X è il valore (se esiste) per cui è massima la funzione massa di
probabilità (se la variabile aleatoria è discreta) oppure la funzione densità di probabilità (se la
variabile aleatoria è continua). Di conseguenza, se la distribuzione di probabilità ha un andamento
simmetrico, con un solo massimo, la media e la moda coincidono, mentre se la distribuzione ha un
andamento asimmetrico con un solo picco, la moda è il valore più probabile:

Esistono anche distribuzioni che presentano un doppio picco e che pertanto vengono dette bimodali,
ma solo per specificarne la forma perché è possibile individuare un solo valore della moda, cioè
quello che si presenta con maggiore frequenza se facciamo tante prove (se i due picchi hanno la
stessa altezza allora effettivamente abbiamo due diversi valori della moda):

Le distribuzioni bimodali sono abbastanza frequenti e sono indice del fatto che la popolazione in
esame non è omogenea. In questi casi, attraverso una variabile ausiliaria che fornisce particolari
informazioni sugli individui della popolazione, possiamo separare le distribuzioni dando luogo a
distribuzioni più strette e meno incerte (più ampia è la distribuzione maggiore è l’incertezza)

Un altro indice di posizione che possiamo introdurre qualora ci siano valori atipici nella
popolazione in esame è la mediana. La mediana x0.5 di una variabile aleatoria X con funzione di
ripartizione FX(x) è il valore per il quale sono soddisfatte entrambe le disuguaglianze:

P ( X £ x0.5 ) ³ 0.5 ; P ( X ³ x0.5 ) ³ 0.5


Conseguentemente la mediana di una variabile aleatoria continua è quel valore in corrispondenza
del quale la funzione di ripartizione viene divisa esattamente in due parti uguali: dal momento che
l’area sottesa alla distribuzione di probabilità è unitaria, le due aree a destra e a sinistra della
mediana avranno valore pari a 0.5, per cui in corrispondenza della mediana la funzione di
ripartizione FX(x) dovrà valere esattamente 0.5.
Chiaramente se la distribuzione di probabilità della variabile aleatoria ha un andamento simmetrico,
con un solo massimo, la media, la moda e la mediana coincidono. Qualora la variabile aleatoria
abbia una distribuzione di probabilità asimmetrica, rappresentativa di una situazione atipica
all’interno della popolazione, normalmente la mediana è preferita alla moda e soprattutto alla media
per rappresentare, in maniera più realistica, la tendenza centrale di una variabile aleatoria.

Il concetto di mediana può essere esteso ad altri valori, diversi da p=0.5, della massa di probabilità,
ottenendo un altro indice di posizione caratterizzante la variabile aleatoria X, cioè il quantile. Il
quantile xp (quantile di ordine p) di una variabile aleatoria X con funzione di ripartizione FX(x) è il
valore per il quale sono soddisfatte entrambe le disuguaglianze:

P ( X £ xp ) ³ p ; P ( X ³ xp ) ³ 1- p

Il quantile spesso è chiamato percentile con riferimento al valore p×100. Rispetto alla mediana il
percentile generalizzata rispetto a qualunque frazione p della distribuzione di probabilità. Se
parliamo, ad esempio, di 95-esimo percentile vuol dire che l’area sottesa alla distribuzione di
probabilità a sinistra di questo punto vale esattamente 0.95, cioè in termini matematici:

x0.95 : FX ( x0.95 ) = 0.95

per cui generalizzando:

xg : FX ( xg ) = g

Dire, ad esempio, che un bambino, rispetto al peso, è 90-esimo percentile, vuol dire che tra tutti i
bambini della stessa età ce ne sono 90 su 100 che sono più leggeri.

OSSERVAZIONE:
Per capire se una distribuzione è asimmetrica a destra (a sinistra) possiamo calcolare la distanza
della mediana rispetto a due percentili estremi (perché la variabile aleatoria potrebbe essere non
limitata e non sarebbe possibile valutare quale delle due distanze è maggiore). Tipicamente si valuta
la distanza tra il novantacinquesimo percentile e la mediana e tra la mediana e il quinto percentile:
se la prima distanza è molto più grande (è molto più piccola) della seconda, la distribuzione di
probabilità è molto più lunga a destra (a sinistra).

Oltre ai percentili esistono anche altri indici di posizione, i cosiddetti quartili, che distinguiamo in
primo quartile (25-esimo percentile che divide la distribuzione in quattro parti uguali), in secondo
quartile (che coincide con la mediana) e in terzo quartile (65-esimo percentile).

Un altro aspetto importante da valutare è la dispersione di una variabile aleatoria, per cui
introduciamo gli indici di dispersione.
Una prima misura di dispersione, la più semplice da valutare, è la differenza tra il
novantacinquesimo percentile e il quinto percentile: questa misura permette di capire quali sono i
valori più tipici e quanto è ampia la distribuzione.

Un’altra misura di dispersione è la differenza interquartile (più diffusa della precedente soprattutto
in ambito ingegneristico-produttivo), cioè la differenza tra il 75-esimo percentile e il 25-esimo
percentile.

Un altro indice di dispersione è la varianza della variabile aleatoria X, indicata nei due modi
seguenti:

Var ( X ) o s X2

dove l’apice 2 viene usato solamente per ricordare che si tratta di un operatore quadratico.
In statistica la varianza, come detto, è l’omologo del momento di inerzia nella geometria delle
masse.
Se g(X) è la differenza quadratica [X-E(X)]2, l’operatore speranza matematica fornisce (se esiste) la
varianza della variabile aleatoria X:

ì k
ï å éë xi - E ( X ) ùû × p X ( xi ) se X è una variabile discreta
2

(
Var ( X ) = E éë X - E ( X ) ùû
2
) ï i =1
= í +¥
ï é x - E ( X ) ù 2 × f ( x ) dx se X è una variabile continua
òë
ïî -¥ û X

Essendo un indice di dispersione, tanto più è grande la varianza tanto più è incerta la situazione, in
quanto le masse di probabilità si distribuiscono molto lontano dalla media.
La varianza costituisce la differenza quadratica media rispetto alla media. Per distinguerla dal
momento secondo (che è l’omologo del momento di inerzia rispetto all’origine), la varianza (che è
l’omologo del momento di inerzia rispetto al baricentro) è anche indicata come momento centrale
del secondo ordine, in quanto relativo alla media (il baricentro appunto) della distribuzione.
Partendo dalla definizione di varianza, se sviluppiamo il quadrato del binomio e sfruttiamo le
proprietà di linearità dell’operatore valore atteso, possiamo giungere a formulare un’identità molto
utile che può semplificare il calcolo della varianza di X:

(
Var ( X ) = E éë X - E ( X ) ùû
2
)=
= E(X 2
+ éë E ( X ) ùû - 2 XE ( X ) =
2
)
= E ( X 2 ) + E éë E ( X ) ùû - E éë 2 XE ( X ) ùû =
2

= E ( X 2 ) + éë E ( X ) ùû - 2 E ( X ) E ( X ) =
2

= E ( X 2 ) + éë E ( X ) ùû - 2 éë E ( X ) ùû
2 2

= E ( X 2 ) - éë E ( X ) ùû
2

Il risultato appena ottenuto, riscritto portando l’ultimo termine al primo membro, esprime un
concetto simile al teorema di Huygens nella geometria delle masse: il momento di inerzia di una
massa rispetto ad un asse è pari al momento di inerzia della massa rispetto all’asse passante per il
suo baricentro e parallelo al primo più il prodotto della massa per il quadrato della distanza tra i due
assi. Infatti in statistica, avendo considerato che la massa è unitaria e distribuita linearmente, che gli
assi sono verticali e il primo di questi passa per l’origine, che il momento di inerzia rispetto
all’origine è il momento secondo della variabile aleatoria X e che il momento di inerzia rispetto al
baricentro è la varianza di X, otteniamo:

E ( X 2 ) = Var ( X ) + éë E ( X ) - 0 ùû = Var ( X ) + éë E ( X ) ùû
2 2

da cui ricaviamo che:

Var ( X ) = E ( X 2 ) - éë E ( X ) ùû
2

cioè lo stesso risultato ottenuto partendo dalla definizione di varianza e sviluppando il quadrato del
binomio X-E(X).
L’operatore varianza, a differenza dell’operatore speranza matematica, non è lineare. Supponiamo,
infatti, che g(X) sia una funzione lineare della variabile aleatoria X del tipo:

g ( X ) = aX + b

e valutiamone la varianza, sfruttando le proprietà dell’operatore speranza matematica, nell’ipotesi di


conoscere la funzione di distribuzione della variabile x:

(
Var ( aX + b ) = Var (Y ) = E éëY - E (Y ) ùû )=
2

= E ( éë( aX + b ) - E ( aX + b ) ùû ) =
2

= E ( éë( aX + b ) - aE ( X ) - b ùû ) =
2

(
= E éë a ( X - E ( X ) ) ùû
2
)=
(
= E a 2 éë X - E ( X ) ùû )=
2

= a E ( éë X - E ( X ) ùû ) =
2 2

= a 2Var ( X )

Ne consegue che se conosciamo a priori la varianza della variabile X, per calcolare la varianza della
variabile Y=aX+b basta moltiplicare la varianza di X per il quadrato della costante a.

OSSERVAZIONE:
Data una variabile aleatoria X, se la moltiplichiamo per una costante a, sicuramente la distribuzione
di probabilità si modifica: in particolare si dilata, se a è maggiore di 1, e si restringe se a è minore di
1. Se sommiamo una costante b, invece, la distribuzione non varia, ma trasla solamente in maniera
rigida, a destra se b è maggiore di 0, a sinistra se b è minore di 0. Di conseguenza, il momento di
inerzia calcolato rispetto al baricentro non cambia, mentre cambia il momento di inerzia calcolato
rispetto all’origine (cioè la varianza), perché a da contributo e b no.

Per sapere se un’incertezza (variabilità) è grande o piccola, è necessario calcolare un’incertezza


relativa, che mette in relazione le differenze tipiche rispetto ai valori tipici. Per chiarire meglio il
concetto supponiamo di avere una popolazione di scoiattoli di altezza compresa tra 10cm e 15cm e
una categoria di giocatori di basket di altezza compresa tra 200cm e 205cm. Premesso che la
variabilità è la stessa, possiamo sicuramente affermare che una differenza di altezza di 5cm su un
valore tipico di altezza di 12.5cm è molto più significativa rispetto ad una differenza di altezza di
5cm su un valore tipico di altezza di 202.5cm.
Possiamo introdurre, quindi, degli indici che confrontano un indice di dispersione (tipo la varianza o
la differenza interquartile) con un indice di posizione (tipo la media o la mediana). Uno di questi
indici è il cosiddetto coefficiente di variazione C.V. (adimensionale), definito come il rapporto tra la
radice quadrata della varianza e la media della variabile aleatoria X:

s X2
C.V . =
µX

Il coefficiente di variazione, quindi, permette di capire quanto è grande la variabilità rispetto a


quelli che sono i valori tipici.
La radice quadrata della varianza prende il nome di deviazione standard σX, talvolta definita anche
scarto tipo o scarto quadratico medio (è bene precisare che s X2 e s X non sono due valori di cui il

primo è il quadrato del secondo, ma sono due simboli che indicano, rispettivamente la varianza e la
deviazione standard). Il coefficiente di variazione, quindi, può essere definito anche come rapporto
tra la deviazione standard e la media della variabile aleatoria X:

sX
C.V . =
µX

Variabile centrata, Variabile ridotta e Variabile standardizzata


Si parla di variabile centrata se a partire dalla variabile aleatoria X qualsiasi costruiamo la variabile
aleatoria Y pari a:

Y = X - µX
!
b

La nuova variabile aleatoria Y è tale che la sua media coincida con l’origine:

E (Y ) = E ( X - µ X ) = E ( X ) - µ X = µ X - µ X = 0

Per quanto abbiamo detto in precedenza, la varianza di Y è pari alla varianza di X, perché il termine
moltiplicativo a è pari a 1, mentre il termine additivo b=-µX non da contributo alla varianza:

Var (Y ) = Var ( X - µ X ) = Var ( X )


Con la variabile centrata Y, in pratica, è come se avessimo traslato tutta la distribuzione della
variabile X in maniera rigida, in modo da far coincidere il baricentro con l’origine

Si parla, invece, di variabile ridotta se a partire dalla variabile aleatoria X costruiamo una variabile
aleatoria Y pari a:

1
Y= X
s
! X
a

In questo caso la media di Y cambia (in un modo non tanto controllato) e sarà pari a:

æ X ö E ( X ) µX
E (Y ) = E ç ÷= =
èsX ø sX sX

mentre la varianza di Y sarà pari a:

æ X ö 1 Var ( X )
Var (Y ) = Var ç ÷ = 2 Var ( X ) = =1
èsX ø sX Var ( X )

in cui stavolta il termine moltiplicativo a è pari a 1/σX, che elevato al quadrato fornisce proprio la
varianza di X. Sostanzialmente quello che stiamo operando è un cambiamento di scala, senza
spostare il baricentro.

Si parla, infine, di variabile standardizzata se a partire dalla variabile aleatoria X costruiamo, con
un’operazione di centratura e di riduzione, una variabile aleatoria Y pari a:

X - µX 1 µX
Y= = X-
sX s
! X s
! X
a b

La nuova variabile Y è caratterizzata dal fatto di avere media nulla:

æ X µX ö 1 µ µ µ
E (Y ) = E ç - ÷= E(X )- X = X - X = 0
èsX sX ø sX sX sX sX

e varianza unitaria:
æ X µX ö 1 Var ( X )
Var (Y ) = Var ç - ÷ = 2 Var ( X ) = =1
èsX sX ø sX Var ( X )

Quindi con l’operazione di standardizzazione abbiamo fatto contemporaneamente un cambiamento


di scala, per rendere unitaria la varianza, ed uno spostamento dell’origine, per far coincidere la
media con l’origine stessa. In sostanza è una trasformazione di variabile che a partire dalla variabile
X permette di costruire una nuova variabile Y, a media nulla e varianza unitaria, di cui non
conosciamo la distribuzione di probabilità (perché essa dipende chiaramente dalla trasformazione
utilizzata e dalla forma della distribuzione della variabile X di partenza).
Ovviamente le operazioni di centratura e di riduzione, e quindi anche l’operazione di
standardizzazione, sono possibili solo se la variabile è dotata di media e di varianza. Abbiamo già
detto che la media non sempre esiste e laddove sia possibile definire la media di una variabile
aleatoria non è detto che sia altrettanto possibile definirne la varianza: sicuramente, però, possiamo
dire che se esiste la varianza esiste anche la media.

Della variabile centrata è possibile definirne i momenti r-esimi nel modo seguente:

E é( X - µ X ) ù = µ r
r
ë û

Chiaramente ricaviamo che il momento secondo della variabile centrata è pari proprio alla varianza:

Var ( X ) = µ 2 = E é( X - µ X ) ù con [ X - µ X ] = variabile centrata


2
ë û

Allo stesso modo, se vogliamo calcolare il momento r-esimo della variabile standardizzata possiamo
scrivere:

éæ x - µ ö r ù
E êç ÷ ú = µr
X

êëè s X ø úû

Abbiamo già detto che il momento primo (cioè la media) e il momento secondo (cioè la varianza)
della variabile standardizzata valgono, rispettivamente, 0 e 1. Tuttavia, i momenti che permettono di
avere informazioni significative sulla distribuzione di probabilità della variabile aleatoria X sono, in
particolare, il momento terzo e il momento quarto.
Il momento terzo della variabile standardizzata, infatti, fornisce indicazioni sulla simmetria o meno
della distribuzione della variabile X e viene per tale motivo detto indice di asimmetria.
L’indice di asimmetria è nullo se la distribuzione è perfettamente simmetrica, è maggiore di 1 se la
distribuzione è asimmetrica a destra, mentre è minore di 1 se la distribuzione è asimmetrica a
sinistra
Il momento quarto della variabile standardizzata, invece, serve a valutare lo schiacciamento della
distribuzione della variabile aleatoria X rispetto alla distribuzione della variabile aleatoria
Gaussiana, per la quale la curtosi (curvatura) vale 3: il momento quarto è perciò anche detto indice
di curtosi.
Un valore minore di 3 dell’indice di curtosi indica una distribuzione platicurtica (cioè più piatta di
una distribuzione normale), un valore maggiore di 0 indica una distribuzione leptocurtica (cioè più
appuntita di una distribuzione normale), mentre un valore pari a 3 indica una distribuzione
normocurtica (cioè piatta come una distribuzione normale).

Funzione Generatrice dei Momenti


Alcune trasformate della funzione distribuzione agevolano lo studio della corrispondente variabile
aleatoria, analogamente a quanto fa, per esempio, la trasformata di Laplace per le equazioni
differenziali (lineari e a coefficienti costanti) traducendole in equazioni algebriche. Una delle
trasformate utilizzate più frequentemente è la funzione generatrice dei momenti. Sia X una variabile
aleatoria e sia t una variabile reale ausiliaria, si definisce funzione generatrice dei momenti ΦX(t)
della variabile X la speranza matematica della funzione etX:

ì +¥ txi
ï å e × p X ( xi ) variabili aleatorie discrete
ï i=1
F X ( t ) = E ( etX ) = í+¥
ï etx × f ( x ) dx variabili aleatorie continue
ïî -ò¥ X

Tipicamente la funzione generatrice dei momenti può essere indicata con uno dei seguenti simboli:

F X (t ) ü
ï
MGFX ( t ) ý ® ( Funzione Generatrice dei Momenti )
FGM X ( t ) ïþ

in cui l’argomento della funzione è t e X la variabile aleatoria a cui stiamo facendo riferimento: la
funzione generatrice dei momenti, allora, definisce un cambio di spazio da X a t.
Non è detto che la funzione generatrice dei momenti esista, però sicuramente esiste per t=0 e vale
esattamente 1. Affinché possa esistere, inoltre, essa deve esistere non solo in t=0, ma anche in un
intorno di t=0 piccolo a piacere.
La funzione generatrice dei momenti è uno strumento molto utile sia per effettuare le trasformazioni
di variabili sia per calcolare i momenti (non centrali) di una variabile aleatoria (da qui il nome di
funzione generatrice dei momenti). Per dimostrare che la funzione generatrice dei momenti, qualora
esista, consente di calcolare i momenti di una variabile aleatoria, dobbiamo sviluppare in serie di
Mac Laurin il termine etX:

æ t2 X 2 tn X n ö
F X ( t ) = E ( etX ) = E ç1 + tX + +!+ + !÷ =
è 2! n! ø
2 n
t t
= 1 + tE ( X ) + E ( X 2 ) + ! + E ( X n ) + !
2 n!

Innanzitutto notiamo che valutando questa espressione in t=0 otteniamo esattamente ΦX(t)=1, così
come avevamo già detto in precedenza. Se deriviamo la funzione generatrice dei momenti rispetto a
t e valutiamo la derivata in t=0, otteniamo proprio il momento primo della variabile X:

d dæ t2 tn ö
éëF X ( t ) ùû = ç1 + tE ( X ) + E ( X ) + ! + E ( X n ) + ! ÷
2

dt t =0 dt è 2 n! ø t =0
æ t n -1 ö
= çç E ( X ) + tE ( X 2 ) + ! + E ( X n ) + ! ÷÷ = E ( X )
è ( n - 1)! ø t =0

Se deriviamo la funzione generatrice dei momenti due volte rispetto a t e valutiamo la derivata
sempre in t=0 otteniamo, invece, il momento secondo della variabile X:

d2 d2 æ t2 tn ö
éF X ( t ) ùû = 2 ç1 + tE ( X ) + E ( X ) + ! + E ( X n ) + ! ÷
2 ë
2

dt t =0
dt è 2 n! ø t =0
æ t n-2 ö
= çç E ( X 2 ) + ! + E ( X n ) + ! ÷÷ = E ( X 2 )
è ( n - 2 )! ø t =0

Generalizzando, se deriviamo r volte la funzione generatrice dei momenti rispetto a t e valutiamo la


derivata sempre in t=0 otteniamo il momento r-esimo della variabile X:

dr
éF X ( t ) ùû = E ( X r )
r ë
dt t =0
Da quanto detto deduciamo che, affinché possa esistere la funzione generatrice dei momenti, la
variabile aleatoria X deve essere dotata di tutti i momenti. Se la funzione generatrice dei momenti
della variabile aleatoria X esiste, allora è anche unica.

Analizziamo due proprietà di cui gode la funzione generatrice dei momenti.


Supponiamo di conoscere la funzione generatrice dei momenti della variabile aleatoria X (che per
semplicità assumiamo essere continua) e di voler ricavare la funzione generatrice dei momenti della
variabile aleatoria W, definita come segue:

W = aX + b

Quindi quello che vogliamo calcolare è:


FW ( t ) = E ( e tW
)= ò e tw
fW ( w ) dw

Anziché lavorare direttamente sulla definizione di funzione generatrice dei momenti, se è Y=g(X),
possiamo ottenere il valore atteso di Y (o di una qualunque altra funzione di X) lavorando con la
g(X) ed utilizzando come funzione densità di probabilità quella della variabile X, cioè:


E (Y ) = E éë g ( X ) ùû = ò g ( x ) f ( x ) dx
X

Di conseguenza, se conosciamo la funzione generatrice dei momenti della variabile X, per calcolare
la funzione generatrice dei momenti della variabile W, anziché utilizzare la funzione densità di
probabilità di W, possiamo utilizzare direttamente la funzione densità di probabilità di X,
esprimendo W come funzione di X, così come mostrato di seguito:


FW ( t ) = E ( etW ) = E éëet ( aX +b ) ùû = òe
t ( aX + b )
× f X ( x ) dx =

+¥ +¥
= òe
taX
e × f X ( x ) dx = e
tb tb
òe
taX
f X ( x ) dx = etb × F X ( at )
-¥ -¥

In pratica, se la variabile W è ottenuta come trasformazione lineare della variabile X, di cui è nota la
funzione generatrice dei momenti, la funzione generatrice dei momenti di W si ottiene direttamente
da quella di X, valutandola in corrispondenza di at e moltiplicandola per la costante etb.
Allo stesso risultato possiamo giungere, in maniera più semplice e veloce, sfruttando le proprietà
dell’operatore speranza matematica:

FW ( t ) = E ( etW ) = E éëet ( aX +b ) ùû = E éëe atX × etb ùû = etb E ( e atX ) = etb F X ( at )

Immaginiamo di conoscere le funzioni generatrici dei momenti di due variabili aleatorie X e Y, che
supponiamo essere s-indipendenti, e definiamo una nuova variabile aleatoria W nel modo seguente:

W = X +Y

di cui vogliamo calcolare la funzione generatrice dei momenti. Ancora una volta, se è Z=g(X,Y),
possiamo ottenere il valore atteso di Z lavorando sulla sua funzione densità di probabilità:


E (Z ) = ò z × f ( z ) dz
Z

oppure lavorando direttamente sulla g(X,Y) ed utilizzando come funzione densità di probabilità
quella della variabile (X,Y), cioè:

+¥ +¥
E ( Z ) = E éë g ( X , Y ) ùû = ò ò g ( x, y ) f ( x, y ) dxdy
X ,Y
-¥ -¥

Ne consegue che per calcolare la funzione generatrice dei momenti della variabile aleatoria W
possiamo scrivere direttamente:

+¥ +¥
FW ( t ) = E ( e ) = E éëet ( X +Y ) ùû =
tW
ò òe
t ( X +Y )
× f X ,Y ( x, y ) dxdy =
-¥ -¥
per la
+¥ +¥ S . IND . +¥ +¥
= ò òe
tX
e × f X ,Y ( x, y ) dxdy =
tY
ò òe
tX
etY × f X ( x ) fY ( y ) dxdy =
-¥ -¥ -¥ -¥

æ +¥
ö æ +¥
ö
= ç ò etX f X ( x ) dx ÷ × ç ò etY fY ( y ) dy ÷ = F X ( t ) × FY ( t )
è -¥ ø è -¥ ø

Allo stesso risultato possiamo giungere, in maniera più semplice e veloce, sfruttando le proprietà
dell’operatore speranza matematica, ricordando che se due variabili X1 e X2 sono s-indipendenti la
media del loro prodotto è pari al prodotto delle rispettive medie:
per la
S . IND .
FW ( t ) = E ( e tW
) = E éëe t ( X +Y )
ù = E ée e ù = E ( etX ) × E ( etY ) = F X ( t ) × FY ( t )
û ë
tX
û
tY

In pratica, se la variabile W è ottenuta come somma di due variabili X e Y, s-indipendenti, la sua


funzione generatrice dei momenti è il prodotto delle funzioni generatrici dei momenti delle variabili
sommate.