Sei sulla pagina 1di 10

Variabili casuali

Una variabile casuale è un numero che attualmente non conosciamo.


Non sappiamo esattamente quale sarà il nostro stipendio tra un
anno, non sappiamo che numero esca lanciando un dado, ma neanche
quale sarà il tasso di disoccupazione tra qualche mese. Tuttavia
non stiamo parlando di numeri assolutamente privi di consistenza:
non li conosciamo, ma possiamo darne una descrizione
probabilistica. Ovvero possiamo supporre che il nostro stipendio
tra un anno sarà grosso modo quello di adesso, ma con una certa
variabilità dovuta all’attuale crisi economica. Lanciamo un dado,
non sappiamo che numero esca, ma sappiamo che i sei numeri sono
equiprobabili. Non sappiamo quale sarà il numero dei disoccupati,
ma possiamo costruire dei modelli di previsione che ci indichino
una cifra approssimativa.

Dietro questi numeri e questi modelli c’è costantemente il


concetto di variabile casuale, o variabile aleatoria. Come abbiamo
visto negli esempi, una variabile casuale X è un numero che non
conosciamo, ma che possiamo descrivere assegnando probabilità a
ciascuna sua possibile realizzazione.

Consideriamo il lancio di un dado. Allora le possibili


realizzazioni di X sono i numeri 1, 2, 3, 4, 5 o 6. Ciascun numero
esce con probabilità 1/6.

Per descrivere formalmente la variabile aleatoria X, distinguiamo


due casi. Nel primo caso X può assumere un insieme discreto di
valori. E’ il caso in cui i valori possibili di X sono dei numeri
naturali come 1, 2, eccetera. In questo caso X si dice variabile
aleatoria discreta. Nel secondo caso X assume valori continui, per
esempio tutti i valori tra 0 e 15 (per esempio il tasso di
disoccupazione). Allora in questo caso X è una variabile aleatoria
continua.

Variabili casuali discrete

Le formule che seguono sono valide nel caso in cui X sia una
variabile discreta, ma come vedremo gli stessi concetti (media,
deviazione standard) sono necessari anche quando analizziamo una
variabile continua. L’unica differenza è che le formule risultano
leggermente diverse.

Abbiamo parlato del lancio di un dado. Abbiamo detto che il numero


uscito può essere descritto come una variabile aleatoria, cioè
associando ad ogni possibile risultato la sua probabilità. Ciò ci
porta alla seguente tabella:

Risultato (X) Probabilità (Pr(X = xi))


1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6

Come vedete X, che abbiamo chiamato variabile aleatoria,


assomiglia “drammaticamente” a quelle che abbiamo chiamato
variabili statistiche! Bene, in pratica sono la stessa cosa.
L’unica cosa che le differenzia dal punto di vista didattico è che
la variabile statistica un caso particolare ed un concetto meno
astratto di variabile aleatoria. Quindi dal punto di vista
didattico è stato opportuno trattare le due variabili
separatamente, ma certo è che la tecnica di analisi delle due
variabili è praticamente uguale.

Per prima cosa, quando parlavamo di variabile statistica, ci siamo


trovati di fronte il problema della sua descrizione sintetica.
Abbiamo quindi parlato di indici di posizione e di variabilità.
I due concetti sono pronti per l’uso: l’indice di posizione è la
media, l’indice di variabilità è la deviazione standard.

Nel caso lancio del dado abbiamo:

1 1 1 1 1 1
E(X) = 1 + 2 + 3 + 4 + 5 +6 = 3.5 .
6 6 6 6 6 6

Dove abbiamo applicato la formula della media ponderata.


Quindi:
1 1 1 1
Var(X) = (1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 +
6 6 6 6

1 1
+(5 − 3.5)2
+ (6 − 3.5)2 = 2.72 .
6 6
Anche qui è stata usata la formula della varianza ponderata.
Infine:
DS(X) = 2.72 = 1.91 .

Ovvero, per descrivere compiutamente una variabile casuale devo


avere l’assegnamento di probabilità di ogni suo esito, ma posso
riassumerla con media e varianza. Le formule di queste sono
esattamente analoghe a quelle di media e varianza ponderate.

Ora che abbiamo abbastanza chiaro di cosa stiamo parlando,


possiamo introdurre alcuni concetti più formali. Può avvenire che
per avere uno strumento più flessibile, sia opportuno associare ad
ogni possibile esito numerico, l’evento che lo ha generato. La
variabile casuale discreta risulta così descritta:

Spazio di eventi Ω Variabile X Pr(X = xi)


ω1 x1 p1
ω2 x2 p2
… …
ωi xi pi

ωM xM pM

La tabella va letta in questo modo. Succede qualche cosa nello


spazio degli eventi Ω , a cui risulta associato un numero X. A
questo numero è associata una probabilità che è al tempo stesso la
probabilità che si verifichi l’evento e che risulti quel
determinato numero.

Il significato dello spazio degli eventi sarà più chiaro quando


analizzeremo le scommesse, per adesso è sufficiente osservare che
comunque questo spazio non è strettamente necessario per lavorare
con le variabili aleatorie. Semplicemente, il più delle volte non
è neppure osservabile. Tuttavia, diciamo che ai matematici piace
pensare che ogni esito xi abbia come pre-immagine un evento ωi.

Molto più importanti sono i valori che descrivono la probabilità


dei valori di X, cioè:

Pr[X = xi] = pi .

Questi numeri rappresentano la distribuzione di probabilità di X.


In pratica, se identificate una variabile aleatoria con una
distribuzione di probabilità su di un insieme di numeri, non
sbagliate di molto.

Ripetiamo allora le formule per media, varianza e deviazione


standard di variabili aleatorie:

M
E(X) = ∑x p
i =1
i i ;
M 2

Var(X) = ∑ (x
i =1
i − E(X)) pi ;

DS(X) = Var(X).

Ovviamente per queste formule valgono le proprietà di linearità


che abbiamo discusso in precedenza.

Analisi di una scommessa

L’analisi di una scommessa è un modello matematico che mi è sempre


piaciuto per la semplicità del problema posto (chi non ha mai
scommesso in vita sua?) e per l’eleganza della risposta. Ovvero se
giochi con valore atteso positivo, allora continua: alla fine ti
ritroverai più ricco. Questa soluzione implica però alcuni
concetti molto profondi nella descrizione di una decisione. Per
esempio implica la legge dei grandi numeri, che vedremo più
avanti, e che il decisore sia neutrale al rischio, ovvero una
teoria che descriva le preferenze dell’individuo, che però
accenneremo solamente.

Prendiamo una scommessa quotata dalla SNAI. Al momento in cui


scrivo (marzo 2009) una delle scommesse proposte è la seguente:

Arsenal – Man City: 1: 1.53; X: 3.50; 2: 6.50.

Il significato dei numeri è il seguente. Supponete di scommettere


un euro, se l’Arsenal vince vi verranno restituiti 1.53 euro.
Avrete quindi vinto 53 centesimi. Se invece scommettete sul
pareggio, riceverete indietro 3.50 euro. Riceverete indietro 6.50
euro se vincerete la scommessa sul 2 (Arsenal sconfitto in casa).
Ovviamente, se ricevete indietro 6.50 euro dopo averne pagati 1,
allora la vostra vincita è di 5.50 euro.

Potrebbe essere intrigante scommettere sulla sconfitta


dell’Arsenal. Si vince molto, ma ne vale la pena?
Proviamo interpretare questa scommessa con il meccanismo delle
variabili aleatorie. Eventi e numeri li abbiamo già sotto mano, ci
mancano le probabilità. Quello che ci serve è stabilire la
probabilità dell’evento S = “Arsenal sconfitto”.

Allora guardiamo un po’ di statistiche sul campionato inglese:


scopriamo che l’Arsenal ha fino ad oggi giocato in casa 19 volte.
Per 14 volte ha vinto, 5 volte ha pareggiato, perso mai. Il Man
City ha vinto fuori casa solo 4 volte su 19. A meno di avere
qualche altra informazione (infortuni, condizioni meteo, ecc.),
non possiamo essere troppo ottimisti. Diciamo che la nostra stima
(soggettiva) è Pr(S)=1/10. Supponiamo di volere scommettere un
solo euro, a questo punto scriviamo la nostra variabile aleatoria.

Eventi Ω Vincita X Pr(X=xi)


S 5.50 1/10
B = “Non S” -1.0 9/10

Osservate Pr(B) = 1 - 1/10 = 9/10, in quanto B è l’evento


complementare a S.

Calcoliamo il valore atteso della scommessa:

1 9
E(X) = 5.50 + (−1) = −0.45 .
10 10
Ahi! Abbiamo un valore atteso negativo, siamo proprio sicuri vale
la pena scommettere? La risposta razionale è no. Come vedremo con
la legge dei grandi numeri, se noi siamo impegnati in una serie di
scommesse, nel lungo periodo la nostra vincita o perdita attesa
coincide con la somma dei valori attesi di ogni singola scommessa.
Perciò nel caso specifico sarebbe meglio non scommettere.

Ora vediamo la variabilità della vincita. Calcoliamo allora

1 9
Var(X) = (5 − (−0.45))2 + (−1 − (−0.45))2 ; 3.54 + 0.27 = 3.81 .
10 10

Da cui la deviazione standard:

DS(X) = 3.81 = 1.95 .

Cosa ci dice la deviazione standard? Ci dà un indice di rischio


della scommessa. Come vedremo in seguito, la deviazione standard
ci dice in che modo una variabile aleatoria varia attorno alla
media. Maggiore la DS, maggiore la dispersione dei risultati
attorno al valore atteso.

Infine poniamoci il seguente problema. Abbiamo analizzato la


scommessa ipotizzando il valore Pr(S)=1/10. Lo abbiamo stabilito
noi guardando la classifica inglese. Cosa succede se abbiamo
variamo questa stima? Teniamo presente che il nostro problema
ruota attorno alla decisione scommettere si o no. Allora potremmo
porci il problema opposto, quale deve essere almeno la probabilità
di S perché sia conveniente giocare? Ragiono cioè con la seguente
tabella di probabilità:

Evento Vincita X Pr(X=xi)


S 5.50 P
B = “Non S” -1.0 1-p

A questo punto mi chiedo: per quale valore di p mi è indifferente


giocare e non giocare? Ciò equivale a chiedersi quando la
scommessa è equa, cioè risolvere:

E(X) = 5.50p + (−1)(1 − p) = 0 ,

da cui risulta:

5.50p + 1p = 1 ;

ed infine p = 1/(6.5) = 0.15. Ovvero la scommessa è vantaggiosa se


Pr(S) > 0.15. Il Man City deve avere almeno il 15% di probabilità
di battere l’Arsenal perché sia vantaggioso giocare!
Perché è possibile scommettere sul calcio e vincere? Credo (e
spero) che vi rendiate conto che se scommettete alla roulette in
un casino, o peggio ancora, alle macchinette di un bar è
praticamente certo che a lungo andare impoverite. Ciò deriva dal
fatto che state giocando scommesse dal valore atteso negativo,
quindi per quanto possiate godere di periodi fortunati, la legge
dei grandi numeri vi attrarrà inesorabilmente nel territorio delle
perdite. Nel calcio non è così, perché?

La SNAI (o chiunque altro venda scommesse) non fissa quote


oggettive. Il casino sa che la probabilità che esca rosso è 18 su
37 (meno di 1/2 perché c’è lo zero: vince il banco). Ma quale
dovrebbe essere la probabilità “oggettiva” in una partita di
calcio? Non solo non c’è, ma alla SNAI non interessa neppure
saperlo!

Vediamo perché. Riprendiamo l’analisi di Arsenal-Man City: se la


SNAI deve pagare 6.50 a chi ha scommesso 1 euro sul segno 2, dove
trova i soldi? Ovvio, li tira fuori da chi ha scommesso sull’1
(vittoria Arsenal) o sul pareggio (segno X). E questo è
completamente indipendente dalle probabilità oggettive. Supponiamo
che tutta Inghilterra abbia scommesso la cifra w sulla vittoria
Man City, e la cifra z sul pareggio o sconfitta Man City. La SNAI
va in pari se:

Quanto la SNAI restituisce = Quanto la SNAI ha incassato

Quindi:

w*(6.50) = z + w

da cui:

6.50 = (z + w)/w

Ciò significa che la quota della scommessa non comprende nessun


calcolo della SNAI sulle probabilità oggettive. Sono gli
scommettitori, attraverso z e w, che determinano la quota 6.50
della scommessa. La SNAI si affida alla “saggezza della folla”
(“the wisdom of the crowd”). Oppure per dirla diversamente, è il
mercato che “prezza” le probabilità.

Perché uno scommettitore professionista può guadagnare? Vediamolo


con un esempio. Immaginiamo che una squadra con molti tifosi,
poniamo il Milan, stia passando una annata negativa. La prossima
domenica deve giocare contro una provinciale, poniamo l’Empoli,
che sta facendo un buon campionato.

Gioca in casa l’Empoli, quindi vuoi le motivazioni, vuoi lo stato


di forma o altro, i tre esiti 1-X-2 hanno tutti uguale probabilità
oggettiva 1/3. Con queste quote, le tre scommesse dovrebbero tutte
pagare uguale, cioè essere quotate a 3 (in realtà tutte un po’
meno per permettere alla SNAI di guadagnare).

Tuttavia chi scommette può non rendersi conto dell’oggettività


della questione. Nessun tifoso del Milan scommette sull’Empoli e
quello che succede è che le scommesse totali sul segno 1 sono
poniamo w = 10.000 euro, sui segni X-2 sono z = 50.000 euro.
Il calcolo della SNAI è offrire una quota che rifletta il suo
profilo di dare-avere, offrire quindi una quota sulla vittoria
dell’Empoli:

q = (10.000 + 50.000)/10.000 = 6

A questo punto, lo scommettitore professionista gioca l’Empoli,


comprando così una scommessa a valore atteso positivo.

La distribuzione binomiale (o Bernoulliana)

In pratica abbiamo detto che una variabile aleatoria X altro non è


che un numero che non si conosce con certezza, ma che sul quale
possiamo dare una descrizione probabilistica. Già, ma come
facciamo a dare una valutazione di probabilità su questi valori?
Queste probabilità possono arrivare da tre fonti.

La prima è un giudizio soggettivo. Lo abbiamo visto nel caso della


scommessa: non sappiamo se alla fine saremo più ricchi o più
poveri, ma ne diamo una valutazione probabilistica. Il secondo
modo di dare dei giudizi di probabilità è quello di basarci sulle
frequenze relative, come abbiamo fatto all’inizio del corso quando
abbiamo costruito le distribuzioni di frequenza, che abbiamo
descritto come “approssimazioni della probabilità”. Infine c’è un
terzo metodo, che potremmo dire modellistico, nel quale deriviamo
una legge di probabilità generale attraverso dei meccanismi
astratti, che speriamo però abbiano validità generale, almeno come
metafora di tante situazioni reali. I più comuni di questi
meccanismi sono i cosiddetti “processi urna”. Il più semplice di
questo porta alla legge di probabilità bernoulliana.

Si immagini di avere un’urna contenente un numero imprecisato di


palline bianche e palline rosse. Conosciamo solo la loro
proporzione: p è quella delle bianche, (1-p) = q quella delle
rosse. Si immagini di svolgere la un numero n di estrazioni,
osservare il colore della pallina, quindi reinserire la pallina
nell’urna. Questo reinserimento è molto importante, perché allora
la proporzione di palline bianche e rosse rimane sempre identica.
Nel gergo del modello, chiamo S = “successo” l’evento “esce una
pallina bianca”, N = “insuccesso” l’uscita della rossa.

Ci chiediamo ora: quale è la probabilità di una sequenza di


estrazioni nelle quali:
1) Esce per le prime k volte S;
2) Nelle successive n – k esce N.

La sequenza di cui vogliamo calcolare la probabilità è quindi:

S − S − ... − S −N − N − ... − N
k volte n − k volte

e dal momento che ogni estrazione è indipendente dalle altre,


risulta

Pr[ S − S − ... − S −N − N − ... − N ] = p ⋅ p ⋅ ... ⋅ p ⋅ q ⋅ q ⋅ ... ⋅ q = p kq n − k


k volte n − k volte k volte n − k volte

Esempio, se p = 1/3, allora q = 2/3. facciamo 5 estrazioni, quale


è la probabilità di avere una sequenza S-S-S-N-N? Facile:

3 2

Pr[S − S − S − N − N ] =     = 0.0165 .
1 2
3 3

Il passo successivo è chiedersi: quale è la probabilità di avere


una sequenza nella quale ci sono esattamente k successi e n-k
insuccessi? Questo vuol dire che non ci interessa l’ordine con cui
questi successi arrivano, possono essere i primi k lanci o gli
ultimi k lanci, oppure sparpagliati nel corso delle n estrazioni.
Certo però, ogni singola sequenza avrà la stessa probabilità
p kq n − k . Bene, se voglio calcolare la probabilità di avere
esattamente k successi, dovrò contare quante sono le sequenza di n
lanci che contengono esattamente k successi. Devo farlo a mano?
Per fortuna no: c’è una formula del calcolo combinatorio che fa al
caso nostro, essa è:

n n! n(n − 1)(n − 2)...2 ⋅ 1


k  = =
  k !(n − k)! k(k − 1)...2 ⋅ 1 ⋅ (n − k)(n − k − 1)...2 ⋅ 1

Combinando i due risultati, abbiamo la legge di probabilità


binaria o bernoulliana:

n
Pr[X = k] = k  p kq n − k
  probabilità
sin gola
numero sequenza
sequenze

Se quindi vogliamo sapere quale è la probabilità di avere 3


successi da 5 estrazioni (proseguimento dell’esercizio
precedente), otteniamo:
5·4·3·2·1
Pr[X = 3] = (0.0165) = 10·(0.0165) = 0.165
3·2·1·2·1

Variabili aleatorie continue

E’ opportuno a questo punto introdurre le variabili aleatorie


continue. Sono la stessa cosa delle variabili aleatorie discrete,
ma a poiché assumono un numero infinito di valori in un intevallo
qualsiasi, non possiamo più descriverle con la distribuzione di
probabilità precedente. In precedenza “masse” di probabilità erano
assegnate a singoli numeri. Adesso, nel caso continuo, la
probabilità che esca un particolare numero (che può essere anche
un numero irrazionale) è sempre 0. La probabilità nulla si spiega
proprio con il numero infinito di possibili misurazioni di X, ciè
con la continuità dei numeri reali.

Supponiamo di partecipare ad un torneo di lancio del peso, allora


X è la variabile aleatoria che descrive il risultato di un nostro
lancio. Immagino che sia improbabile che io riesca a lanciare un
oggetto pesante a distanza maggiore di 5 metri. Allora io so che
il risultato sarà: 0 ≤ X ≤ 5 . A questo punto la probabilità puntuale
che il mio lancio sia esattamente X = 4.1 metri è esattamente 0.
Grosso modo il mio lancio potrebbe essere qualcosa tra a 2.02 e
2.03 metri, ma appunto, è impossibile che il mio lancio sia
esattamente uguale a 4.1 .

Ovviamente non è proprio il caso a questo punto di fare la lista


delle differenze tra insiemi densi e insiemi compatti, tra
infiniti numerabili e non numerabili e via dicendo. Ci basta
intuire che se X è continua e x è una sua realizzazione, non posso
assolutamente avere un assegnamento di probabilità puntuale del
tipo Pr(X = x). Tuttavia posso avere un assegnamento di
probabilità intervallare del tipo:

Pr(a ≤ X ≤ b) = p .

Nell’esempio di “Io che lancio un peso” potrei approssimare gli


esiti del lancio in questo modo:

Intervallo Probabilità
0-1 metri 0.35
1-2 metri 0.25
2-3 metri 0.20
2-4 metri 0.15
4-5 metri 0.05

In generale potrei ottenere le stime di Pr(a ≤ X ≤ b) attraverso


esperimenti empirici, ma come vedremo, potrebbero esserci anche
dei risultati teorici che mi dicono come dovrebbe essere in
certuni casi e sotto certune ipotesi il valore di Pr(a ≤ X ≤ b).
Per ora i nostri ragionamenti restano astratti, ne vedremo poi
alcune applicazioni. “Essere astratti” significa che per adesso
non dobbiamo fare nessun calcolo, ma solo seguire il ragionamento.

Per descrivere le probabilità, adesso ho bisogno di una funzione


f(x). Quindi la probabilità di ottenere un valore a ≤ X ≤ b
corrisponde all’area della figura geometrica disegnata in figura
xxx, ovvero il cossiddetto integrale di f nell’intervallo a, b.

Definizione: Se la probabilità di una variabile aleatoria X può


essere descritta come:

Pr(a ≤ X ≤ b) = ∫ab f(x)dx ,

allora f(x) è detta funzione di distribuzione di X, (o funzione di


densità di probabilità di X).

Se qualcuno di voi ha già visto gli integrali, si ricorderà che


sono un qualcosa di simile alle sommatorie. Anzi, l’integrale
veniva introdotto quando si dovevano calcolare delle sommatorie
sul continuo. A noi basta osservare che grosso modo il significato
di ∫ è simile a quello di Σ , e che f(x)dx assomiglia molto a Pr(X
= xi). Allora per analogia, possiamo comprendere che se X è una
variabile aleatoria continua, allora:

E(X) = ∫ x ∈D xf(x)dx ,

Var(X) = ∫ x ∈D(x − E(X))2f(x)dx

dove x ∈ D significa che l’integrale va calcolato su quei valori


di x che appartengono al dominio D. Complicato? Tranquilli, in
pratica non capita quasi mai di dovere veramente calcolare questi
integrali, e comunque non in questo corso. Dobbiamo solo ricordare
che esistono variabili aleatorie sia discrete che continue, che
possiamo entrambe caratterizzarle da distribuzioni di probabilità,
che entrambe sono descrivibili con medie e deviazioni standard.