Sei sulla pagina 1di 287

paolo baldi

calcolo
delle probabilità
e statistica

McGraw-Hill Libri Italia srl

Milano • New York • St. Louis • San Francisco • Oklahoma City • Auckland
Bogotà • Caracas • Hamburg • Lisboa • London • Madrid • Montreal • New Delhi
Paris • San Juan • Sao Paulo • Singapore • Sidney • Tokyo • Toronto
Ogni cura è stata posta nella raccolta e nella verifica della documentazione contenuta
in questo libro. Tuttavia né l'Autore, né la McGraw-Hill Libri Italia possono assumersi
alcuna responsabilità derivante dall'utilizzo della stessa. Lo stesso dicasi per ogni
persona o società coinvolta nella creazione, nella produzione e nella distribuzione di
questo libro.

Copyright @1992 McGraw-Hill Libri Italia


piazza Emilia, 5
20129 20129 Milano
I diritti di traduzione, di riproduzione, di memorizzazione elettronic,a e di adatta-
mento totale e parziale con qualsiasi mezzo (compresi i microfilm e le copie fotosta-
tiche) sono riservati per tutti i paesi.

Il testo è stato composto dall'autore in TEX


Capo redattore: Massimo Esposti
Redattore: Chiara Tartara

Hanno collaborato a questo volume:


Grafica di copertina: Achilli & Piazza e Associati
Stampa: Arti Grafiche Battaia snc, Rozzano (MI)

ISBN 88-386-0693-5
2=edizione aprile 1993

Printed in Italy
-156i890GBTLLC9E
Indice

Introduzione Vll

1 Spazi di probabilità
1.1 Fenomeni deterministici e casuali 1
1.2 Spazi di probabilità 2
1.3 Spazi di probabilità uniformi 6
1.4 Proprietà degli spazi di probabilità 7
1.5 Probabilità condizionale, indipendenza 10
1.6 Calcolo combinatorio 15
Esercizi 18

2 Variabili aleatorie discrete


2.1 Variabili aleatorie e loro distribuzioni 21
2.2 Variabili aleatorie discrete 23
2.3 Leggi congiunte, indipendenza 34
2.4 Calcoli con densità 41
2.5 Speranza matematica 47
2.6 Momenti, varianza, covarianza 52
*2.7 Funzioni generatrici 59
*2.8 Somme aleatorie 66
Esercizi 69

3 Variabili aleatorie continue


3.1 Definizioni 73
3.2 Variabili aleatorie assolutamente continue 77
3.3 Densità congiunte, indipendenza 79
3.4 Calcolo di leggi 91
3.5 Leggi normali 97
3.6 Leggi gamma 99
3.7 Speranza matematica, momenti 105
3.8 Speranza condizionale 111
3.9 Funzioni caratteristiche 114
3.10 Generatori aleatori, simulazione 120
3.11 Leggi normali multivariate 122
Esercizi 126
v1 Indice

4 Convergenza e approssimazione
4.1 La legge dei grandi numeri 131
4.2 Convergenza in legge . 135
4.3 Il Teorema Limite Centrale 138
4.4 Approssimazione normale 140
Esercizi 143

5 Catene di Markov
5.1 Definizione e generalità 147
5.2 Calcolo delle leggi congiunte 149
5.3 Classificazione degli stati 152
5.4 Problemi di àssorbimento 155
5.5 Probabilità invarianti 162
5.6 L'algoritmo di Metropolis, simulated annealing 166
5.7 Stati numerabili 169
5.8 Stati numerabili: ricorrenza e transitorietà 175
5.9 Esempi: file d'attesa 181
Esercizi 184

6 Statistica Matematica
6 .1 Modelli statistici 189
*6.2 Stimatori di varianza minima 195
*6.3 Stimatori di massima verosimiglianza 198
*6.4 Stimatori di Bayes 200
6.5 Test 205
6.6 Stima e test per campioni gaussiani 207
6.7 Il test del x2 215
6.8 Un esempio di analisi statistica 217
6.9 Regressione linea.re 220
6.10 Il teorema di Cochran 229
6.11 Regressione multipla 235
6.12 Regressione lineare: predizione 243
6.13 Regressione lineare: l'analisi del modello 248
Esercizi 259

Soluzioni 263

Tavole numeriche 275

Indice Analitico 279


Introduzione

Negli ultimi anni è aumentata la richiesta di insegnamenti di Probabilità e


Statistica in corsi di laurea diversi da quello di Matematica.
Molti di questi hanno in comune due esigenze: la prima è la necessità di
servirsi -dei soli strumenti matematici del biennio d'Ingegneria. La seconda è
di mettere l'accento su come si usano i risultati teorici per la risoluzione di
problemi concreti, piuttosto che sull'approfondimento logico della teoria, che è
invece l'atteggiamento tipico del corso di laurea in Matematica.
Questo libro si avvale dell'esperienza di alcuni anni nell'insegnamento di
Calcolo delle Probabilità e Statistica ( CPS nel gergo degli studenti) per il
corso di Laurea in Scienza dell'Informazione, ma può probabilmente essere
usato anche per altri corsi ( specialmente nella Facoltà d'Ingegneria, oltre a
quelli dei futuri corsi di diploma) che hanno le stesse esigenze.

***
Lo scopo di questi insegnamenti cosiddeùf·•di servizio" è di mettere effet-
tivamente gli studenti in grado di affrontare i problemi di Calcolo delle Pro-
babilità e Statistica che incontreranno nel prosieguo del corso di Laurea in cui
sono impegna.ti. Ciò implica la necessità di giungere, in un tempo limitato, a
svolgere temi relativamente avanzati, e dunque il sacrificio di altri argomenti,
pure interessanti. Per questo motivo è stata fatta la scelta di limitare a pochi
accenni sbrigativi le questioni rituali dei fondamenti e dell'uso della teoria della
misura.
I primi 5 capitoli (tranne forse i paragrafi 3.11, 5.7 e 5.8) svolgono un
programma adeguato per un corso di 40 ore, specialmente se parte degli esempi
sono trattati in un corso di esercitazioni. Il resto del materiale può essere
utilizzato per un corso più lungo.
Il paragrafo 3.11 (peraltro importante in sè) e le parti scritte in carattere più
piccolo sono indispensabili solo se si affrontano le tematiche legate al teorema
di Cochran (paragrafo 6.10).
Anche i paragrafi che sono segnati nell'indice con un asterisco non sono
indispensabili alla comprensione del seguito e possono essere evitati da un
viii Introduzione

docente che desideri guadagnare tempo per sviluppa.re altri argomenti. Inoltre,
volendo, il capitolo 5 (Catene di Markov) può essere affrontato subito dopo il
capitolo 2.

***
I
L'uso dei calcolatori nelle applicazioni della matematica ha avuto, negli
ultimi vent'anni, un grande impulso anche per il Calcolo delle Probabilità e
la Statistica e di ciò si è avuto un riflesso anche nell'insegnamento.
Da una parte infatti hanno assunto un certo rilievo argomenti come la
generazione di numeri a caso e la costruzione di algoritmi di simulazione; in
questo testo alcuni spazi sono stati riservati a queste tematiche, che sono spesso
collegate a interessanti sviluppi teorici.
Dall'altra. l'uso di software specifici e facilmente accessibili permette ora.
allo studente di cimenta.re la. propria. formazione in veri problemi di statistica.,
resi ardui in altri tempi dalla presenza di lunghi, e poco significativi, calcoli
·numerici e dalla difficoltà di accesso ai metodi grafici. Questi strumenti di ela-
borazione statistica hanno un ruolo importante nel capitolo 6 nel trattamento
degli esempi. ~-

* *' *
Desidero ringraziare tutti i colleghi che con i loro consigli o con la. loro
costru.ttiva disapprovazione hanno contribuito alla messa a punto di queste pa-
gine. In particolare Alberto Frigerio, Giorgio Letta., Federico Marchetti, Mauro
Piccioni, Eugenio Regazzini e Marta Sa.nz.

Pa.olo Ba.Idi

.r-.-Jarzo
1993
Questo libro è dedicato a Alberto Fr-iger-io
1
Spazi di probabilità

1.1 Fenomeni deterministici e casuali

Nei problemi di predizione si incontrano due tipi di situazioni.


Se una pallina cade siamo in grado di dire istante per istante quale sarà. la
sua posizione e, più in generale, dato un sistema meccanico è sempre possibile
teoricamente, se si conoscono le condizioni iniziali, risolvere le equazioni del
moto e dire quale sarà. lo stato del sistema ad un assegnato tempo t.
S_ei_nveç~v_iene lanciata 1:tfi-a.tQ_oneta
non c'è modo di prevedere su quale
faccia cadr_à, il che si esprime dicendo che questo esperimento è aleatorio (o
casuale). Ciò però non significa che in un esperimento casuale non si possa
dire niente del risultato: se si estrae una pallina da un 'urna contenente 999
palline bianche e 1 rossa, è chiaro che ci aspettiamo di ottenere come risultato
una pallina bianca e che considereremo l'estrazione della pallina rossa come un
fatto piuttosto eccezionale.
Nei due esempi che seguono vedremo qual è la struttura tipica di un feno-
meno casuale.

Esempio 1.1 Un'urna contiene sei palline numerate da 1 a 6, peraltro iden-


tiche. Una pallina viene estratta a caso e se ne guarda il numero. I possibili
risultati di questa operazione sono i numeri 1, 2, 3, 4, 5, 6. Dire qual è la
probabilità di ottenere 1, ad esempio, significa dare una valutazione di quanto
facilmente il risultato possa essere 1. Talvolta però si è interessati alla probabi-
lità di eventi più complessi, come la probabilità di ottenere un numero dispari
oppure un numero più piccolo(::;) di 4. Se indichiamo con n = {1,2,3,4,5,6}
l'insieme dei possibili risultati, possiamo far corrispondere ad ogni evento un
sottoinsieme di n. Ad esempio l'evento "esce un numero dispari" corrisponderà
al sottoinsieme {1,3,5} mentre l'evento "esce un numero::; 4" corrisponderà.
al sottoinsieme {1, 2, 3,4}. Questa identificazione tra eventi e sottoinsiemi di n
permette di trasportare agli eventi le operazioni di U, n e passaggio al comple-
mentare. Il significato intuitivo di queste operazioni riferite agli eventi è facile:
,e A e B sono sottoinsiemi di n corrispondenti a due eventi allora
2 Capitolo 1

A n B corrisponderà all'evento: "i due eventi associati ad A e B si verificano


entrambi";
A U B corrisponderà all'evento: "uno almeno dei due eventi si verifica";
Ac corrisponderà all'evento: "l'evento associato ad A non si verifica".
In questa identificazione n sarà "l'evento certo", cioè quello che si verifica
certamente, mentre 0 sarà "l'evento impossibile", quello che certamente non si
verifica.
Una valutazione di probabilità sarà un'applicazione P che ad ogni evento
(ovvero ad ogni sottoinsieme di n) associa un numero reale e vorremo che
questo numero sia tanto più grande quanto più l'evento è probabile. Sarà
ragionevole richiedere che P goda di un certo numero di proprietà, ad esempio
che se A e B sono eventi disgiunti (A n B = 0) allora

( 1.1) P(A U B) = P(A) + P(B)


Esempio 1.2 Consideriamo l'istante in cui un certo componente elettronico
si guasta e perciò debba essere sostituito. In questo caso l'insieme dei possibili
risultati è n = Ill+ e anche in questo caso possiamo mettere in corrispondenza
gli eventi di cui vogliamo calcolare la probabilità con dei sottoinsiemi di n.
Ad esempio al sottoinsieme [1,2] corrisponderà l'evento "il componente smette
di funzionare in un istante t compreso tra 1 e 2". A differenza dell'esempio
precedente ora l'insieme dei possibili risultati, n, contiene una infinità ( con-
tinua) di elementi e non è opportuno considerare eventi tutti i sottoinsiemi
di n, poiché la classe di tutte le parti di m,+è un oggetto scomodo da trattare.
Dobbiamo dunque stabilire quali dei sottoinsiemi di n sono eventi. Dato però
il significato intuitivo delle operazioni di intersezione, unione e complementare
quando riferite agli eventi, sarà opportuno che se A e B sono eventi, allora
anche A n B, A U Be Ac lo siano. Infatti gli eventi sono i sottoinsiemi di cui
si può calcolare la probabilità ed è opportuno che si possa parlare della proba-
bilità, ad esempio, che due eventi si verifichino entrambi oppure che un evento
non si verifichi. Quindi vorremo che la classe A' degli eventi sia stabile per le
operazioni di intersezione, unione e complementare.

1.2 Spazi di probabilità

Come è suggerito negli esempi precedenti, nello studio di un fenomeno casuale


siamo sempre jn presenza di
a) un insieme n (l'insieme dei possibili risultati)
b) una famiglia A di sottoinsiemi di n tale che
b1 ) se A, BE A allora A U BE A
Spazi di probabilità 3

h 2 ) se A, BE A allora A n BE A
h 3 ) se A E A allora Ac E A
È chiaro che, per ricorrenza, da b 1 ) si ricava che se Ai, ... , An E A allora
LJ~1 Ai E A e analogamente da b 2 ) se A1, ... , An E A allora la loro interse-
zione è ancora in A.

Definizione 1.3 Una famiglia A di parti di un insieme n si dice una CT-algebra


( o tribù) se
i) 0,S1EA
ii) Se A E A allora Ac E A
iii) Se A1, ... , An, ... E A allora
00
iiia) LJAn E A
n=l

n An' EA
00
iiib)
n=l
Osserviamo che la Definizione 1.3 è ridondante nel senso che la condizione iiib)
è conseguenza di ii) e di iiia) grazie alla formula di De Morgan

Allo stesso mod9 iiia) è conseguenza di iiib) e ii).

Definizione 1.4 Sia. n un insieme, A una CT-algebra di parti di n. Una. pro-


babilità P è un 'applicazione P: A -+ IR,+ tale che
1) P(S1) = 1
2) Se {An}n è una successione di elementi di A a due a due disgiunti, allora
(a-additività)

Definizione 1.5 Chiameremo spazio di probabilità una terna (O, A, P) dove


n è un insieme
A è una CT-algebradi pa.rti di O
P è una probabilità su A.

Come è suggerito dagli esempi, gli spazi di probabilità sono dei modelli mate-
matici non innaturali di fenomeni non deterministici. Affrontando un problema
4 Capitolo 1

concreto il primo passo consisterà nella costruzione di uno spazio di probabilità


adeguato. Questa prima operazione ( modellizzazione) viene effettuata basan-
dosi su considerazioni empiriche e soggettive, tenendo conto della natura del
problema. Ciò significa che in generale, dato un fenomeno aleatorio, non c'è
uno spazio di probabilità privilegiato che lo descriva ed è anzi possibile che
persone diverse scelgano di studiarlo mediante spazi di probabilità differenti.
Nella maggior parte dei problemi trattati in questo libro alcuni concetti
fondamentali del Calcolo delle Probabilità (equiprobabilità, indipendenza, ... )
permetteranno di costruire uno spazio di probabilità "naturale". Anche in
questi casi però la costruzione si basa sulla ipotesi, soggettiva anche se spesso
ragionevole, che il fenomeno soddisfi a certe proprietà.
Si pone quindi il problema di verificare, a. posteriori, la. bontà di uno spazio
di probabilità come modello di un dato fenomeno aleatorio. È questo uno dei
compiti della Statistica Matematica.

Ad esempio, nel ca.so dell'Esempio 1.1 è ragionevole, sulla base della discussione
fatta, considerare lo spazio di probabilità dato da

n = {1,2,3,4,5,6}
A= P(f2) (tutte le parti di f2)

Resta da determinare la probabilità P. Ma per la natura del problema, se


nell'estrazione non c'è modo di distinguere le palline, è ragionevole supporre
che i possibili risultati si verifichino tutti con uguale probabilità, cioè che sia
/

P({l}) = P({2}) = P{{3}) = P({4}) = P({5}) = P({6}) = p


Il numero p risulta dunque determinato da.Ila.relazione

1 = P(f2)= P({l} U {2} U {3} u {4} U {,5}U {6}) =


= P({l}) + P({2}) + P({3}) + P({4}) + P({.5}) + P({6}) = 6p

cioè p = ¼.Siamo ora in grado di calcolare la probabilità di tutti gli eventi.


Ad esempio se A = {1,3,,5} allora A si può scrivere come unione disgiunta
{1} U {3} U {5} e dunque

P(A) = P( {1}) + P( {2}) + P( {3}) = ~


e più in generale per un evento A e n sarà

P(A) =#A= #A
6 #f2
Spazi di probabilità 5

dove con il simbolo #A indichiamo la cardinalità dell'insieme A.

Un problema tecnico invece si pone per l'Esempio 1.2. È ovviala scelta n = JR+
(f! è l'insieme dei possibili risultati). Vedremo inoltre che sotto certe ipotesi è
ragionevole imporre che sia

(1.2) P([a,b])= e-;\a - e-;\b

dove >.è un parametro positivo. Non è invece chiaro quale sia la a-algebra
degli eventi. Infatti gli intervalli [a, b] non costituiscono una a-algebra (non
sono stabili per unioni finite o numerabili, ad esempio) ed inoltre la a-algebra
P(f!) di tutte le parti di n non è adeguata perché non è possibile definirvi
sopra una probabilità P che assuma sugli intervalli il valore dato da (1.2). Il
problema dunque è il seguente: esiste una a-algebra di parti di lR+, contenente
gli intervalli, sulla quale si possa definire una probabilità P che sugli intervalli
prenda il valore dato da ( 1.2)? A questa domanda si può rispondere in maniera
affermativa, usando però tecniche matematiche che vanno al di là degli obiettivi
di questo testo. Torneremo su questo punto nel capitolo 3.

Nelle Definizioni 1.3 e 1.4 abbiamo imposto delle condizioni, la iii) della Defi-
nizione 1.3 e la 2) della Definizione 1.4, che sono più forti di quanto gli esempi
del paragrafo precedente suggerissero. Infatti ora imponiamo che una unione
numerabile di eventi sia 1 ancora un evento (e non solo una unione finita) e che
la probabilità P sia additiva su una famiglia numerabile (e non solo su una
famiglia finita) di eventi a due a due disgiunti.
È in effetti possibile definire dei modelli nei quali la probabilità è solo finita-
mente additiva e che sono molto utili in alcune situazioni; noi però adotteremo
il pnnto di vista delle Definizioni 1.3 e 1.4 per vari motivi, non ultimo dei qu-
ali il fatto che questi modelli sono ormai usati quasi universalmente da molto
tempo e che i risultati ottenuti sono soddisfacenti.

Non è inopportuno comunque sottolineare ancora la differenza concettuale tra


le due fasi dello studio di un fenomeno aleatorio. La prima (modellizzazione) è
essenzialmente soggettiva (non ha senso, ad esempio, dimostrare che uno spa-
zio di probabilità è un buon modello). La seconda, nella quale si fanno calcoli
usando lo spazio di probabilità, necessita invece il rigore usuale in matematica.
Il lettore non deve quindi stupirsi se nella fase di rnodellizzazione ci acconten-
teremo di argomenti euristici (parleremo di spazi di probabilità "ragionevoli"
o "naturali") mentre una volta scelto lo spazio (f!,A,P) richiederemo che 1~
sue proprietà sia.no dimostrate e che i calcoli siano giustificati.
6 Capitolo 1

1.3 Spazi di probabilità uniformi

Una situazione nella quale è facile costruire uno spazio di probabilità ragione-
vole che descriva un dato fenomeno aleatorio si presenta quando, per la natura
del problema ( come nell'Esempio 1.1), si può supporre che tutti i possibili ri-
sultati abbiano la stessa probabilità di verificarsi.

Sian un insieme di cardinalità finita.Una distribuzione di probabilità uniforme


su n è una probabilità P tale che P( {w}) = p, dove w E ne p è un numero che
non dipende da w. Dalla relazione

1 = P(n) =L P({w}) = p· #n
wEO

si ricava che P( {w}) =p = #ln. È ora facile vedere che se _poniamo per ogni
Acn

( 1.3) P(A) = p · #A= -#A


#n

allora P è una probabilità sq P(n) ed è anzi l'unica che assegna a tutti gli
eventi della forma {w} la stessa probabilità.
Ritroviamo nella ( 1.3) una definizione popolare di probabilità: la probabilità
di un evento è il rapporto tra il numero di casi favorevoli ( #.4.) ed il numero
di casi possibili ( #n). Attenzione però: questa relazione vale solo quando la
natura del fenomeno è tale che si possa supporre che tutti i possibili risultati
sia.no equiprobabili.
La formula (1.3) lega, per uno spazio di probabilità finito e uniforme, il
calcolo della probabilità di un evento a quello della cardinalità di un insieme
( calcolo combinatorio).

Esempio 1.6 Qual è la probabilità di fare terno al lotto giocando i numeri


3, 13, 8ì su una singola ruota?
Al gioco del lotto vengono estratte, per ogni ruota e senza reimbussola-
mento, 5 palline da un 'urna che ne contiene 90, numerate da 1 a 90. Possiamo
scegliere per n l'insieme di tutte le cinquine w = (w1 , ••• ,w 5 ) dove gli w; pos-
sono assumere i valori da 1 a 90, ma devono essere tutti diversi tra. loro. Se
l'estrazione non è truccata, è naturale supporre che tutte le possibili cinquine
abbiano la stessa probabilità. di essere estratte, il che significa che è ragionevole
considerare su n la distribuzione uniforme. L'evento che ci interessa è dato dal
Proprietà degli spazi di probabilità 7

sottoinsieme A e n delle cinquine che contengono i numeri 3, 13 e 87. Per (1.3)


il calcolo della probabilità di A è ricondotto al calcolo delle cardinalità di A
e di n. Vedremo più tardi alcuni risultati di calcolo combinatorio con i quali
rispondere a questa domanda.

1.4 Proprietà degli spazi di probabilità

Vediamo ora alcune proprietà generali di uno spazio di probabilità (n, A, P)


come conseguenza delle definizioni.
Osserviamo intanto che se A E A allora anche Ac E A e si ha A U Ac = n.
Dunque se BE A abbiamo B = B n (A U Ac) = (B n A) U (B n Ac) e gli eventi
B n A e B n Ac sono disgiunti; quindi

( 1.4) P(B) = P(B n A)+ P(B n Ac)

• Se A E A allora
P(Ac) =1- P(A)
r segue da ( 1.4) scegliendo B = n).
• Se A C B allora P(A) ~ P(B). Si ha infatti da (1.4)

P(B) = P(B n A)+ P(B n Ac) = P(A) + P(B n Ac) 2: P(A)

• Dalla formula di De Morgan (UnAnf = nn A~ si ricava

( 1.5)

Questa formula può essere utile nel calcol9 della probabilità. cli una riunione di
eventi n~~-disgiunti. -· - - - - -

Esempio 1. 7 Qual è la probabilità di ottenere almeno una volta 6 lanciando


due volte un dado?
L'insieme dei possibili risultati è n = {w; w = (w 1 , w2 ), wi = 1, ... , 6, i =
1, 2}. È chiaro che #n = 6 x 6 = 36 mentre l'evento che ci interessa è

A= {w;w = (w1,w2) dove almeno uno degli Wi è 6}


Possiamo seri vere A = A1 U A2 dove A; = {w; = 6} ( cioè A1 è il sottoinsieme
8 Capitolo 1

delle coppie w = (w1 ,w2 ) che hanno la prima coordinata uguale a 6, mentre
A2 è il sottoinsieme delle coppie per le quali è la seconda coordinata ad essere
uguale a 6). Gli eventi Ai non sono disgiunti (la loro intersezione contiene
w = (6,6)) ma Af n Af è l'insieme di tutti gli w le cui componenti w1,w2
possono prendere solo i valori da 1 a 5; dunque #(Af n Af) = 5 X 5 = 25. Per
la (1.5) quindi

e e 25 11
P(A) = 1 - P(A 1 n A2 ) = 1 - 36 = 36 = 0.306

• Probabilità della unione di pi_ù_eventi (non necessariamente disgiunti). Se A


e -.Bsonoaue event1;ilforà- -- - -

P(A u B) = P(A) + P(B n Ac)


perché A e B n Ac sono disgiunti e la loro unione è A U B. D'altra parte per
(1.4) P(B n Ac) =
P(B) - P(B n A) e quindi

( 1.6) P(A U B) = P(A) + P(B) - P(A n B)

Esempio 1.8 Rispondiamo alla stessa questione dell'Esempio 1.7 usando


( 1.6). Con le stesse notazioni si ha

Ora P(Ai) = P(A 2 ) =½(probabilità di ottenere 6 in un singolo lancio) mentre


A 1 n A2 è costituito dal solo elemento (6, 6) ed ha dunque cardinalità uguale a
1. La probabilità richiesta vale dunque ½+ ½- 6 = l 1~.
Formule simili a ( 1.6) esistono per la riunione finita di un numero qualunque
di eventi. Ad esempio per tre eventi A, B, C si ha, usando ripetutamente ( 1.6),

P(A U B U C) = P((A U B) U C) = P(A U B) + P(C) - P((A U B) n C) =


= P(A)+ P(B) - P(A n B) + P(C) - P((A n C) u (B n C)) =
= P(A) + P(B) + P(C) - P(A n B) - P(A n C) - P(B n C) + P(A n B n C)
Come si vede queste formule diventano rapidamente complicate al crescere del
numero n di eventi coinvolti e sono raramente usate al di là di n = 3.
Proprietà degli spazi di probabilità 9

Teorema 1.9
i) Sia {An}n una successione crescente di eventi (tale cioè che A1 C A 2 C
.··he ... ) e A= UnAn. Allora
P(A) = n-+oo
lim P(An)

ii) Sia {An}n una successione decrescente di eventi e A= nn An. Allora


P(A) = n-+oo
lim P(An)

Dimostrazione. i) Poniamo B1 = A1, Bn = An \An-1· Gli eventi B1,B2 ...


sono a due a due disgiunti; proviamo infatti che Bn e Bk, n-/- k, sono disgiunti:
se n > k allora Bk C Ak, mentre Bn è contenuto in A~_ 1 che a sua volta è con-
tenuto in Af. Bn e Bk sono dunque disgiunti essendo contenuti rispettivamente
in A~ e Ar. Si ha inoltre
n
An = LJBk
k=I
In effetti il modo più semplice di dimostra.re che due insiemi sono uguali consiste
nel provare che il primo è contenuto nel secondo e il secondo nel primo. In questo
caso se k :S n Bk e Ak C An e dunque An :J LJ;= 1 Bk. Se invece w E An, sia k
il più piccolo indice tale che w E Ak. Chiaramente si ha w E Ak ma w (/. Ak-1
e dunque w E Ak \ Ak-1 = Bk. Dunque An e LJ;=t Bk. Allo stesso modo si
dimostra che
00

A= LJBk
k=l
Poiché gli eventi B 1 , B2, ... sono disgiunti
n

k=I
OC> n
P(A) = "P(Bk)
~
= n-+oo
lim "P(Bk)
~
= n--+oo
lim P(An)
k=I k=l

che dimostra il punto i). Per il punto ii) basta osservare che se A = nn An
allora Ac = UnA~. Ma poiché la successione {An}n è decrescente, {A~}n è
crescente; applicando il punto i) si ha dunque
P(A) =1- P(Ac) =1- lim P(A~)
n-+oo
= n--+CX>
lim (1 - P(A~)) = n-+cc
lim P(An)
10 Capitolo 1

1.5 Probabilità condizionale, indipendenza

Sia (n, A, P) uno spazio di probabilità.

Definizione 1.10 Siano A, B E A con P(A) > O. Si chiama probabilità condi-


zionale di B rispetto ad A la quantità

P(B I A)= P(A n B)


P(A)

Intuitivamente la probabilità condizionale P(B I A) è la probabilità che B si


verifichi sapendo che A si è verificato.

Esempio 1.11 Si giocano alla roulette i numeri 3, 13, 22. Poiché i possibili
risultati sono 37 (i numeri da O a 36) ed è naturale considerare la distribuzione
uniforme, la probabilità di vincere è 3/37. Se però veniamo a sapere che il
gioco è truccato in modo che esca un numero dispari, qual è ora la probabilità
di vincere?
Se poniamo B = {3,13,22} e A= {1,3,5, ... ,3.5} un istante di riflessione
mostra che ora la probabilità di vincere è

P(B I A)= P(A n B) 1


P(A) 9

La scrittura P(B I A) può trarre in inganno: non si tratta della probabilità


dell'evento B I A (che non abbiamo definito), ma della probabilità dell'evento
B secondo la nuova probabilità P(· I A).
La nozione di probabilità condizionale è quindi legata al calcolo di probabi-
lità quando si venga a sapere che sono verificati certi eventi.
Essa è però importante anche nel problema di modellizzazione, perché un
problema concreto spesso impone che, nello spazio di probabilità che si deve
costruire, siano assegnate sia le probabilità di certi eventi, sia le probabilità
condizionali di altri.

Esempio 1.12 Una popolazione si compone per il 40% di fumatori (F) e per
il 60% di non fumatori (N). Si sa che il 2,5% dei fumatori ed il 7% dei non
fumatori sono affetti da una forma di malattia respiratoria cronica (M) . Qual
è la probabilità che un individuo scelto a caso sia affetto dalla malattia?
È chiaro che se (O, A, P) è uno spazio di probabilità che descrive questa
si tu azione, A dovrà contenere gli eventi
Probabilità condizionale, indipendenza 11

F : l'individuo prescelto è fumatore


N : l'individuo prescelto è non fumatore
M : l'individuo prescelto è affetto dalla malattia
e che dovrà essere

P(F) = 0.4 P(N) 0.6


P(M I F) 0.25 P(M IN) = 0.07

È quindi facile calcolare

P(M) = P(M n F)
I
+ P(M n N) = P(F) P(M i F) + P(N) P(M I N) = 0.142

Siano A 1 , ••• , An eventi disgiunti tali che A 1 U ... U An = n (il che si esprime
anche dicendo che A 1 , .•• , An costituisce una partizione di fl). Vale allora la
formula di Bayes

' 1.7) P(Ai I B) = P(Ai)P(B I A;) = t(A;) P(B I Ai)


P(B) ì:::~=
1 P(Ak)P(B I Ak)

La ( l. 7) è facile da verificare perché

P(A; n B) = P(A;) P( BI Ai)

e inoltre, poiché gli eventi A 1 n B, ... , An nB sono disgiunti e la loro unione


i: B,
n n
1.8) P(B) =L P(Ak n B) =L P(Ak)P(B I Ak)
k=l k=l

La (1.7) è interessante perché esprime le P(Ai I B) in termini di quantità che


:·anno intervenire le probabilità P( B I A;).

Esempio 1.13 (Continuazione dell'Esempio 1.12) Qual è la probabilità che


-~na persona affetta. dalla malattia respiratoria sia un fumatore?
La. formula di Ba.yes applicata. alla partizione F, N dà. immediata.mente

P(F I l\J) = P(M I F)P(F) = o 704


P(M) .

Esempio 1.14 Tre mobili tra di loro indistinguibili contengono ciascuno due
·a,:;setti. Il primo contiene una moneta. d'oro in ciascuno dei due cassetti, il
12 Capitolo 1

secondo una moneta d'argento nel primo cassetto ed una d'oro nel secondo, il
terzo una moneta d'argento in ciascuno dei due. Si apre un cassetto a caso e si
trova una moneta d'oro. Qual è la probabilità che anche l'altro cassetto dello
stesso mobile contenga una moneta d'oro?
Consideriamo gli eventi A 1 : il cassetto prescelto appartiene al 1° mobile
A2 : il cassetto prescelto appartiene al 2° mobile
A3 : il cassetto prescelto appartiene al 3° mobile
B : il cassetto prescelto contiene una moneta d'oro
È chiaro che la probabilità richiesta è P(A 1 I B) ed inoltre che

1
P(B I A1) = 1 P(B I A2) = 2
P(B) =~ P(Ai) = -31 i= 1,2,3

Quindi la formula di Bayes dà

P(A I B) = P(A1)P(B I Ai) 2


1 P(B) 3

che è un risultato probabilmente diverso da quello suggerito inizialmente dal-


l'intuizione.

Notiamo che negli ultimi esempi non abbiamo descritto completamente lo spa-
zio di__probabilità, ma. ci siamo limita.ti a. dire che (n, A, P) doveva. contenere
certi eventi con assegnate probabilHà e probabilità condizionali. È chiaro però
che una descrizione completa non sarebbe stata. difficile. Ad esempio nel caso
dell'Esempio 1.14 avremmo potuto considerare n = {wi,j, i= 1, 2 j = 1, 2, 3}
dove che w;,j corrisponde all'evento "viene scelto il cassetto i-esimo del mo-
bile j-esimo", e quindi considerare su n la probabilità uniforme. Nel seguito
vedremo che è spesso possibile evitare una descrizione completa. dello spazio
di probabilità e che solo la conoscenza di una parte di esso sarà rilevante. Del
resto la costruzione completa dello spazio di probabilità sarà sempre possibile,
e spesso evidente come poco fa.

Osserviamo infine che anche la formula (1.8) ha una sua propria utilità. Tal-
volta. non è immediato calcolare direttamente P(B) mentre si può trovare una
partizione A 1, ... , An di n (cioè una partizione dell'evento certo) per la quale il
calcolo di P(B I Ai) sia facile per ogni i (intuitivamente si tratta di decomporre
B in tante parti la cui probabilità si calcoli più facilmente).
Probabilità condizionale, indipendenza 13

Esempio 1.15 Da un'urna contenente b palline bianche e r palline rosse


ne viene estratta una che viene messa da parte senza guardarla. Qual è la
probabilità che la seconda estratta sia bianca?
Consideriamo gli eventi
R 1 : la prima pallina estratta è rossa
B 1 : la prima pallina estratta è bianca
B 2 : la seconda pallina estratta è bianca
È chiaro che, posto n = b + r, P(Ri) =; e P(B 1 ) =~-Inoltre

b-l
P(B2 I B1) = --
n- l
poiché dopo la prima. estrazione di una. pallina. bianca nell'urna sono rimaste
n -1 palline di cui b-1 bianche; analogamente P(B2 I R1) = n~l. Per la (1.8)

bb-l
P(B2) = P(B1)P(B2 I B1) + P(R1)P(B2 I Ri) = - --
nn-l
r
-- b
+ -nn-l = -
n
b

doè la stessa probabilità che estrarre una pallina bianca alla prima estrazione.

Definizione 1.16 ~i dice che A, B E A sono indipendenti se e solo se

P(A n B) = P(A)P(B)
Definizione 1.17 Si dice che A1, ... , An E A sono a due a due indipendenti
,e e solo se

-~·erogni scelta di i, j = 1, ... , n, i f::j. Si dice clie essi formano una famiglia di
,:-·:entiindipendenti se per ogni k '.Sne per ogni scelta di indici i 1 , ... , ik, tutti
:::,;tinti e compresi tra 1 e n si ha

~ .9)

~: conoscono esempi di eventi indipendenti a due a due ma non globalmente .


..:...desempio se n = {1,2,3,4} con la distribuzione uniforme e

A1 = {1,4} A2={2,4} A3 = {3,4}

:.:.:ora A 1 , A2, A3 sono indipendenti a due a due ma


14 Capitolo 1

Se A, B sono indipendenti e P(A) > O, allora la Definizione 1.17 implica

P(B I A)= P(B)

cioè intuitivamente, ricordando il significato della nozione di probabilità condi-


zionale, sapere se A sia verificato o no non apporta nessuna informazione che
modifichi la previsione del verificarsi di B.
Come la nozione di probabilità condizionale la nozione di indipendenza è
utile nei problemi di modellizzazione.

Esempio 1.18 Il lancio di una moneta dà testa con probabilità p, O ~ p ~ 1


e croce con probabilità 1 - p. La moneta viene lanciata n volte. Qual è la
probabilità di ottenere una prefissata sequenza di teste e croci?
Uno spazio ,di probabilità opportuno può essere

n = {w;w = (w1, .. ,,wn),wi = 1 oppure Wj = O,i = 1, ... ,n}

dove 1 sta a indicare che si è ottenuto testa e O che si è ottenuto croce. Se


p = ½ allora P( {w}) = 2-n = in,
perché sarebbe naturale considerare la
distribuzione uniforme su n (tutte le sequenze sono equiprobabili). Se p =/:-½
cerchiamo di determinare quanto debba valere P( {w}) dove w è la particolare
sequenza
w = (1, ... , 1, o,... , O)

Poniamo, per i = 1, ... , n, Ai ={


k
=
w; Wi
------
------ volte n-k volte

1}; il sottoinsieme Ai corrisponde al-


1'evento "il risultato dell'i-esimo lancio dà testa" e quindi P(Ai) = p. Possiamo
ora scrivere
w = A1 n ... n Ak n Af+ 1 n ... n A~
Poiché non c'è motivo di pensare che la conoscenza del risultato di alcuni lanci
dia informazioni utili alla previsione degli altri, gli eventi A1, ... , Ak, Af+ 1 , ... ,
A~ devono risultare indipendenti. Dunque

P( {w}) = P(A1) ... P(Ak) P(Af+ 1 ) .•. P(A~) = pk(l - p)n-k

Un istante di riflessione ora fa ca.pire che questo risultato dipende solo dal
numero di 1 presenti n{'lla sequenza e non dalle loro posizioni. Abbiamo quindi
ottenuto la formula

(1.10)
Calcolo combinatorio 15

dove k è il numero di 1 presenti nella sequenza w.

Nell'Esempio 1.18 si costruisce uno spazio di probabilità per una situazione


molto frequente: quella in cui si è in presenza di una successione di esperimenti
casuali tra di loro indipendenti e ciascuno dei quali può dare luogo a due
possibili risultati che chiameremo convenzionalmente successo (e indicheremo
con 1) e insuccesso (O). ,- _ _
' I
Parleremo di schema successo-insuccesso o di schema di Bernoulli/facendo
riferimento a questa. situazione. · - --- ".' ,' ,, '
." \
It ;: : ·, i., •• 't-
t-'1-
.,. )
- I ' "
I :,,·.·.
··
l . ...
. ;
,,,..-_1. J_;.t
'
1.6 Calcolo combinatorio I

TIcalcolo combinatorio si occupa di calcolare la. cardinalità degli insiemi finiti


e quindi fornisce formule utili per il calcolo della probabilità di eventi quando
si è in presenza. di spazi di probabilità uniformi.
Ora ne vedremo alcuni risulta.ti con le loro applicazioni. Non da.remo le
dimostrazioni, che si possono tutte ottenere facilmente per ricorrenza.. Osser-
viamo comunque che da.Ile formule se ne possono ricava.re altre usando la. regola
di base del calcolo combinatorio: due insiemi hanno la. stessa. cardinalità. se e
solo se si possono mettere in corrispondenza. biunivoca.
Nel seguito indicheremo con N, I( degli insiemi di cardinalità n e k rispet-
'.ivamente.

Proposizione 1.19 N X I( ha. cardinalità nk. Nm =N X N X ... X N (m


,.-olte) ha dunque cardinalità nm.

Proposizione 1.20 Supponiamo k :ç n. La cardinalità dell'insieme Dk delle


I
applicazioni inietti ve f: I( -+ N è ( n :· k )! . - I.

Osserviamo che dare una applicazione iniettiva. da /( in N equivale a scegliere


:na k-upla ordinata (n 1, ... , nk) di elementi di N tutti distinti tra loro_.__
Q~_~r~
: na disp_o~izione di k elementi di N. ·
Se n = k a.llora possiamo supporre I( = N ed una. applicazione iniettiva.
:: .Y in se stesso è una permutazione. L'insieme delle permutazioni di N ha
:·1indi cardinalità n!.
Indichiamo con C'f l'insieme dei sottoinsiemi di N di cardinalità k. -
16 Capitolo 1

Proposizione 1.21 C'f ha cardinalità

(n)
k
n!
- k!(n- k)!

Esempio 1.22 Si gioca al lotto la cinquina secca (1,2,3,4,5) su una ruota


(cioè si vince se i numeri escono nell'ordine). Qual è la probabilità di vincere?
Nelle estrazioni del lotto i numeri estratti non vengono rimessi nell'urna.
L'insieme n dei possibili risultati è quindi costituito da tutte le cinquine w =
(w1 , ••• , w 5 ) dove gli Wi sono diversi tra loro e possono prendere tutti i valori
interi da 1 a 90. n è dunque in corrispondenza biunivoca con l'insieme di tutte
le applicazioni iniettive di {1, ... ,5} in {1, ... ,90} ed ha. quindi cardinalità
90!/85!. La. probabilità richiesta è quindi (è naturale considera.re la. probabilità
uniforme) 8.5!/90!.
Se invece avessimo giocato la. cinquina semplice, con la. qua.le si vince se i 5
numeri escono in un ordine qualunque, allora avremmo potuto a scelta
a) calcola.re la cardinalità dell'insieme A degli w E n tali che {w1 , ••• ,ws} =
{l, ... , 5} ( cioè tale che w 1 , ••• , w 5 siano i numeri 1. ... , 5 eventualmente in un
ordine diverso) e quindi ca.lcola.re #A/#f2;
b) più semplicemente considerare Io spazio di probabilità n = C,~0 ed otte-
nere immediatamente la quantità cercata: 1/ (95°).
In quest'ultimo esempio si vede che la scelta di n non è unica. e che uno
stesso problema può essere risolto correttamente (ma con diversa difficoltà)
scegliendo spazi di probabilità. diversi.

Esempio 1.23 Qual è la probabilità che tra n persone scelte a caso almeno
due festeggino il compleanno nello stesso giorno?
Possiamo scegliere n = sndove S = {1, ... , 365}. Dunque un generico
w E n è della forma w = (w 1 , .•• , Wn) dove Wi può assumere i valori da 1
a 365. Se supponiamo (il che non è del tutto corretto perché si sa che le
nascite sono più frequenti in certi periodi dell'anno) che la probabilità che
una persona sia nata in un \
determinato giorno sia uniforme su {1, ... ,365},
possiamo considerare la probabilità uniforme su n. Dobbiamo ora calcolare
la cardinalità di A = {w E f!; w ha almeno due componenti uguali}. È però
più facile calcolare la cardinalità di Ac = {w E n; w ha tutte le componen-
ti diverse} perché Ac si può mettere in corrispondenza biunivoca. con D~65 •
Dunque #n = 365n e #Ac = 365!/(365 - n)! da cui

P(A) =l _ 365! =1_ 364 363 ... 365 - n +1


365n(365 - n)! 365 365 365

In particolare per n = 23 si ha P( A) = 0.507 > 1/2 e per n = 50 P( A) = 0.97 4.


Calcolo combinatorio 17

Esempio 1.24 egge ipergeometric Da un 'urna contenente b palline bian-


che e r rosse se ne estraggonÒ. ".n n ~ b + r) senza reimbussolamento. Qual è la
probabilità che esattamente k di esse siano rosse?
Possiamo considerare n = c~+re su n la probabilità uniforme P (al solito
A = P(Q)). Supponiamo che le palline siano numerate da 1 a b + r e che le
palline rosse siano quelle con i numeri ~ r. Quindi n è l'insieme di tutti i
sottoinsiemi w = {w1,. .. ,wn} di {l, ... ,b+ r}. Se

Ak = {w; w contiene esattamente k elementi con indice ~ r}

la probabilità richiesta è il quoziente tra #Ak e la cardinalità di n che è data


dalla Proposizione 1.21. Ma un attimo di riflessione mostra che Ak si può
mettere in corrispondenza biunivoca con c{x c!-k
:-Qliindi ·- - lfì1c ,_-,;.\i~ :
___,, ---·-::-. -..-\:
\ '(·-

( ; -i. " ~ •• , ' !, ,L.

, 1.11)

, naturalmente a condizione che sian - k ~be k ~ r). La (1.11) definisce una


?robabilità su {O, 1, ... ,n} che si chiama ipergeometrica.

La (1.11) permette di risolvere immediatamente la questione dell'Esempio 1.6;


,:onsideriamo le 90 palline nell'urna suddivise in due gruppi ( come le palline
~osse e bianche di poco fa): il primo gruppo costituito dalle palline 3,13,8ì
-::dil secondo da tutte le altre. La probabilità di fare terno non è altro che la
~Jfobabilità, in cinque estrazioni, di avere 3 palline del primo gruppo e 2 del
"'?condo. Cioè

1
= 11748 = 0.000085

Esempio 1.25 Un'urna contiene b palline bianche e r rosse; k - l palline


~-< b + r) vengono estratte e messe da parte senza guardarle. Qual è la
;·~obabilità che la k-esima estratta sia rossa?
Consideriamo n = nt+r. Posto al solito w = (w1, ... ,wk), Ai = {wi
3} è l'evento "la i-esima pallina estratta è bianca". Chiaramente P(A 1 )
. ..:__.mentre la probabilità richiesta è P(Ak). Ma l'applicazione </J(w)
: -·1,W2, ... ,wk) = (wk,W2, ... ,w1) è un'applicazione Q ---t Q che è biuni-
·.xa (in effetti <Pscambia la prima e la n-esima coordinata tra loro e dunque
18 Capitolo 1

= w, che implica che q>è biunivoca). Poiché</> trasforma Ak in A1,


</>(<t>(w))
questi due insiemi hanno la stessa cardinalità, e dunque la stessa probabilità
- _b_
- b+r·

Dato un insieme N, una collezione {A 1 ,A 2 , ••• ,Am} di suoi sottoinsiemi si


dice una partizione se essi sono a due a due disgiunti e se la loro unione è
uguale a N. Supponiamo #N = n e fissiamo dei numeri k1, ... , km tali che
k 1 + ... +km = n. Indichiamo con C( k 1, ... , km) l'insieme di tutte le partizioni
{A1,A2, ... , Am} di N tali che

Qual è la cardinalità di C(k1, ... , km)?


Se m = 2 conosciamo già la risposta. In effetti, poiché deve essere k 1 +k2 = n,
allora k 2 = n -k 1 ; una partizione {A 1 , A 2 } E C( k 1 , k 2 ) è assegnata non appena
un insieme di A1 di cardinalità k1 è scelto, poiché necessariamente A2 = Af.
Dunque C(k 1 , k2 ) è in corrispondenza biunivoca con C'f 1 e

(k1n)
Per ricorrenza si può dimostra.re che

Proposizione 1.26

n!
#C(k1, ... ,km) = 1 k 1
k1 · · · · 'm·

Esercizi

1.1 Dimostrare che la funzione d'insieme B -+ P(B I A) è ancora una pro-


bahilità e che essa dà probabilità O agli eventi disgiunti da A. Inoltre se n
ha cardinalità finita e P è la distribuzione uniforme, P(· I A) è la probabilità
uniforme su A.

1.2 Un dado viene lanciato 3 volte. Qual è la.probabilità p di ottenere 6 almeno


una rnlta? Quante volte deve essere lanciato il dado perché la probabilità di
orrenere 6 almeno una volta sia. a.Imeno maggiore o uguale a.I 90%?
Esercizi 19

1.3 Volendo impedire telefonate interurbane ai suoi dipendenti un capoufficio


decide di mettere un lucchetto sui dischi dei telefoni; decide però di metterlo
sul 9, in maniera da impedire solo che venga. formato lo O. In questo modo è
possibile effettuare telefonate urbane, anche se naturalmente può succedere che
un numero urbano contenga uno O, nel qual caso non sarebbe possibile com-
porlo. Considerando dei numeri di otto cifre ( dì cui la prima è certo diversa da
O). qual è la probabilità che un numero possa effettivamente essere chiamato?

1.4 Due numeri vengono estratti, senza reimbussolamento da un 'urna conte-


nente dieci palline numerate da 1 a 10. Qual è la probabilità clie i due numeri
estratti siano consecutivi?

1.5 Un 'urna contiene 2 palline rosse e 4 nere. Due gioca.tori, A e B giocano


:ìPl modo seguente: le palline vengono estratte a una a una e messe da parte .
.-\ vince se l'ultima pa.Jlina. è rossa, altrimenti vince B. Calcola.re:
a) Qual è la probabilità che A vinca.
b) Qual è la probabilità. che A vinca sapendo che la prima pallina estratta.
., rossa.
c) Qual è la probabilità che A vÌJlca e contemporaneamente la prima pallina
"-tratta sia rossa.

1.6 Un 'urna contiene 100 palline numerate da 1 a 100. Ne vengono estratte


~ ron rimpiazzo. Qual è la probabilità che tra le palline estratte ve ne siano
':!meno due uguali?

1.7 Un giocatore gioca al lotto i numeri 1,2,3. Per aiutare la fortuna egli fa
.. 1modo di aggiungere all'urna tre palline supplementari con i numeri 1, 2, 3
quindi ora vi sono nell'urna. 93 palline).
a) Qual è la probabilità clie il trucco venga. scoperto (cioè che vengano
,-tratte almf'no due palline con numeri uguali)?
b) Di quanto è aumentata la sua probabilità. di fare terno? J

1.8 Le chiavi di un mazzo che ne contiene n vengono prova.te una dopo l'altra
-' :-;oa tro-vare quella giusta. Naturalmente le chiavi già prova.te vengono messe
~a parte. Qual è la probabilità c/1e la chiave giusta. venga. trovata a.l k-esimo
·c-ntativo?

1.9 a) Due amici senza saperlo si trovano entrambi in coda ad uno sportello,
-.-ieme ad a/tre n - 2 persone. Qual è la probabilità cli e essi siano separati da
·· persone (n 2: k + 2)?
b) Duf' palline vengono estratte da un 'urna che ne contiene n numerate da
~ a n. Qual è la probabilità cl1e i due numeri differisca.no di k (n 2: k + l)?
20 Capitolo 1

1.10 Dieci urne contengono tutte 4 palline rosse (R) e ed un numero variabile
di palline bianche (B). Più precisamente l'urna i-esima contiene 4 palline R e
i palline B. Un 'urna viene scelta a caso e da essa vengono estratte due palline.
a) Qual è la probabilità che le due palline siano una B e una R?
b) Supponiamo che l'estrazione abbia dato come risultato una pallina B e
una R. Qual è la probabilità Pi che l'urna prescelta sia. la i-esima.? Qual è l'urna
più probabile?
c) Rispondere alle stesse domande, supponendo però che vi siano ora 2 urne
contenenti 4 palline Be 10 R (le urne sono qufodi 11).

1.11 Un 'urna contiene due carte: una di esse ha entrambi i lati neri mentre
l'altra ha un lato nero ed uno bianco. Una. carta viene estratta. e se ne guarda.
uno dei la.ti: è nero. Qual è la probabilità che anche il secondo lato sia nero?
2
Variabili aleatorie discrete
jc ·O •
1
(1, ' J .' '
'' ', ,'
\ ~.· ' "'r.: v
- > ..
1,.f,_;

"

2.1 Variabili aleatorie e loro distribuzioni

)l' ei problemi di calcolo delle probabilità. si è spesso condotti a considerare delle


q t!an_~it~_eh~ s?no funzionidel_risultato di_un_fenomeno casl!ale.

Esempio 2.1 Supponiamo di giocare alla roulette per tre volte 1 milione sul-
1·uscita del numero 29. Sappiamo ormai facilmente calcolare la probabilità di
vincere O, 1, 2 oppure tutte e 3 le partite; in realtà però in questa situazione
più interessante sarebbe fare una previsione su quello che sarà il nostro capi tale
alla fine del gioco. In altre parole ciò che interessa è la quantità

X = ammontare del nostro capitale dopo le tre partite

.-\lcune questioni interessanti sono le seguenti


a) Qual è la probabilità che X sia cresciuto dopo la scommessa?
b) In media il capitale X sarà cresciuto o diminuito?

Definizione 2.2 Dato uno spazio di probabilità. (n, A, P) si dice variabile


~ .'rntoria un 'applicazione X : n -+ IR tale clie per ogni t E R l'insieme
· -·: X(w) :s:;t} sia in A.

··na variabile aleatoria (v.a.) è dunque una funzione di w tale che si possa
·2.'.rnlare P{w; X(w) :S t}, cioè tale che abbia seyso calcolare la probabilità che
.\" prenda valori più piccoli di t.
Pii'1 in generale è fondamentale per le v.a. il calcolo di probabilità del tipo
?: _.: X(w) E A} dove A è un sottoinsieme di R. È di questo tipo la questione
_ dell'Esempio 2.1.
Siamo dunque condotti a studiare l'applicazione

-..:
.1 ) A-+ P{w; X(w) E A}

• ~-p ad ogni sottoinsieme A C 1R associa la probabilità che X prenda valori


22 Capitolo 2

appartenenti all'insieme A. Ci riferiremo a questa applicazione parlando della


legge o distribuzione di X.
In generale non si può definire quest'applicazione per ogni sottoinsieme
A C lll (potrebbe succedere che {w; X(w) E A} non sia un evento), ma non è
questa una grossa complicazione perché vedremo che ciò è comunque possibile
per una classe di sottoinsiemi A abbastanza vasta.
Osserviamo comunque che {w; X(w) > a} è un evento per ogni a E lll (è il
complementare di {w;X(w) ~ a}) e dunque anche

{w;a < X(w) ~ b} = {w;X(w) ~ b} n {w;X(w) > a}

lo è, come intersezione di eventi. {w;X(w) = x} è anch'esso un evento per


ogni x E IR poiché è possibile ottenerlo come intersezione di eventi mediante
la relazione
{w;X(w) = x} = n{w;x-1/n < X(w) ~ x}
n

Nello studio delle leggi delle v.a. considereremo separatamente due ca.si: quello
in cui X può prendere al più una infinità numerabile di valori ( come nell'esem-
pio della roulette di poco fa, dove X ha 4 valori possibili) e quello in cui i valori
possibili sono tutto IR o un suo intervallo.
Un 'altra nozione importante è quella di media_evocata nel punto b) del-
l'Esempio 2.1. Pensando all'esempio della scommessa. si tratta di una nozione
abbastanza intuitiva: anche chi in questo momento non sarebbe capace di darne
una definizione rigorosa. sente intuitivamente che vis_ono scommesse nelle quali
in Ill_ediasi v_inceed altre in cui in media si perde o si rimane in parità.
Definiremo rigorosa.men te la media ( nel gergo probabilistico si chiama. spe-
ranza matematica) di una v.a. X, e vedremo come anche questa nozione sia
strettamente legata a quella di legge,(o distribuzione).
Abbia.mo motivato la nozione di v.a.. con l'opportunità di considera.re delle
funzioni di un esperimento casuale. In realtà la loro importanza va molto più in
là: d'ora. in avanti il modello fonda.menta.le dello studio di un fenomeno aleatorio
sarà. costituito da uno spazio di probabilità (S1,A, P), di cui spesso ignoreremo
la. natura, su cui sono definite delle v.a. con certe leggi assegnate. Questo fatto
~piega l'importanza che nei prossimi capitoli dedicheremo ali 'uso delle v .a. ed
al calcolo delle loro leggi.
Per semplicità di notazione nel seguito scriveremo {X ~ t}, {X E A} ...
im-ece di {w; X(w) ~ t}, {w; X(w) E A} ...
Variabili aleatorie discrete 23

2.2 Variabili aleatorie discrete

In tutto il resto di questo capitolo considereremo delle v.a. X per le quali


supporremo, oltre alla condizione della Definizione 2.2, che prendano al più
una infinità numerabile di valori {x1, ... , Xk, •• •}. Anche se la maggior parte dei
risultati valgono sotto questa sola ipotesi, supporremo per di più che l'insieme
{x 1 , .•• , Xk, •• •} non abbia punti di accumulazione.
Abbiamo visto che gli insiemi

2.2) {X= xi} i= 1,2, ...

-rrno degli eventi.


D'altra parte se gli insiemi in (2.2) sono degli eventi, X è necessariamente
-~na v.a. perché si può scrivere

{X ~ t} = LJ{X = xi}
x;~t

.e:dunque {X ~ t} è un evento come unione (al più) numerabile di eventi.


Quindi gli insiemi in (2.2) sono eventi se e solo se l'applicazione discreta X è
_:1a v.a.
Data una v.a. discreta X consideriamo la funzione p: IR--+ JR+ definita da
:, .r) = P{X = x}. È chiaro che p gode delle proprietà. seguenti:
a) p(x) = O tranne al piit per una infinità numerabile di valori (i valori
':-sunti da X).
b)

~-3) LP(x) =1
xER
r
:,;;_a) è ovvia, mentre per la b) osserviamo che nella somma tutti i termini
-.:,nonulli tranne al più quelli in corrispondenza dei valori x 1 , x2, ... Inoltre gli
~·.-enti{X= xi} sono a due a due disgiunti perché se X(w) = Xi non può essere
·,_·..:)= Xj con Xj =/:-Xi e, infine, poiché X(w) deve essere uguale ad uno dei
· :::ioriX;, si ha U~1 {X= Xi} = n; quindi
00 1 oc oc
L p(xi) =L P{ x = x;} = P ( LJ{x = xi}) = P( n) = 1
i=l i=l i=l

-~.iameremo <f!n_sità
d.iscretauna funzione p che s.od~_isfialle condizioni a) e b)
··:ne sopra.
24 Capitolo 2

La. conoscenza. della densi_tà _p_~_i:_met.te


facilmente di determina.re la legge d:

-
X: ·se A e lR e vogliamo calcola.re P (Y E A} poss1a1no sèriveì·e

(2.4) {X E A}= LJ{X= :ci}


r,EA

Dunque {X E A} è un evento come unione al più numerabile di eventi; gli


eventi {X = x;} sono anzi a due a due disgiunti e dunque

(2.5) p { X E A} = L p { X = X;} = L p( X;)


x,EA

La (2.5) riconduce il calcolo della probabilità P{X E A} al calcolo di una serie


? di una somll!_a.fin_ita., a seconda che A contenga. un numero infinito o finito
di valori xi.

Esempio 2.3 (v.a. indicatrice) Sia (Q,A,P) uno spazio di probabilità e A E


A. Indichiamo con lA la fun::ione indicatrice di .4. cioè la funzione n - lR che
assume il valore 1 su A e O su A e. La sua densità p è data chiaramente da
p(l) = P{lA = 1} = P(A), p(O) = P{lA =O}= 1 - P(A), mentre p(x) = O se
x è diverso da O o da l.

Esempio 2.4 Consideriamo lo schema successo-insuccesso dell"Esempio 1.18.


Qual è la proba.bjJit~ _cli9tt~!l~re k successi in II prove'?
.... Fice~d·~-;if"~imento a.11~sp;;Io- dr probabilità clelrt"sempio 1.1s. si tratta
di calcolare la densità della v .a X (..:) = ..:1 + ... + ..:,, . I\Ja { X = k} non
è altro che l'insieme formato dalle sequenze w che contengono €Sattamente k
simboli 1 e, per la (1.10), ognuna di esse ha probabilità 1i(l - p)n-k_ Dunque
P{X = I.:} è uguale a pk(l - p)n-k moltiplicato per la cardinalità dell'insieme
Ak formato da tutte le possibili sequenze di O e di 1 nelle quali 1 appare
esattamente krvolte. çon_ un attimo di riflessione si vede J:)erò che Ak si può
mettere in corrispondenza biunivoca. con !"insieme dei sottoinsiemi di I,; elementi
·di un insieme di, n elementi_, Per la Proposizione 1.21 dunque #-'ik = G). In
conclusione ;~'i_' ~!'i ·.ì1
\ P{X =I.:}= (n)Ji·(l - p)"-h·
' . !.· ,,...
___

Dunque il numero di successi in uno schema successo-insuccesso è una v.a. di


densità discreta. data da

(2.6) p(x) = {(n) . p~"(1 - p)ll-.l"


:i:
.r = O. 1. .... 11

o altrimenti
Variabili aleatorie discrete 25

La distribuzione individuata da questa densità si chiama legge binomiale di


parametri n e p e si indica con il simbolo B( n, p).
Osserviamo che per n :==J la (2.6) si riduce alla densità di una v.a. che
assume solo i due ~alori O e 1; più preci-sa~ente p(l)·=;tp, .pC0)= ·1..: p. La
iegge_!J{l_;p) si chia~a anc~e le_gged( ~ernoulli di parametro p.

Esempio 2.5 I bulloni prodotti da una ditta sono difettosi con una probabilità
del 20% e vengono messi in commercio in confezioni di 3 pezzi ciascuna. Qual
ic:la probabilità che in una confezione vi sia al più un bullone difettoso?
Si può supporre che il fatto che uno dei 3 bulloni possa essere difettoso sia
:ndipendente dal fatto che lo siano o no gli altri. Usiamo quindi lo schema
3uccesso-insuccesso con n = 3 e p = 0.2. Il numero totale X di bulloni difettosi
-? dunque una v.a. di legge B(3, 0.2) e la probabilità richiesta vale

P{X =O}+ P{X = l} = G) G)0.8 3 + 0.2 x 0.8 2 = 0.896

Esempio 2.6 Un'urna contiene 8 palline rosse e 2 bianche. Ne vengono


-=:tratte 3 senza rimpiazzo. Qual è la probabilità di estrarne a.I più 1 bianca?
0

Per le estrazioni senza rimpiazzo abbiamo visto (Esempio 1.24 ) che il nu-
::·.ero totale X di palline bianche estratte segue una distribuzione ipergeo-
~~etrica. Dunque

P{X =O}+ P{X = 1} = = 0.933

r
: ,::ue Esempi 2.5 e 2.6 riguardano il calcolo della legge di una v.a., X, che
· :,:Ha quante volte un determinato fenomeno si verifica in una sequenza di
~: Jve ripetute. In entrambe le situazioni la probabilità che il fenomeno si
-=::ifichiin ogni singola prova (il bullone difettoso oppure la pallina bianca
_,·,atta, rispettivamente) è la stessa (pari a 0.2). La differenza sta nel fatto
· ..-': nella secon,da le prove ripetute non sono indipendenti: se lo fossero le
: .'? probabilità sarebbero state uguali, perché saremmo stati in presenza di
. :_,::,schema succes·so-insuccesso in entrambe le situazioni. Del resto è intuitivo
· --~i risultati di estrazioni senza rimpiazzo non debbano essere indipendenti,
~ -=::ché,ad esempio, se la prima estrazione dà una pallina bianca, la probabilità
Jttenere ancora una pallina bianca alla. seconda dovrà essere minore .
.\'el seguito ci riferiremo alla situazione dell'Esempio 2.6 parlando di schema
26 Capitolo 2

successo-insuccesso senza rimpiazzo.

Il calcolo di una probabilità è immediato, non appena si riconosca che la


situazione può essere ricondotta ad uno dei due scherni successo-insuccesso
appena introdotti. Se ad esempio una quantità casuale X si può vedere come
il numero di successi in n prove indipendenti con probabilità p di successo in
ogni singola prova, allora automaticamente sappiamo che X ha legge B(n,p).

Esempio 2. 7 Sapendo che il 30% dei passeggeri che hanno prenotato non si
presenta alla partenza, una compagnia aerea accetta fino a 28 prenotazioni su
un volo con la capienza di 24 posti. Qual è la probabilità che (almeno) un
passeggero che ha regolarmente prenotato resti a terra?
Se supponiamo che i comportamenti dei singoli passeggeri siano indipendenti
tra loro possiamo usare come modello lo schema. successo-insuccesso con prove
indipendenti. Il numero X di passeggeri che si presentano è il numero di successi
in 28 prove indipendenti, dove in ogni prova si ha successo con probabilità
p = 1-0.3 = 0.7. X ha dunque legge B(28, 0.7). Poiché la probabilità richiesta
non è altro che P{X 2'.25} si ha

Esempio 2.8 La memoria secondaria di un calcolatore è composta da 30


lettori di nastri, contenenti ognuno 100 registrazioni (file in inglese). Un
programma dovrà accedere a 28 di questi file (tutti diversi). Qual è la pro-
babilità p che esso non debba. usa.re il lettore n.1?
Si riconosce facilmente una. situazione che si rnodellizza con uno schema.
successo-insuccesso senza. rimpiazzo: sono 28 prove ripetute in ognuna delle
quali viene scelto un file tra i 3000 possibili. Considereremo "successo" la
scelta di un file appartenente al primo lf'ttore (sono 100) e insuccesso la. scelta
di uno degli altri lettori (2900). Non c'è rimpiazzo perché un file, una. volta
letto, non verrà piì1 richiamato in seguito. La. probabilità. richiesta è dunque
la probabilità di ottenere O successi in uno schema. successo-insuccesso senza.
rimpiazzo. Applicando l'espressione della densità ipergeometrica si ottiene
/

p=
(1~0)
(2~~0)
(
3000) = 0.385
28

Se invece le 28 voci fossero state sceltf' a caso con possibilità di ripetizione,


Variabili aleatorie discrete 27

.: numero di volte in cui il programma avrebbe dovuto accedere al lettore n.1


0 arebbe stata una v.a. B(28, }0 ). La probabilità che il volume n.1 non venga
-,'Jnsultato sarebbe dunque stata
.1.
" 28

(208) ( 1 - 310) = 0.387


: due risultati sono molto vicini. Era forse da prevedere? ( vedi l'Esercizio 2.10
:-ior una problematica simile).

> figure mostrano l'andamento di alcune densità binomiali. Come si vede al


· ~"scere di k la densità cresce fino ad un valore massimo ( che si trova non
·:-.tano dal valore np) per poi decrescere.

o 1 2 3 4 5 6 7 8

Figura 2.1 Andamento di una densità B(8, 0.5).

o 1 2 3 4 5 6 7 8

figura 2.2 Andamento di una densità B(S, 0.2).

::~~mpio 2.9 Un dado viene lanciato più volte fino a che si ottiene 6. Qual è
- ~rJbahilità che occorrano esattamente k lanci?
: ,ìirhiamo con T il numero di lanci necessario e con Xk il numero di volte
- :: si è ottenuto 6 nei primi k lanci; allora l'evento "nei primi k lanci non
28 Capitolo 2

\ r-,,.',:·· ·V' -_·\ ··\_

o 1 2 3 4 5 6 7 8

Figura 2.3 Andamento di una densità B(8, 0.65)

è mai apparso il 6" si può indicare indifferentemente con {T > k} oppure con
{Xk = O}; poiché sappiamo che Xk segue una legge B(k, p) con p = ½abbiamo

P{T > k} = (!)p(1 - Pl


0 = (1- Pl
Ma chiaramente si ha {T = k} U {T > k} = {T > k - l} e l'unione è disgiunta.
Dunque P{T = k} = P{T > k-1} - P{T > k} e

(2.7) P{T =k} =(1- Pl- 1 - (1- Pl =p(l - Pl- 1 =i(!)k-t


per k = 1, 2, ...
Si chiama densità geometrica di parametro p ( O :Sp :S 1) la densità
p(l - Pl k = o,l, 2, ...
(2.8) p(k) ={o altrimenti

La (2.3) è facilmente verificata per la densità di (2.8) ricordando il valore della


somma di una serie geometrica

La distribuzione geometrica è legata alla v.a. T ( che non è altro che il tempo
di prifno successo della successione di lanci) dell'Esempio 2.9: per (2.7) si ha

P {T - 1 =k} =P {T =k + 1} =p( 1 - p l
e dunque T - l segue una distribuzione geometrica di para.metro p.
Variabili aleatorie discrete 29

Osservazione 2.10 Nell'Esempio 2.9 siamo stati un po' sbrigativi: abbiamo


,:idìnito una v.a. T e ne abbiamo calcolato la legge senza nemmeno preoccu-
;iarci di dire su qua.le spazio di probabilità la presunta v.a. T fosse definita.
E inoltre chiaro che lo spazio di probabilità dello schema successo-insuccesso
,--iell'Esempio 1.18 non è adatto, perché esso descrive un numero prefissato n
di prove successive, mentre per studiare l'istante di primo successo T occorre
;:ioter considerare un numero arbitrariamente grande di prove.
:fon è però un problema grave. Si può infatti dimostrare che ~a,ta una
::istribuzione discreta p è sempre possibile costruire uno spazio di probabilità
·n.A, P) ed una v.a. X su di esso, tali che X abbia p come densità.
Ad esempio se x 1 , x 2 • •• sono i numeri per cui p( x) > O, si può scegliere
f2 = {x1,X2,,,.} À = insieme delle parti di f2
- definire la legge di probabilità. P({.1:;}) = p(.1:i); se su (f2,A, P) definiamo
;e_ v.a. X : n -+ lR mediante X(xi) = x;, X così definita ha p come densità
:,,,rché P{X = x;} = p(xi).
Per questo motivo nel seguito lo spazio di probabilità sarà. sempre meno
• 0 plicito e ci accontenteremo di supporre che esiste uno spazio di probabilità sul
~-1alecerte v.a. sono definite. La nozione sempre pii1 importante d'ora in avanti
0 ;,.rà quella di distribuzione di una variabile aleatoria. Abbiamo appena visto
:"l resto che, data una distribuzione di probabilità. discreta p, esistono sempre
::.o spazio (!1, A, P) ed una v.a. X ivi definita che ha p come distribuzione; nei
-:-.lrnli poco importerà sapere come siano fatti esplicitamente (!1, A, P) e X.

X ha legge geometrica di parametro p, è talvolt3: utile la formula


00 00

P {X 2 k} = L p ( 1 - p) = (1 - p l L p ( 1 - p )i = (1 - p l
-----
i
i=k j=O

=I
a questa relazione si ricava facilmente una classica proprietà. della distribu-
:- 1

= r:ine geometrica: se m 2: O

P{X =k m I X> k-} = P{X = k + m,X 2 k} =


+ - P{X2:k}
.:.I)) P{ X = k + m} p(l - P)k+m m
P {X 2 k} = (1 - p) k = p( 1 - P) =
= P{X = m}
~2. ( 2.9) è detta la proprietà di mancanza di memoria, della di stri huzione geo-
- ~-trica. La ragione di questo nome è illustrata dall'esempio seguente.
30 Capit.olo 2

Esempio 2.11 In uno schema successo-insuccesso supponiamo di non avere


ottenuto alcun successo nelle prime k prove. Qual è la probabilità di dover
attendere ancora m prove per avere il primo successo?
Se indichiamo con T l'istante di primo successo, allora con un attimo di
riflessione si vede che la probabilità richiesta non è altro che la probabilità
condizionale P{T = k + m I T > k }. Poiché T- 1 è una v.a. geometrica, grazie
a (2.9) abbiamo

P{T = k + rn I T > k} = P{T- 1 = k + m -1 I T- 1 ~ k} =


= P{T- 1 = m - 1} = P{T = m}

Dunque la probabilità di dover attendere per il primo successo ancora rn prove


è la stessa che si avrebbe se le prime k prove senza successi non avessero avuto
luogo.
Questa proprietà è del resto ovvia se si pensa che in uno schema a prove
ripetute indipendenti i risultati delle prime prove non influiscono sulle succes-
sive; dunque, se le prime k prove non hanno dato successo, non si vede perché
la probabilità di avere successo nelle prove successive debba essere modificata.

La proprietà di mancanza di memoria è in realtà una caratteristica della distri-


buzione geometrica: si può dimostrare che se una v.a. gode di questa proprietà
ed è a valori interi positivi, allora si tratta necessariamente di una v.a. di legge
geometrica (Esercizio 2.11) .

Osservazione 2.12 Spesso in un gioco che consiste in prove ripetute indipen-


denti (lotto, roulette, ... ) i giocatori usano la tecnica di giocare sugli C'venti in
ritardo. Cioè, ad esempio, di puntare sistematicamente su un numero al lotto
che non esca da molte settimane. Se le prove ripetute sono indipendenti, è
chiaro che questa tecnica non ha fondamento, a causa della proprietà. di man-
canza di memoria della legge geom<>trica, per la quale la probabilità di dover
attendere un certo numero di estrazioni l'uscita di un numero non dipende dal
ritardo del numero. I giocatori che usano questa tecnica sostengono però che
se, ad esempio, un numero al lotto ha un ritardo di 100 settimane, allora se
esso non uscisse si avrebbe un ritardo di 101 settimane. Poiché la probabilità
di un tale ritardo è effettivamente molto piccola (vedi Esercizio 2.9) è molto
improbabile che ciò si verifichi. ,
Dov'è l'errore in questo ragionamento?

Osservazione 2.13 In alcuni degli esempi abbiamo fatto ipotesi che ci hanno
permesso di costruire un modello con il quale abbiamo calcolato le probabi-
lità che ci interessavano. Ad esempio nel caso delle prenotazioni aeree abbiamo
Variabili aleatorie discrete 31

supposto che i comportamenti dei singoli passeggeri fossero tra di loro indi-
pendenti. A ben guardare non è una ipotesi totalmente ovvia, perché si sa che
i passeggeri viaggiano spesso in gruppo (famiglie, squadre di calcio ... ), il che
significa che i comportamenti dei passeggeri del gruppo non sono indipendenti
(o partono tutti o non parte nessuno). L'ipotesi d'indipendenza in questo caso,
come in altri, va quindi considerata come una prima approssimazione, che co-
munque permette di costruire un modello semplice e di dare delle risposte.
È però naturale il problema di verificare a posteriori se il modello sia ade-
guato o no. È questa una questione che prende il problema al contrario rispetto
a come lo abbiamo sempre considerato: mentre finora abbiamo fatto delle pre-
visioni sul fenomeno basate sul suo modello, ora si richiede, a partire dall'os-
servazione del fenomeno, di ricava.re delle informazioni sul modello. È questo
un tipico problema di Statistica Matematica.
Il Calcolo delle Probabilità e la Statistica Ma.tematica si servono degli stessi
strumenti matematici ma, mentre il primo usa un modello per fare delle pre-
visioni su un fenomeno, la seconda cerca, al contrario, di ricavare informazioni
sul modello a partire dall'osservazione. Ne diremo di più nel capitolo 6.

Si chiama distribuzione di Poisson di parametro À, À > O, la densità


e->. _xx X= 0, 1, 2, ...
{
p(x) = O x!
altrimenti
Si tratta di una densità, perché lo sviluppo in serie di potenze della funzione
Psponenziale dà ·
00 _xk
e>--~_
. - ~ k!
k=O
·' quindi (2.3) è verificata.
Vedremo tra poco delle situazioni in cui le distribuzioni di Poisson appa-
:0no in modo naturale. Mostriamo intanto che esse possono essere usate per
~p.rossimare leleggi binomiali. Consideriamo infatti una v .a. X ,....,B( n, .X/n)
~ studiamo il comporta.mento della legge di X per n -+ oo.

P{X=k}= (;)(~)k
(1-~)n-k
_xk( À)n-k ----
n!
1--
k!(n - k)! nk n

= _xk(i-~)nn(n-1)
k!
...(n-k+l) (i-~)-k
n nk n
32 Capitolo 2

dove abbiamo usato i limiti

( 1 - ~) n - e-À

n( n - 1) ... ( n - k + 1) _ 1
nk

(il limite per n - oo del rapporto di due polinomi aventi lo stesso grado è
uguale al quoziente dei coefficienti del termine di grado massimo, qui entrambi
uguali a 1). Quindi, se X è una v,a. çli legge B(n,p), con n grande e p pic-
colo, la sua legge può··essere approssimat-a-coit una distribuzione di Poisson
_di parametro np. Ciò è molto utile, perché per n grande la manipolazione dei
coefficienti binomiali è disagevole.
Questo calcolo implica anche che le distribuzioni di Poisson appaiono in ma-
niera naturale come leggi di quantità" casuali X che rappresentano il numero di
successi su un numero molto grande di prove ripetute indipendenti, in ciascuna
delle quali la probabilità di successo sia molto piccola. Un esempio tipico di
questa situazione è il numero di telefonate che giungono ad un centralino in
un determinato periodo di tempo. Si può infatti supporre che il numero di
persone che potrebbero fare una chiamata sia molto grande e che ciascuna di
esse chiami effettivamente con piccola probabilità (e indipendentemente dalle
altre).
Ripetendo questo tipo di argomentazioni si può supporre che seguano una
distribuzione di Poisson
a) il numero di complicazioni postoperatorie per un dato intervento chirur-
gico in un dato periodo di tempo (purché il numero di interventi nel periodo
considerato sia elevato e la probabilità di complicazione piccola);
b) il numero di piante di un determinato infestante presenti in una. parcella
di terreno;
c) il numero di clienti che si presentano ad uno sportello in un dato periodo
di tempo;
eccetera.

Data una v.a. X si chiama funzione di ripartizione la. funzione Fx : IR - [O,1]


denrnta':--da
Fx(t) = P{X :St}
!:?.flinzione di ripartizione (f.r.) è definita per ogni v.a. (discreta o no) ed è
chiar 10 che è ~empre una funzione non-decrescente, poiché se t cresce l'evento
{X :S t} diventa più grande. Vedremo più a.vanti quali sono in generale le
proprietà di una. f.r. Per ora limitiamoci a trattare il ca.so delle v.a .. discrete.
Variabili aleatorie discrete 33

Se al solito x 1 < x 2 < ... sono i valori assunti da X, allora Fx è costante


:-,ell' intervallo ]xi, xi+ 1 [, poiché se Xi < t < Xi+i allora {X :s;t} = {X :s;Xi}.
In particolare se X è a valori interi, allora Fx è costante nell'intervallo tra due
:nteri successivi, (mentre può presentare una discontinuità in corrispondenza
,:i:i valori interi).

1
-

O 1 2 3 4 5 6
Figura 2.4 Funzione di ripartizione di una v.a. uniforme su O, ... , 6.

O 1 2 3 4 5 6
Figura 2.5 Funzione di ripartizione di una v.a. di legge B(6, 0.5).

La funzione di ripartizione è importante perché la suaconoscenza è equiva-


--=-l~a
quelfa-aeffa-dist~ibuzione d(X. Infatti per (2.5) .

Fx ( t) = L p( x)
x~t

: :.e esprime la f.r. in termini della densità. Viceversa supponiamo per semplicità
· · ,,.X prenda solo valori interi, allora
.:. l O) F x (k) - Fx ( k - 1) = P { k - 1 < X :s;k} = P { X = k} = p( k)
34 Capitolo 2

Talvolta per calcolare la densità di una v .a. può essere più facile calcolare
prima la funzione di ripartizione Fx (o, che è lo stesso, la funzione 1 - Fx) e
poi da questa ricavare la densità tramite (2.10). È questa la procedura seguita
nell'Esempio 2.9 per trovare la densità del tempo di primo successo.

2.3 Leggi congiunte, indipendenza

La seguente è un 'estensione della definizione di v.a. al caso di applicazioni a


valori in JRm.

Definizione 2.14 Una v.a. m-dimensionale discreta (oppure un vettore alea-


torio discreto) è un'applicazione X= (X 1 , ••. ,Xm): n----+ Illm tale clie le
applicazioni X 1 , ... , X m siano delle v.a. reali discrete.

È chiaro che se X è una v .a. m-dimensionale discreta allora essa può assumere al
più un'infinità numerabile di valori x E Illm. Infatti sex= (x 1 , ... ,xm) E Illm
allora
{X= x} = {X1 = xi} n ... n {Xm = Xm}
x è dunque un valore assunto da X se e solo se simultaneamente x 1 è un valore
assunto da X 1 , x 2 un valore assunto da X 2 eccetera, e questi sono al più una
infinità numerabile. La relazione precedente mostra inoltre che {X = x} è un
evento, come intersezione di eventi.
Indicheremo con x<l), x(2), ... i valori assunti da X. Osserviamo che se X è
una v .a. m-dimensionale e </>: IRm ----+ IRd una funzione, allora </>(X)= </>oX
è ancora una v .a., ( d-dimensionale, questa volta). È chiaro infatti che </>(X)
assume i valori </>(x(l) ), </>(
x<2 l), ... che sono al più un 'infinità numerabile (può
succedere naturalmente che </>( x(l l ), </>(
x<2 l ), ... non siano tutti distinti, se </>
non è iniettiva). Inoltre, se indichiamo con y uno dei valori </>(x(ll),</>(x< 2 l), ...

allora
{</>(X)= y} = {X E </>-1 ( y)} = U { X = x}
xE<f,- 1 (y)

e dunque {</>(X)= y} è un evento come riunione al più numerabile di elementi


di A; come abbiamo visto questo fatto è equivalente a supporre che#<) sia una
V.a.
Ricordiamo che per definizione </>-1 (y) è l'insieme di tutti i valori x tali che
<t>(x)= y. Si tratta dunque di un insieme che è definito anche quando</> non è
iniettiva (e dunque anche quando l'inversa <1>- 1 non esiste).

Anche per una v.a. m-dimensionale discreta si pu_òparlare di densità discreta


Leggi congiunte, indipendenza 35

ponendo

, 2.11) p( X) = p {X = X}

Come nel caso di v.a. reali la funzione p definita da (2.11) verifica


1) p( x) ~ O per ogni x E R m.
2) p( x) > O al più per una infinità numerabile di valori x E R m.
3) 1:xp( X) = 1.
Esattamente come nel caso di v.a. reali, chiameremo densità una funzione p
che soddisfi alle condizioni 1), 2), 3) qui sopra e, con la stessa dimostrazione che
per il caso div.a. reali, si vede che se p è una densità, allora esistono certamente
uno spazio di probabilità (f!, A, P) ed una v.a. m-dimensionale X : f2 --- Rm
di cui p sia la densità.
I ragionamenti che hanno portato a (2.5) si possono inoltre ripetere esatta-
mente per ottenere che, per una v.a.. m-dimensionale X e A e Ilt, si ha.

2.12) p {X E A} =L p( :i:)
xEA

Se X 1 , ... , X m sono v.a. reali, la densità p della v.a.. m-dimensionale X =


X1, ... , X m) si chiama la. densità congiunta delle V.a. X1, ... , Xm. Viceversa
0e X= (X1, ... ,Xm) è una v.a. m-dimensionale, le densità Pl,···,Pm delle
·.-.a. X 1 , ... , X m si chiamano le densità marginali di X.
Se la densità p di X è nota, è facile calcolare le densità marginali. Suppa-
.
~11amo per semp 1·ICJta. -' m = 2, e d unque X = (X 1 , X 2 ) . Se con x (1 >,x ( 2 ) , ...
::1dichiamo al solito i possibili valori di X e x(i) = (x~i), x~i)), allora X 1 assume
: valori xP>,x~2 ), • •• ( eventualmente non tutti distinti tra loro) e
P1(z) = P{X1 = z} = r(l){X1 = z,X2 = x~i)}) =
i
2.13)
= L P{X1 = z, X2 = x~i)} = L p(z, x~i))
i i

.-'\nalogarnente si ha

2.14)

-"on è invece possibile, in generale, conoscendo le sole densità marginali ri-


:ostruire la densità. congiunta, poiché densità congiunte diverse possono avere
:iensità marginali uguali.
36 Capitolo 2

Esempio 2.15 Da un'urna contenente 6 palline numerate da 1 a 6, se ne


estraggono 2 con rimpiazzo. Indichiamo con X 1 e X 2 rispettivamente i risultati
delle due estrazioni e calcoliamo la distribuzione congiunta di X 1 e X 2 ( cioè la
distribuzione di X= (X1,X2)).
I possibili valori di X sono le coppie ( i, j) dove i e j possono prendere i valori
interi da 1 a 6. Si tratta di 36 valori possibili, e poiché essi sono chiaramente
equiprobabili, ciascuno di essi verrà assunto con probabilità }6 • La situazione
può essere visualizzata nella Figura 2.6, nella quale con • indichiamo i possibili
valori.
Inoltre le v.a. X 1 e X 2 prendono entrambe i valori interi da 1 a 6, tutti con
probabilità ½poiché anche in questo caso i valori sono equiprobabili. Dunque
entrambe le distribuzioni marginali di X sono la distribuzione uniforme su
{l,2,3,4,,5,6}.

6 • • • • • •
5 • • • • • •
4 • • • • • •
3 • • • • • •
2 • • • • • •
1 • • • • • •

1 2 3 4 5 6

Figura 2.6

Effettuiamo ora invece due estrazioni senza rimpiazzo, che indicheremo con
Y1e Y2e poniamo al solito Y = (Y1 , Y2). I valori della v.a. Y non sono gli stessi
poiché, ad esempio, il risultato (1, 1) non è più possibile. I risultati possibili sono
infatti le coppie (i,j) con i e j variabili in 1,2,3,4,5,6, ma con i e/-j. Si tratta di
30 valori, tutti equiprobabili, e dunque assunti ciascuno con probabilità 310 • Ciò
si può vedere nella Figura 2.7, dove però ognuno dei valori indicati col simbolo
• viene assunto con probabilità }0 •
D'altra parte però anche le v.a. Yi e Y2 hanno distribuzione uniforme su
{ 1. 2, 3, 4, .5,6} (Esempio 1.25) e quindi le distribuzioni marginali sono le stesse
che per le ef.trazioni con rimpiazzo.
Leggi congiunte, indipendenza 37

~:amo dunque in presenza di due densità congiunte diverse ma aventi le


,·.oc;:emarginali.

6 • • • • •
5 • • • • •
4 • • • • •
3 • • • • •
2 • • • • •
1 • • • • •

1 2 3 4 5 6

Figura 2. 7

~~;r:!i~ip2e.t~~e ~::ir:~~~ii~~;~~l~~;~~~i~~s;ee~·~a~~-~1~~-~!:~~~-~~~
· :>ati possibili, che indicheremo convenzionalmente 1, ... , m, rispettivamente
·: ~, probabilità q1 , •.• , Qm • Indichiamo con Y; il numero di prove che hanno
:o.ro per risultato i, i= 1, ... ,m (quindi Y1 + ... + Ym = n). Qual è la legge
:.0: vettore Y = (Y1, ... , Ym)?
Consideriamo lo spazio di probabilità costituito dall'insieme

S1= {w;w = (w1, ... ,wn)}

: :in• wk può prendere i va.lori 1, ... , m ( ovvero n = {1, ... , m} n) e della <Y-
,.:e:ebra A di tutte le parti di n. Definiamo su n le v.a.

k = 1, .. . ,n
X~ rappresenta il risultato della k-esima prova. Poiché i risultati delle singole
~~ove devono risultare indipendenti e P{Xk =i}= q;, si deve avere

P(w) = P{X1 =Wt,···,Xn =wn} =


= P{X1 = wi} ... P{Xn = Wn} =
= qfl .. . q~"'
38 Capitolo 2

dove ni è il numero di indici k tali che Wk = i (ovvero è il numero di prove


che hanno dato per risultato i nella sequenza w ). Sappiamo quindi calcolare la
probabilità di osservare una prefissata sequenza di prove w. Se ora n 1 , ... , nm
sono numeri interi tali che n1 + ... + nm = n e x = (n1, ... , nm), calcoliamo
la probabilità P{Y = x} = P{Y1 = n1, ... , Ym = nm}- L'evento {Y = x} è
composto da tutte le sequenze w nelle quali 1 figura n 1 volte, 2 n2 volte, ... , m
nm volte. Poiché tutte queste sequenze hanno probabilità qf1 ••• q::,m, resta solo
da calcolare quante sono. Ma è facile vedere che l'insieme di queste sequenze è
in corrispondenza biunivoca con l'insieme delle partizioni C(n 1, . .. ,nm) (vedi
la Proposizione 1.26) che ha cardinalità n1 ,....n!nm. , • In conclusione

I
P{Y = x} = P{Y1 = n1, ... , Ym = nm} = 1 n. 1 qf
1 •• • q::;,,
n1 ... . nm.

Definizione 2.17 Le v.a. (discrete) X 1 , •• . ,Xm definite su uno stesso spazio


di probabilità si dicono indipendenti se e solo se per ogni scelta di A 1 , ... , Am C
Ill si ha

(2.15) P{X1 E A1, ... , Xm E Am} = P{X1 E A1}, .. P{Xm E Am}

Diremo che le v.a. X1, ... , X (11nnumero infinito) sono indipendenti se e


11 , •••

solo se per ogni m > O risultano tra /oro indipendenti le v.a. X1, ... , X m·

Il significato intuitivo della nozione d'indipendenza di v.a. non è dissimile da


quello di indipendenza di eventi: h v.a. sono indipendenti se la conoscenza
dei valori assunti da alcune di esse non dà informazioni che modifichino la
previsione di qul'lli assunti da.Ile altre. Del resto (2.15) scritta. nel caso di due
v.a.. diviene

(2.16) P{X1 E A1,X2 E A2} = P{X1 E Ai}P{X2 E A2}

che non significa altro che il fatto che i due eventi {X 1 E A 1} e {X 2 E A2}
sono tra. loro indipendenti per ogni scdta degli insiemi A 1 , A 2 • Scegliendo A 1
{.ri}, ... , Am = {xm} (2.1.5) diviene

(2.17) P{X1 = XJ, ... , Xm = :tm} = P{X1 =xi} ... P{Xm = Xm}

Indichiamo con p la densità congiunta. di X 1, ... , X m e con p 1 , ... , Pm rispet-


tivamente le densità di X1,.,,,Xm. Sex= (x1, ... ,xm), (2.17) si può scrivere

(2.18)
Leggi congiunte, indipendenza 39

-.o.·,ersa supponiamo che valga (2.18) (ovvero, che è lo stesso, (2.17)); se


..... Am C Ill., allora ponendo A= A1 X... X Am, X= (X1, ... , Xm), si ha

P{X1 E A1, .. ,,Xm E Am} = P{X E A}= I:p(x) =


xEA

di mostra che la (2.18), che lega la densità. congiunta delle v .a. X 1 , ... , X n
]P marginali, è una condizione equivalen.te all'indipendenza di X 1 , ••• , Xn.
- ~>articola.re,nel caso di v.a. indipendenti, tramite (2.18) è possibile calcolare
~ :·r nsità congiunta a partire dalle marginali, ciò che non è vero in generale.

:::$empio 2.18 Sia (f!,A, P) lo spazio di probabilità. dello schema successo-


- <ccesso (Esempio 1.18) e consideriamo le v.a. X 1 , ... , Xn definite da
-·)= Wi, Mostriamo che esse sono indipendenti.
Ciascuna di esse prende i valori O con probabilità 1 - p e 1 con probabilità
- -ono cioè di Bernoulli B(l,p)). La (2.lì) è immediata perché

: : ·:ryk è il numero di valori x; che sono uguali a 1. Uno sguardo più attento
~.:Tsempio 1.18 mostra. del resto che lo spazio di probabilità dello schema
' _~cesso-insuccesso è stato costruito appunto in modo che le v .a. Xi risultassero
: iipendenti.

}-serviamo che per determinare se due v.a. sono indipendenti basta conoscere
;;,.loro distribuzione congiunta p. Infatti a partire da essa è possibile, tramite
].13) e (2.14), calcolare le marginali p 1 e p 2 e quindi verificare (2.18).
In particolare se (X 1 ,X2) e (Y1 , Y2) hanno la stessa distribuzione congiunta
" Y1 e X2 sono indipendenti, lo stesso è vero per Y1 e Y2.

Esempio 2.19 Riprendiamo l'Esempio 2.15. Nel caso delle v.a. X 1 , X 2 ( quelle
~ ~o\"enienti dalle estrazioni con rimpiazzo) si ha

1
per z = l, 2, 3, 4, 5, 6
P1( z) = P2( z) = { ~ altrimenti
40 Capitolo 2

mentre
}6 sex= (i,j) con i,j = 1,2,3,4,5,6
p(x) ={O altrimenti
La (2.18) è dunque vera e X 1 e X 2 sono indipendenti. Ciò non è del resto
sorprendente se si pensa al significato intuitivo della nozione d'indipendenza:
poiché si fanno delle estrazioni con rimpiazzo la conoscenza del risultato di una
estrazione non dà informazioni utili alla previsione dell'altra.
Viceversa per le v.a. Y1,Y2, quelle cioè provenienti dalle estrazioni senza
rimpiazzo, le densità marginali sono le stesse, mentre la congiunta è data da

}o sex= (i,j) con i,j = 1,2,3,4,5,6 e i ::Jj


p(x) = {O altrimenti

Se ora scegliamo x = (1, 1) allora p(x) = O mentre P1(l)p2(l) = 316 • Dunque


(2.18) non vale e le v.a. Y1 , Yi non sono indipendenti. Avremmo anche po-
tuto più semplicemente osservare che Yi e Y2 non possono essere indipendenti
perché hanno le stesse marginali di X 1 e X 2 : se fossero indipendenti avrebbero
necessariamente la stessa legge congiunta.

Siano X e Y v.a. indipendenti e </>, 1/;: ffi.-+ IR due applicazioni. Le v.a. </>(X)
e v,(Y) sono anch'esse indipendenti?
Intuitivamente è ovvio di sì. Se la conoscenza di X non dà informazioni utili
alla previsione di Y non si vede perché </>(X)dovrebbe darne pei la previsione
di 1/;(Y).
Occorre però verificare che </>(X)e 1/;(Y) soddisfano alla condizione della
Definizione 2.17. Indichiamo con p la densità congiunta di X e Y e con P1, pz
le marginali. Allora per ogni z, w E IR

P{</>(X)= z,1/;(Y) = w} = P{X E <j>-1 (z),Y E 1/;-1 (w)} =


L p(x,y) = L P1(x)pz(y) = L P1(x) L P2(Y) =
xEr 1( z) xErj,- 1 (z) xErJ,- 1 (z) yE,t,-l(w)
yE,p- 1 (w) yE,t,- 1 (w)

= P{X E </>-
1 (z)}P{Y E 1/;-1 (w)} = P{</>(X) = z}P{1/;(Y) = w}

E dunque </>(X)e 1j,(Y) soddisfano a (2.17), che è una condizione equivalente


all' indipendenza.
Con un calcolo del tutto simile, solo pii1 complicato da esprimere, si dimostra
il risultato seguente, un po' più genera.le.
Calcoli con densità 41

Proposizione 2.20 Siano X 1, ... , X m, Y1,... , Yk delle v.a. indipendenti e


: : JR.m- R, 'ljJ: Rk ~ 1Rdelle applicazioni. Allora le v.a. <J,(X1,··.,Xm) e
_· }·1,---,Yk) sono indipendenti.

>. particolare, nelle ipotesi della Proposizione 2.20 e considerando le applica-


: :,ni o(x1, ... ,xm) = X1 + ... + Xm e "P(Yl,···,Yk) = Yl + ... + Yk, le V.a.
·,_·:
~ ... + X m e Y1 + ... + Yk sono indipendenti.

=:.èe duev.a. X e Y aventi densità congiunta p, si chiama densità condizionale


:: X dato Y =
y la quantità

- ( I) y)
- ~ 9) PXIY X y = p(x,
py (y )

-.e _-:-~·(y)> O,e PxjY(xly) = O altrimenti (in realtà il valore di Px1Y(xJy) per
: ':. i = O è irrilevante e non interviene mai). Analogamente si definisce la
-· <tà condizionale di Y dato X= x. Per (2.13), se py(y) > O allora

L Px1Y(xJy) = l
:i:ER

: . :-.que, come funzione della variabile x, la densità condizionale di X dato


= 'J è una densità. Intuitivamente è la densità di X sapendo che la v.a. Y
, c. ,unto il valore y.
0

>, X e Y sono indipendenti, allora per (2,18) si ha, se py(y) > O

Px1Y(xJy) = Px(x)

.-: ~·la legge condizionale di X dato Y = y è la legge di X, in accordo con


~ ;fìcato intuitivo di indipendenza e di legge condizionale.

: ~ Calcoli con densità

· · ?roblemi di probabilità si riconducono al c~lcolo d_ellé\,


pr9ba,bilità di un
· · · :- d1?lla forma {X E A} dove X è una v.a. m-dimensionale e A e m.·: e
· :_>'. grazie a (2.12), al calcolo di una somma oppure di una serie.
42 Capitolo 2

Esempio 2.21 Da un 'urna contenente 6 palline numerate da 1 a 6 se ne estrag-


gono 2 senza rimpiazzo. Qual è la probabilità che i numeri estratti differiscano
al più di 2?
Riprendendo le notazioni dell'Esempio 2.15 si tratta di calcolare P{IY1 -
Y2 I ::;2}. Ciò si può esprimere anche seri vendo P {Y E A} dove A è la regione
del piano {(x1,x 2); lx1 - x2I::; 2}. Dunque la probabilità richiesta vale

(2.20) LP(x)
xEA

dove p è la densità di Y, che abbiamo calcolato nell'Esempio 2.15. Con un po' di


geometria analitica si vede che la regione A non è altro che la striscia compresa
tra le rette di equazione x 1 = x 2 +2 e x 1 = x 2 - 2, cioè la regione compresa tra
le due rette tratteggiate nella Figura 2.8. In essa si trovano 18 possibili valori
di Y (si devono contare anche quelli sul bordo), e poiché ciascuno di essi viene
assunto con probabilità 310 , la somma in (2.20) vale 1~.

6 • • • .. •
5 • • .. • •
4 • • • • ..
3 .. • • .. •
2 • • .. • •
1 • • • • •

1 _./2 3 4 5 6

Figura 2.8

Esempio 2.22 Una moneta e un dado vengono lanciati insieme ripetutamente.


Qual è la probabilità che la moneta dia testa prima che il dado dia 6?
Se Tè il primo istante in cui il da.do dà 6 e S il primo istante in cui la moneta
dà testa, sappiamo che T - 1 e S - 1 sono v .a. geometriche di parametro ½e
¾ rispettivamente. Esse sono inoltre indipendenti. La probabilità richiesta non
~ altro che P{S < T}. Se con p indichiamo la. densità congiunta delle v.a. Te
Calcoli con densità 43

-- c.llora
- 21) P{S < T} = P{(T, S) E A}= L p(x, y)
(x,y)EA

: : ·.·e A.= {(x, y); y < x }. Il problema è dunque risolto se


é:.) sappiamo calcolare la densità congiunta p di T, S;
:i I sappiamo calcolare la somma in (2.21).
: .e~ il punto a) poiché S e T sono indipendenti e grazie a (2.18)

p(x) ={ !
1 (5)h-l
6
1 (l)k-l
2 2
se x = (h, k),
altrimenti
h, k = 1, 2, ...

somma in (2.21) è dunque estesa a tutti i punti x


:__=- = (h,k) con k < h e vale

00 00 1(5)h-11 (l)k-1
LL55
k=lh=k+l
22
·: ~-i soliti calcoli di somme geometriche si ha
00 1 (5) h-1
I:
h=k+l
6 6
' ; :stituendo
1 00
1) k-l ( 5) 5 00
5) 5 1 5
=2L 2 = 12 L
k k
P{S < T}
(
6
(
12 - 12 5 -
7
k=l k=O 1- -
12

_ . ;:chema usato nella risoluzione degli Esempi 2.21 e 2.22 permette di affron-
tutta una serie di situazioni. Un problema frequente, ad esempio, è quello
-=-:-::
:_ :alcolare la densità di una v.a. della forma </>(X),dove X è una v.a. m-
--=:-"nsionale di densità nota p e </>una funzione IRm -+ IR. Il problema è in
-< ~;a immediatamente risolto, tenendo conto che se z è un valore assunto da
: X i allora

_ .::::!) P{</>(X)= z} = P{X E </>-


1 (z)} = L p(x)
xe,J,-l(z)

"'>:'Sta relazione è di grande importanza teorica perché mostra che la densità di


: X) dipende solo dalla densità di X: cioè se Y è un'altra v.a. (eventualmente
:-:::'.nita su un altro spazio di probabilità) ma avente la stessa densità p, allora
,. ::.-"nsitàdi </>(Y)è la stessa di </>(X).
44 Capitolo 2

Esempio 2.23 Siano U1, ... , Um v.a. indipendenti di legge di Bernoulli


B(l,p). Allora U1 + ... + Um è binomiale B(m,p).
Abbiamo già visto che se X 1 , ... , Xm sono le v.a. definite nell'Esempio 2.18
da Xi(w) = wi, esse sono indipendenti e di legge B(l,p). La loro somma X è il
numero di successi in m prove, che quindi segue una legge B(m,p). Ora le v.a
X 1, ... , X m e U1, ... , Um hanno la stessa legge congiunta ( sono indipendenti ed
hanno le stesse marginali) e dunque, se poniamo </J( x1, ... , Xm) = X1 + ... + Xm
le v.a. X1 + ...+Xm = </J(X1,.. . ,Xm) e U1+ ... + Um = </J(U1, ... , Um) hanno
la stessa legge. ·

In particolare si può definire la densità B( n, p) come la densità di una v.a. che


è la somma di n v.a. di Bernoulli indipendenti di parametro p.
Da questa considerazione è immediata. la. seguente proprietà fonda.mentale
delle leggi binomia.li.

Proposizione 2.24 SianoX 1 , ••• ,Xm v.a.. indipendenti di legge B(n 1 ,p), ... ,
B( nm, p) rispettiva.meri te. Allora la loro somma X 1 +... +Xm ha legge B( n,p)
dove n = n1 + ... + nm.
Dimostrazione. Per semplicità fa.remo la. dimostrazione nel caso di due v.a.
(m = 2).
Siano Y1, .. . , Yn (n = n1 +n2) delle v.a.. indipendenti e di legge di Bernoulli
B(l, p). Allora le v.a. Z1 = Y1 + ... Yn 1 e Z2 = Yn 1 +1 + ... + Yn hanno legge
B(n 1 ,p) e B(n 2 ,p) rispettiva.mente e sono indipendenti per la Proposizione
2.20. Ma. Z = Z1 + Z2 = Y1+ ... + Yn ""B(n,p).

Il calcolo della legge della. somma. di due v.a. è un problema importante. Un


'modo di risolverlo (ne vedremo a.Itri) è dato da.Ila proposizione seguente.

Proposizione 2.25 Siano U e V v.a.. ( discrete) di densità congiunta p. Allora


U + V ha densità g data da

(2.23) g(z)= LP(t,z-t)


tER

Dimostrazione. Basta. applicare (2.22) alla. v.a bidimensionale X = (U, V)


ed alla. funzione q;: lR2 ---+ JR definita. da q;(u,v) = u + v. In effetti </)-1 (z) è
l'insieme di tutti i vettori (u,v) tali che u + v = z, e cioè l'insieme di tutti i
vettori della. forma. (t, z - t) al va.ria.re di t in Ill.

Se per di piÌ! U e V sono indipendenti e di densità p 1 e p2 rispettiva.mente


Calcoli con densità 45

::..._~rap(u,v) = p 1(u)p2(v) e (2.23) diventa

g(z) = LP1(t)p2(z - t)
tER

Esempio 2.26 (Somma di v.a. di Poisson) Siano U e V v.a. indipendenti di


0·;='."di Poisson d1 parametri À e µ rispettivamente. Qual è la legge di U +V?
Poiché sia U che V assumono solo valori interi ~ O, lo stesso è vero per
- ì". Dobbiamo dunque calcolare la densità p(k) di U + V per k intero e
_ : . \"el calcolo della somma che figura in (2.24) dobbiamo però ricordare che
:- : , i- O solo per t intero~ O. Analogamente P2(k - t) -f O solo set è intero e
· - • 2::O, ovvero t ~ k. Dunque

-'-abbiamo riconosciuto lo sviluppo del binomio

- ~ 1e [T +V è di Poisson di parametro À + p.

-<~aper calcolare la l~gge di una v.a. della forma 4>(X) conviene prima
·: >.me la funzion~ di ripartizione.·

::.~mpio 2.27 Due monete vengono lanciate più volte fino a che entrambe
· o_:_oottenuto almeno una volta testa. Qual è la probabilità che occorrano
:.:-,-i·?
._, :ndichiamo con S e T il numero di lanci necessari perché la prima e la
- -:a moneta rispettivamente diano testa, allora la questione proposta non è
- . ~:io il calcolo della densità della v .a. max( S, T). Più in generale, <;)atedue

,._ - · io F indipend~nti di legge geoinetrica. di parametri q e r rispettivàme11te


·: :a legge di Z = rnax(U, V)'?
46 Capitolo 2

Z può assumere i valori k = O, 1, 2, ... Per calcolarne la densità determi-


niamo prima la funzione di ripartizione Fz. Ora

Fz(k) = P{max(U, V)~ k} = P{U ~ k, V~ k} = P{U ~ k}P{V ~ k}

Ricordando che la funzione di ripartizione F di una v.a. geometrica di para-


metro q è'if-F(k)= 1 - {1 - q)k+ 1 per k = O, 1, ... , si ha

da. cui

P{Z = q = Fz(k) - Fz(k - 1) =


= (1 - {1 - q l+ 1 ) ( 1 - { 1 - r) k+ 1 ) - ( 1 - (1 - q l) (1 - (1 - r l) =
= q{l - ql + r(l - rl - (1 - ql(l - rl(q +r - qr)

Tornando al problema originale, ricordando che S - 1 e T - 1 sono di legge


geometrica di para.metro ½

1 3 1
P{max(S
'
T) = k} = P{max(S - 1 T - 1) = k - 1} = -
' 2k-l
- - -
4 4k-l

per k = 1, 2, ... Se invece avessimo dovuto calcolare la probabilità che k lanci


siano necessari perché una almeno delle monete dia testa allora saremmo
ricondotti al calcolo di Y = rnin( U, V). In questo caso conviene calcolare
1 - Fv(k) = P{Y > k}. Infatti

P{rnin{U, V)> k} = P{U > k, V> k} = P{U > k}P{V > k} =


= (1 - qt+1(1 - r)k+ 1 = [(1 - q)(l - r)]k+ 1

Dunque Fv(k) = 1-[(1-q)(l-r)]k+ 1 = 1-(1-(r+q-rq))k+ 1 . Y ha dunque la


stessa funzione di ripartizione di una v.a. geometrica ma di parametro r+q-rq.
Poiché la funzione di ripartizione caratterizza la densità, abbiamo dimostrato
che min( U, V) segue ancora una legge geometrica di parametro r + q - rq. In
particolare min(S, T) = min(U, V)+ 1 è il tempo di primo successo in uno
schema di Bernoulli di parametro ]J = r + q - rq.
Speranza matematica 47

: . 5 Speranza matematica

- X una v .a. (discreta) che prenda i valori x 1 , x 2 , ••• ed indichiamo con p la


=-

- . =- densità.

:Jefinizione 2.28 Diremo che X ha speranza matematica finita se

L lx;Ip(x;) < +oo


i

~uesto caso si chiama speranza matematica di X la quantità

- - ) l

::.::re paro]~ _0..-sp.eranza matematica di X è data da (2.25), a condizione


-- :a serre-converga assolutamente. Sinonimi di speranza matematica sono i
··.:ni media, valore medio, attesa, valore atteso.
:: effetti, osservando che i termini che intervengono in {2.25) non sono altro
. possibili valori di X moltiplica.ti per la. probabilità con cui essi vengono
.·' :~1ti. il significato intuitivo della speranza. matematica è quello di media dei
e · ~i assunti da X.·

> analogia con la meccanica di un corpo rigido, se ponessimo sulla retta nei
.. · ·: .r 1 , x 2 , ••• delle masse proporzionali a p(x 1 ),p(x 2 ), ••• rispettivamente, la
. "-~:ità E[X] non sarebbe altro che la coordinata del baricentro del sistema di
e ; o,=, così definito.

E[X] = O si dice anche che X è centrata.


~- 0

·: 'Jn è inopportuno osservare cheJa,__spera.nza. matematica. di una v,a. dipende


·cmente dalla. sua. densità: se due v.a. hanno la stessa. densità, allora se una
se ha speranza matematica finita. ciò è vero anche per l'altra e le due
-'- 0

-~.nze matematiche sono uguali.


~;,.X= (X1, .. ,,Xm) una v.a. (discreta) m-dimensionale e</>: JR_m-+ IR
· :,.funzione. Poniamo Z = </>(X):per calcolare E[Z] secondo la Definizione
~ - • >:>isogna. prima. calcolare la densità di Z e poi la serie in (2.25). Per questo
- ~ >o utile il risultato seguente. Indichiamo con x(l), x< 2 l, ... i valori assunti
. , ·,: e con p e g rispettivamente le densità di X e Z.

-:-':-Orema 2.29 Z ha speranza ma.tematica finita se e solo se

__ '::_1I
48 Capitolo 2

e in questo caso

(2.27)

Dimostrazione. Indichiamo con z1 , z2 , ... i valori assunti da Z e poniamo

Quindi
{Z = Zj} = LJ{X= x<il}
x<•lEA;

P{Z = z1} = L p(x(il)


x(òlEA;

,i..(x (il)
. h,e..,,
e pmc = Zj sex (i) E A j,

=L L lzilp(x(il) = L L 11(:i:<i))I
p(x(il) =L 11(:i:(i))Ip(x(i))
j x<•>EA; j x<òlEA; i

Se la serie in (2.27) converge assolutamente Z ha dunque speranza m 7tematica


finita. Per dimostrare che vale (2.27) basta ripetere il calcolo senza i valori
assoluti:

= L L Zj p(x(i)) = L L ip(x(il) p(x(il) ~ L ip(x(i)) p(x(il)


j x<•lEA; j x<ilEA; i

(il passaggio segnato con (!) è possibile solo perché sappiamo già. che la serie
converge assolutamente. Solo in questo caso è lecito fare la somma riordinando
i termini).

Il Teorema 2.29 ha molte applicazioni. Intanto se X è una v.a. reale, e ip(x) =


l,i'I,osserviamo che se X ha speranza matematica. finita allora lo stesso vale per
IXI; E[IXI] è anzi la somma della serie dei valori assoluti.
Speranza matematica 49

?roposizione 2.30 Siano X e Y v.a. a.venti speranza ma.tematica. finita.


- :--a
Per ogni e E IR la v.a. cX ha speranza ma.tematica finita e si ha
E[cX) = cE[X)
X +Y ha speranza matematica finita e
E[X + Y] = E[X] + E[Y)
::>imostrazione. ii) Applichiamo il Teorema 2.29 al vettore (X, Y) ed alla
--~ 1ione </J:IR-2--. IR, definita da </J(x,y) = x + y. Verifichiamo che vale (2.26):
-~ :1,x2, ... e Y1,Y2,... sono i valori assunti da X e da Y rispettivamente, il
- -·ore (X, Y) può assumere i valori Xi+ y1 al variare di i,j; se PX,PY sono le
: >ità di X e Y rispettivamente e p la densità. <li (X, Y), allora per (2.13) e
- >l)
p X (X;) = L p( :i:i' Y.i)
.i
py ( y j) = L p( X i, yj)
i
-- - cui

i,j i,j

i,j

= L l:i-dp(x;, Yj) + L IYilp(x;, Y1) = L lx;IPx(.1:;)+ L IYJIP}·(yj) =


i.j i,j ' j

= E[IXI)+ E[IYI]< +oo


_;1queX+ Y ha speranza matematica finita; infine, ripetendo il calcolo senza
c_:,Jriassoluti,

i,j i,j

i,j i,j i,j

=Lx; Px(xi) + LY 1 py(y 1) = E[X] + E[Y] < +oo


i j

·.:nstesso modo si dimostra il punto i).


50 Capitolo 2

Proposizione 2.31 Supponiamo che le v.a. X e Y abbiano speranza mate-


matica finita.
a) Se P{X ~ Y} = 1 allora E[X] ~ E[Y] e l'uguaglianza è possibile se e
solo se P{X = Y} = 1.
b) IE[X]I :'.SE[IXl]-
Dimostrazione. a) Poniamo Z = X - Y. Intanto Z ha speranza matematica
finita come somma di X e di -Y, che hanno entrambe speranza matematica
finita. Per l'ipotesi P{Z ~O}= 1 e questo è possibile se e solo se tutti i valori
assunti z 1, z 2, ... di Z sono ~ O. Dunque

(2.28)

perché la somma contiene solo termini ~ O. Se ne deduce che E[X] - E[Y] =


E[Z] ~ O. Se E[Z] = O allora necessaria.mente in (2.28) tutti i termini sono
nulli, il che significa. che z = O è il solo valore assunto da Z, cioè che P{X =
Y} = P{Z =O}= 1.
b) Poiché -IXI :'.SX :'.SIXI, per il punto a.) si ha. -E[IXI] :'.SE[X] :'.SE[IXI].
che è equivalente a IE[X]I :'.SE[IXI]-

Osservazione 2.32 Supponiamo che X sia una v.a .. limitata., cioè tale che
esista M > O tale che P{IXI :'.S.M} = 1 (ovvero tale che tutti i valori assunti
da X sia.no compresi tra -M e M). Allora X ha speranza matematica finita.
Infatti in questo caso

L Ixdp( :r i) :'.SM L p( .1:i ) :'.SAf


i i

Proposizione 2.33 Se X e Y sono v.a. indipendenti ed hanno speranza mate-


matica finita, allora anche la v.a. prodotto X Y ha.speranza matematica finita
e si ha
E[XY] = E[X] E[Y]
Dimostrazione. Indichiamo al solito con x1, x2, ... e Y1,Y2, ... rispettiva-
mente i valori assunti da.Be due v.a. e con JJX,JJ}· le rispettive densità .. Sappiamo
allora. che il vettore ( X, Y) ha densità p( :i:;, Yi) = JJx( x; )p.,,( YJ). 11Teorema 2.29
applicato al vettore (X, Y) ed alla funzione </>(i:,y) = x y dà

i,j i,j i,j

= L lx;! Px(xi) L IY.il])}'(Yi) = E[IXI] E[IYI] < +oo


' j
Speranza matematica 51

: :ie mostra che X Y ha speranza matematica finita. Inoltre ripetendo il calcolo


""nza valori assoluti

i,j i,j

= L XiPx(xi) L YiPY(Yi) = E[X] E[Y]


i j

Es~
aì X --B(l,p). Una v.a B(l,p) prende i valori O e 1 con probabilità 1- p
~ p rispettivamente. Quindi

E[X] =O· (1 - p) + 1 ·p = p

b) Sia A E A e consideriamo la v.a. indicatrice lA. Sappiamo che lA ha una


--zgedi Bernoulli di parametro p = P(A). Dunque

E[lA] = p = P(A)
e) X"' B(n,p). Per la Definizione 2.28

-~;iesta somma si può calcolare con qualche sforzo, ma è più semplice ragionare
-:'. modo seguente: se X 1 , .•• ,Xn sono v.a. indipendenti B(l,p), a.llora la
:-nma X1 + ... + Xn è B(n,p). Dunque

= E[Xi] + ... + E[Xn] = np


E[X]

d) X di Poisson di parametro >..


-

= >.
52 Capitolo 2

Esempio 2.35 (Media di una v.a. ipergeometrica) Un'urna contiene b palline


bianche e r palline rosse; ne· veìigon·o estratte n ( n ~ b + r) senza rimpiazzo.
Qual è il numero medio di palline rosse estratte?
La probabilità di estrarre k palline rosse è data dalla distribuzione ipergeo-
metrica. Il numero medio richiesto è dunque

dove la somma si fa al variare di k da O fino al più piccolo tra r e n. Il calcolo


diretto di questa. somma. è sconsiglia.bile; per questo conviene aggira.re l'osta.colo
con un ragionamento simile a quello utilizzato per la distribuzione binomiale.
Se poniamo
se l'i-esima estrazione dà una. pallina rossa
X;(w)= {~ altrimenti

allora X= X 1 +...+Xn è il numero di palline rosse estratte. Ciascuna delle v.a.


X; prende il valore 1 con probabilità. b~r e O con probabilità b!r ed è dunque
di Bernoulli B(l,p) per p = b~r (vedi Esempio 1.2,5). Sappia.mo dunque che
E[Xi] = p e quindi E[X] = np. Il numero medio di palline rosse estratte è, in
particolare, lo stesso che le estrazioni avvengano o non con rimpiazzo.
Abbiamo del resto già messo in evidenza che sia le v.a. binomiali sia le
ipergeometriche si possono scrivere come somme di v.a.. di Bernoulli, che sono
indipendenti nel primo caso ma. non nel secondo. Questo fatto, insieme con la
proprietà di additività della speranza ma.tematica., implica che le due medie
sono uguali, anche se le leggi, che dipendono anche da.Ile leggi congiunte degli
addendi, sono diverse.

2.6 Momenti, varianza, covarianza

Definizione 2.36 $ia X una v.a. Per k = l, 2 ... diremo che X ha momento
di ordì11e k finito se la. v.a. Xk ha speranza matematica fi11ita. In questo caso si
chiama momento di ordine k della v.a. X la. quantità E[Xk]. Analogamente se
la. v.a. (X - E[X])k ha speranza matematica finita diremo clie X ha momento
centrato di ordine i~ finito e chiameremo momento centrato di ordine k la
q11a11tit.àE[(X - E[X])k].
!\,fomenti, varianza, covarianza 53

Per il Teorema 2.29applicato alle funzioni <t>(x)= xk e <t>(x)= (x - E[X])k


~:-pettivamente, si ha, indicando con p la densità di X e conµ= E[X] la sua
~·:edia,
E[Xk] =L xf p(xi)
i
2.29)
E[(X - µl] = L(xi - JLl p(xi)
i
le somme convergono assolutamente. Le (2.29) sono importanti perché da
-i?
~na parte forniscono un modo pratico di calcolo dei momenti, e dall'altra
~1ostrano che i momenti dipendono solo dalla legge di X.

Proposizione 2.37 a) Se X ha momento di ordine k finito, allora ha anche


---:wmento di ordine r finito per ogni r s; k.
/;) Se X e Y hanno momento di ordine l: finito, allora anche X + Y l1a
.---:wmentodi ordine k finito.
Dimostrazione. a) Perché X abbia momento di ordine r finito basta mostrare

L lxdr p(xi) < +oo


i
.;., lxl < 1 allora l:dr s;
1 mentre se l:i:I ~ 1 allora lxt ::; lxlk, Insomma
~-1alunque sia x E lR si ha lxlr s; 1 + 1:rlke dunque
L lxdr p(xi) s; I)l + lxdk) p(xi) = 1 + L lxilk p(xi) < +oo
i i i
b) Perché X+ Y abbia momento di ordine k finito basta che sia

L lxi+ Yilk p(x;, Yi) < +oo


i,j
:o\'e ora con p indichiamo la distribuzione congiunta di X e Y. Si può però
::mostrare che, per ogni coppia x, y di numeri reali, vale la disuguaglianza
lx+ Ylk s; 2k- 1 (l,1:lk+ IYlk)
.-.dunque
LI Xi + Yj Ik p( X i, Yj) s; 2k- l L (IX;i k + IYj Ik) JJ(X i, Yj ) =
i,j i,j

i,j i,j

= 2k-l L lxdk Px(xi) + 2k-l L IY1lkP't·(yj) <


i j

< +oo
54 Capitolo 2

Come conseguenza della Proposizione 2.37, se X ha momento di ordine k finito


allora ha anche momento centrato di ordine k finito. Basta infatti osservare che
X - E[X] si può scrivere come somma della v.a. X e della v.a. costante -E[X],
e quindi applicare il punto b) della Proposizione 2.37 .

Il più importante dei momenti è il momento centrato del second'ordine. Più


precisamente, se X ha momento del second'ordine finito, si chiama varianza il
suo momento centrato del second'ordine e si scrive

(2.30) Var(X) = E[(X - E[X]) 2]

Abbiamo visto che la speranza matematica di una v.a. X è la media dei


valori che essa assume. La varianza. è invece una. misura della dispersione di X
attorno alla sua media. Infatti se X prende dei valori lontani dalla sua media
allora. la v.a. (X - E[X]) 2 assumerà. dei valori grandi e la varianza di X sarà.
grande di conseguenza. All'altro estremo se X prende il solo valore E[X] allora
(X - E[X]) 2 = O con probabilità 1 e dunque la varianza. è nulla.
Ad esempio consideriamo due v.a.. X e Y e supponiamo che X assuma i valori
1 e -1 con proba.b~lità ½,mentre Y i valori 100 e -100 a.nch'essi con probabilità
½.È immediato verifica.re che E[X] = E[Y] = O, ma. la v .a. (X - E[ X] )2 prende
il solo valore 1 e dunque Var(X) = 1, mentre (Y - E[Y]) 2 = 10000 e dunque
Va.r(Y) = 10000.
Questo a.spetto della nozione di varianza viene bene messo in evidenza. dalla
seguente classica disuguaglianza.

Proposizione 2.38 (Disuguaglianza di Chebychev)

P{IX - E[X]I > 17}:S:Var~X)


17

Dimostrazione. Consideriamo la v.a.. Y = 1721{1X-E[X]l>1J}, cioè Y è la. v.a..


che va.le 772 se IX - E[X]I > 77e O altrimenti. È chiaro che

(X - E[X]) 2 ~ Y

perché Y = 172 < (X - E[X]) 2 sull'evento {IX - E[X]I > 77}mentre sull'evento
{IX - E[X]I :S:77}la v.a. Y vale O mentre (X - E[X]) 2 ~O.Dunque prendendo
la speranza matematica si ha

Va.r(X) = E[(X - E[X])2] ~ E[Y] = E[772 l{IX-E[XJ1>1J}] =


= 772 P{IX - E[X]I > 77}
Momenti, varianza, covarianza 55

(he è quello che si voleva dimostrare.

La disuguaglianza di Chebychev quantifica l'interpretazione intuitiva della va-


rianza· come misura della dispersione: più Var(X) è piccola, più è piccola la
probabilità che X prenda valori lontani dalla sua media.
La disuguaglianza di Chebychev è in realtà una maggiorazione grossolana
di P{IX - E[X]I > 17}.Se X è ad esempio la v.a. di poco fa, con i valori 1 e
-1 assunti entrambi con probabilità ½e per la quale E[X] = O e Var(X) = 1,
scegliendo 17= 2 si ha P{IX - E[X]I > 17}= O mentre Var(X)/17 2 = ¼·Per
ry < 1 si ha addirittura Var(X)/17 2 > 1 mentre è chiaro che P{IX - E[X]I > 17}
può valere 1 al più.
Ciononostante, e anche se pii1 tardi vedremo stime di dispersione più precise,
,i tratta di una disuguaglianza preziosa in molte circostanze.
Si usa indica.re con il simbolo a 2 la varianza di una v.a. X, così come si usa
indica.re con µ la. speranza. matematica. La. quantità a = JVar(X) si chiama
la deviazionP. standard di X.
Riprendendo (2.30) si ha

Var(X) = E[(.Y - Jt) 2 ] = E[X 2 -2µX + µ 2] =


, 2.31)
= E[X 2 ] - 2JtE[X] + Jt2 = E[X 2 ] - E[X]2

La (2.31) dà un 'altra espressione possibile per il calcolo della varianza. A


-Pconda. delle situazioni conviene scegliere per il calcolo la formula. (2.30) oppure
2.31). Osserviamo solo che da (2.30) è chiaro che la varianza. è sempre ~ O,
rnsa che non è evidente in (2.31).
Sono utili le seguenti proprietà della varianza:

Var(aX) = a 2 Va.r(X)
Ll2)
Var(a +X)= Var(X)

Li:' (2.32) sono praticamente immediate: per la seconda delle due, ad esempio
'-,asta scrivere

Var(a +X)= E[((X + a) - E[X + a])2] = E[(X + a - E[X] - a) 2 ] =


= E[(X - E[X])2] = Va.r(X)

Qnl'sta relazione è del resto coerente con l'interpretazione della varianza come
r:1isura della dispersione: se si aggiunge ad una v.a. una costante a, la media Jt
-: sposta della quantità a, così pure come i va.lori assunti da. X. In definitiva la
dispersione di X rispetto a JLe quella di X+ a rispetto a Jl + a sono le stesse.
56 Capitolo 2

Se due v.a. X e Y hanno momento del second'ordine finito, allora per la


Proposizione 2.37 anche X+ Y ha momento del second'ordine finito. Cerchiamo
un 'espressione per la varianza di X + Y.

Var(X + Y) = E[((X + Y) - E[X + Y]) 2 ] =


(2.33)
~-,:E[Ux
- E[X]) + (Y - E[YD) 2 ] =
= E[(x - E[X]) 2 ] + E[(Y - E[YD 2 ] + 2E[(x - E[X])(Y - E[YD]
= Var(X) + Var(Y) + 2 Cov(X, Y)

dove abbiamo posto

(2.34) Cov(X, Y) = E[(X - E[X])(Y - E[Y])]

La quantità Cov(X, Y) si chiama la covarianza di X e Y. Un metodo di calcolo


'alternativo della covarianza è dato da

Cov(X, Y) = E[(X - E[X])(Y - E[Y])]


(2.35) = E[XY - XE[Y] - YE[X] + E[X]E[Yl] =
= E[XY] - E[.X] E[Y]

In particolare se X e Y sono indipendenti, allora per la Proposizione 2.33

(2.36) Cov(X, Y) = E[XY] - E[X]E[Y] =O


da cui segue che se X e Y sono indipendenti allora Var(X + Y) = Var(X) +
Var(Y). Anzi, ripetendo i calcoli di (2.33) per il caso di mv.a., si ha facilmente

m m
(2.37) Var(X1 + ... +Xm) = z:=var(Xi)+ L Cov(Xi,Xj)
i=l i,j=l

e se X1, ... , Xm sono indipendenti

(2.38) Var(X1 + ... + Xm) = Var(Xl) + ... + Var(Xm)

e dunque la varianza di una somma di v.a. indipendenti è uguale alla somma


della varianze.
!\lomenti. varianza, covarianza 57

:::;;empi 2.39
2. ( Legge di Bernoulli) Se X ,....,
B( l. p) allora

Var(X)
.,. ··-
= E[X 2 ] - E[X]2 =p - p2 =--
p(l - p)

::i, ( Leggi binomia.li) Se X ,.._,B( n, p) allora sappiamo che si può scrivere


= ): 1 + ... + x; dove
.·,_· X 1 , ... , Xn sono indipendenti e B(l, p). Dunque per
~.:E)
Var(X)
~ ......
= Var(Xi) + ... + Var(Xn) = np(l - p)
·=1 ( Leggi di Poisson) Sia X di Poisson di parametro À. Allora

,x, _xk ,x, \k-1


E[X 2] =e-.\' l.·2 - = e-.\_x' l.·-'--
L k! L (k-1)!
k=O k=l
,x, _xi
= f-.\_x L(i + 1)-:, = .XE[X + 1] = À(À + 1)
i=O I.

= À(À + 1)-
'
Var(X) = E[X 2 ] -
,\_d.eJ-pa,rn,1ne.t1:u
~·< una v .a. di E.oisson_rl_1111q_t!~_lL~:(_l.lor(;'
E[X]2
.co!ncid.e sia con la_
,\ 2
..
= ,\

·~·-=-_dia
che con la varianza. Dunque al crescere di ,\ aumentano sia media che
:_,,2ersione .

.-.. ,:a usa di (2.36) la covarianza viene ~esso usata com~ 11na misura dell'indi-
~-:··,de_~adelle_ Y:a:_:se la c_ovaria11zaè prossima a zero le V.a. sono-oonsiderat~
- ~ 1asi" indipeudent,i. mentre valori grandi della covarianza fanno pensare ad.
-~.é:. ··forte" dipendenza. Vi_sono però esempi d_i_ y._a.che hanno covarianza nulla
,;?.zaes-sereiiiaipeì1d.enti. Se Cov(X, Y) = 0 si dice·c·l{e le V.a. X ~--F;-òno non
. -,·!'fate. Come ··misura d;ii~èìipendenza•i è pei·ò meglio usare il coe.ffì~ie~ù-éH
--d~::ù;ne Px.Y definito da

Cov(X. Y) Cov(X, Y)
p X' y = ---;======
JVar(X) Va.r(Y)

· ~,.,fficiente di correlazione ha il vantaggio, rispetto alla covarianza, di essere


· . :::~iante rispetto ai cambiamenti di scala, cioè, se a, b > O, allora

PaX.b}' = PX.}'
~: ::-~oposizione seguente implica che si ha sempre -1:::; Px,'r· :::; 1.
58 Capitolo 2

Proposizione 2.40 Se X e Y hanno varianza finita allora

Dimostrazione. Poiché la speranza matematica di una v .a. 2: Oè sempre 2: O,


per ogni (} E Ill si ha

Poiché questa relazione è vera per ogni valore di (} il trinomio (} - 92 E[X 2 ] +


29E[IXYI] + E[Y 2 ] non può prendere valori negativi ed il suo discriminante è
dunque :::;O, ovvero

che è quello che si voleva dimostrare.

La Proposizione 2.40 applicata alle v.a. X - E[X] e Y - E[Y] dà

Cov(X, Y) 2 E[J(X - E[X])(Y - E[Y])J] 2 :::;


:::;

:::;E[(X - E[X])2]E[(Y - E[Y]) 2] = Var(X)Var(Y)

e dunque p\ y :::; 1.
'
La condizione di non correlazione è in realtà, molto più debole di quella di
indipendenza, ma è anche più facile da verificare per cui è abbastanza. usata
nella pratica come forma debole di indipendenza.

Esempio 2.41 Un'urna contiene b palline bianche e r rosse. Da essa se ne


estraggono 2 senza rimpiazzo. Poniamo al solito

se la prima pallina estratta è rossa


altrimenti
se la seconda estratta è rossa
altrimenti

Calcoliamo il coefficiente di correlazione di X 1 e X2.


Cominciamo col calcolare E[X 1 X 2 ]. La v.a. X 1 X 2 può prendere solo i valori
l ., O. :\1a X1 X2 = 1 solo se simultaneamente X 1 = 1 e X 2 = 1. Dunque

P{X1 X2 = l} = P{X 1 = 1,X 2 = 1} = _r_ r - l := p


b+rb+r-1
r( r - 1)
E[X1 X2] = (b+ r)(b+ r -1)

::Ya.ltra parte sappiamo che sia X1 che X2 sono B(l, b~r), dunque

Cov(X 1, X2) = E[X1 X2] - E[X1] E[X2] = (b + ~j~b-/;


_ + l) (b
r2
r )2
-br
(b + r) 2 (b +r - 1)
:-·~·iché
br
Var( X 1 ) = Var( X 2) = b : r (1 - b: r) ( b + r )2
-0efficiente di correlazione vale
1

. '"•·rvi amo che il coefficiente di correlazione appena calcolato è in valore as-


. .:to tanto più piccolo quanto pii1 il numero totale b + r di palline è grande.
~ è in accordo con l'intuizione: X 1 e X 2 non sono mai indipendenti, ma la
--=-ndenza diviene tanto più debole quanto più il numero totale di palline è
: - '-~rie. In questo ca.so il risultato della prima estrazione influisce poco sul ri-
- :: 1 0 della seconda (il fatto che la differenza tra. le estrazioni senza rimpiazzo

lle con rimpiazzo tenda a svanire quando il numero di palline è grande è


._ •• 0

- _., 0 in evidenza nell'Esercizio 2.10).


0

· - Funzioni generatrici

, X una v.a. a valori interi ~ O e poniamo per z E IR

. , _.-:zione 'lj_,si chiama funzione generatrice delle probabilità.. Se p è la densità


·,_·.;ier il Teorema 2.29 si ha
00

'1/-ix(z)= L znp(n)
n=O
60 Capitolo 2

e quindi la funzione generatrice dipende solo dalla densità pese due v.a. hanno
uguale densità hanno anche uguale f.g.
Nella (2.40) siamo stati in realtà un po' sbrigativi: perché la definizione abbia
senso occorre infatti che la v.a. zX abbia speranza matematica finita, ovvero
che la serie in (2.41) converga assolutamente. Ma se lzl ~ 1 la serie risulta
maggiorata in valore assoluto, termine a termine, dalla serie di termine generale
p(n) che è convergente (e di somma= 1). Dunque la funzione generatrice "Px
è definita almeno per -1 ~ z ~ l, qualunque sia la v.a. X. Naturalmente può
succedere che il raggio di convergenza della serie sia più grande. È il caso ad
esempio se X prende solo un numero finito di valori. In questo caso la serie in
(2.41) si riduce a una somma finita (e la funzione generatrice è un polinomio).

Esempi 2.42
a) (Leggi binomiali) Se X "' B(n,p), allora ricordando lo sviluppo del
binomio

"Px(z) = tzk (~)pk(l- p)n-k = t (:)(zpl(l- pr-k =


k=O k=O

= (1 - p + zpr
b) (Leggi di Poisson) Se X è di Poisson di para.metro >.allora

eJ ( Legge geometrica) Se X ha legge geometrica di parametro p allora, ricor-


dando l'espressione della somma della sNie geometrica,

00 00

il·.dz) = ""znp(l - pr = ""p(z(l - p)r = p


- L L l - ~(1 - p)
- - n=O n=O -

"-·:·~·:1dizioneche sia lz(l - p)I < 1, altrimenti la serie non converge. In questo
:a funzione generatrice è definita per lzl < l~p.
Funzioni generatrici 61

~sempio 2.43 (Distribuzioni binomiali negative) Definiamo per ogni /3E R


'ntero 2: o il èoefficìènfebinomiale .. ~

(/3)
k
= /3(/3- 1) .. . (/3- k + l)
k!
: =-~ogni o > Oe O~ p ~ l poniamo

p(x) = {
pCi (O'
+ X -
X
l)(l_ )x p sex= O, l, 2 ...

o altrimenti

:,::isì d0fi11ita è una densità discreta: è chiaro che p(x) 2: O; inoltre poiché è
·: ·o lo sviluppo in serie di potenze

- .~:3)
(l-t)(i
1 =~
L.t
(a+ l) k -
k
tk
k=O

-6(a+kk -
f-- l)( l - p
l
= (1 -
1
(1 - p))Ci = p
-a

·< cui
00

I: p(i:) = 1
k=O

iameremo binomiale negativa di parametri a e p la distribuzione data da


~-12). Calcoliamone la funzione generatrice. Grazie a
(2.43)si ha

?j)(z) = p '6 (a+


a~ k-
k
1) (z(l - p))
k
= (1 - Pa
z(l - p))a

~ 2. legge geometrica è un caso particolare di binomiale negativa ( a = 1).


:_jbiamo visto che se X e Y hanno la stessa densità, allora hanno anche la
· · '°SSafunzione generatrice. Ancora pi ì1 importante è il viceversa: se X e Y
':'.lno la stessa funzione generatrice allora hanno la stessa densità. In effetti
~.! 1) definisce la funzione 1/)x dandone lo sviluppo in serie di potenze che
• 0.;-ipiamo essere unico: se per una funzione 'lj.)si ha
00 00

'lj)(z) = L OnZn = L bnzn


n=O n=O
62 Capitolo 2

al variare di z in un intervallo ( avente parte interna non vuota.), allora neces-


sariamente an = bn per ogni n. Dunque se per ogni z E] - 1, 1[ si ha
00 00

n=O n=O

allora necessariamente px(n) = py(n) per ogni n = O, 1, 2, ...


Dunque la funzione generatrice individua la densità. È però importante
avere un metodo esplicito per calcolare la densità p a partire dalla funzione
generatrice. Poiché in (2.41) i numeri p( n) non sono altro che i coefficienti
dello sviluppo in serie di potenze di V'x, allora è chiaro che

(2.44)

La (2.44) fornisce un metodo per il calcolo della densità a partire dalla funzione
generatrice; esso può rivelarsi però inutilizzabile in alcuni casi: se le derivate
successive di '1/Jxdiventano sempre più complicate, calcolare il valore della
densità per n grande può essere una operazione laboriosa. Ricordiamo perciò
che la (2.44) fornisce solo uno dei metodi possibili. Ogni metodo di calcolo di
uno sviluppo in serie di potenze è d'altra parte utilizzabile.

Esempio 2.44 Sia X una v.a. avente funzione generatrice

Qual è la densità di X?
Se provassimo a fare le derivate successive, come in (2.44) , saremmo presto
in difficoltà perché la derivata n-esima di '1/Jxè della forma Pn(z)'ljJ(z), dove Pn
è un polinomio di grado n e il calcolo delle derivate successive con la formula
della derivata di un prodotto è sempre piì1 laborioso. Ba.sta invece osservare
che

,:111H111e sostituendo z 2 a z

'1/Jx(z)= e-,\ L z n-,


Àn
2
n.
n=O

__ '·~-:'à di .Y è dunque data da


Funzioni generatrici 63

->. À n
{
e -:;:;-r se k = 2n n = O, 1, ...
p(k) = O n.
altrimenti

ia uno sguardo più attento si vede che X = 2Y, dove Y è di Poisson di


::arametro À ).

Proposizione 2.45 Siano X e Y v.a. indipendenti. Allora

ipX+ y ( Z) = ipX ( Z) ipy ( Z)


: ·', ogni z.
Dimostrazione. Se X e Y sono indipendenti, allora per la Proposizione 2.33
~:,~lica.ta alle v.a.. zX e zY, che sono anch'esse indipendenti per la. Proposizione
- :::,1.

-aJcolo della funzione generatrice di una somma. div.a. indipendenti è dunque


: :,o semplice. Ciò suggerisce un modo di calcolo della densità della somma
:ue v.a. indipendenti che è talvolta più agevole del calcolo della serie nella
: - :,;:iosizione 2.25: si calcolano le f.g. di X e Y e attr.ayerso la Proposizione
- : si ha immediatamente la f.g. di X + Y. A partire da questa si calcola la
0
)

> - -ità di X+ Y sviluppando in serie con uno dei metodi visti poco fa.
:: una tecnica che non sempre funziona (soprattutto lo sviluppo in serie di
, _ }" può dare luogo a complicazioni), ma che è talvolta efficace.

~:;empio 2.46 Siano X e Y indipendenti e di Poisson di parametri À e µ


- -- "ttivamente. Qual è la densità di X+ Y?
.;i ha facilmente

· :,:iosciamo che X+ Y ha la stessa f.g. di una legge di Poisson di parametro


· - ·'" Poiché la f.g. individua la legge, X+ Y è di Poisson di parametro À + µ.
64 Capitolo 2

Esempio 2.47 Siano X e Y v.a. indipendenti entrambe di legge geometrica


di parametro p. Qual è la legge di X+ Y?
Grazie all'Esempio 2.42 c) ed alla Proposizione 2.45

p2
"Px+y(z) = (1 - z(l - p))2

X+ Y ha dunque distribuzione binomiale negativa con a = 2. Da (2.42) si ha

Esempio 2.48 Un dado viene lanciato 3 volte. Qual è la probabilità che la


somma dei risultati sia uguale a 11?
Questo problema. può essere a.ffrontata con i metodi del calcolo com bina.torio,
calcolando la cardinalità. dei possibili risultati. Si può però anche operare nel
modo seguente: indichiamo con X 1 ,X 2 ,X 3 i risultati dei tre lanci. Si tratta di
v.a. uniformi su {1,2,3,4,.5,6} e tra loro indipendenti. Dunque per i= 1,2,3

1 z 1- z6
"Px
., (z) = -(z
6 + z 2 + z 3 + z 4 + z 5 + z6 ) = ---
61-z

Dunque la somma X dei tre risultati ha. f.g.

z3 (1 - z6)3
'lpX ( Z) = 63 ( 1 - z )3

Con la regola del binomio e la (2.43) per a = 3 si ha


(1 - z 6 ) 3 = 1 - 3z 6 + 3z 12 - z 18
1 = ~ (n+ l)(n+2) zn
( 1 - z) 3 L 2
n=O

l'\°(:-:) = J_ (~ (n + l)(n + 2) z3+n _ 3 ~ (n + l)(n + 2) z9+n+


. 63 L 2 L 2
n=O n=O

+3 ~ (n + l~n+ 2) z"+•_ t, (n+ l~n + 2) z"+•)


Funzioni generatrici 65

::_:-:,"'ffi.cientedi z 11 nella prima serie vale 9-10/2 = 45, nella seconda 3·4/2 = 6
- <. tre è nullo nelle ultime due, che hanno i coefficienti uguali a O fino al
: .=:·wrdicesimo ed al ventesimo rispettivamente. Dunque

P {X = 11} = 631 (45 - 3 · 6)


27
= 216
: ~- i metodi del calcolo combinatorio avremmo affrontato dei calcoli di
·. - §;hezza più o meno simile; ma questa procedura in realtà ha fornito tutta la
>~_,ità di X: ad esempio da (2.45) si ricava facilmente

P{X = 8} = 2!_
216
· : ~ ~re col calcolo combinatorio avremmo dovuto ripetere da capo tutto lo
·_ "'O calcolo svolto per il valore 11.

· -'--:iamoora invece come dalle f.g. si possono ricavare la media ej momenti di


- :,.-_·,a.Da (2.41) abbiamo derivando
00

f~x-(z) = L nzn- 1 p(n)


n=l

: .:1que, se il raggio di convergenza della serie in (2.41) è> 1, per z =l


00

f~(l) =L n p(n) = E[X]


n=l
~ ,.c.·:\·andoun'altra volta
00

f'x(z) =L n(n - l)zn- 2 p(n)


n=2
=~aque
00 00

1/•'x(l) = L(n 2 - n)p(n) = L(n 2 - n)p(n) = E[X 2] - E[X]


n=2 n=O
:- · cui

- ~ ~) Var(X) = E[X 2 ] - E[X]2 = v>'.~(1)+ f~(l) - 1/'~(1)2


0 ·;:..ndoquesto ragiona.mento si vede che, se la f.g. è definita. in un intervallo
·.c.··amente più grande di [O,1], allora X ha momenti finiti di tutti gli ordini,
-i possono ottenere opportunamente calcolando le deriva.te successive di
:ier z = 1.
66 Capitolo 2

Esempio 2.49 (Media e varianza di una v.a. geometrica) Se X è geometrica


di parametro p, allora

/ p(l-p)
1/Jx(z)= (1- z(l - p))2
Il ( ) 2p( 1 - p )2
1/Jxz = (1 - z(l - p))3
E[X] =l- P·
p
2p(l - p) 2 1- p 2 1- p
V ar (X) -_ ---- + -- (1 - p)
- --- --
p3 p p2 p2

2.8 Somme aleatorie

Consideriamo una successione div.a. X 1 , X 2 , ••• indipendenti e identicamente


distribuite e sia N un'altra v.a. a valori interi 2'.O. Supponiamo per di più che
le v.a. N, X 1 , X 2 , ... siano indipendenti.
Poniamo, per ogni n > O, Sn = X1 + ... + Xn ed inoltre

La quantità S N(w) viene determinata nel modo seguente: si calcola prima il


valore N(w) assunto da Ne poi si fa la somma di Xi per i= 1, ... ,N(w). Se
N(w) = O poniamo SN(w) = O.
Variabili di questo tipo appaiono spesso in presenza di fenomeni casuali
che dipendono a loro volta da altri fenomeni casuali. Supponiamo ad esempio
che in una colonia di batteri ogni individuo dia luogo, suddividendosi, ad un
numero Z 1 aleatorio di discendenti, dove Z 1 è una v.a. di densità p. La seconda
generazione sarà allora composta da un numero Z2 di individui, dove Z2 è una
somma di Z 1 variabili indipendenti tutte ancora di densità p. Possiamo quindi
descrivere Z2 come una somma aleatoria..
Calcoliamo la legge di SN. L'idea è di condizionare rispetto agli eventi che
dipendono da N, usando il metodo della partizione dell'evento certo introdotto
nel paragrafo 1.5. In effetti gli eventi {N = i},i = O, 1,2, ... costituiscono una
partizione di n, per cui
00

P{SN = x} = LP{SN = x,N = i}


i=O
Somme aleatorie 67

.. [a su {N = i} si ha SN =Sie dunque

CX)

P{SN = x} = LP{Si = x,N = i}


i=O

; ;,oiché le v.a. Si e N sono indipendenti

CX)

P{SN =X}= L P{Si =X} P{N =. i}


i=O

=:.;coliamoora la media di SN. Supponiamo che le v.a. N, X1, X2, ... abbiano
· ~ "ranza matematica finita. Poiché ·le Xi hanno la stessa densità e quindi la
---:c sa speranza matematica E[Xt]
0

CX)

E[SN] = LxP{SN = x} = Lx LP{.S\ = x} P{N =i}=


X X i=O
CX)

- -19) i=O X
CX) CX)

= L P{N = i}E[Si] = Li P{N = i}E[X1) =


i=O i=O
= E[N)E[Xi)
.cramente prima di fare il calcolo in (2.49) avremmo dovuto mostrare che
· ·. ha speranza ma.tematica finita; non è del resto una cosa difficile: ba.sta
- ~ -"rcorrere i passaggi di (2.49) con lxi al posto di x; lasciamo come esercizio
: .::-,todettaglio di calcolo, anche se è opportuno ricordare che si tratta di una
.e~;ficada farsi sempre). La legge di S N può essere talvolta calcolata facilmente
· · - il risultato seguente.

?~posizione 2.50 Supponiamo che le v.a. X 1 , X 2 , ... siano a valori interi


_ -, e indichiamo con ·,p,"PN,'IPXle fg. di SN, N, Xi rispettivamente. Allora

tp(z) = 'IPN('itx(z)) 1

:•:mostrazione. Ricordando che V's;(z) = 'lj.,x(z)i, da (2.48) si ha


CX)

k=0
CX) CX)

k=0 i=0
CX) 00

= LP{N = i} LzkP{S; = k}
i=0 k=0
00

i=0

= 1PN(1Px(z))
Esempio 2.51 50 monete vengono lanciate simultaneamente. Dopo il lancio
quelle che hanno dato croce vengono eliminate e si lanciano di nuovo quelle
che restano. Si continua così eliminando ogni volta le monete che danno croce
e lanciando le rimanenti, fino a che tutte le monete non sono eliminate. In-
dichiamo con Zi il numero di monete ancora in gioco dopo i lanci. Qual è la
legge di Zi? Indichiamo con T il numero di lanci necessario per eliminare tutte
le monete ( cioè T = i se Zi = O ma Zi-l > O). Qual è la legge di T?
È chiaro che Z 1 "' B(50, ½), perché Z 1 si può scrivere come una somma
di 50 v.a. indipendenti di Bernoulli B(l, ½). Un attimo di riflessione mostra
che Z 2 è a sua volta la somma di Z1 v.a. indipendenti tutte di legge B(l, ½).
Ricordando che la f.g. di B(n,p) è z--+ (1 - p + pzt e dunque quella di una
B(l, ½)è z--+ (1 - ½+ 1), per la Proposizione 2.50 si ha

1
1Pz2(z)= ( 1-2+2 1 ( 1-2+2
1 z)) 50
= ( 1
1-4+4 z) 50

Poiché Z 2 ha la f.g. di una v.a. B(50, ¼),essa ha legge B(50, ¼). Ripetendo il
ragionamento e osservando che Z 3 è una somma di Z 2 v.a. indipendenti di legge
B( 1, ½)si ricava facilmente ripetendo il calcolo appena fatto che Z3 "' B( 50, ½)
e per ricorrenza Zn rv B(50, 2-n).
Resta da calcolare la densità di T. Con viene ( come spesso succede con le v .a.
che sono dei tempi di attesa) calcolarne la funzione di ripartizione. In effetti
{T ~ i}= {Z; = O} e dunque
50
P{T ~ i}= P{Zi =O}= O ( 21i ) o ( 1 - 21i )
( 50) = (
1 - 21i ) 50

P{T = i}= P{T ~ i} - P{T ~ i- 1} = ( 1 - ;i) so - ( 1 - 2i~l)


50
Esercizi 69

Esercizi

2 .1 a) Un dado viene lanciato 3 volte. Qual è la probabilità che il 6 sia uscito


----2.rtamente 2 volte?
b) Qual è la probabilità che in n lanci il 6 sia uscito esattamente 2 volte?
?-:-r quale valore di n questa probabilità è massima?

r
2. 2 n 'urna con tiene 112 dadi di cui 56 ( cioè la metà) sono equilibrati, men tre
:: ' altri sono stati manipolat1 in modo che, per ciascuno di essi, la probabilità
:_ ottenere 1 sia ½,mentre ogni altro risultato si verifica con probabilità / 0 •
a) Un dado viene estratto a caso e lanciato; indicliiamo con X il risultato
-- _ lancio. Qual è la probabilità di ottenere 3? Quanto vale E[X]?
J: Un dado viene estratto a caso e lanciato due volte ottenendo 2 e 3. Qual
2 probabilità che si tratti di 11110 dei dadi truccati?
Un dado viene estratto a caso e lanciato due volte. Indichiamo con X e
'! risultato dei due lanci. Si tratta di v.a. indipendenti?

~ .3 Due dadi equilibrati vengono lanciati separatamente più volte. Indichiamo


:: _y il numero di lanci necessario a ottenere 1 con il primo dado, con Y il
_::;ero di lanci necessario a ottenere 5 oppure 6 con il secondo.
2 .. Qual è la legge di X? Qual è la legge di Y?
) 1 Calcolare la densità di Z = max(X, Y). 1(
,- Calcolare P{X ~ Y}.

:_~ Due centralini, tra di loro indipendenti, ricevono nell'unità di tempo un


- -::;ero di telefona.te X e Y aventi legge di Poisson di parametri rispettiva.mente
---u.
;, Qual è la probabilità che nell'unità di tempo i due centralini riceva.no
- -_-"me non più di tre telefona.te, supponendo À 2 eµ = =
4?
- Calcolare la. legge condiziona.le di X dato X Y + =
n. Si tratta di una
: 0 -,i1à nota?
Supponendo À = 2 e µ = 4 e sapendo che nell'unità di tempo i due
- -::-alini hanno ricevuto 8 telefonate, qual è la probabilità che il primo ne
- - 'a ricevute k? Per quali va.lori di k questa probabilità è massima?

• :i Data la funzione
g( z) = clog( 1 - 2z )
·--:-minare c in modo che g sia la funzione generatrice di una legge di proba-
. à. C;i/rn/arne poi esplicitamente la densità. e la media..
70 Capitolo 2

2.6 Una scatola contiene 4 palline numerate 0,1,1,2. Vengono effettuate n


estrazioni con rimpiazzo. Indichiamo con Xi il numero della pallina i-esima
estratta.
a) Calcolare la funzione generatrice di Xi,
b) Posto Y = X 1 + ... + X n, determinare la legge di Y.

2. 7 Calcolare media. e varianza di una v.a. binomia/e negativa di parametri p, a.


Calcolare la legge della somma di due v.a. indipendenti e di densità binomiale
negativa di parametri p, a ~ p, /3rispettivamente.

2.8 Una moneta dà testa con probabilità p e viene lanciata N volte, dove N è
una v.a. di Poisson di para.metro À. Indichiamo con X e Y il numero di teste
e di croci ottenute rispettiva.mente.
a) Calcolare le leggi di X e Y.
b) (Pirì difficile) Dimostrare che X e Y sono indipendenti.

2.9 Nel gioco del lotto ad ogni estrazione cinque numeri vengono estratti simul-
tanea.mente da un 'urna che contiene 90 palline numerate da. 1 a 90. Fissiamo
un numero, ad esempio il 67, ed indichiamo con p la probabilità. che esso appaia.
in una singola. estrazione.
a) Quanto vale p?
b) Qual è la probabilità. clie dopo ,'JOestrazioni il 67 non sia. ancora uscito?
Quante settima.ne occorrono in media perché il 67 venga. estratto?
c) Supponiamo che nelle prime 100 estrazioni il 67 non sia. ancora. uscito.
Qual è la probabilità che esso esca. alla 101-esima.? Qua.I è la probabilità che
non esca. prima della. 130-esima.?
d) Qual è la probabilità che esso esca a/meno 5 volte nelle prime 50 estra-
zioni?

2.10 Un 'urna. contiene mb palline bianche e mr palline rosse. Da. essa. vengono
fatte n estrazioni senza. rimpiazzo. lndicliia.mo con X il numero di palline rosse
estratte. Mostra.re che se rn -+ oo, allora

P{X = k}-+ (;) (b: r) (b !r)


k n-k

(Ovvero quando il numero di palline è grande le probabilità di estrazioni senza.


rimpiazzo differiscono di poco da. quelle di estrazioni con rimpiazzo).

2.11 Sia T una. v.a.. a. va.lori interi 2::O e che goda della proprietà di mancanza.
di r.Jemoria
P{T 2::k + m I T 2: k} = P{T 2::m}
allora T è una. v.a.. geometrica..
Esercizi 71

2.12 La memoria secondaria di un calcolatore è composta da 40 unità disco in


:,gn una delle quali sono archiviate 100 registrazioni (file, in inglese). Durante
. ·1-:secuzionedi un programma è necessario accedere a 40 di questi file, tutti
:i\·ersi.
a) Qual è la probabilità che sia necessario utilizzare l'unità n.1? (Cioè qual
.e la probabilità che /ra i 40 file ve ne sia uno contenuto nell'unità n.l ?)
b) Qual è la probabilità che si debba utilizzare sia la n.1 sia la n.2?
c) Indichiamo con}~ la v.a.

se l'unità i-esima è utilizzata


altrimenti

· = 1, ..., 40. Qual è la legge di Y;? Le Yi sono indipendenti? Sono a due a due
~riipendenti? Sono non correlate?
e) IndicJiiamo con X il numero di unità disco necessarie per l'esecuzione del
::--rogra.mma.Quanto vale E[X]?

2.13 Un'urna A contiene n palli11e tutte rosse. Un'urna B contiene n palline


::: cui r rosse (l :S r < n) e le rimanenti n - r bianche. Si sceglie a caso una
::-olleurne e da essa si effettua una successione di estrazioni con rimpiazzo.
a) Qual è la probabilità che la prima pallina estratta sia rossa?
b) Qual è la probabilità che le prime due palline estratte abbiano colori
::i1-ersi?
c) Quante estrazioni sono necessarie in media per veder comparire per la
_::--rima volta una pallina rossa?
d) Sapendo che le prime k palline estratte sono rosse, qual è la probabilità
~hPl'urna dalla qua/e esse sono state estratte sia l'urna A? Supponiamo n =
:2. r = 4; quanto grande dovrà essere k perché si possa concludere che l'urna
:a cui le palline sono state estratte sia l'urna A con una. probabilità almeno
:: 0 / 90%?

2.14 Da. un 'urna contenente n palline numerate da 1 a n ne viene estratto un


_::-rimogruppo di k (k :S n) senza rimpiazzo; di esse si prende nota del numero,
:opo di che esse vengono rimesse nell'urna.
a) Altre k palline ve11gono estratte con le stesse regole. Qual è /a probabilità
-he tra di esse ve ne sia110 esattamente r (r :S k) di quelle del primo gruppo?
Q1ia/e sarebbe stata /a risposta se invece queste ultime palline fossero state
.c,rratte con rimpiazzo?
b) L'operazione viene ripetuta m volte finché tra le palline estratte ne fi-
zurino r del primo gruppo. Quanti gruppi di k estrazioni sono necessari in
~,edia?
72 Capitolo 2

2.15 Le carte di un mazzo ( di 52) regolarmente mischiato vengono girate una


dopo l'altra fino a che non appare un asso. Qual è la probabilità che ciò accada
alla k-esima carta?

2.16 n palline sono distribuite a caso in r scatole.


a) Qual è la probabilità che la scatola n.l abbia i palline?
b) Qual è la probabilità che le scatole n.1 e n.2 contengano rispettivamente
i e j palline?

2.17 Una compagnia aerea dispone di due tipi di aerei, uno da 20 ed un altro
da 10 posti. Poiché si sa che i passeggeri che prenotano poi non si presentano
con una proba.bilità del 10%, vengono sempre accettate 22 prenotazioni sui voli
da 20 posti e 11 su quelli da 10. In quale dei due tipi di aereo è maggiore il
rischio di lasciare a terra almeno un passeggero che ha regolarmente prenotato?~-

2.18 Indichiamo con F>.la f.r. di una v.a. di Poisson di parametro..\. Afostrare
che, per ogni t fissato,,\ -t F,\(t) è una funzione decrescente di..\.

2.19 Per correggere gli errori in un testo (o un in programma informatico ... )


vari revisori si susseguono. Il primo, quando si trova in presenza di 1111errore,
è in grado di individuarlo con probabilità p. Ad esso segue poi un secondo
revisore, che è aneli 'esso in grado di individuare gli errori lascia.ti dal primo
con probabilità p, e così via per i revisori successivi.
a) Supponiamo che vi siano inizialmente N errori e indichiamo con Xk il
numero di errori rimasti dopo il lavoro di k revisori. Qual è la legge di Xk?
Qual è la probabilità che vi siano ancora degli errori?
b) Rispondere alle stesse domande supponendo però che il numero N di
errori inizialmente presenti sia ora una v.a. di Poisson di parametro..\. Qual è la
probabilità che degli errori rimangano dopo il lavoro di 3 revisori, supponendo
p = 0.9 e ,\ = 300?
3
Variabili aleatorie continue

: : Definizioni
i
- :::uecapitoli precedenti abbiamo considerato la nozione di variabile aleatoria
' ·11azioni in cui si modellizzavano quantità che prendono al più una infinità
-·-:rabile di valori. È facile però immaginare quantità casuali che possono
:..·' :~nere qualunque valore in lll (oppure in un intervallo di lll).
~-='-come nell'Esempio 1.2, vogliamo studiare il primo istante in cui un
:-:-.;ionenteelettronico smette di funzionare (il tempo di vita del componente)
:.:-::o condotti a considera.re una quantità casuale che può prendere qualunque
e :,~e reale 2: o.

~-"'idee fondamentali che abbiamo sviluppato per le v.a. discrete restano va-
:.c ;ier le v.a. che studieremo ora. A parte alcune differenze tecniche (le somme
. =-~:.nnosostituite da integrali) anéhele formule e Ìe dimostrazioni saranno si-
- . a quelle del caso discreto. Il lettore anzi avrà la sensazione di ripercorrere
-'-'~<:>sse nozioni: in effetti sarebbe stato possibile trattare simultaneamente il
· ;__,,.discreto e quello di questo capitolo, ma ciò avrebbe richiesto strumenti
- =-·"matici più complessi.

· =- dunque X una v.a. nel senso della Definizione 2.2. Il fatto che {X~ t} sia
: - P\·ento implica che ha senso calcolare la probabilità P{X ~ t} e che dunque
-:-,uòdefinire la funzione di ripartizione

F(t) = P{X ~ t}

· ""rviamo intanto che, se di una v.a. si conosce la funzione di ripartizione F,


,· ra si conosce anche la quantità

P { a < X ~ b} = P{ X ~ b} - P { X ~ a} = F( b) - F( a)

· .C.:iamoora alcune proprietà delle funzioni di ripartizione, valide per ogni v.a.
~-1indi anche per le v.a. discrete.
1. Per ogni t E lll si ha O~ F(t) ~ 1.
74 Capitolo 3

2. F è una funzione non decrescente.


3. limt-+-oo F(t) = O, limt-++oo F(t) = 1
4. F è continua a destra.
Le proprietà 1. e 2. sono praticamente ovvie, data la definizione di F. Le
dimostrazioni di 3. e 4. sono molto simili. Cominciamo con 4. mostrando che

{3.1) lim F(t)


t-+x+
= F(x)
Poiché F è non decrescente, perché valga (3.1) basta che sia F(tn)-+ F(x),
dove {tn}n è una successione decrescente a x. Poiché gli eventi An ={X:::; tn}
costituiscono una successione decrescente, posto

nAn = n{X :::;tn}


00 00

A=
n=l n=l

per il Teorema 1.9

lim F(tn) = lim P{X:::; tn} = P(A)


n-+-<X> n-oo

La dimostrazione è dunque completa se A= {X:::; x}. Mostriamolo usando il


criterio della doppia inclusione che abbiamo già utilizzato nella dimostrazione
del Teorema 1.9. {X :::; x} C A è ovvia perché {X :::; x} C {X :::; tn} = An
per ogni n, e dunque {X :::; x} e A (l'intersezione di una famiglia di insiemi
è costituita dagli elementi che appartengono a tutti gli insiemi della famiglia).
Mostriamo l'inclusione opposta: se w E A allora deve essere X(w) :s;tn per
ogni ne dunque X(w) :s;limn-+oo tn = x che implica w E {X :::;x }.
La dimostrazione delle due uguaglianze in 3. è simile. Per la prima basta
far vedere che limn-+oo F(tn) = O, dove {tn}n è una qualunque successione
decrescente a -oo. Ma F(tn) = P{X :::; tn} e gli eventi An = {X :::; tn}
costituiscono una successione decrescente. Se poniamo

A= n =n
00

n=l
An
00

n=l
{X:::; tn}

sempre per il Teorema 1.9 ii) F(tn) converge a P(A). Ma A 0. Infatti se


esistesse w E A dovrebbe essere

(3.2)

per ogni n, che non può essere perché X(w) :s;tn per ogni n implicherebbe
Definizioni 75

X(w) = -oo, mentre X(w) è un numero reale. Dunque F(tn)--+ P(0) = O.


Con un ragionamento analogo si dimostra la seconda delle 3.

Le quattro proprietà delle f.r. che abbiamo messo in evidenza sono importanti
in quanto caratterizzano le f.r.: data una funzione G che soddisfi a 1.,2.,3. e 4.,
allora è sempre possibile costruire uno spazio di probabilità (n, A, P) ed una
v.a. X su (n, A, P) tali che la f.r. di X sia proprio G.

È ben noto che una funzione monotona ammette limiti a destra e a sinistra in
ogni punto. Dunque il limite a sinistra

lim F(t)
t-+x-

-:he indicheremo F(x- ), esiste sempre, anche se può succedere che sia F(x-) f:.
F( .r ),perché una f.r non è necessariament~_.9!Jl.tinua (abbiamo già. visto esempi
~i f.r. che hanno punti di discontinuità). E chiaro però che F(x-) :S F(x); la
::i~continuità F(x) - F(x-) ha un signific'ato probabilistico che viene messo in
c.·:idenza dalla proposizione seguente.

Proposizione 3.1 F(x)- F(x-) = P{X = x}


Dimostrazione.
,.,....___ - - - ---
Se {tn}n ~-ìù-iisuccC'ssione crescente a X allora

F(x-) = n-+oo
lim F(tn)
·

~unque

F(x) - F(x-) = lim (F(x) - F(tn)) = lim P{tn < X :S x}


n-+oo n-+oo

'.2.gli eventi {tn < X :S x} costituiscono una famiglia decrescente e dunque,


: < il Teorema 1.9, basta far vedere che
00

3) A= n{tn<X:Sx}={X=x}
n=l

-"' l'insieme {X = x} sia contenuto in A è ovvio perché esso è contenuto negli


.--:iti {tn < X :S x} per ogni ne dunque nella loro intersezione. Viceversa
- -· E A allora deve essere X(w) :S x e X{w) > tn per ogni n; quindi anche
2: X(w) 2'. limn---+ootn = x e necessariamente X(w) = x, il che implica
= {X = x }. Per il criterio d<'lla doppia inclusione dunque (1.3) risulta
,,qrata.
76 Capitolo 3

In particolare, diversamente da quanto accade per le v.a. discrete, può succe-


fére, se F è continua, che sia

(3.4) P{X=x}=O

qualunque sia x E HL
Diremo che una v.a. X è continua se la sua f.r. è una funzione continua
ovvero, che è lo stesso, se vale (3_A).Osserviamo che per una v.a. X continua
le quantità

P{a <X< b}
P{a~X<b}
P{a<X~b}
P{a~X~b}
~
sono
..__
__
uguali. Infatti, ad esempio

P{a ~X< b} - P{a <X< b} = P{X =a}= O

Esempio 3.2 Se À > O allora la funzione (vedi Figura 3.1)


1 ->.t set> O
F(t) = { O- e
altrimenti

soddisfa alle quattro condizioni di poco fa ed è dunque una f.r., anzi una f.r.
continua1 Se X ha F come f.r., allora poiché P{X ~ O} = F(O) = O, X è una
v.a. a valori positivi.

o 1 2

Figura 3.1

',
Variabili aleatorie assolutamente continue 77

o 1
Figura 3.2

Esempio 3.3 Anche la funzione (Figura 3.2)

O set< O
F(t) = { t se O~ t ~ l
1 se t > 1

è: una f.r. continua. Si tratta della f.r. di una v.a. a valori nell'intervallo [O,1]
----------
;)Oiché P{O ~X~ 1} = F(l) - F(O) = l.

3.2 Variabili aleatorie assolutamente continue

Definizione 3.4 Una funzione f : Ill -+ Ill si dice una densità se e solo se
_: ~ O, f è integra.bile su Ill e

j +oo J(x) dx=


-oo l

~ia X una v.a., F la sua f.r. e sia f una densità: diremo che X ha densità J se

F(x) = J_xoo
J(t)dt
'\
: ':vero, che è equivalente, se

3.6) P{a ~X~ b} = F(b) - F(a) = 1bJ(t) dt

:::-1realtà è facile vedere che se una funzione f ~ O soddisfa a (3.6) per ogni
78 Capitolo 3

a, b E Ill, a ~ b allora essa è automaticamente una densità. Infatti per a-+ -oo
e b -+ +oo nella (3.6)

1 = lim F(b) -
b-+oo a-+-oo
lim F(a) = j
_
+oo

00
J(t) dt

Le proprietà dell'integrale mostrano subito che se vale (3.5) allora F è continua,


ma si conoscono esempi di v.a. continue che non hanno densità. Chiameremo
assolutamente continue le v .a. che hanno densità.
Osserviamo però che la densità f associata ad una v.a. X tramite (3.5)
oppure {3.6) non è unica: se g, ad esempio, è una. funzione che differisce da J
solo in un punto (o più in generale in un insieme di misura nulla), allora gli
integrali in (3.5) o (3.6) non cambiano se si sostituisce g a f; dunque anche g
è una densità per X.
Per (3.6) il calcolo di eventi del tipo {a :$ X :$ b} si riconduce al calcolo di
un integrale (Figura 3.3). In ~ticolare regioni in cui f assume valori grandi
sono regioni nelle quali X prende valori con probabilità elevata. .

. . ' ..
. . .. . .. . ...'' .. ....
. . .... . .. . .. . ' . ...
. .. ... . ... .'.'. .. . . ....... . . . . . .. . .
. . . . . . . . . . . ...
. . . . . ... ... .... . . . . . . . . . .
.... . .. .. . .. . . . . . .. . . . . . . .
. ... ... ... ... ...... ... .. . .. .... .. . .. . ..
' ........... '
. .............
. .... ... .. . .
. .. . ... .. . ... .' . .. . .. . ... .. . .. ... . .. . ..
.............
. . . . . .. .. ....
.. . .. .. .' ...... . . ' .... ' .
.
. ....... ... .. . . ... .. ......
. ....... ... ... .. .. .. .. .. ..
..... . . .... .. ... . .. ... ....

a b
Figura 3.3

La (3.5) permette, almeno in teoria, di calcolare la f.r. F se si conosce la


densità f. Viceversa supponiamo nota la. f.r. F e supponiamo di voler calcolare
la densità f (o meglio una densità!). Per questo basta osservare che (3.5) non
fa che affermare che F è la funzione integrale di f. Per il teorema fondamentale
del calcolo integrale se F è una funzione derivabile con derivata continua su
tutto IR (tranne al più in un numero finito di punti) allora F è la funzione
intPgrale della sua derivata F'. Dunque f = F' può essere scelta come densità
?'='r F.

Esempi 3.5
a, La f.r. F dell'Esempio 3.2 è derivabile con derivata continua tranne che
Densità congiunte, indipendenza 79

per t = O. La sua derivata vale


.Xe->-t set> O
( 3.7) f(t) =
{ o altrimenti

Vedremo più avanti che si tratta di una densità importante ( de'flsità esponen-
::iale di parametro À ). ·--
b) Anche la f.r. dell'Esempio 3.3 è derivabile con derivata continua tranne
che in O e in 1. La sua derivata vale

= {~
se0<t<l
f(t) altrimenti

che è là densità di F. Osserviamo che se X ha questa densità allora,

I
P{a ~X~ b} = 1b dt = b - a

per ogni a, b E [O,~- Cioè la probabilità che X assuma dei valori in un sot-
tointervallo di [O,1] dipende solo dall'ampiezza del sottointervallo e non, ad
esempio, da dove esso si trova. Quindi si tratta di una v.a. che prende, in un
certo senso, ogni valore in [O,1] con la stessa probabilità. Diremo, in analogia
con la nozione introdotta nel paragrafo 1.3, che X è uniforme in [O,1].

3.3 Densità congiunte, indipendenza

Sia (!1, A, P) uno spazio di probabilità e X : n - Ill m un 'applicazione. Diremo


che X è una v.a. m-dimensionale se le sue componenti X 1 , ••• , Xm sono delle
\".a. (reali). Per semplicità nel seguito supporremo m = 2 e indicheremo con
X, Y le componenti della v.a. bidimensionale Z = (X, Y).
Poiché supponiamo che X e Y siano v.a., sappiamo che gli insiemi {X ~ x} e
{Y ~ y} sono degli eventi. Quindi è un evento anche l'insieme {X~ x, Y ~ y}
che ne è l'intersezione. Esso si può anche esprimere con {Z E Ax,y} dove Ax,y
i? il sottoinsieme di Ill2 ( vedi la regione ombreggiata nella Figura 3.4)

:J.8) Ax,y = {(u,v);u ~ x,v ~ y}

Indichiamo ancora con F la funzione di ripartizione congiunta di X e Y


definita da
F(x, y) = P{X ~ x, Y ~ y} = P{Z E Ax,y}
--- ................... •• -•• - •• -.- •• -•• - •. -.---1-. -.• - •. -.- .• -. . (.x,y)
. . . .. .. .. ... ... .. . . .. . ... .. .... .'.. .......... ... .... . .. .... . ... . .
. . . . . . . . .. .. . .. ..... .. . ...............
. . . . . .
. ............................... . . . . . . . . . . ...
. .. . ' . ...........................
. . . . . . . . . . . . . . . . . . . . . . . . . ..
..................................
.... .... .. .... ........................ .... .... ...............' .. .......... .. .. .... .. .. .. . ... . .. . . .. ... . .. . .
.. ......................
. . . . . . . . . . . . . . . ' . . . . . ' ........
. ... . .
.... . . .
.... .. .... .. .. ............ .. .. ............ .. .. .............. ...........
. . ..... . . .

Figura 3.4

La f.r. congiunta permette di calcolare la probabilità di eventi della forma


{ Z E Ax .y}. Diremo che X e Y hanno densità congiunta f se esiste una funzione
f integrabile ~ O tale che

F(x,y)= J_~
du j_Y f(u,v)dv= 00
i z,y
f(u,v)dudv

o\·vero tale che

P{(X, Y) E Ax,y} = P{Z E Ax,y} ~ J A.,,y


f( u, v) du dv

Si può però dimostrare che se esiste una densità congiunta, allora la relazione

(3.9) P{(X,Y) E A}= P{Z E A}= l f(u,v)dudv

vale anche per sottoinsiemi A C IR2 più generali di Ax,y·

Osservazione 3.6 Se le v.a. X e Y sono discrete, come abbiamo visto nel


capitolo 2, il sottoinsieme {(X, Y) E A} è un evento, qualunque sia il sottoin-
sieme A C IR2 • Se le v.a. non sono discrete ciò non è più vero e si conoscono
esempi di sottoinsiemi A C ffi.2 tali che {(X, Y) E A} non sia un evento.
Determinare quali siano i sottoinsiemi A C JR2 tali che {(X, Y) E A} sia
un evento è un problema che va. al di là degli scopi di questo testo. Perché ciò
sia vero basta però che A sia un sottoinsieme di IR2 abbastanza regolare. In
particolare {(X, Y) E A} è un evento se A è uno dei sottoinsiemi di JR2 che si
incontrano nei corsi sugli integrali multipli.
r na questione simile si presenta quando, data una funzione </>: JR2 -+ JR, si
rnn,;;idera l'applicazione </>oZ (Z = (X, Y)l, Nel caso delle v.a. discrete </>oZè
anmpre una v.a. qualunque sia.</>.Ciò non è più vero in generale: occorre ora
~-1it'.rhe ipotesi di regolarità su </>.Nei casi concreti queste ipotesi sono però
Densità congiunte, indipendenza 81

,::;_uasi
sempre soddisfatte; lo sono ad esempio per le funzioni che si incontrano
:1ei corsi sugli integrali multipli.
In conclusione se il problema di determinare quali siano gli insiemi A C IR?
:ali che {(X, Y) E A} sia un evento e quali siano le funzioni </> tali che </>oZ sia
·ma v .a. è un problema delicato, d'altra parte vi sono delle condizioni sufficienti
,u A e </>che sono verificate praticamente in tutti i casi che si incontrano di
solito.

Richiamo 3.7 (Calcolo di integrali multipli) La (3.9) riconduce il calcolo


della probabilità di alcuni eventi al calcolo di un integrale multiplo e per di
più in senso improprio perché l\ntegrale può essere su un insieme illimitato e
! "integrando può non essere limitiì:to.
Richiamiamo ora alcune regole di calcolo, anche se non costituiscono un
argomento di probabilità ma solo uno strumento di calcolo. Nel seguito consi-
dereremo un insieme A C IR2 misurabile secondo Peano-Jordan ed una funzione
f integrabile su A. Non ci cureremo del significato di queste definizioni né di
come l'integrale multiplo viene definito, ma solo di come nella pratica il calcolo
si può effettuare.
Supponiamo inizialmente che f ed A siano limitati e che A sia normale
rispetto all'asse x, ovvero che sia della forma
A= {(x,y);a ~ x ~ b,1/J(x)~ y ~ </>(x)}
dove </>
e 7/Jsono due funzioni sufficientemente regolari. Allora si ha

(3.10) JJA
J(x, y) dx dy = J,b
dx 1<J>(x)J(x,
a -.t,(x)
y) dy

Più precisamente l'integrale


<J>(x)
1 f(x, y) dy
1/,(x)

che è un integrale unidimensionale nella sola ~ariabile y ( x qui è fissato) esiste


tranne che per x in un insieme di misura nulla. Il risultato di questa prima
:ntegrazione è una funzione della variabile x che, integrata da a a b, dà il valore
dell'integrale doppio di f su A. Il calcolo di quest'ultimo viene così ridotto a
quello di due integrali su IR.
Se invece A è normale rispetto all'asse y, cioè della forma A = {(x, y); e~
y ~ d, 'if.J(y)~ x ~ J(y)}, allora vale la formula

(3.11) JJ f(x, y) dx dy = je
d 1J(y)
dy _
1/;(y)
J(x, y) dx
A
82 Capitolo 3

Se A è normale rispetto a entrambi gli assi l'integrale doppio si può calcola.re sia
mediante la (3.10) che la (3.11) (che quindi danno lo stesso risultato). Se A non
è normale si procede decomponendolo nella unione di sottoinsiemi misurabili
A1 , •.. , Ak disgiunti e normali rispetto a uno degli assi. L'integrale su A è pari
alla somma degli integrali su A 1 , ••• , Ak, calcolati tramite (3.10) o (3.11).
Le (3.10) e (3.11) restano valide se/ oppure A (o entrambi) non sono limi-
tati, a condizione che l'integrale converga assolutamente, ovvero a condizione
che sia
1 a
b
dx
14>(:i:)

,J.,(:i:r
Jflx,y)I dy ~ +oo

1 l~(y)
ovvero
d
dy _ lf(x, y)I dx~ +oo
e ,j.,(y)

Naturalmente in questo caso può succedere che alcune delle quantità. a, b, e, d,


</>(x),1/J(x),J(y), 'efl(y)assumano i valori +oooppure -oo e che gli integrali su
R che figurano nel termine a destra delle (3.10) o (3.11) siano degli integrali
generalizzati.

Esempio 3.8 Fissiamo e > O e consideriamo l'insieme

A= {(x,y);O < x,cx < y}

(si tratta dell'area ombreggiata ne1la Figura 3.5).

Figura 3.5

Calcoliamo l'integrale su A della funzione f(x, y) = x- 1 12 y- 1 12 e-(:i:+y)/ 2 •


Si tratta. di un integrale generalizzato perché sia A che f sono illimitate, ma
per applicare le formule (3.10) o (3.11) in questo ca.so è inutile verifica.re che
l'integrale converge assolutamente, dato chef è positiva .. Per (3.10) l'integrale
Densità congiunte, indipendenza 83

doppio si riduce al calcolo di

Con il cambio di variabile v = y/x


---
r+oo y-1/2e-y/2 dy = xl/2 j+oo v-1/2e-vx/2 dv
lcx e

e cambiando l'ordine d'i11tegrazione

= je
+oo r+oo
v-1/2 lo e-x(v+l)/2 dx

= j e
+oo 2
-,----dv
vl/2(v+l)

Ponendo t = v 1 12 quest'ultimo integrale diviene

J +oo
,1c
--2
1 +t
4
dt = 21r - 4 arctan ve

Torniamo alla considerazione delle densitit congiunte.


Come per il caso reale si può dimostra.re che se una densità congiunta J
esiste ( cioè se esiste una funzione f per cui valga (3.9)) allora. essa deve essere
~ O, integrabile e tale che

l 2
J(x, y) d:r_
dy =1
Come per le v.a. discrete si possono ricavare dalle quantità congiunte (f.r.,
densità) le rispettive quantità marginali.
Ad esempio calcoliamo a partire da F la f.r. Fx di X. Per definizione

Fx(x) = P{X ~ x}
84 Capitolo 3

Gli eventi {X $ x, Y $ n} costituiscono una successione crescente al variare


di n e, con il metodo della doppia inclusione, è facile verificare che
00

LJ{X $ x,Y $ n} ={X$ x}


n=l

Dunque per il Teorema 1.9


Fx ( x) = P {X $ x} = lim P {X $ x, Y $ n} = lim F( x, n)
_ n--+oo n--+oo

= y-oo
lim F(x,y)

Allo stesso modo si ottiene l'altra f.r. marginale

Fv(Y) = lim F(x, y)


X---+00

Ricaviamo ora le densità marginali da quella congiunta.


Si può scrivere {a$ X$ b} = {fY,Y) E A} dove A= {(u,v);a $ u $ b,
v E IR} e per (3.9)

P{a $X$ b} = P{(X,Y) E A}= i l(u,v)dudv

= 1b du 1-: 00
l (u, v) dv

Dunque se poniamo

= j_
+oo
(3.12) lx(u) l(u,v)dv
00

allora si ha
P{a$X$b}= 1blx(u)du

che vuole dire che lx data da (3.12) è la (o meglio una) densità. per X.
Analogamente la densità lv di Y è data da

= j_
+oo
:3.13) lv(v) l(u,v)du
00

b particolare se esiste una densità congiunta f, allora esistono le densità


:-:~2,ginali lx e fy che si possono calcolare con (3.12) e (3.13). Vedremo che
::·:" \·.a. X e Y possono a.vere ciascuna una densità, senza però che esista. una
::-e-:frà congiunta.
Densità congiunte, indipendenza 85

Esempio 3.9 (Distribuzione uniforme sul ce~·chio) Sia Z


-···-~--.,,__, ·-·-· ·• .-. -• ,:,. _.e·~ • . -
= (X, Y) una v.a. di
densità 1
- se x 2 + y2 ~ 1
f(x,y) = { 1r
O altrimenti
Calcoliamo le densità marginali. Nel calcolo dell'integrale in (3.12) fissiamo u,
con -1 ~ u ~ 1. Allora, come funzione di v tenendo u fissato, si ha J( u, v) = ¾
se u 2 + v2 ~ 1, ovvero se-~~ v ~ vf=u2 e f(u,v) = O altrimenti.
Dunque, calcolando l'integrale di (3.12)

f x( u) =

Se invece lui> 1 si vede facilmente che f(u,v) = O per ogni v. In conclusione


'\ 2
fx(n) = ; {-~
altrimenti

Analogamente si ottiene

={
~~
fv(v) 7r
o altrimenti

Definizione 3.10 Le v.a. X 1 , .•• , X m si dicono indipendenti se e solo se per


ogni scelta di a1, b1·,... , am, bm con a1 ~ b1, ... , am ~ bm si ha

P{a1 ~ X1 ~ b1, .. . ,am ~ Xm ~ bm} =


= P{a1 ~ X1 ~ b1}... P{am ~ Xm ~ bm}

Diremo che le v.a. X 1 , •. . ,Xn, ... (un numero infinito) sono indipendenti se e
solo se per ogni m > O risultano tra loro indipendenti le v.a. X 1 , ... , Xm.

La Definizione 3.10 nel caso di due v.a. X, Y si riduce a richiedere che sia

(3.14) P{a ~X~ b,c ~ Y ~ d} = P{a ~X~ b} P{c ~ Y ~ d}

per ogni a ~ b, e ~ d. In altre parole occorre che gli eventi {a ~ X < b} e


{e ~ Y ~ d} sia.no indipendenti per ogni scelta di a, b, e, d.
86 Capitolo 3

Supponiamo che X e Y abbiano densità congiunta Je marginali Jx, fy.


Allora (3.14) diviene

(3.15) ie la1
d b
f(x,y)dxdy = j
d
fy(y)dy
1b
la fx(x)dx
Quest'uguaglianza è certo soddisfatta se
(3.16) f(x, y) = fx(x)fv(Y)
per ogni x, y. Viceversa si può dimostrare che, se vale (3.15) per ogni scelta di
a :::; b, e :::; d, allora necessariamente deve valere (3.16), tranne al più per un
insieme di punti (x, y) di misura di Riemann nulla. In altre parole ~-~_Q!lO
indipendenti se e solo se vale (3.16) per ogni (x,y_) E IR2 tranne al più su un
·iniieme di misura nulla. ··
Analogamente a quanto si è visto per le v.a. discrete, per determinare l'in-
dipendenza di due v.a. X e Y basta conoscere la loro densità congiunta f: a
partire da J si possono
t""
calcolare le densità marginali f x e fy tramite (3.12) e
(3.13) e quindi verificare se vale (3.16.), In particolare se X, Y sono indipendenti
e U, V sono altre v.a. aventi la stessa densità congiunta, allora sono anch'esse
indipendenti.

Osservazione 3.11 Un semplice criterio d'indipendenza div.a. è il seguente.


Supponiamo che le v.a. X, Y abbiano densità congiunta f della forma
;;=!1(:c)fz(y)
f(x,y)
Allora X e Y sono indipendenti. Infatti, poiché f è una densità congiunta, deve
essere
1-: 1-:
00
fi(x) dx
00
fz(y) dy =l
Dunque, posto e= J fz(y) dy, le marginali di f sono date da

fx(x)= J_+oo
J(x,y)dy?::.f1(x)
00
J+oo
-= fz(y)dy=cfi(x)

fy(y) J
+oo
= -oof(x,y)dx
!+ f1(x)dx = ~1 fz(y)
= fz(y) -c,:i
00

da cui la relazione d'indipendenza


f(x,y) = fx(x)fy(y)
risulta verificata.
Densità congiunte, indipendenza 87

Esempio 3.12 Le v.a. X, Y dell'Esempio 3.9 sono indipendenti?


Le densità marginali lx, lY sono strettamente positive sull'intervallo [-1, 1],
dunque la densità (x,y) - lx(x)lY(Y) è strettamente positiva sul quadrato
Q = [-1, 1]X [-1, 1]. La densità congiunta l è invece= O al di fuori.del cerchio
C = {x 2 + y2 < 1}. Quindi A = Q \ C (la porzione di quadrato che sta fuori
del cerchio) è un insieme di misura positiva su cui le due funz1oni l(x,y) e
fx(x)lY(Y) differiscono. Le due v.a. quindi non sono indipendenti.

Osservazione 3.13 In generale per dimostrare che due v.a. non sono indi-
pendenti purtroppo non basta mostrare che esiste un punto (x, y) per il quale
l'uguaglianza (3.16) non vale; un punto infatti ha misura O, mentre occorre
invece provare che (3.16) non vale su un insieme di misura> O.
Se però le funzioni l, lx, lY sono per di più continue in un punto (x, y) tale
che l(x, y) -/- l x(x )lv(y), allora X e Y non sono indipendenti. Supponiamo
infatti che sia l(x,y) > lx(x)ly(y); allora si avrebbe l(u,v) > lx(u)lv(v)
su tutto un intorno Udi (x,y). Dunque le due funzioni l(u,v) e lx(u)lY(v)
~

differiscono su tutto U, che è un insieme di misura > O.

La definizione seguente estende le Definizioni 3.10 e 3.37.


Definizione 3.14 Date mv.a. X1, ... ,Xm a valori rispettivamente in
JR,di, ..., JRdm, esse si dicono indipendenti se f' solo se. per ogni scelta di sottoin-
siemi A1 C JR,di, ... , Am C ]Rdm soddisfacenti alle condizioni dell'Osservazione
3.6,si ha
P{X1 E At, ... , Xm E Am} = P{X1 E Ai} ... P{Xm E Am}
Nel seguito useremo la seguente notazione: se x1 E 1Rd1 , ••• , Xm E JRdm in-
dicheremo con (x1, ... , Xm) il vettore di dimensione d = d1 + ... +dm le cui
prime d1 coordinate coincidono con quelle di x1, le successive d2 coincidono
con quelle di x2 e così via.
Se X1, ... , Xm sono come nella Definizione 3.14, possiamo considerare la v.a.
X= (X1, ... ,Xm), che è dunque una v.a. a valori in 1Rd, d =
d1 + ... +dm.
Ripetendo gli argomenti che abbiamo utilizzato per ricavare (3.16) e (2.18)
si può vedere facilmente che, se le v.a. X1, ... , Xm hanno densità continue
rispettivamente ft, ... , /m, la condizione della Definizione 3.14 è equivalente
ad affermare che anche X ha densità / data da

(3.17) f(x1, ... , Xm) = ft (xi) ... fm(Xm)


Il significato intuitivo della Definizione 3.14 non è diverso da quello delle altre
definizioni di indipendenza: la conoscenza del valore assunto da alcune delle
v.a. X1, ... , Xm non dà informazioni sul valore assunto dalle altre.
Consideriamo ad esempio il caso di due v.a. X, Y, a valori rispettivamente in
IR,d1 e 1R,d2 e m xr
• d"1ch"1amone con X 1, ... , di e }T1, ... , y d 1e rispettive
2
• • compo-
nenti. Dire che esse sono indipendenti significa dire che la conoscenza del valore
88 Capitolo 3

assunto dalle v .a. reali X 1, ... , Xd 1 non dà informazioni sul valore assunto da
Yt, ... 'yd2·
È facile vedere che se le v .a. X 1, ... , X di , Y1, ... , Yd2 sono indipendenti nel
senso della Definizione 3.10, allora X e Y sono indipendenti nel senso della
Definizione 3.14 (è facile infatti verificare (3.17)). Vedremo però degli esempi in
cui le v.a. X1, ... , Xd 1 non sono indipendenti come pure le Y1, ... , Yd2 , mentre
X e Y lo sono nel senso della Definizione 3.14. \
Naturalmente la Definizione 3.14 vale anche per delle v.a. discrete, per le
quali bisognerà intendere (3.17) nel senso delle densità discrete.

Siano X e Y due v.a. indipendenti a valori in Illd1 e Illd2 rispettivamente,


siano <jJ: Illd1 -+ Ill, 7/J: Illd2 -+ Ill due funzioni. Le v.a. </>(X)e 7/J(Y)sono
indipendenti? Come per il caso discreto l'intuizione dà immediatamente una
risposta. affermativa, mentre un po' più complicata è la verifica delle definizioni.
Supponiamo per semplicità d 1 = d 2 = 1, allora

P{</>(X)E ~,b],7/J(Y) E [c,d]} = P{X E <jJ-1 ([a,b]),Y E 7/J-1([c,d])} =


JJ
,t,- 1 ( ( a,b]) X ,;.,- 1 ([c,d])
fx(x) Jy(y)dx dy = J
,t,-l((a,b])
f x(x)dx J
tJ,-l((c,d])
Jy(y)dy =

= P{ </>(X)E [a, b]}P{ 7/J(Y)E [c,d]}


Più precisamente si può dimostrare la proposizione seguente, che estende la
Proposizione 2.20.

Proposizione 3.15 Siano X 1 , ... , Xm delle v.a. indipendenti come nella. De-
1 : Illd1 -+ Ill, ... ,</Jm:Il.ldm-+ Ill delle applicazioni che sod-
finizione 3.14 e </>
disfino a.Ilecondizioni dell'Osservazione 3.6. Allora. le v.a.. </>1 (X1), ... , <Pm(Xm)
-nno indipendenti.

' ·me ca.so particolare, se le v.a. X1, ... ,Xk,Y1,, .,,Yr sono indipendenti, ap-
~ . ·~ando la Proposizione 3.15 alle applicazioni </> 1 ( x 1 , ... , x k) = x 1 + ... + x k e
: _ ~: .... , Yr) = Yt + ... + Yr, si ricava che le v .a. X 1 + ... + X k e Y1 + ... + Yr
anch'esse indipendenti.

- X e Y due v.a. di densità congiunta Je indichiamo con Jx e fy le


· · - --·'.>:e densità marginali. Si chiama <{ensità condizionale di X dato Y =y
- "-~-'.it à

- f(x,y)
fx[Y(xly) = Jy(y)
Densità congiunte, indipendenza 89

se fy(y) > O e definita arbitrariamente(= O ad esempio) se fy(y) = O.


Analogamente, scambiando i ruoli di X e Y, si definisce la densità condizionale
di Y dato X= x. Grazie a (3.12) si vede subito che se fy(y) > O allora

\ f+oo
_ f xjY(xly) dx= 1
00

e dunque, come funzione di x, JXIY è una densità.


Intuitivamente JxjY( ·IY) è la densità di X quando si venga a s~pere che Y
ha preso il valore y. Se X e Y sono indipendenti, allora per (3.16) f x1Y(xly) =
f x (x ), e dunque la conoscenza del valore assunto da Y non modifica la pre-
visione del valore assunto da X, in accordo con il significato intuitivo della
nozione di indipendenza.

Esempio 3.16 Se X e Y sono uniformi sul cerchio, come nell'Esempio 3.9, e


-1 ~ y ~ 1 allora 1 1~,}-·
}""t· 1.·~'!
1 -\-\
_ < { 2~ se-Jf=yz~x~Jf=yz
fx1Y(xly) = 2 Jf=yz
O altrimenti
ovvero la legge condizionale di X dato Y = y è la distribuzione uniforme
sull'intervallo [--Jl - y2, Jf=yz].

La (3.18) permette di calcolare la densità condizionale a. partire dalla densità.


congiunta ma anche, viceversa, di calcolare la densità. congiunta qualora i d_ati
del problema diano la densità di Y e la densità condizionale di X dato Y,
poiché evidentemente
f(x, y) = fx-1Ytxly) fy(y)
Esempio 3.17 Il tempo di vita di un componente elettronico dipende dalla
concentrazione di silicio nel materiale di cui è fatto; più precisamente essa ha
legge esponenziale di parametro À, dove À è appunto il valore di tale concentra-
zione. Una macchina produce questi componenti, ma nel processo produttivo
non è possibile controllare la concentrazione di silicio che pertanto si può con-
siderare una variabile aleatoria, che indicheremo con A, uniformemente distri-
buita su [O,1]. Indichiamo con Y il tempo di vita del componente prodotto.
Qual è la legge di Y?
I dati del problema permettono di affermare che
À e-,\y se y 2:'.O
{
fYIA(YIÀ) = O altrimenti
90 Capitolo 3

Tenendo conto che A è uniforme su [O,1], la densità congiunta f di A e Y vale


dunque
À e->.y se y ~ O, O ~ À ~ 1
f(..X,y) ={ o altrimenti
La densità di Y si riduce ora al calcolo di una delle marginali di f, che si fa
facilmente con (3.13). Il calcolo numerico dà, con una integrazione per parti

per y > O, mentre fy(y) = O per y ~ O.

,A.bbiamo definito la densità condizionale per v.a. discrete e per v.a. assoluta-
mente continue e dotate di densità. congiunta. Il significato intuitivo di questa
nozione resta però valido anche in presenza di coppie miste div.a. X, Y, quando
cioè la. prima.~ia. assoluta.mente continua. e la. seconda. discreta.
In questa situazione e indicando con y 1 , y2 , ••• i valori assunti da Y chiame-
remo densità congiunta. di X e Y una. funzione g(x, y) tale che per ogni Yk
l'applicazione x -+ g(x, yk) sia una densità continua e che per ogni intervallo
A C Ill e per ogni Yk si abbia

P{X E A, Y = yk} = i g(x, Yk) dx

Chiameremo una. tale funzione g una densità congiunta mista. È facile verificare
che

(3.19) Pv(Yk) = P{Y = yk} = J_+oo


g(x, Yk) dx
00

e dunque che
oo
~
J+oo
g(x, Yk) dx=
-oo 1

Anche in questo caso a partire dalla densità congiunta si possono ricavare le


densità marginali. La. (3.19) permette infatti di ca.lcolare la densità ( discreta
naturalmente) di Y, mentre si può dimostrare che la. densità di X è data da
00

I :3.20) fx(x) = Lg(x,yk)


k=I
Calcolo di leggi 91

Possiamo ora definire le densità condizionali di X rispetto a Y e di Y rispetto


a X mediante le formule

!-XIY (X IYk)-- g(x,yk)


( )
PY Yk
(3.21)
_ ( I) g(x,yk)
PYIX Yk x = fx(x)

È facile infatti verificare che x-. fxw(xlyk) è una densità continua:

J +oo
-oo
f x1v(xlyk) dx=
1 !+ 00
( )
PY Yk -oo
g(x, Yk) dx= 1

grazie a (3.19), mentre in modo simile si verifica che Yk -. P}'i,dYklx) è una


densità discreta.
Valgono le formule

l
e cioè, anche nel caso div.a. miste, è possibile determinare la densità. congiunta
non appena si conosca la densità di una delle v.a. e la densità condizionale
dell'altra rispetto alla prima.

3.4 Calcolo di leggi

Molti problemi di probabilità consistono nella determinazione di una densità


o di una densità congiunta per poi calcolare la probabilità di eventi tramite il
calcolo di integrali come in (3.6) o (3.9).
Spesso il problema si riconduce al calcolo della densità di una v .a. della
forma </>(X)dove X è una v .a. m-dimensionale (eventualmente m = 1) di cui
si conosce la densità f e </>: lR,m -. Ill (oppure IRm -. lR,k) è una funzione
che supporremo abbastanza regolare perché </>(X)sia ancora una v.a. (vedi
Osservazione 3.6 ). Vedremo in questo paragrafo vari modi di calcolare la legge
di <;&(X).
Un primo metodo consiste nel determinare prima la f.r. di <t,(X);essa si può
in teoria sempre ottenere con la relazione

G(t) = P{cp(X) ~ t} = P{cp(X) E] - oo,t]} =


(3.22) = P{X E 4>-1 (] - oo, t])} =
J
4>-1 (]-oo,t])
f(x)d.r
92 Capitolo 3

Questo calcolo è praticabile se si riesce a dete:r:minare l'insieme 4,- 1 (] - oo, t]),


dei valori x tali che 4>(x) ~ t, e poi a calcolar~ l'integra.le. Una volta calcolata
la f.r. G, la densità g si ottiene per derivazione, come nell'esempio seguente.

Esempio 3.18 Sia X una v.a. reale di densità f. Qual è la. legge di X 2 ?
= x 2 e, set> O, 4,- 1 (]-
In questo ca.so <t>(i:) oo,t]) = [-vt,vt]; il calcolo
in (3.22) è quindi facile: se t > O

G(t) = P{X 2 ~ t} = P{-vt ~ X ~ Vi} = Fx( Vi) - Fx(-vt)

e derivando G si ottiene
l
I
(3.23) g(t) = G'(t) ~ 2~ (!(,/i)+ J(-vt))

mentre chiaramente g(t) = O per t ~ O. Non abbiamo però la garanzia che


(3.23) dia la densità di X 2 perché non sappiamo se siamo nelle condizioni in
cui deriva~o la f.r. si ottiene la densità. Basta però verificare direttamente
che la funzione g data da (3.23) ha effettivamente G come funzione integrale.
Infatti
g(s) ds = lt
ltoo 2~ (!( v's)+ f(-vs)) ds

e con il cambio di variabile u = Js

j _
t
00
g(s)ds=
r...rt
Jo (f(u)+f(-u))du=

= j .fi f( u) du = Fx( v'i) - Fx(-vt) =


-.fi
= G(t)
D'ora in avanti ricaveremo sempre la densità dalla f.r. per derivazione, tra-
lasciando la giustificazione di questa operazione, che si potrà sempre ottenere
con opportuni cambiamenti di varia.bile come qui sopra.

Esempio 3.19 Siano X una v.a. reale di densità f e a, b numeri reali con
a =/=O. Qual è la legge di aX + b?
Supponiamo a > O, allora

G(t) = P{aX + b ~ t} = P { X~ t-
-a- b}= Fx (t-a-- b)
Calcolo di leggi 93

e derivando
g(t) = G (t) = ~1 f
1 (t- b)
-a-

Se invece a < O bisogna stare attenti al cambio di verso nella disuguaglianza:

G(t) = P{aX + b:::; t} = P {X 2'.-a-t-b}= 1- Fx (t-b)-a-

e derivando
g(t) = G (t) = -~1 f
1 (t-a-- b)
Mettendo insieme i due casi si ha, qualunque sia il segno di a,

(3.24) g(t) = ~fl (t- b)


-a-

l.

La (3.22) resta valida anche quando X è multidimensionale (ma</> è sempre a


valori reali).

Proposizione 3.20 Siano X e Y v.a. di densità congiunta f. Allora X+ Y


ha densità g data da
+oo
g(z) = -oo f(x, z - x) dx J
Dimostrazione. Consideriamo il vettore Z = (X, Y) e la funzione </>(x, y) =
x + y. La regione del piano dei punti (x, y) tali che <f>(x, y) = x + y :::;t non è
altro che il semipiano A che si trova a sinistra della retta x +y = t (ombreggiato
nella Figura 3.6). Dunque

G(t) = P{X + Y:::; t} = J A f(x, y) d.1:dy = J+oo


-oo dx
Jt-xf(x, y)dy
-oo

ma con il cambio di variabile z = y +x

Jt-xf(x,y)dy= Jt_ f(x,z-x)dz


_
00 00

(in questo integrale la variabile d'integrazione è y mentre x è una costante).


94 Capitolo 3

Riprendendo il calcolo e cambiando l'ordine d'integrazione

G(t) = 1-:1-t~x 00
dx f(x, y)dy =
+' t
=[ 00
00
dx [ 00
f(x, z - x)dz =

= 1-too
dz 1-: 00
f(x,z-x)dx=

= /~ 00 g(z) dz

che esprime appunto il fatto che g è la densità cercata.

............................
"
...... .... ...... .........' ......... ' ............ .
... ... .. .... ..... .... .. . ... ... .. . .. . ......... ......... .. . ... ..... ..
.. .. .. .. .. . .. ... ... .... ..... ......... . .. . .. . ..... ...... ......... ... . .. ... ... ... . ... .. .... ..
. ... ..' . ..........................

. . . . . . .... .. . ......... ...... .. ..... ..... .. .. . . . . .... .. ... ' .. .

:::,::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
. . . . . . ...............
, .............. ::::::::... '
.. . . . . . . .. .. .. . . . . ' ........... .
. ... . ... . .. ..... .... .. ... .. .. .. . . ' . . . .
. . .. . . . ... .
. . '.......... . . . . . . . . ....
. . . .. . .. ..' ' ...
..........
. ............
...........
' ............
. .
. . . . . . . .' .' . .... .... .
............ .
'
. . . . . . . '.. . ............. .. '

Figura 3.6

Se X è m-dimensionale e 4>: m,m- m,kcon k > 1 il metodo della funzione di


ripartizione non si può applicare. Si può però ripetere un ragionamento simile
a quello che ha condotto a (3.22). Se g fosse la densità di 4>(X) allora dovrebbe
essere

i g(y) dy = P{4>(X) E A}= P{X E c/>-


1 (A)} = /
,p-I(A)
/(x) dx

Dunque se siamo capaci di trovare una funzione g tale che

(3.25) i g(y) dy =
,p-I(A)
J f(x) dx

qualunque sia. il sottoinsieme A e IR~ (purché sufficientemente regolare nel


senso dell'Osservazione 3.6) allora necessariamente

P {e/>(
X) E A} = i g ( y) d y
Calcolo di leggi 95

e dunque g sarebbe la densità di </>(X).


Prima di vedere come si può trovare una tale g trasformiamo la (3.25) in
una forma più comoda. Indichiamo al solito con lA la funzione indicatrice di
A, cioè la funzione definita da lA(x) = 1 sex E A e lA(x) = O sex </.A.
L'indicatrice lcp-l(A) assume il valore 1 se </>(x)E A ed il valore O altrimenti.
In altre parole lcp-I(A)(x) = lA(</>(x)). Dunque (3.25) diviene

(3.26) J
IA(y)g(y)dy= J lA(<f>(x))f(x)dx

In questa forma il problema appare come quello di un cambio di variabile. Ed


in effetti se la funzione </>
gode di opportune proprietà il calcolo di g in (3.26)
si può effettuare con il teorema di cambio di variabile negli integrali multipli,
che ora richiamiamo.
Dati due aperti D, V C m,m (eventualmente uguali a tutto lR,m),un'appli-
cazione</>:D -+ V si dice un diffeomorfismo se essa è biunivoca e derivabile con
continuità insieme alla sua inversa. Indicheremo con D</> il differenziale di </>.

Teorem! 3.21 (Di cambio di variabile) Siano D, V aperti di m,m, </>: D-+ V
un diffeomorfìsmo. Per ogni funzione integrabile positiva h su D sì ha allora

(3.27)

Sia ora X una v .a. a valori in D e di densità f (dunque </>(X) è una v .a. a
valori in V); se A CV, ponendo h(x) = IA(<l>(x))f(x) la (3.27) diviene

(3.28)

Confrontando (3.28) con (3.26) si ricava che


(3.29)
è la densità cercata.

Il Teorema 3.21 di cambio di variabile incute sempre un certo timore. In realtà,


se la sua applicazione non è immediata, d'altra parte non comporta nemmeno
grosse difficoltà. La prima tappa (e dopo tutto la più difficile) consiste nel
calcolo dell'inversa 4>- 1 • Una volta calcolata 4>- 1 occorre calcolare la funzione

composta f 04>- 1 e il determinante det D4>- 1 del differenziale di 4>-1 ( cioè lo


Jacobiano di 4>-), tutte operazioni elementari che però possono risultare la-
1

boriose, specialmente se la ~imensione m è più grande di 2.


96 Capitolo 3

Esempio 3.22 Calcoliamo la densità di AX + b dove X è una v.a. m-


dimensionale di densità f, A una matrice m x m invertibile e b E lll m.
In questo caso </>(x) = Ax + b è invertibile Illm -+ Illm; la sua inversa è data
da 4>- 1 (y) = A- 1 (y - b).Anche il differenziale di cp- 1 si calcola. facilmente:
1 1 1 =
poiché 4>- è un 'applicazione lineare si ha D4>- A- • Dunque la densità di
AX + b è data da
g(y) = J(A- 1 (y - b))Idet Al-1
che è evidentemente una generalizzazione di (3.24 ).

Altri metodi possono essere usati per risolvere (3.26), anche se quasi sempre
basati su cambiamenti di variabile.

Esempio 3.23 Sia X una v.a. uniforme sul cerchio C = {lxl2 :'.S1}, ovvero la
v .a. bidimensionale di densità
1

(
J(x)={;sex E C

altrimenti
Calcoliamo la legge della v.a., anch'essa bidimensionale

Z=X
-2log1x1
2

1x12
È chiaro che Z = </>(X)dove

X) = X
cp( -2log lxl2
lxl2
Non è difficile vedere che </>è invertibile e calcolarne I 'inversa, ma il calcolo
del differenziale di cp-1 e soprattutto del suo determinante portano a lunghe
manipolazioni. È piì1 semplice affrontare diretta.mente (3.26) passando prima.
in coordinate polari:

=;:1 lo
[ 2
7r /1lA (pcosB v-2logp
dB lo p2
2
,psinB
v-2logp
p2
2 )
pdp =
1 /2,r r1
=;: lo d(} lo 1A(cosBJ-21ogp 2 ,sinBJ-21ogp 2 )pdp
Leggi normali 97

Sostituendo r = .j-2 logp 2 nell'integrale interno, si ha p 2 = exp(- pdp = r;),


r;)
-i exp( - dr. Dunque riprendendo il calcolo e tornando poi in coordinate
cartesiane

e per (3.26) Z ha densità


g(z)2
= ~ e-lzl
/2
211"
Da questo esempio ricaveremo delle applicazioni ai problemi di generazione di
numeri casuali; per ora osserviamo solo che, poiché g è una. densità, necessa-
riamente il suo integrale su m,2 va.le 1. Dunque

211"= 1-:001-:00
e-(x2+y2)/2
dxdy = 1-:00
e-x2/2dx 1-+: e_Y2/2dy =

= (1-: 00
e-x 2 /2dx)
2

da. cui ricaviamo l'integra.le notevole

(3.30)

r- --------··---- I

i. 3.5 Leggi normali/

Come conseguenza di (3.30) la funzione

(3.31) J(x) = v'2ir


1 exp ( - x2 )
2
è una densità di probabilità. Essa. è il prototipo di una classe importante di
distribuzioni.

Se X è una. v.a. di densità f e <:J,µ sono numeri reali con <:J > O, allora sappiamo
per l'Esempio 3.19 che la. v.a.

y = <:JX + µ
98 Capitolo 3

ha densità

(3.32) g(y) = ~f
1 (y-µ)
-a-
1 ( (y-µ)2)
= -/'iiraexp - 2a 2

Si dice che una densità di probabilità su IR è normale (o gaussiana) di parametri


µ e a2 ( oppure che è N (µ, a 2 ) ), se ha come densità la funzione g definita da
(3.32).
· La densità f di (3.31) è quindi una N(O, 1) e abbiamo appena visto che
N(µ, a 2 ) è la legge di una v.a. della forma aX +µ,dove X è N(O, i).
Quest'ultimo fatto è molto utile: il modo più semplice di fare calcoli con le
leggi normali consiste nel farli prim~ per N(0,1) e per poi passare a N(µ,a 2 )
con la trasformazione Y = a X + µ.
Il grafico di una densità N(µ, a 2 ) ha l'andamento a campana delle figure;µ
è il punto di massimo della densità; inoltre a va.lori di a 2 piccoli corrispondono
campa.ne strette e alte, a va.lori grandi campane aperte e appiattite.

-3 -2 -1 o 1 2 3

Figura 3. 7 Grafico della densità N(O, 1).

-3 -2 -1 o 1 2 3

Figura 3.8 Confronto di densità normali per diversi valori di u 2 .


Leggi gamma 99

La f.r. di una v.a. N(O, 1) si indica spesso con il simbolo~- Non è possibile
calcolarla analiticamente perché per l'integrale

~(x) =- 1 jx e-t 2
/ 2 dt
../2i -oo

non esiste una primitiva elementare. Data però la sua importanza _e~s<l.è_ca_!c:o-
lata numericamente su tavole. Il suo grafico è riportato nella Figura 3.9. Dalle
· Figure 3.7 e 3.9 si vede in particolare che una v.a. N(O, 1) assume valori al di
fuori dell'intervallo [-3, 3] con piccolissima probabilità.

1 """""""""""''..:.,";..;..••;..:.."~--

-3 -2 -1 o 1 2 3

Figura 3.9 Funzione di ripartizione di una v.a. N(O, 1).

Poiché t --+ e-t 2 12 è una funzione pari si ha

(3.33) ~(x) = --1 jx e-t 2


/ 2 dt = --1 J+oo
e-t 1 dt = 1-
2
2 ~(-x)
../2i - 00 ../2i -x

La funzione di ripartizione di una N(it, a 2 ) si ricava facilmente da quella di


uriaN(o,-1):

Fµ,,u2(y)= P{aX + µ::; y} = P {X::; y-µ} = ~ (y-µ)


-a- -a-

3.~Leggi gam~;·1
--------·
--- ------··--- . \
--

Si chiama funzione gamma la funzione r : ra,+ --+ JR+ definita. da

(3.34)
100 Capitolo 3

Tranne che in alcuni casi speciali non è possibile calcolare analiticamente l'in-
tegrale in (3.34); esistono però anche qui delle tavole numeriche.
Osserviamo comunque che -

(3.35) f(l) = Jo r+= e-x dx= l

e che integrando per parti se a > O

(3.36)

= of(a)
Da (3.35) e (3.36) si ha facilmente per ogni intero positivo n

f(n) = (n - 1)!

Se a > O,>.> Odiremo che una legge ~~~?)ili_H, su IR è gamma di parametri


a e>. (oppure che è f(a, >.)) se ha densità ··· - - - - ·

f(x) = { 0f1:)xa-le-,\x X> 0


altrimenti

Osservazione 3.24 Se una densità di probabilità g è della forma


e x0 - 1 e-.\x se x > O
{
g( x) = O altrimenti

dove e è una costante positiva, allora g è necessariamente una densità f(o, >.)
e e= >.0 /f(a).
Infatti se g è una densità di probabilità allora, con il cambio di variabile
>.x= y

1= 1+=
o
g(x) dx= e 1+= o
x0 - 1 e-,\x e
dx =---;;-
>. o
1+= y0 - 1 e-Y dy =
f(a)
=c--
).o

e dtrnque e= >. /f(a).


0
Leggi gamma 101

Esempio 3.25 Sia X una v.a. N(O, a 2 ) allora (Esempio 3.18) X 2 ha densità

g(y) = --1 ---1 { exp ( -- y ) + exp ( -- y ) } = --y21 l-1 exp ( - -Y )


2v'Y ,/2-rra 2a 2 2a 2 ,/2-rra 2a 2

per y > O mentre g(y) = O per y::; O. Poiché g è una densità di probabilità (è
la densità di 'X 2 ), per l'Osservazione 3.24 g è una densità r( ½,2 2 ) ed inoltre !
f(½)=fo.

o 1 2 3
Figura 3.10 =
Grafico di densità gamma per .>. 2 e diversi valori di a.

Vediamo ora alcune proprietà. delle leggi gamma ed alcune situazioni tipiche
in cui esse appaiono.

Esempio 3.26 Si suppone che il numero di arresti per manutenzione a cui


un tipo di apparecchiature deve essere sottoposto annualmente sia una v.a. di
Poisson di parametro À, dove À dipende dalla singola macchina. Si suppone
anzi che il parametro À sia a sua volta casuale e segna una legge f( a, /3). Qual
è la probabilità che una singola macchina debba essere sottoposta a k arresti
in un anno?
Dalla formulazione del problema ogni singola macchina ha una "propensione
alla difettosità." X che segue una legge f(a,/3), mentre il numero di arresti per
anno Y ha densità condizionale finx(·lx) rispetto a X che è di Poisson di
parametro x. L'enunciato del problema richiede il calcolo della densità di Y
py(k). Ciò si può fare calcolando la densità congiunta (mista) di X e Y e poi
ricavando da questa la marginale di Y.
102 Capitolo 3

La densità congiunta è

/3°' xk
g(x,k) = fx(x)finx(klx) = f(o:) x°'- 1e-Pxe-xk!

/3cx x°'+k-le-(!3+l)l:
f( a )k!

sex > O e k = O, l, ... , mentre g(x, k) = O altrimenti; py si calcola grazie a


(3.19):

y
/3°'
P (k) = ___
f(a)k!
1+o
00
,.o:+k-le-(!3+l)x
.,
• .• = 3
I°'
r(a)k!
r( a+ k)
(/3+ 1) +k
0

dove per calcolare l'integra.le ahbiamo utilizzato il fatto che

è una densità e dunque il suo integra.le su lR va.le 1. In conclusione la densità


di y è
J • k _
1r ( ) -
(-/3-)
/3 + 1
0
( a +k -
k!
l) ... a 1
(/1 + I)k

per k = O, l, ... e py(k) = O altrimenti. Riconosciamo che si tratta di una


densità binomiale negativa di parametri a: e p = p!i.
Siano ora X1 e X2 v.a. indipendenti di densità li,..,,, r(o:1,>.) eh,..,,, f(o:2,>.)
rispettivamente; calcoliamo la. densità di X 1 + X 2 .
Per la Proposizione :J.20 si tratta di calcolare

g(y)= ! +cx:,
-,x, li(x)f2(y-x)dx

Tenendo conto che sia. li che !2 sono nulle per valori negativi della variabile,
l'integrale è in realtà esteso all'intervallo [O,y] e
e con il cambio di variabile x = ty
g(y) = ----e->.y
À_0'1+02 11 (ty)a1-1(y- ty)arly dt
f(o1)f(o2) o

=e
Quindi per l'Osservazione 3.24 g è una densità f(o 1 + o 2, À) e per di più vale
la relazione

(3.37)

per ogni 01 > O,02 > O.

Proposizione 3.27 Siano X 1 , ... , Xm delle v.a. indipendenti e di legge


f(o1, À), ... , f(om, À)·rispettivamente. Allora
X1 + ... + Xm ,.._,
f(o1 + ... + Om, À)
Dimostrazione. f(o 1 +02, À). Poiché X1 +X2
Abbiamo visto che X 1 +X 2 ,.._,
e X 3 sono indipendenti per l'osservazione successiva alla Proposizione 3.15 si
ha ancora
X1 + X2 + X3 = (X1 + X2) + X3 ,.._,f(o1 + 02 + 03, À)
e iterando questo ragionamento si ha la tesi.

Non ci sono formule semplici per la funzione di ripartizione delle leggi gamma,
a meno che o non sia un intero > O (in realtà c'è un altra famiglia di valori
o per cui si può fare un calcolo abbastanza esplicito, e che il lettore potrà
immaginare alla fine del calcolo che segue ... ). Se infatti Fm è la f.r. di una
v.a. f(m,À) si ha per x > O

(3.38)

e per m > 1, integrando per parti

Fm(x) = ---Àm ix tm-le->-t dt =


· (m-1)! 0

(3.39) =- Àm-1 tm-le->.tlx + Àm-1 {x tm-2e->.t dt =


(m-1)! o (m-2)!} 0

Àm-1 xm-1 ->.x F ( )


= - (m _ I)! e + m-1 X
104 Capitolo 3

Iterando il procedimento e ricordando l'espressione per Fi data da (3.38)


>,m-1xm-1
Fm(x) = - (m _ l)! e-.\x + Fm-1(x) =
, m-1 .m-1 , m-2 ,m-2

(3.40)
A :i.
= --(1-n---l-)!-e -,\x
-
A X
(m - 2)! e
-Àx
+ Fm-2 ( )
x =
m-1 , )k
= 1- L --e(AXk! -,\x

k=O

Alcune leggi gamma hanno una importanza particolare ed un nome loro


proprio.
La legge r(l, >.)si chiama anche legge esponenziale di parametro>.. Di solito
le leggi esponenziali appaiono in relazione con v .a. che rappresentano tempi
d'attesa.

Esempio 3.28 Si suppone che gli intervalli tra due telefonate successive che
giungono ad un centralino siano v.a.indipendenti ed esponenziali di parametro
>..Sia T > O; qual è la prohabilità che nell'intervallo di tempo [O,T] giungano
esatta.men te k telefonate?
Consideriamo una successione X 1 , X 2 •.•. di v.a. indipendenti e di legge
f(l, >.) (esponenziali). X; rappresenta il tempo tra.scorso tra la i - 1-esima
e la i-esima telefonata. Poiché le v .a. X 1, X 2 , ••• sono tutte a valori positivi le
somme X 1 + ... + Xn crescono al crescere di n. Indichiamo con Y il più grande
valore di n per cui si abbia X 1 + ... + Xn :ST. Più precisamente

Y = sup{n;X1 + ... +Xn :ST}

In particola.re {Y :Sk} = {X 1 + ... +X k+l > T}, che mostra che {Y :Sk} è un
evento e dunque Y è una. v.a. Poiché X 1+...+X k rappresenta il tempo d'arrivo
della k-esima telefonata., è chiaro che Y è il numero di telefonate pervenute
nell'intervallo di tempo [O,T]. La questione che ci eravamo posta non è altro
che il calcolo della legge di Y; poiché le v.a. X 1,X 2 , ••• sono indipendenti e di
legge f(l,>.), X 1 + ...+Xk ha legge f(k, >.)ed ha funzione di ripartizione data
da. (3.40); quindi

k '
. ~ (>.T)I ->.T
P { Y :Sk } = P { X1 + ... + .\k+1 > T} = 1-Fk+i(T) = ~-.,-e
i=O t.
Speranza matematica, momenti 105

Riconosciamo a destra la funzione di ripartizione di una legge di Poisson di


parametro >.T. Dunque Y è di Poisson di parametro >.T.

Come le leggi geometriche (che erano anch'esse leggi di tempi d'attesa) anche
le leggi esponenziali godonò della -proprietà drmancanza -di memoria:

} _ P{X > t + s,X > t} _


>t+s I >t -
P{x X
P{X > t} -
(3.41)
= P{X > t + s} = e->.(t+s) = e->.s = P{X > s}
P{X > t} e->.t

Si può anzi dimostra.re che questa. proprietà è caratteristica. della legge espo-
I~('nziaJe, nel senso che se una. v.a.. X ha una densità. f nulla su JR- (ovvero
se X prende solo valori positivi) e va.le (3.41) per ogni s, t > O, allora essa ha
necessaria.mente legge esponenziale.

Si chiam9- invece legge del chi quad!"o a n gradi di libertà e si indica con x2 ( n)
una legge f( ~, { ). Per l'Esempio 3.2,5 e la Proposizione 3.27 è la legge della
\·.a. Y =X;+: .. + X;, dove le X1, .. . ,Xn sono indipendenti e N(O, 1).

3. 1/sp~ranza matematica, momenti l


In questo para.grafo definiremo la. speranza. ma.tematica di v.a.. assolutamente
continue.

Definizione 3.29 Sia X una. v.a.. di densità continua. f. Si dice che X ha.
speranza. matematica. finita. se e solo se

! +=
-oo lxlf(x)dx < +oo

Se X ha. speranza matematica finita. si cl1iama speran_::a_ di X._fo


71_J!lJKI!JPlica
quantità

( 3.42) E[X]= ! +=
-oo xf(:r)d:r

In altre parole la speranza ma.tematica. è data. da (3.42), a condizione che


l'integra.le converga assolutamente. Il significato intuitivo della sp('ranza. mate-
matica. come media dei va.lori assunti da. X è abbastanza evidente anche nella.
106 Capitolo 3

Definizione 3.29.
Enunciamo ora tre risultati che sono l'esatto analogo del Teorema 2.29 e
delle Proposizioni 2.30 e 2.31. Non ne daremo la dimostrazione, che pure non è
particolarmente complicata e consiste nell'approssimare le v.a. assolutamente
continue che stiamo considerando con delle v.a. discrete, alle quali si applicano
i risultati citati.

Teorema 3.30 Siano X1, ... , Xm v.a.. di densità congiunta f e</>: IRm -> IR
una funzione che soddisfi alle condizioni dell'Osservazione 3.6. Allora, se Z =
</>(X
1 , ... , Xm), Z ha. speranza. ma.tematica. finita se e solo se

j +ooj+oo
_
00
l</>(x1,,,,,xm)lf(x1,
••• _
00
... ,xm)dx1, .. dxm<+oo

e in questo caso

Proposizione 3.31 Siano X e Y v.a.. a.venti speranza matematica finita.


Allora
i) Per ogni e E IR la v.a. cX ha. speranza matematica finita. e

E[cX] = cE[X]
ii) X +Y ha speranza. ma.tematica. finita e

E[X + Y] = E[X] + E[Y]


Proposizione 3.32 Siano X e Y v.a. a.venti speranza. ma.tematica finita..
Allora.
a.) Se P{X 2'.Y} = 1 allora E[X] 2'. E[Y] e l'uguaglianza. è possibile se e
solo se P{X = Y} = 1.
b) IE[X]I :S E[IXI],

Esempi 3.33 a) (Distribuzione uniforme su [O,l]) Una v.a. X uniforme su


[O,1] ha una deiisffa f che vale 1 su -[O,l]e Ofuoii di [O,l]. Dunque

r1x dx = 1
= lo
E[X] 2
b )_ (Leggi normali) Calcoli a.mo la. speranza matematica di una v .a. X di
Speranz11 mat.enrnt.ica, momenti 107

]('gge N(µ,a 2 ). Come al solito trattiamo prima. il ca.so X "' N(O, 1). Poiché
x -+ x e-:r 12 è una funzione dispari
2

E[X] = --1 j+ooe-x X 2


/ 2 dx= O
~ -oo
( tralasciamo, qui come negli esempi che seguono, la verifica che gli integrali
convergono assoluta.mente). Se invece Y"' N(p, a 2 ) allora poiché Y = aX + µ
dove X"' N(O, 1)
E[Y] = crE[X] /t = /t +
Proposizione 3.34 Siano X e Y v.a. indipendenti di densità fx e J.r,rispetti-
\·amente. Se esse hanno speranza matt'malica finita allora andif' i/ loro prodotto
.YY ha speranza ma.tematica finita e

(3.'13) E[XY] = E[X] E[Y]

Dimostrazione. Questa. Proposizione deriva. da.] Teorema. 3.30 esattamente


come la. Proposizione 2.33 segue dal TC'Orema.2.29. Verifichiamo prima clw XY
ha speranza. finita. Per il Teorema 3.30 applicato alla. funzione <f>(:c, y) = xy
ed usando il fatto che fx(a:)fr(y) è la. densità congiunta. di (X, Y), XY ha
speranza ma.tematica finita se e solo se

f Jxylfx(.1· )fr(y) dx dy < +oo


JR2
~la.

f lxylfx(x )fr(y) dx dy = f l,i·lh;(.T)dx f IYJfr,(y) dy < +oo


Jn2 JR JR
(i due integra.li a destra sono finiti perché per ipotesi X e Y hanno speranza
matematica finita.). Per ottenere (3..13) basta ripetere la. formula senza valori
assoluti

E[XY] = f a:yfx(,T)h·(y)dxdy=
JR 2
J.
H
.1:fx(x)d:r f yfr(y)dy=
Jn
E[X]E[Y]

.:.\na.log_amente_alca.s0-disneto si fle-finiscono i momenti sle.lle v.a. as~qlut_a.m_ente


çontinu{'. Per ogni k = 1, 2, ... si chiama momento di ordin<' k la_ qu~n_ti~-
E[Xk], ~entre il momento centrato di ordine k è la quantità E[(X - E[.\]ll,__ a__
108 Capitolo 3

condizione naturalmente che le v.a. Xk e (X - E[X]l rispettivamente abbiano


x) = xk e
speranza matematica finita. Il Teorema 3.30, applicato alle funzioni </>(
= (x-E[X]l rispettivamente, riduce il calcolo dei momenti agli integrali
</>(x)

E[Xk] = Jxk fx(x) dx

E[(X - E[X]l] =/ (x - E[X]lf x(x) dx

In particolare i momenti, come pure la speranza matematica, sono quantità che


dipendono solo dalla legge della v .a. La varianza di una v .a. si definisce attra-
verso (2.30) oppure (2.31) come per le v.a. discrete e gode delle stesse proprietà.
In effetti tutte le proprietà della varianza del paragrafo 2.6 non dipendono dal
fatto che le v.a. siano o no discrete, ma dalle proprietà della speranza matema-
tica stabilite nelle Proposizioni 3.31, 3.32 e 3.34, che sono analoghe a quelle del
caso discreto. In particolare restano valide la disuguaglianza di Chebychev, la
cui dimostrazione vale anche per v.a .. assoluta.mente continue, e le formule re-
lative alla varianza della somma div.a. La covarianza di due v.a. resta definita
dalla relazione
Cov(X, Y) = E[XY] - E[X] E[Y]
ma naturalmente cambia la sua espressione in termini delle leggi di X e Y che
ora diviene

Cov(X,Y) = Jxyf(x,y)dxdy- J xfx(x)d:i; J


yfy(y)dy

dove f è la densità congiunta di X e Y. Per la Proposizione 3.34 resta vero


il fatto che v.a. indipendenti hanno covarianza nulla. L'Esercizio 3.14 dà un
esempio di v.a. non correlate ma non indipendenti.
Il coefficiente di correlazione resta definito da (2.39) e gode delle stesse
proprietà del caso discreto; in particolare si ha -1 :SPx,Y :S 1, poiché anche
la dimostrazione della Proposizione 2.40 resta valida nel caso continuo.

Esempi 3.35
-------
a) Varianza della distribuzione uniforme su [O,1]:
·------·
E[X 2 ] = f 1 x 2 dx= ~
lo 3

e dunque
Var(X) = E[X 2 ] - E[X]2 =~
12
Speranza matematica, momenti 109

b) Varianza di una v.a .. X,..., N(lt,a 2 ). Se X,..., N(O,l) allora integrando


;ier pàrt1 si ha facilmenTé;lene'flao Cònfò"che E[X] = O,

~e invece Y,..., N(p,cr 2) allora scrivendo Y = aX +µdove X è N(O, 1)

Var(Y) = Var(aX + /t) = Var(aX) = a 2 Var(X) = a 2


Junque per una v .a. N (lt, a 2 ) il parametro IL è la media mentre a 2 è la varianza.
e) fu?ercg1za rn!}.,te~11a!Jca
e momenti delle leggi Gamma. Se /3 > O e X ha
.-ègge r(a, .À) ----- ...... = - . . .. <

~.fatti la quantità tra { } è uguale a 1, essendo l'integrale di una densità


:.-o+ /3,À). Quindi

E(X) = f(a+ 1) =~
.Àf (o) .À

3.44) E(X 2) = f(~· + 2) = a(o


.À~f(o)
t
.À·
1)

Var(X) = E(X 2) - E(X) 2 = ; 2

=~-
particolare per O' = 1 (leggi esponenziali)

E[X]= i
Var(X) = \\-
/\
110 Capitolo 3

Se invece X,.._,x2 (n) (ovvero f(i,½))

E[X] = n
Var(X) = 2n
Dunque la media di una v .a. chi quadro è pari ai gradi di libertà.
d) Momenti di una v.a. X,.._,N(O, 1). I momenti di ordine dispari sono tutti
nulÌi
E[X2k+I] = _1_ !+oo
x2k+1e-x2/2 dx= O
-/'ii -oo

perché !'integrando è una funzione dispari. Per calcolare i momenti di ordine


pari conviene ricordare che X 2 è una v.a. r( ½,½).Le formule sui momenti delle
leggi Gamma danno

k k(/)13
2r12-- ... ( k-- 1)
E[x2kl = E[(X2t] = 2 f(k + 1/2) = 22 2
f(l/2) f{l/2)
= 1 · 3 .. · (2k - 1)

che si esprime anche con

Data una v.a. m-dimensionale (continua o discreta) X si chiama matrice di


covarianza di X la matrice mx m C (Cij)ij =
i cui elementi sono i numeri

Si tratta di una matrice simmetrica che, per di più, è semi-definita positiva: per
ogni vettore x E JRm si ha ( ( , ) indica il prodotto scalare)

(3.45) (Cx, x) = L CijXiXj ~O


ij

In particolare tutti gli autovalori di C sono non negativi. La (3.45) segue


facilmente dalla relazione

ij

= E[(x,X - E[X]) 2 ]

e quest'ult.ima quantità è~ O perché è la speranza matematica di una v.a. ~ O.


Speranza condizionale 111

Se X è una v.a. m-dimensionale, A una matrice p x me b un vettore di lR.P,


allora possiamo considerare la v.a. Y = AX + b, che è a valori in fil.P. Sarà
utile nel seguito avere una formula per calcolare la matrice di covarianza di Y
a partire da quella di X. Si ha
m m m

Cov(Yi, Yj) = Cov(L aihXh, L ajkXk) = L aihajk Cov(Xh,Xk)


h=I k=I h,k=I
m

L aihajkChk
h,k=I

che è il termine di posto ij della matrice AC x A*, che è dunque la matrice di


covarianza di Y ( /1* è la trasposta della matrice A).

3.8 Speranza condizionale

Date due v.a. X e Y aventi densità. congiunta f, si chiama speranza condizionale


di X dato Y = y la media ( se esiste) della densità. condizionale di X dato Y = y.
Questa definizione vale sia che la densità congiunta. di X e Y sia continua.,
discreta o mista. In questo paragrafo supporremo sempre che f sia continua,
ma le proprietà della speranza condizionale che vedremo valgono anche negli
altri due casi.
Dunque la speranza condizionale di X dato Y = y, che indicheremo
E'x!Y[Xly] è definita da

E'x!Y[Xly] = j xfx1Y(xly) dx

a condizione naturalmente che l'integrale converga assolutamente. La speranza


condizionale di X dato Y = y è una funzione di y di cui ora. vedremo le
proprietà. Per semplificare la notazione nel seguito indicheremo con H la fun-
zione y--+ Ex1Y[Xly].
Osserviamo che se la. densità condizionale x - f\'w(:rly) ha varianza finita,
allora si ha

j x fx1v(xly) dx - (j x fxw(xly)
2 d.r)
2
2'.:O

(la quantità a sinistra non è altro che la varianza di una. v.a. av<'nte densità
.r--+ f\'1v(xly), ed è dunque 2'.:O). Possiamo dunque scrivere

J x 2 fxw(xly) d.T 2'.: (! X fxw(xly) <fr)= Il( y)2


2
112 Capitolo 3

Quindi
E[X 2 ] = J x 2 fx(x) dx= J Jx 2 dx J(x, y) dy =
= j Jy(y) dy j x 2 Jxp-·(xly) dx~

~ J H(y) 2 fy(y) dy = E[JI(Y)2]


Ne segue che se X ha varianza finita lo stesso vale per la v.a. H(Y). (Veramente
nei calcoli che precedono avremmo prima dovuto verificare che la funzione H
fosse abbastanza regolare, nel senso dell'Osservazione 3.6, cosa che però daremo
per scontata).

Lemma 3.36 Per ogni funzione G ( che soddisfi alle condizioni dell'Osserva-
zione .3.6) e tale che la v.a. G(Y)X abbia speranza matematica finita si ha

E[G(Y) H(Y)] = E[G(Y) X]


Dimostrazione. Mostriamo intanto che anche la v.a. G(Y)H(Y) ha speranza
matematica finita

E[IG(Y) H(Y)I] = J IG(y)H(y)I fy(y) dy =


= j IG(y)lfr(y)I j xfxw(xly) dxl dy ~
~ J IG(y)lfy(y) dy J lxlfxJY(xly) dx= J lxG(y)I f(x, y) dx dy =
= E[IX G(Y)I] < +oo

Ripetendo il calcolo senza valori assoluti si ha la tesi.

Proposizione 3.37 Supponiamo che X abbia varianza finita e sia. 1/Juna


qualunque funzione (purclié soddisfi alle condizioni dell'Osservazione .3.6) tale
che la v.a. 1t,(Y) abbia anch'essa varianza finita. Allora

Dimostrazione. Consideriamo la funzione G(y) = 1/J(y)- Il(y). Per la Pro-


posizione 2.40 applicata alle v.a. (1P(Y) - H(Y)) e (H(Y) - X), la v.a.
Speranza condizionale 113

( ii·(Y) - H(Y))(H(Y) - X) ha speranza matematica finita e per il Lemma


precedente applicato alla funzione G

E[('t/,(Y) - H(Y))(H(Y) - X)] =O


Dunque

E[lvi(Y) - x12 ] = E[l(vi(Y) - H(Y)) + (H(Y) - x)l2) =


= E[lvi(Y)- H(Y)l2] + 2 E[(v,(Y) - H(Y))(H(Y) - X)) +E[IH(Y)- Xli] >
=O
2: E[IH(Y) - x12 )

La Proposizione 3.37 mette in luce un significato importante delle speranze


condizionali. Supponiamo di conoscere il valore di Y e di volere fare una previ-
sione sul valore assunto dalla v .a. X, che non è possibile osservare. Dobbiamo
cioè trovare una funzione di Y che sia il più possibile vicina a X. Occorre
naturalmente precisare cosa s 'intentende dicendo "più vicina possibile".
Poiché E [lvi(Y)-Xl 2 ) tende ad essere grande se v,(Y) assume valori lontani
da X, si può usare questa quantità per valutare la bontà dell'approssimazione
di X con v,(Y), nel senso che tanto più essa è piccola tanto migliore è l'ap-
prossimazione. In questo senso la Proposizione 3.37 afferma che E'xjY[Xly] è
la migliore previsione di X dato Y = y.

Esempio 3.38 Riprendiamo l'Esempio 3.26 e supponiamo a = 2, /3 = l.


Un'apparecchiatura ha avuto k = 5 arresti in un anno. Qual è la migliore
stima della sua "propensione alla difettosità" X?
Si tratta di calcolare la media condizionale di X dato Y = 5. Ora la densità
condizionale di X dato Y = k vale

fx y(xlk) = g(x, k) = (/3+ 1)°+k xo+k-1e-(13+1)x


I py(k) f(a + k)

che è una densità f( a+ k, /3+ 1). La sua media vale dunque 0$~.Sostituendo
i valori indicati si ha ~ = 3.5 come stima del valore di X.
114 Capitolo 3

3.9 Funzioni caratteristiche

Le funzioni caratteristiche sono uno strumento che può semplificare la soluzione


di alcuni dei problemi dei paragrafi precedenti. Il lettore attento riconoscerà
molti punti in comune con le funzioni generatrici del Paragrafo 2.7 e potrà do-
mandarsi se questa parentela sia solo formale oppure nasconda qualche legame
più profondo ...
È necessario a questo punto descrivere brevemente come si definisce la spe-
ranza matematica di una v.a. a valori complessi.
Diremo che una applicazione Z = Z 1 +iZ 2 definita sullo spazio di probabilità
(!ì, .A,P) a valori complessi è una v.a. complessa se e solo se entrambe le
applicazioni Z 1 e Z 2 sono v.a.. (rea.li). Data una v.a. Z a valori complessi diremo
che essa ha speranza matematica. finita se ciò è vero per Z 1 e Z 2 e in questo
caso porremo E[Z] = E[Z 1 ] + iE[Z2].·
Indichiamo con I I il modulo complesso. Si può allora dimostrare che se la
v .a. reale IZJ è integrabile allora. anche Z lo è e vale la disuguaglianza

(3.46) jE[Z]! :S E[IZI]

Sia X una v.a.. m-dimensionale. Si chiama funzione caratteristica di X la fun-


zione</>definita su ]Rm a valori complessi definita da

(3.4 7) </>(0)= E[ei( 9 .x)] = E[cos(0. X)]+ iE[sin(0, X)]

dove ( , ) indica il prodotto scalare di m.m: (0, x) = X101 + ... + x m0m.


- La funifone caratteristica. è sempre definita perché, qualunque sia 0 E IR, le
v.a. cos(0, X) e sin(0, X) sono limitate, ed anzi per (3.46)

per ogni 0 E IRm; per di più è ovvio che </>(O)= 1. I Teoremi 3.30 e 2.29
implicano che

</>(0)= r ei(0,x)f(:r)dx
}Rm
(3.48)
ef;(0)= L ei(0,:r)p(x)
:rERm

a seconda che la legge di X sia. data dalla densità continua f oppure dalla
densità discreta p.
Funzioni caratteristiche 115

La funzione caratteristica quindi dipende solo dalla legge di X e v.a. aventi


la stessa legge hanno la stessa funzione caratteristica. Potremo dunque parlare
indifferentemente della funzione caratteristica di una v .a. oppure di una legge
di probabilità.
Vedremo ora le principali proprietà delle funzioni caratteristiche. Osser-
viamo però che grazie alla prima delle (3.48) <P,a meno di una costante, non
è altro che la trasformata di Fourier della densità f. Molte delle proprietà che
seguono sono quindi casi particolari delle proprietà delle trasformate di Fourier.

1. Se X e Y sono indipendenti allora

( 3.49) <Px+y(0) = <Px(0)<Py(0)

Infatti

</>x+y(O)= E[ei(ll,X+Y)] = E[ei(ll,X)ei(ll,Y)] = E[ei(ll,X)]E[ei(ll,Y)] =


= </>x(0)</>-y·(0)

2. Le funzioni caratteristiche di X e -X sono legate dalla relazione

( 3.,50) </>-x(B)= E[e-i(l1,X)j = E[ei(ll,X)] = <Px(B)


Quindi se X è una v.a. simmetrica ( cioè tale che X e -X hanno la stessa legge)
allora </>xè una funzione a valori reali.

3. Siano b E m,k e A una matrice k x m; allora Y = AX + b è una v.a. a


valori in IRk e si ha per 0 E IR.k

(3.51) q>y(O)= E[ei(ll,AX+b)] = ei(ll,b)E(ei(A"ll,X)) = <Px(A*B)ei(B,b)


Dove A* indica la trasposta della matrice A.

Esempi 3.39 In questi esempi sarà sempre rn = 1, per cui scriveremo 0X


invece di (0, X) e </>sarà una funzione su IIL Il calcolo della funzione caratte-
ristica si farà sempre usando una delle (3.48) a seconda che X sia discreta o
assolutamente continua.
a) Binomiale B(n,p): per la regola del binomio
116 Capitolo 3

b) Geometrica
00 00

= "p(l
</>(O) - PleiBk = "p((l - p)eiBl = p .
~ ~ 1 - ( 1 - p )e18
k=O k=O
c) Poisson

d) Esponenziale

</>(O)=.X f+oo e->-xeiex dx= .X f+oo ex(iB->.)dx=-. _.X_ex(iB->.) l+oo =


lo lo z(J- .X o

= _.X_( lim ex(iB->.)- 1)


iO- À x-++oo
Ma il numero complesso ex(iB->.) ha modulo lex(iB-,\) I = e->.x che tende a O
per x---+ +oo, dunque limx-++oo ex(iO->.)= O e
À
O) = .X- iO
</>(

4. Vediamo ora le proprietà di regolarità delle funzioni caratteristiche. Sup-


poniamo inizialmente m = 1.
Osserviamo che, per ogni w E n fissato, la funzione (J ---+ eiBX(w) è continua..
Se ne può dedurre la stessa. cosa per la funzione (J---+</>(O)= E[ei 8X]?
Continuando con questo punto di vista la funzione (J---+ eiBX(w) è anzi infinite
volte derivabile e
~(Jei8X(w) = iX(w)eiBX(w)

~;kei8X(w) = (iX(w)leiBX(w)
Se si potesse scambia.re l'operazione di derivazione con quella di speranza. ma-
tematica. si avrebbe
!!(O)= ~(JE[eiBX]= E[~(JeiBX] = E[iXeiBX]
(3 ..52)

:;t(O) = E[~;keiBX] = E[(iXleiBX]


TI teorema. seguente mostra che, sotto opportune condizioni, ciò è- vero.
Funzioni caratteristiche 117

Proposizione 3.40 </>


x è una funzione continua qualunque sia X. Se X ha
momento di ordine k finito allora </>xè k volte derivabile e valgono le (3.52).
Viceversa se </>x è k volte derivabile e k è pari allora X ha momento di ordine
k finito e (quindi) valgono le (3.52).

Le (3.52) per O= O danno

(3.53)

che è molto utile perché permette di calcolare i momenti di X semplicemente


facendo le derivate di </> all'origine. Attenzione però perché </>
può essere deri-
vabile senza che X abbia speranza matematica finita. Se invece </> è due volte
derivabile, per la Proposizione 3.40 (2 è pari), X ha momento di ordine 2 finito
(e dunque anche speranza matematica finita per la Proposizione 2.37).

Ragionamenti simili (solo più complicati da esprimere) danno risultati analoghi


nel caso di probabilità su Rm. Più precisamente se a-= (01, .. ,,a-m) è un
multiindice e x E IR.nponiamo

1°1= 0 1 + · · · + O'm
X
Ci
=x1 0'1 O'm
.. ,Xm
{Y:~ alol
a90 - oBfi •.. afJ?,,,m

allora, se E[IXll 0 1]< +oo, <Pxè Ja,Jvolte derivabile e

In particolare

~(Jh
<Px(O)= iE[Xh]

i:hfJ(Jk
<Px(O)= -E[XhX1.:]

Cioè il gradiente di <bnell'origine è un vettore le cui componenti sono pari a


i volte le medie delle componenti di X e, se X è centrata, lo. Hessiano di <P
nell'origine è uguale alla matrice di covarianza cambiata di segno.

Esempio 3.41 (Funzione caratteristica di una legge normale) Se X rv N(O, 1)


la sua funzione caratteristica è data da

! :J..54)
118 Capitolo 3

Questo integrale si calcola in molti modi (ma non cercate una primitiva ... );
il metodo seguente può servire anche per altre funzioni caratteristiche.
Poiché X ha varianza finita possiamo applicare (3.52)

Integrando per parti

4>'(0)= ---ie'1 '(J


xe-x 2/2 l+oo
+--1 J+oo
i· i0e' xe-x 2/2
'(J
dx= -0</>(0)
V'h -ooV'h -oo
=O

Cioè <I>è soluzione dell'equazione differenziale lineare

( 0)
<I>' = 0</>(
0)

risolvendola si ha </>(0)= ce- 82 12 • Poiché </>(O)= 1, necessariamente e= 1 e


dunque </>( 0) = e- 82 12 • Se invece Y "" N (µ, a 2 ), allora si può scrivere Y
aX + Jl e dunque per il punto 3. <f>v(0)= </>x(a0)eifJµ, = e-o-282 12 ei8 µ_

5. La proprietà fondamentale delle funzioni caratteristiche è la seguente

Teorema 3.42 Se X e Y hanno la stessa funzione caratteristica allora hanno


la stessa legge.

Tralasceremo la dimostrazione di questo risultato, che del resto spiega il nome


di funzione caratteristica.
Il Teorema 3.42 non è però costruttivo: esso afferma che la conoscenza di </>x
individua univoca.men te la legge di X, ma non fornisce un modo pratico per
dedurre da <f>x,a.d esempio, la funzione di ripartizione di X o la sua densità.
Vedremo un teorema d'inversione concreto (anche se nella. pratica. rara.mente
utilizza.bile). Il Teorema 3.42 è però già molto utile, come mostra l'esempio
seguente.

Esempio 3.43 Sia.no X e Y v.a.. indipendenti e di legge N(Jt, a 2 ) e N(v, T 2)


rispettiva.mente. Qual è la. legge di X + Y?
Basta osservare che
Funzioni caratteristiche 119

e dunque X+ Y è N(µ + v,(1 2 + r 2 ). Lo stesso risultato si sarebbe potuto


ottenere anche usando la Proposizione 3.20, ma il calcolo dell'integrale, peraltro
elementare, è più lungo.

Il teorema seguente permette talvolta di calcolare la densità di X a partire da


</>x.

Teorema 3.44 (D'inversione) Se </>xè integrabile allora X è assolutamente


continua ed ha densità data da

(3.55) J(x) J+oo


= _:__ e-iex</>x(0)d0
211" -oo
6. Sia X (X 1 , ... ,Xm) una v.a. m-dimensionale e </>xla sua funzione
caratteristica. È allora facile calcolare la funzione caratteristica </>xhdella h-
esima marginale di X. In effetti, ricordando che </> x è definita su IRm mentre
6 x h è una funzione di variabile reale

( 3.56)

dove 0 = (0, ... ,0,0,0, ... ,0) è il vettore di IRm le cui componenti sono tutte
nulle tranne la h-esima che vale 0.

7. Le funzioni caratteristiche forniscono anche un criterio d'indipendenza di


v.a. Se X e Y sono indipendenti e Z = (X, Y) è la v.a. bidimensionale di cui
X e Y sono le componenti, allora posto 0 = (01 , 02 ) si ha

</>z(0)= E[ei(ll,Z)] = E[ei61Xeill2YJ = E[eill1XJE[eill2YJ =


(3.57)
= <Px( 0i)<f>y(02)
Se invece vale (3.57) le v.a. X e Y sono indipendenti. Infatti sia V, W una coppia
div.a. indipendenti tali che V abbia la stessa legge di X e W la stessa legge di Y.
Allora le v .a. bidimensionali ( X, Y) e (V, W) hanno la stessa legge perché hanno
la stessa funzione caratteristica </>(0)= </>x(0i)<f>y(02 ). Esse hanno dunque la
stessa legge per il Teorema 3.42 e le v.a. X e Y sono dunque indipendenti
perché hanno la stessa legge congiunta di una coppia di v.a. indipendenti.

Lo stesso ragionamento si può ripetere nel caso più generale seguente. Sia
X, 1, •.. , X m una f am1g· 1· · 1Rd1 , •.. , IRdm rispettivamente
1a d'I v.a. a va Iori· 111 · · e
per ogni fJ1 E 1Rd1 , ..• , (Jm E JRdm indichiamo con (J = (fJ1, ... , (Jm) il vettore di
dimensione d = di+ . .. + dm che si ottiene giustapponendo i vettori fJ1, ... , Bm.
120 Capitolo 3

Allora si ha
Teorema 3.45 Le v.a. X1, ... , Xm sono indipendenti se e solo se

3.10 Generatori aleatori, simulazione

Abbiamo considerato a varie riprese il problema di calcolare la legge di una


v .a. della forma </>oX,dove X è una v .a. di cui si conosce la legge. Ora vedremo
invece un problema. che in un certo senso ne è l'inverso: data una v.a. X di legge
uniforme su [O,1) ed assegnata una densità di probabilità ( discreta o continua)
/, trovare un'applicazione</> tale che </>oXabbia densità f.
Nei problemi di simulazione talvolta si richiede a. un computer di produrre
dei numeri a. caso con una legge assegnata. Ciò si può ottenere nel modo
seguente: esistono dei programmi, della cui struttura non ci interesseremo, che
producono sequenze di numeri a caso indipendenti e con distribuzione uniforme
su [O,1]. Numeri a. ca.so con distribuzione assegnata. vengono prodotti appunto
costruendo una funzione</> tale che se X è uniforme su [O,1] allora. </>(X)abbia.
la distribuzione assegnata.
Se la distribuzione voluta è associata ad una. densità f che è nulla al di fuori
di un intervallo ]a, b[ e strettamente positiva all'interno di )a, b[allora la relativa
funzione di ripartizione F sarà strettamente crescente, e dunque invertibile, da
]a, b[in ]O,1[. Vedremo ora. che la scelta</>= p-t è quella giusta. Infatti poiché
la f.r. di X è data da

F(x) ~ n
sex:::; O
se O< x < 1
se 1 ::; x
e poiché O ::; F( t) ::; 1 allora

P{F- 1 (X)::; t} = P{X::; F(t)} = F(t)

e dunque p-l (X) ha proprio F come f.r.

Esempio 3.46 Simuliamo una legge esponenziale di parametro À.


La f.r. è data. da

= {~ -
set< O
F(t) e->.t
set::::: O
Generatori aleatori, simulazione 121

F è invertibile su JR+ e p- 1 (x) = -½


log(l - x). Dunque se X è uniforme su
[O,1] allora-½ log(l - X) è esponenziale di parametro,\.

Questo metodo è però poco efficace quando la funzione F- 1 non abbia una
espressione analitica esplicita, come succede ad esempio per le leggi normali,
binomiali e di Poisson, oppure quando si vuole simulare una probabilità su Illn.
In alcuni casi (per le leggi N(O, 1) per esempio) si possono usare le tavole della
f.r. per avere un 'approssimazione di p- 1 , ma si tratta di una procedura pesante
da inserire in un programma di calcolatore. Gli esempi seguenti mostrano altri
approcci al problema.

Esempio 3.47 Simuliamo un dado, cioè un numero aleatorio uniforme su


{1,2,3,4,5,6}. Se X è uniforme su [O,1] allora la v.a. Y definita da
i- 1 i
y =i se -- <X<
6 -
-6
segue la distribuzione assegnata. Ciò si può anche esprimere ponendo Y = <t>(X)
dove </J(x)= L6xJ + 1 ( L J è la funzione parte intera).

Esempio 3.48 (Legge binomiale) Dati dei numeri casuali X 1 ,X 2 , ... indipen-
denti e uniformi su [O,1] si pone Zi = 1 se Xi :::;p e Zi = O se p < X; :::;1.
È chiaro che Z 1 , ... , Zn sono B(l,p) e indipendenti, essendo funzioni di v.a.
indipendenti. Dunque Z 1 + ... + Zn "'B( n, p).

Esempio 3.49 (Legge geometrica) Nelle notazioni dell'esercizio precedente se


W = inf {n; Z1 + ... + Zn = 1}
allora W - 1 è una v.a. geometrica di parametro p (W è l'istante di primo
successo nello schema di Bernoulli Z1, Z2, ... ).

Esempio 3.50 (Distribuzione uniforme sul cerchio) Se al solito X1,X2 sono


uniformi su [O,1] e indipendenti, allora usiamo l'algoritmo seguente:
1. Prima calcoliamo Y1 = 2X 1 - 1, Y2 = 2X 2 - 1 ((Y1 , Y2) è uniforme sul
quadrato [-1, 1] X [-1, l]).
2. Verifichiamo poi che il punto (Y1 , Y2 ) si trovi nel cerchio {x 2 + y2 ~ 1}.
Per questo basta calcolare W = Y? + Yi: se W ~ 1 allora poniamo
(Z 1 ,Z2) = (Y1,Y2), altrimenti si torna al punto 1. con due nuovi X1,X2. È
facile convincersi che (Z 1, Z2) è uniforme sul cerchio {x 2 + y2 ~ 1} (eserci-
zio: quante iterazioni in media sono necessarie nell'algoritmo precedente per
ottenere W ~ l ?).
122 Capitolo 3

Esempio 3.51 (Leggi normali) Sappiamo che basta saper simulare una legge
N (O,1), da cui si possono ottenere facilmente tutte le altre leggi normali.
Abbiamo visto nell'esempio precedente come si simula una v.a. Z uniforme
sul cerchio. Per l'Esempio 3.23 la v .a.

-2logJZJ 2
W=Z
1z1
2

ha densità

!( x, y ) -_ _!,_-(x2+y2)Ì2 __ 1_ -x2/ 2 _1_ -y2/2


2~ e - "-=e
v2~
"-=e
v2~
Confrontando questa uguaglianza con (3.16) si vede che le componenti W1 , W2
di W hanno entrambe legge normale N (O, 1) (ed anzi che le componenti W1 e
W2 sono indipendenti).

3.11 Leggi normali multivariate

Siano X 1 , •• ,,Xm v.a. indipendenti tutte di legge N(0,1); allora il vettore


X= (Xi, .. ,,Xm) ha densità

!( x ) =--e 1 -x2
1
/?
• ... --e1 -x2
"' /2 =---e 1 -lxl2/2
-/'h ../2-rr (2~)m/2

Inoltre per (3.57)

Se ora A è una matrice mx me z E IR.mallora, posto Y = AX + z, per (3.51)

2
</Jy(0)= ei(ll,z)<Px(A*0) = ei(B,z) exp (--2-IA*01 ) =
= ei(ll,z) exp ( - ~ (A*0, A*0)) = ei(B,z)exp ( - ~ (AA*B, 0))
Osserviamo che la matrice AA* è simmetrica e semi-definita positiva, poiché
(AA*B, 0) = (A*B, A*B) = IA*Bl 2 2'.O. AA* è anzi la matrice di covarianza Cy
di Y: in effetti, come abbiamo visto al termine del paragrafo 3. 7, Cy = ACx A*,
e in questo caso Cx è la matrice identica I.
Leggi normali multivariate 123

Definizione e Proposizione 3.52 Dati un vettore z E Rm e una matrice


C, m x m simmetrica e semi-definita positiva., esiste sempre una v.a. m-
dimensionale X la cui funzione caratteristica è data da

= ei( 9 ,z>exp ( - ~(CO,O))


</>x(O)

Diremo che una tale X è N(z,C) (normale di media z e matrice di covarianza


C).
Dimostrazione. Per il calcolo che abbiamo appena fatto basta mostrare che
esiste una matrice A tale che AA * = C. È un classico risultato di algebra che
una tale matrice esiste sempre (purché C sia. simmetrica e semi definita positiva)
e che anzi essa può essere scelta simmetrica (e quindi tale che A 2 = C; in questo
caso si dice che A è la radice quadrata di C). Infatti se C è diagonale

À1
(
C=
o
allora poiché C è semi-definita positiva gli autovalori Ài sono tutti 2: O e quindi
ba.sta porre

Altrimenti ( cioè se C non è diagonale) esiste comunque una matrice ortogonale


O tale che oco- 1 sia diagonale. Si verifica subito che oco- 1 è ancora semi-
definita positiva e se B è tale che B 2 = oco- 1 allora poniamo A= 0- 1 BO;
A è simmetrica (perché 0- 1 = O*) e A è la matrice cercata poiché

A 2 = 0- 1 BO· 0- 1 BO = 0- 1B2 0 = C

Faremo riferimento alle leggi N( z, C) appena. introdotte parlando di leggi nor-


mali ( o gaussiane) multi variate.
Se C è invertibile allora la legge N ( z, C) ha. densità; infatti in questo caso
anche la radice quadrata A di C è invertibile e se Y è N(z, C), allora Y è della
forma AX + z, dove X è N(O,l); quindi Y ha. densità
124 Capitolo 3

per l'Esempio 3.22.

Siano X"' N(z, C), A una matrice p X me b E IllP. Consideriamo allora la v.a.
Y = AX + b, che è a valori in IllP e calcoliamone la funzione caratteristica. Per
la (3.51) si ha

tpy(8) = ei(/l,b)</>x(A*8)= ei(/l,b)ei(A·9 ,z>exp(-~(CA*8,A*8)) =


(3.58) 2
= ei(/1,b+Az)exp(-~ (AC A*8, 8))
2
e dunque Y "' N(b + Az, AC A*). Le trasformazioni affini quindi trasformano
leggi normali in leggi normali.
In particolare se X è N(O, I) e O una matrice ortogonale allora O IO* =
00* = I e quindi OX è ancora N(O, I). Ovvero le leggi N(O, I) sono invarianti
per le trasformazioni ortogonali.

Calcoliamo ora le marginali di una legge normale multivariata. Se X· =


(X1, ... , Xm) e X "' N(z, C) allora la legge di Xh si può determinare con
la (3.56). Infatti

dove 0 = (O, ... , O,8, O,... , O) e chh è l'elemento di posto hh della matrice C.
Quindi Xh ha una legge normale N( zh, chh)-

Sia X "' N( z, C) e supponiamo che la matrice C sia diagonale. Allora, indi-


cando con >..hgli elementi sulla diagonale di C,

</>x(8)= ei(ll,z) exp ( -t(C8,8))


= ei(ll,z) exp ( -1:th=l
>..h81)=

= ei/11z1 eXp ( -t>..]8i)


•• .ei/lmZm eXp ( - t>..18~) =
= </>x(81) ..
1 -<l>xm(8m)

Per la Proposizione 3.45 quindi le v.a. X 1 , ... ,Xm sono indipendenti. Ricor-
dando che C è la matrice di covarianza di X, abbiamo dunque provato una
proprietà importante delle leggi normali: variabili aleatorie non correlate sono
indipendenti se la loro distribuzione congiunta è normale. Attenzione comun-
que perché può accadere che le v .a. X 1 , ••. , X m abbiano ciascuna. distribuzione
Leggi normali multivariate 125

normale senza che la distribuzione congiunta sia normale multivariata.


Questo stesso ragionamento dà anzi il seguente risultato più generale e di
cui avremo bisogno nel capitolo sulla Statistica.
Supponiamo che le v.a. X, Y a valori in Illn, IRm rispettivamente siano tali
che la v .a. (X, Y) ( a valori in Illk, k = n + m) abbia distribuzione normale.
Allora se per ogni 1 ~ i ~ n e 1 ~ j ~ m si ha

(3.59) Cov(Xi, Yj) =O


le v.a. X e Y sono indipendenti.
Infatti (3.59) è equivalente a supporre che la matrice di covarianza C di
(X, Y) sia diagonale a blocchi

o o
Cx
C=
o o
o o
Cv
o o

che implica

Dunque X e Y sono indipendenti per il Teorema 3.45.

Calcoliamo ora le leggi condizionali di una v.a (X, Y) normale multivariata.


Naturalmente è possibile calcolarle mediante la definizione di densità con-
dizionale, che però in questo caso porta a dei passaggi laboriosi. Un modo
alternativo di calcolo è il seguente.
Per ogni valore di a E Ill la v.a. (X - aY, Y) ha legge congiunta normale (è
una funzione lineare della v.a. normale (X, Y)). Determiniamo a in modo che
X - aY e Y siano non correlate (e quindi indipendenti). Deve essere

O= Cov(X - aY, Y) = Cov(X, Y) - a Var(Y)

ovvero
Cov(X, Y)
a=----
Var(Y)
126 Capitolo 3

Quindi scrivendo
X= X -aY +aY
=Z
abbiamo scritto X come la somma di aY e di u11av.a. ~ indipendente da Y.
La legge condizionale di X dato Y = y è la legge di Z + ay. Questo fatto
è evidente, dato il significato intuitivo della nozione di legge condizionale, e si
può verificare rigorosamente senza troppa difficoltà (vedi Esercizio 3.24).
Ma Z + ay è una v.a. normale (è anch'essa una funzione lineare di v.a.
normali ... ) ed ha varianza

Var(Z + ay) = Var(X - aY) = Var(X) + a 2 Var(Y) - 2a Cov(X, Y) =


= Var(X) - Cov(X, Y)2
· Var(Y)

e media
E[Z
+ ay ] = E[X] + Cov(X,
Var(Y)
Y)( -
y
E[Y])

Quest'ultima espressione dà anche la media condizionale .E\.·[Xly] (la speranza


condizionale di X dato Y = y è la media della legge condizionale).

Esercizi

3.1 Sia X una v.a. uniforme su [O,l]. Posto Y = l3XJ+ X, calcolare la legge
di Y (l J è la funzione parte intera).

3.2 Sia. f la funzione definita da

k x 3 exp (-.:) X 2'.0


f( X) = { 2
o x<O
a) Determinare k in modo che f sia una densità.
b) Siano X e Y v.a. indipendenti e di densità f. Qual è la densità di X+ Y?
Qua/ è la densità di 2X? Si tratta di densità note?

3.3 Un punto viene scelto a caso uniformemente sulla circonferenza unitaria e


si indica con X la sua distanza dall'asse delle a.scisse. Qual è la legge di X?
Calcolarne la funzione di ripartizione. Quanto vale E[X]?

3.4 Calcolare la legge della somma di due v.a.. X, Y indipendC'nti e uniformi su


[O,l].
Esercizi 127

3.5 Due v.a. X e Y sono indipendenti e uniformi su [O,1]. Calcolare


P{XY > 1/2}
P{XY < 1/4 I X> 1/2}
X
P {XY > 1/ 4 I y > 2}
Qual è la densità congiunta di XY e X?

3.6 Sia (X, Y) un vettore aleatorio uniforme sul quadrato di vertici (1, O),
(O,1), (-1,0), (O,-1).
a) Calcolare le densità di X e di Y.
b) Calcolare P{Y > 1/2 I X< 1/2}.
c) Calcolare la densità di X+ Y. Mostrare che X+ Y e X - Y sono
indipendenti.

3. 7 Un punto è scelto a caso su/ piano con densità

f(x, y) = 2~ exp (- x2 ! y2)

Indichiamo con Z la distanza del punto dall'origine. Qua/ è la legge di Z?


Ammette una densità? Qual è la probabilità che il punto si trovi fuori della
pa.lla di centro l'origine e raggio 1?

3.8 Per r, s > O consideriamo la funzione


cx-(s+l) X> T
f(x) = {
0 X~T

a) Determinare c in modo chef sia una densità.


b) Sia X una v.a. di densità f. Per quali valori di s X ha speranza mate-
matica finita? Per quali valori di s X ha varianza finita?
c) Qual è la legge di Y = log( ~)?

3.9 Siano X, Y, Z v.a. indipendenti tutte di legge N(O, 1).


a) Calco/are le leggi delle v.a.
x2 1x1
x2 + y2 Jx2 + yz
b) Qual è la legge condizionale di. X sapendo X 2 + Y2 •
c) Mostrare che le v.a.
X
x2 + y2
Jx2 + y2
sono indipendenti.
128 Capitolo 3

3.10 Siano X, Y v.a. indipendenti di legge N(O, 1). Calcolare la legge della
v.a X - Y. Calcolare le densità di (X, X - Y), (X, v'2Y) e le loro marginali.
Mostrare che X + Y e X - Y sono indipendenti.

3.11 Sia X una v.a. esponenziale di parametro), e poniamo Y = lXJ. Qual è


la legge di Y? Si tratta di una legge nota? Calcolarne la media.

3.12 Siano X e Y due v.a indipendenti e esponenziali entrambe di parametro


>..Calcolare le densità di
X
V=x+
3.13 (Legge di Rayleigh) Sia X una v.a. reale di densità
2x e-" 2 l 9 se x >O
h0(x) ={ 8
O altrimenti
dove 8 è un parametro reale > O.
a) Calcolare media e varianza di X.
b) Se Z = X 2 , mostrare che Z segue una legge gamma e calcolarne i
parametri.
c) Posto W = e-X 2 / 9 , calcolare media e varianza di W. Qual è la densità
di W?
d) Sia ( U, V) una coppia di v.a. di densità J( u, v) = e h9(u) v l{o<v<u} dove
c è una opportuna. costante. Determinare il va.lare di c a.I variare di 8. Le v.a.
U e U/V sono indipendenti?

3.14 Sia.no X e Y due v.a.. indipendenti, dove X ,...,N(O, 1) mentre Y è ta.le


che P{Y = 1} = P{Y = -1} ==½-Poniamo Z = XY.
a) Qual è la legge di Z? Z e X sono indipendenti?
b) Calcolare la funzione di ripartizione di X + Z.
c) Mostrare che X e Z sono non correlate.
d) Mostra.re che X e Z hanno ciascuna legge normale, ma non hanno densità
congiunta. norma.le.

3.15 Due punti (X1,Y 1),(X2,Y2) vengono scelti a. ca.s·o e indipendentemente


nel disco unitario di IR2 con densit,à rispettiva.mente

fi(x,y) =~ (1- Jx2 + y2)


h(x,y) =~ (1-Jx2+y2)2(1+ Jx2 +y2)2
Esercizi 129

a) Qual è la probabilità che (X1, Y1) disti dall'origine meno di½?


b) Qual è la legge di U = Jx? + Yl?
c) Qual è la probabilità che (X1, Y1) disti dall'origine meno di (X2, Y2)?

3.16 Descrivere una procedura per simulare


a) Le leggi x2 (n),f(n,À),f(n/2,A) (n intero positivo).
b) Una legge di Poisson di parametro À.

3.17 Siano X e Y v.a. indipendenti entrambe di legge esponenziale di parame-


tro À >O.Calcolare le leggi di U = X - Y, V= min(X, Y) e W = max(X, Y).
Mostrare che U e V sono indipendenti.

3.18 Un numero reale X viene scelto con legge f(a, .X).Se X= x viene allora
scelto un numero Y con legge esponenziale di parametro x. Qual è la legge di
Y ? Qual è /a legge di X dato Y?

3.19 Due numeri vengono scelti a caso e indipendentemente con distribuzione


uniforme su [O,l]. Qual è la probabilità che essi differisca.no per più di ½?

3.20 Un componente elettronico ha. un tempo di vita che segue una. legge
esponenziale di media 10 giorni. Un secondo componente è composto da due
elementi in parallelo (il che significa che funziona fintanto che uno almeno dei
due elementi è funzionante), ciascuno dei quali ha tempo di vita. esponenziale
di media 8 giorni.
a) Qual è /a densità del tempo di vita del secondo componente? Quanto
vale la sua vita media?
b) Qua/ è /a probabilità che il primo componente duri più del secondo?

3.21 (Legge di Ca.uchy) Sia X una v.a. uniforme su] - ¾,¾[ (cioè di densità
J( x) = ¾ se -f ~ x ~ "Ì e f( x) = O altrimenti). éal~olare la legge di
Y = tan X. Quanto vale E[Y]?

3.22 a) Mostrare che f(x) = {e-1,rl è una. densità di probabilità.. Calcolare la


funzione caratteristica. di una ~.a. X di densità f.
b) Sia Y una v.a. di densità (legge di Ca uchy)

1
g(y)= 7r(l+y2)

Calcolare la funzione caratteristica di Y. Se Yi e Y2 sono v.a. indipendenti di


legge di Cauchy, calcolare la legge di ½(Y1 + Y2 ).
130 Capitolo 3

3.23 a) Siano X 1 , X 2 , X 3 v.a. indipendenti e uniformi su [O,l]. Qual è la


probabilità che X2 sia minore sia di X 1 che di X 3 ?
b) Un generatore uniforme su [O,l] produce i seguenti 30 numeri a caso

0.561 0.229 0.673 0.561 0.006 0.144 0.815 0.378 0.416


0.796 0.456 0.544 0.802 0.271 0.950 0.618 0.180 0.293
0.550 0.173 0.676 0.988 0.591 0.614 0.078 0.024 0.768
0.595 0.573 0.732

Che ne pensate?

3.24 Consideriamo due v.a. X e Y indipendenti e di densità f e g rispettiva-


mente. Sia h una funzione, che supporremo abbastanza regolare perclié sia.no
soddisfatte le condizioni dell'Osservazione 3.6. Poniamo Z =X+ h(Y).
=
a) Mostrare che la densità congiunta di Z e Y è h(z, y) f(z - h(y))g(y).
b) Calcolare la densità condizionale di Z dato Y =
y. Mostrare che la
speranza condizionale di Z dato Y y vale E[X] + h(y).
=
c) Cosa si può dire delle questioni a) e b) se invece Z fosse della forma
h1(Y)X +
ho(Y)?

3.25 Un numero Z viene scelto a caso con legge N(O, a 2 ). Se z è il valore


ottenuto si scelgono poi n numeri X 1 , ••• , Xn indipendentemente, e con legge
·
N(z, 1) . Poniamo -
X= '°'n
n1 L,i=t Xi
a) Mostrare clie la legge congiunta di (Z, X) è normale e calcolarne la
densità.
b) Qual è la matrice di covarianza di (Z,X)?
c) Mostrare che esiste un numero a tale che le v.a. Z - a.t e X sono
indipendenti.
d) Calcolare la legge condizionale di Z da.to X= x.
e) Supponiamo che sia a 2 = 2, n = 30 e che si sia. osservato il valore
X = 1.2. Qual è la migliore stima del valore di Z?

3.26 a) Sia X una v.a. f(½, 1). Quanto vale P{X ~ 1}?
b) E se X fosse rn,1)? f(!, 1)?
4
Convergenza e approssimazione

In questo capitolo vedremo alcuni modi in cui si può definire la nozione di


convergenza di una successione {Xn}n di v.a. e ne vedremo alcuni esempi
notevoli. Queste nozioni sono molto importanti: è spesso complicato descrivere
la legge della v.a. Xn, mentre, se X n -+ X e n è grande, può essere facile
approssimarla con la legge del limite X.

4.1 La legge dei grandi numeri

Definizione 4.1 Siano X, X 1 , X 2 , .•• delle v.a. (rea.lì o m-dimensiona.li). Di-


remo che Xn conve~ge a X quasi certamente (Xn ~-X) se l'insieme degli w E n
tali che
lim Xn(w) = X(w)
n-+oo

ha probabilità 1.
Diremo che X n converge a X in probabilità (X n ~X) se e solo se per ogni
numero "7> O fissato si ha

lim P{IXn -
n-+oo
Xl > "7}= O
Si può dimostrare che la convergenza q.c. implica quella in probabilità, cioè se
v q.c.x·11
-'~n-+ a ora X n-+P x·.

Supponiamo di lanciare n volte una moneta e indichiamo con k il numero


di lanci in cui il risultato è testa. La quantità ~ è dunque la proporzione di
teste ottenute in n lanci. Se la moneta è equilibrata l'intuizione suggerisce che
questa proporzione non debba discostarsi troppo dal valore ½- Naturalmente
sarà difficile osservare esattamente ~ = ½ (vorrebbe dire che si sono ottenute
esattamente tante teste quante croci), ed è sempre possibile che negli n lanci,
per combinazione, si sia verificato un numero abnorme (molto grande o molto
piccolo) di teste, il che porterebbe ad un valore della proporzione ~ distante
132 Capitolo 4

\da½· L'intuizione dice però anche che se n cresce questo fenomeno dovrebbe
•tendere a sparire: se i primi lanci hanno dato una eccedenza di teste, ciò
idovrebbe poi essere compensato dai lanci successivi e insomma al crescere di
In la proporzione dovrebbe stabilizzarsi intorno al valore ½.
/ Questa situazione può essere modellizzata con una successione X 1, X 2, ••.
I di v.a. indipendenti tutte di Bernoulli B(l, ½), dove al solito considereremo
i che l'evento {X; = 1} corrisponde all'evento "l'i-esimo lancio ha dato testa".
I
I
Con questo modello il numero di teste ottenute in n lanci è X 1 + ... + Xn e la
l proporzione di teste in n lanci ( che poco fa indicavamo con ~) sarà
- 1
Xn = -(X1
n
+ ... + Xn)
Ì Come conseguenza dunque ci aspettiamo che X n assuma dei valori lontani da
1 ½ con probabilità sempre minore. È quanto afferma la legge dei grandi numeri.

Teorema 4.2 (Legge dei grandi numeri) Sia {Xn} una. successione di v.a..
indipendenti ed a.venti tutte la stessa. legge. S11pponia.moche esse abbia.no
speranza matematica /l e varianza finita a 2 . Allora posto

'
si ha Xn ~- µ ·-(e quindi anche Xn ~ Jt).

Dimostrazione. Dimostreremo solo la convergenza in probabilità. La v.a. Xn
ha media p:

E[Xn] = ~E[X1
n
+ ... + Xn] = ~n (E[X1] + ... + E[Xn]) = µ
e la sua varianza vale

-
Var(Xn) = n12 Var(X1 + ... + Xn) = n12 ( Var(X1) + ... + Var(Xn) ) =
1 a2
= 2 n Var(X 1) = -
n · n
Basta ora applicare la Disuguaglianza di Chebychev (Proposizione 2.38)
La legge dei grandi numeri 133

Esempio 4.3 Supponiamo di non sapere se una data moneta sia equilibrata o
no. La legge dei grandi numeri fornisce uno strumento per stimare la probabilità
p di ottenere testa in un singolo lancio. Basterà infatti lanciare n volte la moneta
e stimare p con la quantità

# di teste ottenute in n lanci


Xn=------------ n
Infatti, se poniamo

se l'i-esimo lancio dà testa


xi={~ altrimenti

- 1 -
allora Xn = -(X1 + ... +X n) e per il Teorema 4.2 Xn -+ p = E(Xi).
n
In pratica è però possibile fare solo un numero finito di lanci e quindi
occorre valutare l'errore che si commette stimando p con X n, per n fissato.
Naturalmente può succedere che lanciando una moneta equilibrata 1000 volte
si ottenga testa tutte le volte, il che darebbe Xn = 1, ben diverso dal vero
valore p = ½;è chiaro però che la probabilità che ciò si verifichi è molto
piccola. Un modo di procedere può essere quello di fissare un errore 1Je di
stimare la probabilità di commettere un errore più grande dell'errore prefissato.
Si tratta cioè di maggiorare la quantità P{IXn - PI > 7J}.Poiché il calcolo
della funzione di ripartizione di una legge binomiale con un parametro n molto
grande è difficile ( anche se per valori di n non troppo grandi vi sono delle tavole
numeriche), limitiamoci per ora a maggiorare la quantità qui sopra usando la
disuguaglianza di Chebychev:

- I } Var(Xn) 1 1
P {IX n - p > 1] ~ 2 = 2 2 n · p( 1 - p) =
1J n 1J
p(l - p) 1
1/2 n

Questa disuguaglianza dipende ancora dalla quantità incognita p ma, rinun-


ciando a delle stime molto fini, osserviamo che p(l - p) ~ ¼per ogni O~ p ~ 1.
Quindi
- 1 1
P{IXn-PI > 7J}~ -4 2 -
1J n
Ad esempio per n = 50 la probabilità che p disti da Xn per più di 0.1 è
più piccola di 0.5. Questa valutazione è estremamente grossolana e vedremo
presto come migliorarla. Osserviamo però che ci stiamo ponendo il problema
134 Capitolo 4

di stimare, a partire dall'osservazione, il modello di un fenomeno aleatorio.


Quindi, come accennato nell'Osservazione 2.13, si tratta di un problema di
Statistica Matematica, che verrà ripreso in maniera più organica nell'apposito
capitolo.

Esempio 4.4 (Istogrammi) Consideriamo una successione X 1 ,X2, ... div.a.


indipendenti e identicamente distribuite (i.i.cl.) di densità /. Dato un inter-
vallo limitato [a, b], che suddividiamo in sottointervalli / 1 , ..• , Ik, per ogni
h = l, . .. ,k poniamo

Zh(n) = -1 ~
~lh
(
X; )
n i=l

I:~=tlli. (X;) è il numero di volte che Xi E h, i = l, ... , n, e zhn)è dunque


la proporzione delle prime n osservazioni X 1 , ..• , Xn che hanno assunto valori
nell'intervallo I h.

o 1 2 3 4 5 6 7 8 9

Figura 4.1 Istogramma di 200 osservazioni indipendenti di legge f(3, 1).

Si è soliti visualizzare le v.a. zfnl,... ,Zkn)costruendo al di sopra dell'in-


tervallo h un rettangolo di area proporzionale a z~n); se gli intervalli h sono
di uguale ampiezza ciò significa naturalmente che le altezze dei rettangoli sono
proporzionali a z~n). La figura che ne risulta si chiama istogramma; si tratta di
un metodo molto usato per dare una descrizione visiva di come si sono ripartiti
i valori di X 1, ... , X n.
Per n --, oo la legge dei grandi numeri afferma che

z~n) q.~. E[lii.(Xi)] = P{Xi Eh}=/, f(x) dx


I,.

Se gli intervalli h sono abbastanza piccoli, perché la variazione di f su h


sia piccola, allora. i rettangoli dell'istogramma tenderanno ad avere altezze
proporzionali ai corrispondenti valori di f. Quindi per n grande l'istogramma
Convergenza in legge 135

fornisce delle informazioni sull'andamento della densità f. Nella Figura 4.1


vediamo un esempio di istogramma per n = 200 osservazioni di una v.a. f(3, 1),
confrontato con l'andamento della densità.

4.2 Convergenza in legge

Definizione 4.5 Siano X,X 1 ,X 2 , . .. v.a. reali e indichiamo con F,Fi,F2, ...
·1e rispettive funzioni di ripartizione. Diremo che X n converge a X in legge
.. e
(Xn--+ X) se e solo se
lim Fn(x) = F(x)
n-oo

per ogni punto J: E JR di continuità. per F.

Osservazione 4.6 La convergenza in legge dipende solo dalla distribuzione


delle v .a. X, X 1, X 2 .•• , nel senso che se Y, Y1 , Y2 , ••. sono altre v .a. tali che
X,.._, Y,X1 ,.._,Y1,X2 ,..._,Yz, ... allora Xn..SX implica Yn..SY. La Definizione
-!.5 richiede solo che la legge delle v.a. Xn converga, in un senso opportuno, alla
legge di X. Questi fatti mostrano già la differenza tra la convergenza in legge
e la convergenza in probabilità, che ha senso solo se le v .a. sono definite sullo
stesso spazio di probabilità e che dipende evidentemente dalle leggi congiunte
delle v.a. (X, X;). Si può dimostrare che la convergenza in legge è più debole
della convergenza in probabilità. Dunque tra i tipi di convergenza che abbiamo
considerato in questo capitolo la gerarchia è la seguente: la convergenza q.c.
implica quella in probabilità che a sua volta implica quella in legge.

Osservazione 4. 7 In alcuni casi sono possibili criteri facili per verificare la


convergenza in legge. Ad esempio se le v.a. X, X 1 , X 2 , ••• sono a valori interi
positivi, allora i punti di continuità della f.r. F di X sono tutti i numeri reali
tranne al più gli interi positivi. Dunque se Xn ..SX, poiché i punti della forma
k + ½sono di continuità per F per ogni k intero positivo,

P{Xn = k} = Fn(k+ ½)-Fn(k-½)- F(k + ½)-F(k-½) = P{X = k}

Viceversa se P{Xn = k}--+ P{X = k} per ogni k = 0,1,2, ... allora per ogni
x E JR si ha (LxJ=parte intera di x)
LxJ LxJ
Fn(x) = P{Xn :Sx} = LP{Xn = k}--+ LP{X = k} = P{X :Sx} = F(x)
k=O k=O

In conclusione se le v.a. X, X 1 , X 2 , .•. sono tutte a valori interi positivi allora


136 Capitolo 4

Xn converge in legge a X se e solo se P{Xn = k}-+ P{X = k} per ogni intero


positivo k. E per di più si ha Fn(x)-+ F(x) per ogni x E lll (compresi i punti di
discontinuità). In particolare, come conseguenza del calcolo fatto nel paragrafo
2.2, se Xn,..,, B(n, ~),allora Xn converge in legge verso una v.a. X di Poisson
di parametro À.

Il teorema seguente fornisce un criterio di convergenza in legge che è talvolta


più facileda verificare della Definizione 4.5

Teorema 4.8 (P.Lévy) Siano X, X 1 , X2, ... v.a. reali e indichiamone con
~, </> . .. le ris~ettl~e funzioni caratteristich~J Allora X n !:..X se e solo se
1 , </>2,
<f>n(0)-+ </>(0) per ogni 0 E lll.

In pratica, dovendo provare una convergenza in legge, si sceglierà di volta in


volta di verificare la Definizione 4.5 oppure il criterio con le funzioni caratte-
ristiche del Teorema di P.Lévy.

Esempi 4.9
a) Supponiamo che Xn assuma con probabilità 1 il valore ¾- Allora Xn
converge in legge verso una v.a. X che assume con probabilità 1 il valore O.
Infatti la f.r. di X è data da

= {~
sex< O
F(x) se X 2'.:Q·

mentre
= {~
sex<¾
Fn(x) sex >- .1
n
Il solo punto di discontinuità di F è x = O. Ora se x < O si ha Fn( x) = F( x)
per ogni n. Se invece x > O per n abbastanza grande si ha x 2'.:¾ e dunque
Fn(x) = 1 = F(x). Dunque la convergenza in legge è verificata. Osserviamo
che in questo caso Fn(O) = O per ogni n mentre F(O) = 1. Dunque Fn non
converge a F(O) nel punto O, di discontinuità per F.
Alternativamente (e qui sarebbe stata la cosa più semplice) avremmo potuto
applicare il Teorema di P.Lévy e calcolare il limite delle funzioni caratteristiche.
(0) = ei 9/n -+ 1 e la funzione caratteristica di una. v .a. che prende il
Infatti <f>n
valore O con probabilità 1 vale appunto identicamente 1.
b) Supponiamo che Xn prenda i valori 0,.1,1.,n n
... , n-l
n
ognuno con proba-
bilità ¾-Calcoliamo il limite in legge di {Xn}n-
Le v.a. Xn assumono valori sempre pii1 fitti nell'intervallo [O,1]. L'intuizione
Convergenza in legge 137

suggerisce quindi che il limite in legge sia una v .a. uniformemente distribuita.
Applichiamo la definizione e calcoliamo il limite delle f.r. Osserviamo che, se
O$ x $ 1, vi sono lnxJ+ 1 punti della forma~ (k = O, 1, ... ) tali che~ $ x,
dove con L J indichiamo la funzione parte intera. Quindi se O $ x $ 1

Fn(x) = P{Xn $ x}= -n1 X (lnxJ+ 1)


Ora, tenendo conto che nx - 1 $ lnx J $ nx, per il teorema del confronto si ha
facilmente
lim Fn(x) = lim lnxJ+ 1 = x
n-oo n-oo n
Poiché Fn = O per x < O e Fn = 1 per x ~ I è chiaro che per ogni x Fn(x)
converge alla funzione

F(x) = n sex< O
se O$ x $ 1
sex> 1
che è la funzione di ripartizione di una v.a. uniforme su [O,l]. La verifica con
le funzioni caratteristiche sarebbe stata un po' più complicata in questo caso.
c) Supponiamo X n ,....,N(11,¾).Come abbiamo visto nel paragrafo 3.5 le v.a.
Xn hanno densità date da curve a campana centra.te tutte nel puntoµ e che
tendono ad essere sempre più alte e strette al crescere di n. Questo dovrebbe
suggerire che un eventuale limite dovrebbe essere concentrato in µ.
Anche in questo caso per studiare la convergenza si può sia calcolare il limite
delle funzioni di ripartizione sia usare le funzioni caratteristiche, che in questo
caso forniscono il metodo più semplice:
cf>n(0)= eÌJL8e-8 2 /2n - ejµ8

che è la funzione caratteristica di una v .a che vale 11con probabilità 1.


d) Xn,....,N(O, n). Anche qui è più semplice il calcolo con le funzioni carat-
teristiche: infatti
se 0 = O
se 0 i O
Se {X }n convergesse in legge verso un a v .a. X allora cf>n
( 0) convergerebbe verso
<f>x(0).Ciò non è possibile perché la funzione 'ljJnon può essere una funzione
caratteristica {non è continua in O, mentre tutte le funzioni caratteristiche sono
continue).
138 Capitolo 4

4.3 !I Teorem_a Limite C~~~~-

In questo paragrafo avremo bisogno dei fatti seguenti sulle funzioni esponen-
ziale e logaritmo complesso.
La funzione esponenziale complessa si può definire per ogni numero complesso
z, in maniera equivalente, in uno dei due modi seguenti

ez = eRez(cos(Imz) + isin(Imz))
oo n
( 4.1)
ez= L;n.
n= O

La funzione esponenziale reale è la restrizione a lR della funzione esponenziale


complessa. Quest'ultima non è iniettiva poiché ez = ez+ 2 k1ri per ogni intero
k. Lo è però la. sua restrizione alla striscia {z; -i1r < Imz ~ i1r} del piano
complesso. Essa è anzi invertibile come funzione definita. su questa striscia~, e
si vede subito che l'inversa è la funzione

log z = log lzl + i arg z


Si può dimostrare che il logaritmo complesso ha lo sviluppo in serie di potenze
( analogo a quello del logaritmo reale)

oo n
log(z + 1) = I:(-1t+ 1 zn
n=l

(convergente per lzl < 1). Da questo sviluppo si ricava che log(z + 1)"" z per
z - o.
Teorema 4.10 (Teorema Limite Centrale) Sia {Xn}n una successione div.a.
indipendenti equidistribuite, di mediaµ e varianza a 2 > O. Allora posto

S" = X1 + ... + Xn - nµ
n a.fii

S~ converge in legge ad una v.a. N(O, 1).

· Dimostrazione. Poniamo Yi = X·-µ


3
a
: le v .a. Yj sono centrate, hanno va-
ria.nza 1 e
S~ = yn~ (Y1+ ... + Yn)
Il Teorema Limite Centrale 139

Se </Jè la funzione caratteristica di Yj (le Yj hanno tutte la stessa legge e dunque


la stessa funzione caratteristica) allora

j.
Per il Teorema di P.Lévy basta dimostrare che <Ps· (0) - e- 62 12 , che è la
funzione caratteristica di una v.a. N(O, 1). Il calcol~ di questo limite è una
classica forma 100 : calcoliamo il polinomio di Taylor intorno a 0 = O di <Pe,
ricordando che </J'(O) = iE(Yj) = O,</J"(O)= - Var(Y1) = -1, si ha
02
</)(0)= 1 - 2 + o(l01
2)

Quindi per n - +oo

e, poiché log(l + z),.....,z per z- O

lim </Js-(0)= lim (1


n---+oo " n-+co
+ (</J(V~)n -1))n

= J~~ exp [n log ( 1 + (<P( ~) - 1))]

00 n ( <P
= exp [ nl~m ( ~) - 1)] =

= exp [n-+oo
lim n(-_!_0
2n
+ o(.!))]
n
2

Il Teorema 4.10 è un risultato notevole: la legge di s:,


che è in genere compli-
cata da esprimere, si approssima, per n grande, con una legge N(O, 1), e questo
qualunque sia la legge delle v .a. X 1 ( purché abbia un momento del second 'or-
dine finito). Vedremo nel prossimo paragrafo delle applicazioni importanti.
Un modo di vedere il Teorema Limite Centrale è il seguente: supponiamo
per semplicità /l = O, s:
si può allora. scrivere
140 Capitolo 4

cioè S~ si può vedere come la somma di un numero sempre più grande di v .a.
che diventano sempre più "piccole". Si può dimostrare che il Teorema Limite
Centrale resta vero (cioè che S~ !:+N(0, 1)) se S~ è una v.a. che si può scrivere
come una somma di un numero crescente di v.a. indipendenti, tutte "piccole"
{in un senso da precisare), anche senza l'ipotesi che siano equidistribuite.
In altre parole il TLC afferma che un effetto casuale che sia la risultante di
molti effetti aleatori, ciascuno dei quali dia solo un piccolo contributo all'effetto
finale, segue approssimativamente una legge normale.
Per questo motivo, ad esempio, si assume spesso che un errore di misurazione
segua una legge normale: in assenza di errore sistematico è ragionevole pensare
che la discrepanza tra il valore vero e quello misurato sia la risultante di
numerosi piccoli errori che si sono sovrapposti. Dunque l'errore finale seguirà
una legge normale (e l'esperienza lo conferma).

+4.4 Approssimazio_n~ nor~ale


---------· -

Come abbiamo accennato il Teorema Limite Centrale giustifica l'approssima-


zione nella pratica della legge di S~con una N(0, 1). Tradizionalmente si con-
sidera che la soglia di applicabilità sia per n tra 30 e 50. In realtà non vi sono
risultati teorici che giustifichino questi valori, i quali sono basati sull'esperienza
empirica.
Si può anzi mostrare con degli esempi che qualunque sian si possono trovare
delle v.a. Xi per le quali la distribuzione di S~ è lontana dalla N(0, 1). Ad
esempio se Xi ,.._,B(l,p) l'esperienza dice che perché l'approssimazione sia
soddisfacente deve essere np 2: 5 e n(l - p) 2: 5 (vedi figure seguenti). Quin-
di per valori di p estremi, cioè molto vicini a 1 oppure a O, il valore di n
necessario può essere molto grande. Osserviamo che questi valori est.remi di p
corrispondono a delle distribuzioni molto asimmetriche. I valori di n indica.ti (30
o 50) devono dunque considerarsi validi per la maggior parte delle distribuzioni
che si incontrano nella pratica, ma vanno aumentati in presenza di leggi molto
asimmetriche.
L'approssimazione con la legge normale si basa sulla relazione seguente, dove
X 1 , X 2 , ... sono come nell'enunciato del Teorema 4.10

dove <I>indica, come al solito, la funzione di ripartizione della legge N(0, 1).
Parleremo sempre di approssimazione normale facendo riferimento alla ( 4.2).
Approssimazione normale 141

Figura 4.2 Istogramma di 200 simulazioni di S~ per delle leggi di Bernoulli


con p = 0.5 e n=50.

Figura 4.3 200 simulazioni di S~ per delle leggi di Bernoulli con p = 0.95 e
n=50. L'istogramma è chiaramente asimmetrico.

Esempio 4.11 Una lampada ha un tempo di vita che segue una legge espo-
nenziale di mediaµ = 10 giorni. Non appena la lampada smette di funzionare
essa viene sostituita con una nuova. Qual è la probabilità che 40 lampade siano
sufficienti per un anno?
Se si indica con Xi la durata della i-esima lampada, possiamo supporre le Xi
i
indipendenti e di legge esponenziale di parametro À = = /0 ; la probabilità
richiesta non è altro che P {X 1 + ... + X 40 2:::365}. Usando le tavole della legge
normale e (4.2)

P {X 1 + ... + X 40 2:::365} =1- P {X 1 + ... + X 40 < 365} '.::::'.


365 - 40 · 10)
1 - cI>(
'.::::'. y'40 = 1 - cI>(-0.55) = 0.71
10 · 40
Poiché la v.a. X1 + ... + X40 segue una legge f(40,À), questo esempio mostra
Figura 4.4 200 simulazioni di s;
per delle leggi di Bernoulli con p = 0.95 e
n=500. L'accordo con la densità N(0, 1) è ora buono.

come la legge normale possa essere usata per approssimare una legge r (n, ..X)
per n grande. La stessa idea naturalmente si può applicare per approssimare
la funzione di ripartizione di leggi binomiali B( n, p) con n molto grande o di
Poisson di parametro ..Xgrande ( che si può vedere come la legge della somma
di n v .a. di Poisson di parametro ~ ).

Esempio 4.12 Qual è la probabilità di ottenere almeno 29 teste in ,50 lanci


di una moneta equilibrata?
Si tratta di calcolare P{X 1 + ... + X 50 > 28}, dove le Xi sono indipendenti
e B(l, ½).Sempre usando (4.2)

P {X 1 + ... + X.50 > 28} = 1 - P {X 1 + ... + X so ~ 28} ::::


(2
:::: 1 - cI> 8 - 50 . 0 ·5 ) = 1 - cI>(0.85)= 0.2
v'56-0.5

Un calcolo esatto avrebbe dato come risultato 0.16. Osserviamo però che,
poiché le Xi assumono va.lori interi,

P{X1 + ... + Xso > 28} = P{X1 + ... + Xso > 28.5}
e l'approssimazione normale darebbe ora

P{X1 + ... + Xso > 28.5} = 1 - P{X1 + ... + Xso ~ 28.5} :=

:= 1 - <I>(2
8 ··5 -
50 . 0 ·5 ) = 1 - ~(0.99) = 0.16
J56· 0.5
In generale con v .a. a valori interi si ottiene una migliore approssimazione
Esercizi 143

scrivendo P{X1 + ... + Xn ~ k +½}piuttosto che P{X1 + ... + Xn ~ k}.

L'approssimazione normale si può usare anche pe_r stimare la probabilità di


uno scarto dalla media nella legge dei grandi numeri, a cui abbiamo accennato
nell'Esempio 4.3.
Se X 1 , X 2 , ... è una successione div.a. indipendenti equi distribuite di media
µ e varianza a 2 e poniamo, al solito, Xn = ¾(X1 + ... + Xn), allora per ogni
a> O si ha
P { IX n - µI> a} = P( { ,t n > µ + a} U { X n < µ - a}) =
= P {X 1 + ... + X n > n(µ + a)} + P {X 1 + ... + X n < n(µ + a)} '.:::'.
(4.3) + a)- nµ) +
1 _ ct>(n(JL
'.:::'. ct>(n(µ
-
a)- nµ) =
a,/n a,/n
= 1- ct>(~v'n)
+ ct>(-~v'n)
= 2cI>(-~v1n)
Riprendendo l'Esempio 4.3, in 50 lanci di una moneta equilibrata la probabilità
che la proporzione di teste X 50 disti da p per più di 0.1 è più piccola di (al
solito maggioriamo p(l - p) con ¼)

P{IXso - PI~ 0.1} '.:::'. 2cI>(- O.l


Jp(l - p)
Jso)~
~ 2cl>(-0. l X 2X Js"o)= 2cl>(-1.41) = 0.16
che è una valutazione molto più precisa del valore 0.5 ottenuto con la disugua-
glianza di Chebychev nel paragrafo precedente.

Esercizi

4.1 Sia {X 11 }n una successione di v.a. aventi rispettivamente legge geometrica


di parametro Pn = ~. La successione {¾Xn}n converge in legge? In caso
affermativo, qual è la legge limite?

4.2 Sia {X n}n una successione di v.a. e supponiamo elle X 11 ,..,, f(n, >.).
a) Quanto vale P{X1 ~ ½}? E P{X3 ~ 1}?
b) Calcolare quanto vale
1 1
P{-X
n n_).> -}

per n grande.
144 Capitolo 4

4.3 a) Sia {Xn}n una successione di v.a. tali che

P{Xn =O}= 1 - On P{Xn = n} = On

dove {on}n è una successione di numeri reali compresi tra O e 1. Mostrare


che {Xn}n converge in legge se e solo se limn-+ooOn = O e, in questo caso,
calcolarne il limite.
b) Costruire un esempio di successione {Xn}n convergente in legge ma tale
che le medie e le varianze di Xn non convergano alla media e alla varianza del
limite.

4.4 Sia {Xn}n una successione div.a., dove per ogni n Xn,..., x2 (n).
a) Calcolare il limite in legge di { ¾Xn}n .
b) Mostrare che
~-J2n- I!:+N(O,I)
c) Sia. Z una v.a. N(O, 1) e tale che le v.a.. Z, Xn sia.no indipendenti per ogni
n. Poniamo
z
Yn = ffn ../n
Vedremo nel capitolo dedicato alla statistica. che la v.a. Yn segue una legge che
si chi a.ma t di Student a. n gradi di libertà, che si indica. t( n). Calcolare il limite
in legge di Yn per n-+ oo.

4.5 (Leggi Beta) Sappiamo per (3.37) che per ogni a, f3> O la funzione definita
da
f(t) = f(o + /3) to-1(1 - tl-1
f(o)f(/3)
e da J(t) = O set (/. [O,l] è una densità di probabilità; essa si chiama legge
Beta di parametri a e f3e si indica con f)(a,{3).
a) Mostrare cl1ese X ,...,/3(a, /3) allora

0
E[X]=- -
o + /3
E[X 2]_ o(o+l)
- ( a + /J)(o+ /3 + 1)
a/3
Var(X) = (a+ {3)"·a+
( /3+l )

b) Mostrare che se n-+ oo e Xn "'f)(na, n/3) allora Xn converge in proba-


bilità verso una v.a. costante di cui si determinerà il valore.
Esercizi 145

4.6 Sia {Xn}n una successione di v.a. indipendenti e di uguale legge, tutte di
media O e varianza a 2 • Mostrare che la successione di v.a.

Zn = (X1 +, .. + Xn) 2
n

converge in legge e determinarne il limite.

4.7 Un calcolatore addiziona un milione di numeri e in ognuna di queste


operazioni viene effettuato un errore di arrotondamento; supponiamo elle i
singoli errori siano tra loro indipendenti e abbiano distribuzione uniforme su
[-0.5 · 10- 10 , 0.5 · 10- 10 ]. Qual è la probabilità elle l'errore finale sia più piccolo
in valore assoluto di 0.5 · 10- 7 ?

4.8 Sia {Xn}n una successione di v.a. indipendenti, tutte di legge uniforme
sull'intervallo [O,2a].
a) Calcolare media e varianza delle Xi,
b) Calcolare, per n -+ oo e per x E Ill fissato, il limite della probabilità

P{X1 + ... + Xn > na + xy'n}


4.9 Sia {Xn}n una successione di v.a. indipendenti a valori in [1, +oo[ e tali
che P{Xi ~ x} = x--', dove À è un numero> 1.
a) Calcolare media e varianza delle Xi,
b) PoniamoYi =logXi, Qualèlaleggedi~?
e) Mostrare che la successione di v.a. {(X 1 X2 .. . Xn)l/n}n converge q.c. e
determinarne il limite.
5
Catene di Markov
I '. ,_
<.f(),:J.. ,J ~ ,/ '!"'.,~
J

5.1 Definizione e generalità

Si chiama processo stocastico una famiglia {X 1}t di v.a. definite su uno stesso
spazio di probabilità, dove t varia in un sottoinsieme T Cm,+.
I processi stocastici sono modelli matematici di fenomeni aleatori che si
evolvono nel tempo. La varietà dei processi stocastici e delle problematiche ad
essi collegate è grande, come del resto molto grande è la varietà dei fenomeni
di cui essi sono i modelli.

Esempio 5.1 Due giocatori A e B hanno un capitale iniziale pari rispettiva.-


mente ad a e b unità e gioca.no una serie di partite in ciascuna delle quali A
cede a B una unità con probabilità q e ne riceve una con probabilità p = 1 - q.
Il gioco si ferma non appena uno dei due giocatori si trova a O. Vedremo come si
costruisce un processo stocastico che sia un buon modello di questa situazione.
In questo caso la scelta naturale per l'insieme dei tempi T sarà T = IN.

È facile immaginare fenomeni aleatori per i quali un modello matematico ade-


guato sia un processo stocastico il cui insieme dei tempi T sia continuo. Noi ci
interesseremo però ad una classe di processi per i quali l'insieme dei tempi è
discreto, cioè IN oppure un suo sottoinsieme.

Definizione 5.2 Si chiama catena di Markov un processo stocastico tale che


a) T = IN oppure Tè un sottointervallo di IN.
b) Le v.a. Xn assumono tutte valori nello stesso insieme discreto E. Sup-
porremo sempre E e IN.
c) (Proprietà di Markov) Esistono dei numeri positivi PiJ(n), dove i,j E E,
n E IN tali che, ogniqualvolta. le probabilità condiziona/i hanno senso,

( 5.1) P{Xn+l = j I Xn = i,Xn-1 = Ìn-1,···,xl =ii}=


= P{Xn+l = j I Xn =i}= Pij(n)
Gli elementi di E si chiamano anche gli stati della catena.
148 Capitolo 5

Intuitivamente la Proprietà di Markov ha il significato seguente: le X n sono


(in generale) non indipendenti tra loro, quindi la conoscenza del valore assunto
da X n dà delle informazioni su quello che sarà il valore di X n+1. Però la
conoscenza supplementare dei valori di X n-1, X n-2, ... non dà informazioni
ulteriori.
L'interesse delle catene di Markov sta nel fatto che esse sono il modello
matematico naturale di molti fenomeni.
Ci occuperemo di una classe particolare di catene. Supporremo infatti che
Pii( n) non dipenda da n. Questa condizione si esprime anche dicendo che la
catena è omogenea nel tempo. In questo caso si ha

P{Xn+l = j I Xn =i}= Pii


Se l'insieme E degli stati è finito, i numeri Pi.i costituiscono una matrice qua-
drata P il cui ordine è pari alla cardinalità di E. P si chiama la funzione (o
matrice) di transizione ed ha le proprietà seguenti
a) tutti i suoi elementi sono ~ O
b) Ì:i Pii = 1, cioè la somma degli elementi di ogni riga vale 1. Infatti

LPii= L P{Xn+l = j I Xn =i}= P( { U{Xn+l = j} I Xn =i})=


i j jEE

= P{Xn+l E E I Xn = i} = 1
È chiaro che, come funzione di j, Pii non è altro che la densità condizionale
(discreta) di Xn+l dato Xn = i.
Ad ogni catena di Markov (C.M.) si può quindi associare una funzione di
transizione P che goda delle proprietà a) e b ). Viceversa vedremo che, data
una funzione di transizione P ed una legge iniziale v, esiste sempre una catena
di Markov ad essa associata.

Esempio 5.3 Riprendiamo la situazione dell'Esempio 5.1. Osserviamo innan-


zitutto che è ragionevole usare un modello che goda della proprietà di Markov.
Infatti, se indichiamo con {X n}n il capitale del giocatore A, è chiaro che il
valore di Xn dipende da quello di Xn-l, ma una volta noto il valore di Xn-1
non ha importanza, per la predizione di X n, la conoscenza dell'evoluzione del
capitale di A prima della n - 1-esima partita. Potremo scegliere come spazio
degli stati l'insieme E costituito dagli interi positivi compresi tra Oe a+ b. Per
la determinazione della matrice di transizione, se i è diverso da O e da a + b

U
sarà
se j =i+ 1
P{Xn+I = j I Xn =i)= se j = i - 1
altrimenti
Calcolo delle leggi congiunte 149

D'altra parte
se j = O
P {X n+t = j I X n = O}= { ~ altrimenti

P {X n+I = j I X n = a + b} = { ~ se j =a+ b
altrimenti
(Non appena Xn giunge in O oppure in a+ b il gioco si ferma perché uno dei
giocatori è a O). Cioè la matrice di transizione è
1 o o o
q o p o
o q o p o
P=
o q o p o
o q o p
o o o 1
La C.M. di questo esempio è abbastanza celebre e viene chiamata la rovina del
giocatore (gambler's ruin). Questioni a cui sarebbe interessante sa.per rispon-
dere in questo esempio sono le seguenti:
1) Qual è la legge di Xn?
2) Qual è la probabilità che A vinca?
3) Poniamo T = inf{n;Xn = OoppureXn = a+b} (è sottinteso che
r = +oo se { } = 0); r è cioè l'istante in cui il gioco termina perché uno dei
gioca.tori è ridotto a O. Quanto vale P{ r < oo}, cioè qual è la probabilità che il
gioco non duri all'infinito? Quanto vale E(r), cioè qual è la durata media del
gioco?
Di questi e di altri problemi vedremo la soluzione in seguito. In particolare
le risposte dipenderanno unicamente dalla matrice di transizione P.

5.2 Calcolo delle leggi congiunte

In questo paragrafo vedremo come la proprietà di Markov da sola permetta di


determina.re quantità del tipo
(5.2)
dove i 1 , .•• ,ik E E, a. partire dalla funzione di transizione P. In altre parole
vedremo come si calcola la legge congiunta di (Xn 1 ,Xn 2 , ••• ,Xnk ). Poniamo

p\jl = P{Xn+m = j I Xn = i}
150 Capitolo 5

I numeri p~j) formano quella che si chiama la funzione (o matrice) di transi-


zione in m passi. Si ha
(m) _ P{Xm+n = j, Xn = i} _
Pij - P{Xn = i} -
= L P{Xm+n = j,Xn+m-~ = h,Xn = i}
hEE
P{Xn = i}
= L P{Xm+n = j,Xn+m-1 = h,~n = i} P{Xm+n-1 = h,_Xn = i}
hEE
P{Xn+m-1 = h, Xn =i} P{Xn = i}

= L P{Xm+n = j I Xn+m-1 = h,Xn = i}P{Xn+m-1 = h I Xn =i}=


hEE

=L PhjP~r;:-t)
hEE

Ovvero, se indichiamo con Pm la matrice di cui i numeri P~j) sono gli elementi,

Pm = Pm-1P
nel senso del prodotto righe per colonne di matrici (eventualmente di dimen-
sione infinita), da cui
P2 = P · P = P 2
e per ricorrenza
Pm = .._.--,
p ... p = pm
m volte

Supponiamo E= {1,2, ... } oppure E= {1, ... ,n} a seconda che E sia infinito
oppure finito e di cardinalità n. Poiché le v.a. Xn assumono valori in E, la
legge di X n è individuata dai numeri Vt, v2, ... dove

Vk=P{Xn=k}
Posto v = (v 1 ,v 2 , ••• ), v è un vettori:' riga ai dimensione pari alla cardinalità
di E (eventualmente infinita); inoltre deve essere
a) Vi ~ O per ogni i= 1, 2, ...
b) Ì:iEEVi=l.
Viceversa se v è un vettore di dimensione pari alla cardinalità di E e valgono
a) e b ), allora v è una densità discreta su E. Supponiamo che X 0 abbia legge
v e calcoliamo la legge w di X n·

Wk = P{Xn = k} = L P{Xn = k I Xo = h}P{Xo = h} = L p~:)vh


hEE hEE
Calcolo delle leggi congiunte 151

cioè i vettori v e w sono legati dalla relazione

(5.3) w = vPn
Se O< n1 < n2 < ... < nk, possiamo ora calcolare la legge congiunta

P{Xn1 = i1, Xn2 = i2, ... , Xnk = ik} =


= P{Xn 1 = i1,···,Xnk_ 1 = ik_t}x
xP{Xnk = ik I Xnk-1 = ik-1, .. •, Xn1 = ii} =
= P{x n1=i1, · ... ,
X ·
nk-1=ik-1
} (nk-nk-d
'Pik-iik

Ripetendo il ragionamento si ha per ricorrenza

Se v è la legge di X 0 quindi per (.5.3)

( 5.4)

Le leggi congiunte (5.4) sono quindi determinate unicamente dalla funzione


di transizione P e dalla legge iniziale v. Ciò significa che due catene di Mar-
kov, eventualmente definite su spazi di probabilità diversi, ma aventi la stessa
funzione di transizione e la stessa distribuzione iniziale, hanno le stesse leggi
congiunte.
Un caso particolare di distribuzione iniziale si ha quando P{Xo = i} = 1,
ovvero vk = I se k = i e vk = O se k =/-i. Diremo in questo caso che la catena
di Markov parte dallo stato i. Data una funzione di transizione P ed una legge
v su E esiste sempre una catena di Markov associata a P e di legge iniziale v.
Più precisamente, si può dimostrare che esistono
a) un insieme n
b) una a-algebra A di parti di n
e) una famiglia di leggi di probabilità {Pi}iEE su A
d) una successione {Xn}n div.a. definite sullo spazio di probabilità (n,A,Pi) a
valori in E, tali che per ogni i E E {Xn}n costituisca una catena di Markov
di matrice di transizione P e di stato iniziale i.
152 Capitolo 5

5.3 Classificazione degli stati

Se i, j E E diciamo che i comunica con j se esiste n > O tale che P~j) > O.
Un sottoinsieme C e E è una classe chiusa se gli stati di C non comunicano
con gli stati che stanno nel complementare di C. Una classe chiusa C si dice
irriducibile se tutti i suoi stati comunicano fra loro. Se uno stato costituisce da
solo una classe irriducibile, esso si dice assorbente.
Una C.M. si dice irriducibile se tutti gli stati comunicano, ovvero se E è
l'unica classe irriducibile.
Per ogni j E E poniamo

Tj(w) = min{n > O;Xn(w) = j}


Tj è il primo istante in cui la ca.tena visita lo stato j; naturalmente Tj può assu-
mere il valore +oo: è quello che si verifica quando l'insieme {n > O; Xn(w) = j}
è vuoto.
È chiaro che {Tj > n} = {X1 -=/j, ... , Xn-:/ j}. Dunque per ogni n l'insieme
{ Tj > n} è un evento, essendo una intersezione di eventi, e Tj è una varia.bile
aleatoria. Possiamo quindi porre PiJ = pi { Tj < +oo}; Pii è la probabilità
che la catena visiti prima o poi lo stato j partendo da i. Uno stato i si dice
transitorio se Pii < l e ricorrente se invece Pii = l. In altre parole se uno stato
è transitorio allora con probabilità strettamente positiva la catena che parte da
i non ritorna più in i. È chiaro che uno stato i assorbente è ricorrente, poiché
pi{Ti = 1} = 1.
Vedremo nel Para.grafo 5.7 che se l'insieme E degli stati è finito, allora vale
il criterio seguente: uno stato i è transitorio se e solo se esiste uno stato j tale
che i comunica con j ma j non comunica con i .

Osservazione 5.4 Se i---. j ( i comunica. con j) e j ---.h, allora i ---.h. Infatti


per ipotesi esistono n, m > O tali che

P~~)
IJ
> o

quindi
(n+m) > >O
Pih = ""'"' (n) (m)
L..,.;Pik Pkh
(n)
- PiJ Pjh
(m)

che implica i ---+ h.


Classificazione degli stati 153

Esempio 5.5 Classifichiamo gli stati della C.M. avente la matrice di transi-
zione seguente dove i puntini indicano O e gli * numeri > O.

1 2 3 4 5 6 7 8 9 10
1 * *
2 * *
3 * *
4 *
5 * * * * *
6 * *
7 * *
8 *
9 * *
10 *
1) 1 comunica. con 7 e 9, 7 comunica. con 1 e 9, 9 comunica con 7 e 9. Questi
tre stati comunica.no tra di loro e {1, 7, 9} costituisce una classe irriducibile.
2) 2 comunica. con 2 e 4, 4 comunica. con 2, {2,4} è una classe irriducibile.
3) 3 ---+5, 5 ---+2, ma 2 non comunica né con 3 né con 5. 3 e .5 sono quindi
transi tori.
-n 6---+ 1 ma 1 f+ 6: 6 è transitorio .
.:i) 8---+ 3, 3---+ 5, 5 - 2, quindi 8 comunica con 2 che non comunica. con 8; 8 è
transi torio.
6) 10 comunica solo con se stesso: 10 è assorbente.
L'insieme degli stati si decompone dunque in 3 classi irriducibili

{1, 7,9} {2,4} {10}

ed un insieme di sta.ti transitori: {3, 5, 6, 8}. Si può dimostrare che una catena
di Markov ammette una decomposizione unica

dove C 1 , C2 , •.. sono classi irriducibili e T è l'insieme degli sta.ti transitori.


Vedremo che se E ha cardinalità. finita allora esiste sempre almeno uno stato
ricorrente mentre se E è infinito può accadere che tutti gli sta.ti siano transitori.

Esempio 5.6 Classifichiamo gli sta.ti della. rovina del giocatore (Esempio .5.3).
Supporremo O< p < 1.
Se O < i < a+ b, allora i comunica con tutti gli altri stati. Infatti Pi i-l =
q > O; quindi i---+ i -1; per lo stesso motivo i- 1 - i- 2, i- 2---+ i- 3
154 Capitolo 5

eccetera, quindi per l'Osservazione 5.4 i comunica con i - 1, i - 2, ... , O. Allo


stesso modo si vede che i comunica con i+ 1, i+ 2, ... , a+ b.
{O} e {a+b} invece costituiscono delle classi irriducibili. È chiaro infatti che
p~~) = 1 per ogni n > O; quindi O comunica solo con se stesso, e lo stesso vale
per a+ b. Gli stati O e a+ b sono quindi assorbenti. Infine tutti gli stati i meno
O e a+ b sono transitori: infatti i-+ O ma O f, i.

Esempio 5.7 (Catene di nascita e morte) Consideriamo la catena su E


{O, ... , m} di matrice di transizione
ro Po O o
q1 r1 Pt O o

o Pn o

o O qm-1 Tm-1 Pm-1


o O qm Tm

dove i numeri Qi,ri,Pi, i= 0, ... ,m sono~ O e tali che Qi + r; +Pi= l.


Naturalmente la rovina del giocatore è un ca.so particolare di catena di nascita
e morte per particolari valori di Qi, ri,Pi·
Ripetendo gli argomenti degli esempi precedenti è facile vedere che O è
assorbente se e solo se Po = O, mentre m lo è se e solo se Qm =O.Inoltre tutti gli
stati comunicano tra loro se i numeri Po, .. · Pm-t, q1 , ••• , Qm sono strettamente
positivi.

Osservazione 5.8 Le v.a. Tj che abbiamo considerato all'inizio di questo


paragrafo non sono in realtà delle v .a. nel senso del Capitolo 2. In effetti Tj può
assumere anche il valore +oo. Anzi abbiamo detto che uno stato j è ricorrente
o transitorio proprio a seconda che sia pi { Tj = +oo} = O oppure > O.
Nonostante questa differenza quasi tutte le proprietà delle v .a.. discrete
descritte nel Capitolo 2 restano valide per queste che chiameremo v. a. estese.
In particolare la speranza matematica di una v .a.. estesa r resta definita da
E[r] = 1 · P{ T = 1} + 2 · P{ T = 2} + ...
dove però nella somma figura anche il termine +oo · P{ T = +oo }. Si conviene
che se P{ T = +oo} > O allora E[r] = +oo, mentre se P{ T = +oo} = O allora
Tè una v.a. nel senso del Capitolo 2 e E[r] è finita o infinita a seconda che la
somma sia o no convergente.
Problemi di assorbimento 155

5.4 Problemi di assorbimento

Continuiamo a considerare in questo paragrafo una catena di Markov con un


numero finito di stati.
Sia CC E una classe chiusa. È chiaro che se Xk E C allora Xn E C per ogni
n ~ k, cioè se la catena raggiunge C poi resterà in C per sempre. Cerchiamo
di calcolare la probabilità, partendo da i di giungere in C, cioè

Ài = pi{Xn E C per qualche n > O}


È chiaro che se i E C allora Ài = 1. Se invece i appartiene ad un 'altra classe
chiusa C' disgiunta da C, allora Ài = O, perché in questo caso Xn resta in C'
per ogni n. Il problema resta invece aperto se i è uno stato transitorio che non
si trova in C.
Le probabilità di assorbimento Ài appaiono in maniera. naturale in molti
problemi; nella. rovina del giocatore, ad esempio, lo stato O costituisce una
classe chiusa e Ài per C = {O}è la probabilità di perdere la partita avendo i
come capitale iniziale.
Indichiamo con D l'insieme degli stati transitori che non fanno parte di C.
Dimostriamo che le quantità Ài sono soluzione del sistema lineare

(5.5) Ài =L Pih + L Pij À j i ED


hEC jED

In effetti poniamo

(5.6) T = inf{n > O,X 11 E C}

Cioè r è il primo istante in cui la catena si trova in C. r è una v .a. poiché


{r > k} = {X 1 (/. C, ... ,Xk (/. C}; dunque {r > k} è un evento e lo stesso è
vero per il suo complementare {r:::; k}. È chiaro che Ài = Pi{r < +oo}. Ora
se poniamo

g~n) = pi{X1 E D, ... ,Xn-1 E D,Xn E C} =


(5.7) I:
h1ED
Pih1 Ph1 h2 ••• ixwJe _
, •. >t-·i)
·\
hn.:_·;ED
jEC

allora

(.5.8)
156 Capitolo 5

e dunque
00 00

Ài = Pi{r < +oo} = L Pi{r = n} = L g~n)


n=l n=l
D'altra parte da (5.7) si ha immediatamente
(5.9) L Pir9tn) = g~n+l)
rED

e quindi, poiché gp) = I:hec Pih, scambiando le due somme


00 00

À; = gp) + L gin)= 9~1) + LL Pir9~n) = L Pih + L PirÀr


n=2 n=l rED hEC rED
che è appunto la (5.5). Si tratta di un sistema lineare in tante equazioni quanti
sono gli stati in D. Esso del resto ha una giustificazione intuitiva. abbastanza
semplice: la prima delle due somme a destra non è altro che la probabilità di
fare una transizione direttamente da i in C al primo passo, mentre la seconda
è la probabilità di passare al primo passo in un altro stato r E D e di essere
poi assorbiti in C partendo dar.
Il calcolo delle probabilità di assorbimento À; è quindi ricondotto alla riso-
luzione del sistema lineare ( 5.5 ).
Vedremo anzi nel Paragrafo 5.-,..che, se la catena ha un numero finito di stati,
allora il sistema ( 5.5) ha soluzione unica. Dunque le probabilità di assorbimento
À; sono caratterizza.te dal fatto di essere le soluzioni di ( 5.5 ).
In particolare se C è la classe chiusa composta da tutti gli stati ricorrenti si
vede subito che À; = 1 è soluzione di ( ,5.5), perché

L Pih + L Pij = L Pih =1


hEC jED hEE
Dunque con probabilità 1 la catena esce dall'insieme T degli stati transitori,
per non tornarvi più.

Esempio 5.9 Consideriamo una catena di nascita e morte (Esempio 5.7) in cui
supponiamo che gli stati O e m siano assorbenti (e cioè che sia p0 = O,qm = O)
e studiamo l'assorbimento nella classe C = {O}. Il sistema (5 ..5) diviene
À1 = q1 + P1À2 + r1À1
À2 = q2À1 + 1·2À2 + P2À3
Problemi di assorbimento 157

Sostituendo r; =1- q; - Pi si può riscrivere

Ovvero, se poniamo Ào = 1 e Àm = O
i=l, ... ,m-1

Dunque ponendo ìo =1e


q1 · · · qi
ìi=
Pt ···Pi
si ha

Ài - Ài+l = ....:(>.i-1- Ài) =
Pi
_qi-lqi(\ \ )-
- -- "i-2 - "i-1 -
Pi-tPi
(5.10)

= q1 ···Qi(Ào->-1)=
Pt ···Pi
= ìi(l - >.i)
Se sommiamo i termini di sinistra di questa relazione per i che va da O a m - 1
otteniamo "telescopicamente" Ào - Àm = 1. La. somma dei termini di destra dà
invece (1 - Àt) I:~~1 Ìi· Cioè

1
1- Àt = '°'m-1
L.,i=O Ìi
158 Capitolo 5

e ancora da ( 5.10)
).i - ).i+l = '°'m-1'Yi
~h=O 'Yh
Ora la somma dei termini a sinistra di questa relazione per i che va da j a
m - 1 dà .Xj- .Xm= .Xj. Dunque finalmente

, ._ 'Yi + •· · + 'Ym-1
"i -
1 + 'Yl + · · · + 'Ym-1
Le probabilità di assorbimento dipendono dunque solo dai quozienti t.Nel
caso della rovina del giocato.re, ricordando che m = a + b, la probabilità di
assorbimento >.anon è altro che la probabilità che il primo giocatore perda.
Abbiamo Pi = p, qi = q e dunque i rapporti -}; = { = a non dipendono da i
per cui

e le probabilità di assorbimento divengono

Se p = q = ½allora a =1e

e quindi
b
).a= --
a+ b
Se invece a -:f.1, moltiplicando numeratore e denominatore per 1 - a si ha

Esempio 5.10 Consideriamo il gioco seguente: due dadi vengono lanciati


ripetutamente: al primo lancio il giocatore A vince se il risultato è 7, mentre
B vince se è 2 oppure 12. Se il primo lancio non dà uno di questi tre numeri
si continua a lanciare e B vincerà quando un lancio dà 7 mentre A vince non
appena un lancio dà lo stesso risultato del lancio precedente. Quale dei due
giocatori ha più probabilità di vincere?
Non è difficile vedere che, a partire dal secondo lancio, il gioco può essere
Problemi di assorbimento 159

modellizzato da una C.M. i cui stati indicheremo con i numeri da 1 a 12, dove
7 è lo stato assorbente "B vince", 1 è lo stato assorbente "A vince", mentre
per i diverso da 1 e 7 lo stato i corrisponde all'evento "l'ultimo lancio ha avuto
i come risultato". Se indichiamo con q;, i = 2 ... 12 la probabilità di ottenere
i in un lancio con due dadi, la matrice di transizione di questa C.M. è data da
1 2 3 4 5 6 7 8 9 10 11 12
1 1 o o o o o o o o o o o
2 q2 o q3 q4 q5 q6 q7 qs q9 q10 q11 q12
3 q3 q2 o q4 q5 q6 q7 qg q9 q10 qu q12
4 q4 q2 q3 o q5 q6 q7 qs q9 q10 qu q12
5 q5 q2 q3 q4 o Q6 q7 Qs q9 Q10 Q11 q12
6 q6 Q2 q3 q4 Qs o q7 Qs q9 q10 Qn q12
7 o o o o o o 1 o o o o o
8 Qs q2 q3 q,i Qs q6 q7 o q9 Q10 Qn Q12
9 q9 Q2 q3 q4 q5 Q6 q7 Qs o Q10 Q11 Q12
10 Q10 Q2 q3 q,i q5 Q6 q7 Qs q9 o Qn Q12
11 Qn Q2 q3 q4 q5 Q6 q7 qs q9 q10 o Q12
12 Q12 Q2 q3 q4 Qs Q6 q7 Qs q9 Q10 q11 o
Se À; è la probabilità di essere assorbiti in 1 partendo da i, il sistema (5.5)
diventa
(5.11) Ài = q; + I: QhÀh i ::/-7
h#l,7,i
Se X 0 è il risultato del primo lancio, la probabilità che A vinca varrà

(5.12) p= P{Xo = 7} + I: P{Xo = i}.X;= q1 + I: QiÀi


i-#2,7,12 i-#2,7,12
(5.11) è un sistema di 10 equazioni lineari che una volta risolto dà

(5.13) Ài = 1 : Qi ( qi +1 !!M)
dove
2
N=L~
h-#7 1 + qh
L __!!!!:__
M= h-#7 1 + Qh
Sostituendo i va.lori numerici Q2 = Q12 = }6 , q3 = Q11 = 1 q10
18' q4
1
12' qs = q9 = }, q6 = qs = }6 ,q1 =¼si ottiene da (5.13)
À2 = À12 = 0.33 À3 = À11 = 0.35 À4 = À10 = 0.37
.À5= .À9= 0.38 .À6= .Às = 0.4
160 Capitolo 5

e, sostituendo in (5.12), la probabilità che A vinca vale p = 0.46. È dunque


favorito il giocatore B.

Abbia.mo osservato che se l'insieme E degli stati ha cardinalità finita, la pro-


babilità di assorbimento nella classe chiusa formata da tutti gli stati ricorrenti
è uguale a 1, il che si esprime anche dicendo che la v.a. T definita in (5.6) è fi-
nita. Può essere interessante calcolarne la media, cioè chiedersi qual è il tempo
medio di assorbimento. Poniamo Ti = Ei[T]. Per (5.8)
00

Ti = Ei[T] = L n g!n)
n=l

Da questa relazione si ricava, con considerazioni simili a quelle che hanno


portato a (5.5), che le quantità Ti soddisfano al sistema lineare

(5.14) Tj = 1 + L PihTh
hET

dove T indica l'insieme degli stati transitori.

Esempio 5.11 Calcoliamo il tempo medio d'assorbimento per la rovina del


giocatore. Il sistema (5.14) di viene

1 = -qTi-1 + Ti - PTi+l

1= -qTa+b-2 + Ta+b-1
Se p = q = ½la soluzione è Ti = i( a+ b - i) e quindi r 0 = ab. Ad esempio se
a = 1, b = 100 allora, come abbiamo calcolato nell'Esempio 5.9, B vince con
probabilità 100/101, ma il tempo medio della partita è ab= 100.

Talvolta si è interessati piuttosto a. calcolare la probabilità che l'assorbimento


abbia avuto luogo prima del tempo n, cioè pi{r ~ n}. Per (5.7) e (5.9)

(5.1.5) pi{r = k + 1} = L PijPi{r = k}


jED

per k = 1, 2, ... , mentre


(.5.16) pi{r = 1} = LPii
jEC
Problemi di assorbimento 161

Se poniamo per n ~ I
<Pn(i)= pi{r ~ n}
abbiamo, usando (5.15) e (5.16)
n+l n+l
<Pn+1(i)= LPi{r = k} = LPij + Lpi{r = k}
k=l jEC k=2
n
= L Pij + L Pir L pr {T = k} = L Pii + L Pir<Pn( r)
jEC rED k=l jEC rED

Ovvero vale la relazione di ricorrenza


(5.17)
jEC rED

che permette di calcolare uno dopo I'altro i valori di </> 2 ••• fino al valore
1 , </>
voluto <f>n,Se E non ha cardinalità troppo grande questi calcoli si possono
facilmente eseguire numericamente con un programma di poche righe anche su
un persona! computer.

Esempio 5.12 Una moneta viene lanciata 100 volte. Qual è la probabilità di
ottenere almeno una sequenza di 6 teste consecutive?
Possiamo considerare una catena di Markov avente i 7 stati seguenti: C, CT,
CTT, CTTT, CTTTT, CTTTTT, CTTTTTT, dove C indica che nell'ultimo
lancio si è avuta croce, CT indica che nell'ultimo lancio si è avuta testa ma
nel penultimo croce e così via fino a CTTTTTT che indica che abbiamo ap-
pena ottenuto una sequenza di 6 teste. Imponiamo che quest'ultimo stato sia
assorbente. È chiaro inoltre che da ciascuno degli altri 6 stati si può passare
nello stato C con probabilità ½(corrispondente al fatto che il lancio successivo
dia croce) e che si passa da C a CT con probabilità ½,così pure per i pas-
saggi da CT a CTT da CTT a CTTT eccetera. In definitiva la probabilità di
transizione è data da
e
CT CT 2 CT 3 CT 4 CT 5 CT 6
e 1
2
1
2 o o o o o
CT 1 o 1
o o o o
2 2
CT 2 1
2 o o 2
1
o o o
CT 3 1
o o o 1 o o
2 2
CT 4 1
2 o o o o 1
2 o
CT 5 1 o o o o o 1
2 2
CT 6 o o o o o o 1
162 Capitolo 5

Ciò che interessa è la probabilità di assorbimento in CT 6 partendo da C. La


funzione </>1 in questo caso val~ O per tutti gli stati, tranne che per CT 5 per
cui vale½· Iterando (5.17) 100 volte si ottiene per </>10o(C) il valore 0.5498.
In particolare la probabilità di ottenere una sequenza di 6 teste consecutive
è maggiore di ½-

5.5 Probabilità invarianti

Supporremo anche in questo paragrafo che l'insieme E degli stati sia finito ( car-
dinalità N). Questa ipotesi è fondamentale: vedremo nel prossimo paragrafo
cosa cambia se gli sta.ti sono una infinità numerabile. Sia v una probabilità su
E; v si dice invariante o stazionaria se

( ,5.18) v = vP
Se la legge v di X o è stazionaria, allora X n ha legge

vPn = vPPn-l = vPn-l = ... =V

Cioè se la legge iniziale è stazionaria tutte le X n hanno la stessa legge.


Una probabilità invariante esiste sempre, almeno se l'insieme degli stati ha
cardinalità finita, (in particolare ciò implica che una matrice di transizione ha
sempre 1 come autovalore).
Abbiamo già visto infatti che possiamo identificare le probabilità su E con
l'insieme dei vettori v E m_Naventi tutte le componenti ~ O e di somma uguale
a 1. Indichiamo con S l'insieme di questi vettori; poiché si tratta di un insieme
limitato e chiuso di m_N sappiamo che da ogni successione di punti di S si
può estrarre una sottosuccessione convergente ad un punto di S. D'altra parte
l'applicazione v ----+ vP definisce una trasformazione continua S -. S; dunque
mostrare l'esistenza di una probabilità invariante significa mostrare che questa
trasformazione ha un punto fisso.

Teorema 5.13 (Markov-Kakutani) Una matrice di transizione su un insieme


di stati E finito ha sempre almeno una probabilità invariante.
Dimostrazione. Sia v E S una qualunque probabilità su E e poniamo per
ogni n
l n-1
Vn:,:: -
n
L vPk
k=O
Probabilità invarianti 163

{ vn}nè una successione di elementi di S. È chiaro infatti che Vn è un vettore


a componenti tutte ~ O; inoltre, poiché I:iEE p~~) = 1 per ogni k,

n-1 n-1 n-1


L Vn( i) = .!_
n
LLL 'E
VhP~~) = .!_
n k=O
LL Vh = .!_
n
L 1= 1
iE E k=O hEE 1E hEE k=O

Poiché S è compatto esiste una sottosuccessione {Vnk} k convergente a qualche


11"E S. 11"è invariante perché le somme sono telescopiche e quindi

per cui, osservando che la quantità v - vPnk è limitata al variare di k

È facile costruire esempi in cui esiste più di una probabilità invariante. Inoltre se
v1 , v2 sono probabilità invarianti e O :SÀ :S 1 allora anche Àv1 +(1 - À)v2 è una
probabilità invariante. Dunque le probabilità invarianti formano un convesso
chiuso e, se non c'è unicità, hanno cardinalità infinita.

Esempio 5.14 v1 = (1, O, ... , O) e v 2 = (O, ... , O, 1) sono probabilità invarianti


per la rovina del giocatore.

Una matrice di transizione P si dice regolare se esiste un intero m > O tale che
p~.i) > O per ogni i,j E E. Una catena di Markov si dice regolare se tale è la
sua matrice di transizione.
È chiaro che una. catena regolare è irriducibile (tutti gli stati comunicano
tra loro) e quindi tutti gli stati sono ricorrenti. Esistono però catene irriducibili
che non sono regolari.

Teorema 5.15 (Markov) Se P è una matrice di transizione regolare si l1a


.
11m (n)
(5.19) P·.
n .....oo iJ
= 11"j
dove 1r = (11"1,... N)
, 11" è l'unica probabilità invariante di P.

Il teorema di Ma.rkov ha una conseguenza notevole: supponiamo che la


164 Capitolo 5

catena abbia distribuzione iniziale v. Allora la legge di Xn è data da vPn.


Dunque per n -+ oo

P{Xn = j} = (vfri)j = L ViPtJ-+ LV;'Trj = 'Trj


iEE (. iEE

Ovvero, qualunque sia la distribuzione iniziale X n converge in legge alla distri-


buzione invariante 1r.
Questo è molto importante, perché il calcolo esatto della legge di Xn è
sempre più complicato al crescere di n ( si tratta di moltiplicare P per se stessa
n volte), mentre la distribuzione invariante 1r si calcola risolvendo la (5.18), che
è un sistema lineare (in tante equazioni quanti sono gli sta.ti).

Osservazione 5.16 (Criterio di regolarità.) Se tutti gli stati comunicano tra


di loro e per di più esiste h E E tale che Phh > O allora la catena è regolare.
Infatti in queste ipotesi per ogni i, j esiste n = n( i, j) tale che P~j) > O. Se
m = maxi,jEE n(i,j) allora P 2 m ha tutti gli elementi> O. Infatti

2m-n(i,h)-n(h,j) volte

Questo è un criterio facile da verificare, ma si tratta solo di una condizione


sufficiente come sarà chiaro negli esempi.

Esempio 5.17 Una matrice di transizione Psi dice bistocastica se

LPij =1
iEE

cioè se anche la somma degli elementi di ogni colonna vale 1. È immediato che
per una matrice bi stocastica la distribuzione uniforme Vi = iE
è invariante ( a
meno di fare ipotesi di irriducibilità. o di regolarità. non è però detto che sia
unica).

Esempio 5.18 Sia G un grafo, E l'insieme dei suoi vertici; dato un vertice i
sia ki il numero di vertici di E adiacenti a i (cioè il numero di vertici che sono
connessi a i da un arco) e poniamo k = LiEE ki; su E si può considera.re la
catena di M arkov associata alla matrice di transizione

se j è adiacente a i
p··tJ -- { 1;
o altrimenti
Probabilità invarianti 165

Intuitivamente si tratta della C.M. nella quale ad ogni istante si passa da i


ad un vertice j scelto a caso tra i vertici adiacenti a i. Se Vi = allora v è 5t
stazionaria per P. Infatti

~ k·
L., ViPij = ...1. = Vj
. E
1E k

perché la somma contiene kj termini non nulli tutti uguali a t·


Esempio 5.19 Consideriamo il grafo della Figura 5.1 e la catena di Markov
associata.

3 2

Figura 5.1

In questo caso k1 = k2 = k3 = k 4 = 3, ks = 4 e dunque k = 16. Dunque è


invariante la distribuzione v1 = V2 = V3 = V4 = /6 , V5 = ¼.Verifichiamo che
P è regolare. Se X 0 = 1 allora al tempo 1 il processo si trova con probabilità
positiva in 2, 4 oppure 5 ed al tempo 2 si trova in tutti gli stati con probabilità
positiva, il che significa che la riga 1 di P 2 è composta di elementi positivi. Per
motivi di simmetria anche le righe 2, 3 e 4 di P 2 sono tutte positive. Infine
se X 0 = 5, al tempo 1 si è in 1, 2, 3 oppure 4 con probabilità positiva ed
al tempo 2 la catena si trova in ognuno degli stati con probabilità positiva.
Quindi P 2 è composta da. numeri > O ( cosa che si sarebbe potuta mostrare
anche effettuando il prodotto P · P). Dunque per il teorema di Markov v è
l'unica probabilità invariante e, per n grande, X n tende ad avere distribuzione
v, indipendentemente dalla distribuzione iniziale.

Esempio 5.20 Consideriamo la C.M. associata al grafo della Figura 5.2.


Essa è irriducibile (tutti gli stati comunicano fra loro). È chiaro però che
se X 0 = 1 allora al tempo 1 la catena si trova in uno stato di indice pari, al
tempo 2 in uno di indice dispari e così via: la catena si trova in uno stato di
166 Capitolo 5

4..- _____ 5_____ ~6

1 2 3

Figura 5.2

indice pari nei tempi dispari e in uno di indice dispari nei tempi pari. Quindi
pn sarà della forma
o * o o
o o* * *o
o* * o* o
o o* * o*
o* * *o o
* o * o* * o*
per n dispari e
o o * o
o* * o* o
*o o o* o* * o*
* o
*o o o* o* * o*
* * o *
per n pari, dove * indica un numero > O. Dunque la catena non può essere
regolare. Vedremo negli esercizi che è comunque possibile analizzare il compor-
tamento asintotico anche in questo caso.

5.6 L'algoritmo di Metropolis, simulated annealing

Una probabilità ,r su E si dice reversibile se

(5.20)

per ogni i, j E E. Se ,r è reversibile allora è anche invariante perché

L
i EE
1riPii = L 'TrjPji = 'Trj L Pii=
i EE i EE
'Trj
L'algoritmo di Metropolis, simulated annealing 167

La (5.20) si chiama l'equazione del bilancio dettagliato.

Siano Q una matrice di transizione su E che sia irriducibile e simmetrica (e


quindi bistocastica) e 1r una probabilità su E tale che 'lri > O per ogni i E E.
Poniamo
se 1rJ· -> 1r·•
(5.21) se1ri<1ri

se J =z
Si vede subito che P = (Pii )ii è anch'essa una matrice di transizione. Inoltre
1r è reversibile (e dunque invariante) per P. Supponiamo infatti 1ri ~ 1ri, allora
Pii = ~Qij mentre Pii = Qji e
71"·

Mostriamo ora che se per di più i -+ 7ri non è costante ( cioè se la distribuzione
1r non è la distribuzione uniforme) allora P è anzi regolare perché esiste io E E
tale che Pioio > O (vedi l'Osservazione 5.16). Intanto esistono due stati io,io
tali che qioio > O e 7rj0 < 7ri0 : basta considerare l'insieme M degli stati i tali
che 7ri = maxj 7rjj poiché Q è irriducibile esistono io E M_,j0 E Mc tali che
Qioio > O (altrimenti M sarebbe una classe chiusa, mentre Q è irriducibile) e
naturalmente si ha anche 7r;0 > 7rj 0 per la definizione di M. Quindi

dove abbiamo utilizzato il fatto che se i -:/ j allora Pii ~ qij.


Abbiamo quindi dimostrato il seguente

Teorema 5.21 (N .Metropolis, A.Rosenbluth, M.Rosenbluth, A.Teller, E.Tel-


ler) Se 1r non è la distribuzione uniforme la catena di Markov associata alla
matrice di transizione P definita da (5.21) ha. 1r come distribuzione reversibile
ed è regolare.

Per il teorema di Markov, nelle ipotesi del Teorema 5.21, se {Xn}n è una
168 Capitolo 5

C.M. associata a P allora Xn converge in legge a 7r per n--+ oo.


La ( 5.21) permette dunque di costruire, a partire da una qualunque matrice
di transizione Q simmetrica e irriducibile, una nuova matrice di transizione P
la cui C.M. associata abbia una prefissata distribuzione limite. Questo metodo
si chiama algoritmo di Metropolis ed ha delle importanti applicazioni.
Supponiamo ad esempio di voler simulare la scelta di uno stato i E E con
una assegnata distribuzione 1r. I metodi di simulazione del paragrafo 3.10 si
rivelano inutilizzabili se la cardinalità di E è molto grande. Possiamo però
ottenere una v.a. di legge approssimativamente uguale a 1r costruendo, a par-
tire da una matrice di transizione Q simmetrica e irriducibile su E, la matrice
di transizione P definita da (5.21) e simulando la C.M. {Xn}n associata. Se
1r non è la distribuzione uniforme il teorema di Markov garantisce che per n
abbastanza grande X n ha legge vicina a 1r. Non cercheremo qui di discutere
quanto grande debba essere n: si tratta di una questione chiaramente fonda-
mentale per l'applicazione dell'algoritmo, ma che va al di là degli scopi di questo
testo.
Simulare la C.M. associata a P è abbastanza facile: se Xn = i basta scegliere
a caso j con legge Qij dopo di che
a) se 7rj ~ 7r; si pone Xn+1 = j
b) se 7rj < 11'; si pone Xn+l = j con probabilità~' mentre con probabilità
1 - ~ si rifiuta la transizione e si lascia Xn+l = i.

Esempio 5.22 (Simulateci annealing) Nell'algoritmo di Metropolis suppo-


nìamo che la legge 1r sia della forma
e-H(i)/e
7r~ = ----
' Ze
dove H è una funzione su E, E un parametro > O e z. una costante di norma-
lizzazione scelta in modo che sia LiEE 1rf 1. La regola di transizione 5.21
diviene ora

Qij se H(j) ~ H( i)
(5.22) ~-
PIJ ={ q· -e-(H(j)-H(i))/e
IJ se H (j) > H (i)
1- Lj#i Pij se J =i
La nuova regola di transizione è dunque la seguente: si sceglie un nuovo stato
j secondo la matrice di transizione q. Se H(j) ~ H(i) si effettua la transizione
in j; se invece JI(j) > H(i) con probabilità e-(H(j)-H(i))/e la transizione viene
rifiutata ed il processo resta in i. Da notare che per simulare questa procedura
non occorre conoscere il valore di Ze.
Stati numerabili 169

Per il Teorema 5.21 per n grande la catena al tempo n ha una distribuzione


data da 1rt:. Uno sguardo più attento a come 1rE è definita mostra che, se é è
piccolo questa distribuzione si concentra su quegli stati su cui H è più piccola.
Si può anzi dimostrare (è un esercizio elementare) che se i 1 , .•. , iI< sono gli stati
che sono i punti di minimo assoluto per H, allora per é ---* O la distribuzione 7rE
converge alla distribuzione uniforme su i 1 , ... , i I<. In particolare, se il punto di
minimo i1 è unico 1rf ---* O per i i- i1 e 1rf
1 ---* 1.

Questa osservazione suggerisce l'algoritmo di ottimizzazione globale seguen-


te: se si deve determinare il minimo assoluto di una funzione H su un insieme
E, a partire da una qualunque matrice di transizione Q irriducibile simmetrica
su E si costruisce la matrice di transizione (pfj)ij tramite (5.22) e poi si simula
la ca.tena di Markov ad essa associata. Il Teorema .5.21 garantisce che, se é è
piccolo, per n grande la catena si trova. con grande probabilità in uno stato i
in cui H prende un valore molto piccolo e molto vicino al valore minimo.
Questa procedura è effettivamente molto utile in alcuni problemi di ottimiz-
zazione in cui l 'insierne E ha cardinalità talmente grande che la. strategia ovvia
di calcolare H su tutti gli i E E per vedere quello su cui lI prende il valore più
piccolo è inutilizza.bile anche con i calcolatori più veloci.
Si può anzi pensare di costruire una. catena in cui ad ogni transizione si
considera un valore di é sempre più piccolo. Ovvero, più precisamente, di
scegliere una successione {E(n )}n decrescente a O e di considerare la catena
di Markov non omogenea associata alla funzione di transizione Pij( n) = p:Y).
Si può infatti dimostrare che se la successione {.:(n)}n tende a zero abbastanza
lentamente, la ca.tena di Markov così ottenuta converge ad una distribuzione
concentrata sui punti di minimo assoluto di H.
Questa procedura, in cui si fa variare il valore di é, viene chiamata simula-
led annealing ed è in questo momento una delle tecniche più potenti per certi
problemi di ottimizzazione (in inglese il vocabolo "annealing" indica una pro-
cedura utilizzata in metallurgia mediante la quale si ottengono materiali con
doti particolari di resistenza. sottoponendoli ad un lentissimo raffredda.mento;
il termine italiano corrispondente sarebbe ricottura; si può infatti vedere una
similitudine tra lo annealing e questa tecnica di simulazione, nella quale il pa.-
rametro é corrisponde alla temperatura).

5.7 Stati numerabili

Negli ultimi due paragrafi abbiamo studiato vari problemi riguardanti il com-
portamento asintotico di una ca.tena di Ma.rkov quando l'insieme E degli sta.ti
è finito. Vediamo ora cosa succede se invece questa ipotesi viene tolta ed a.m-
1 70 Capitolo 5

mettiamo che gli stati possano essere una infinità numerabile.


Per ogni j E E poniamo, come nel paragrafo 5.3, ri(w) = inf {n > O;
Xn(w) = j} e ricordiamo che uno stato j si dice transitorio se e solo se

Pii= Pi{ri < +oo} < 1


e ricorrente se Pii= 1. Siano i,j E E con i--+ j. Allora

Invece la probabilità qn,m che, partendo da i, la catena visiti j per la prima


volta al tempo n e per la seconda al tempo n + m vale

pi{X1 1'j, · ·,, Xn-1 1'j, Xn = j, Xn+l 1'j,, · •, Xn+m-1 1'j, Xn+m = j} =
L Pih1Ph1h2'' •Phn-iiPihn+I '' •Phn+m-ii = pi{ri = n}Pi{ri = m}

Poniamo ora
00

(5.23) Ni(w) = #{n > O,Xn(w) = j} = L lp-n(w)=i}


n=l

Ni è il numero di visite (eventualmente infinito) che la catena fa in j. Sia i uno


stato che comunica con j, allora

pi{Ni 2'.2} = Lqn,m = L Pi{ri = n}Pi{ri = m} =


n,m n>l
m~l

= L pi{ri = n} L pi{ri = m} = PiiPii

Ripetendo gli stessi argomenti si vede che più in generale si ha

(5.24) m 2'.1

Da questa relazione si può calcolare per sottrazione la legge di Ni: se j è


ricorrente Pii = I e dunque Pi{Ni 2'. m} = Pii per ogni m 2'. 1. Dunque
pi{Ni =O}= 1 - Pii e Pi{Ni = m} = O per ogni m = 1, 2, ... ; ciò è possibile
Stati numerabili 171

solo se Pi{Ni = +oo} = Pii > O.


Se invece j è transitorio allora Pii < l e la legge di Ni è data da

pi{Ni =O}= 1 - Pii


(5.25)
m ~ 1

Da (5.25) discendono due consegue0:ze importanti. Intanto pi{Ni < +oo} =


I::=o.Pi{Ni = m} = 1 e dunque P'{Ni = +oo} = O: la v.a. Ni non assume
il valore +oo, il che implica che ogni stato transitorio viene visitato al più un
numero finito di volte qualunque sia lo stato iniziale. Cioè la catena prima o poi
lascia lo stato j per non tornarvi più e questo spiega il nome di "transitorio"
dato a. questi sta.ti. Inoltre da (5.25) segue
00

(l'ultima. somma si calcola riconducendosi all'espressione della speranza mate-


matica. di una. legge geometrica.).
Poniamo per J( > O Nj<= L~<=ll{Xn=i}; Nj<non è altro che il numero di
visite che la catena fa in j prima. (:S) del tempo K. È chiaro che NJ' :S Ni e
I< I< I<
L Pij = L pi{Xn = j} = L Ei[l{Xn=nl =
n=l n=l n=l
I<
= Ei[L l{Xn=nl = Ei[NJ'] :S Ei[Nj] < +oo
n=l

Dunque per ogni i E E e per ogni stato transitorio j la serie a termini positivi
L~=tp~'J) è convergente, il che implica la relazione importante
(5.26)

Ne segue inoltre che se la. serie L~=t zt/


diverge, allora j è ricorrente. Ciò
costituisce un criterio di ricorrenza. talvolta utile.
In particolare se l'insieme T degli stati transitori ha cardinalità finita, indi-
cando con Nr il numero di visite che la catena. fa in T, si ha. Nr = LjET Ni
e dunque anche Nr è una. v.a.. che assume solo valori finiti. Dunque la catena
esce prima o poi da T per non tornarvi più. Infine

(5.27) lim Pi{Xn ET}= lim ~ p~ri:)= O


n--+oo n~ooL..J '1
jET
1 72 Capitolo 5

Ciò implica che una catena di Markov finita ha almeno uno stato ricorrente;
infatti se tutti gli stati fossero transitori si avrebbe T = E e dunque

LP~j) = LP~j) = l
jET jEE

in contraddizione con (5.27). Anzi, ricordando che i - j se e solo se esiste


qualche valore di n per cui sia P~j)> O, questo ragionamento implica che in
una ca.tena di Markov finita ogni stato i comunica con almeno uno stato j che
è ricorrente (eventualmente j = i).

Proposizione 5.23 a) Se esiste uno stato i tale che j - i ma i f. j allora j


è transitorio.
b) se i - j e i è ricorrente allora anche j è ricorrente e Pii = Pii = 1.
Dimostrazione. Dimostreremo solo il punto a). Sia j tale che j - i ma
i f, j. Sia m il pii1 piccolo intero tale che P}":') > O. Esistono quindi degli
stati h1, ... , hm-1 tali che PihiPh 1 h 2 •• ·Phm-ii >O.Inoltre possiamo supporre
che tutti gli h1, .. ,hm-1 siano distinti da j: se fosse hk = j allora sarebbe
Pihk+i .. ·Phm-i i > Oe (l unque Pii(m-k) ' 'J prn
> O, ch e e' contro l''1potes1· che m s1a.1 ''
piccolo intero per cui P}":') > O. Dunque l'evento A = {X1 = h1, ... , Xm-1 =
hm-1,Xm = i} è tale che Pi(A) >O.Mostriamo che Pi({ri < oo} n A})= O;
ciò conclude la dimostrazione perché ne segue {Tj < +oo} C Ac e dunque
Pii= Pi{ri < oo}:::; 1 - PJ(A) < 1.
Che P 1({rj < oo} n A}) debba essere= O è abbastanza chiaro intuitiva-
mente, perché se A è verificato, allora la catena passa per i e dunque non può
più tornare in j perché i f, j. I ca.leali che seguono non fanno che rendere
rigorosa questa intuizione.
00

pi ( { Tj < oo} n A}) = L pi ( { Tj = k} n A})


k=l

Ma la somma vale O perché {r 1 = k} n A = 0 se k < m, poiché abbiamo visto


che se A è verificato la catena non torna in j prima del tempo m, mentre se
k 2::m, poiché {Tj = k} C {X k = j}, usando la proprietà di Markov e il fatto
che P~j)= O per ogni n si ha

pi ( {ri = k} n A) =
Pi{Tj = k I A}Pi(A) = PÌ{Tj = k I X1 = h1, .. ,,Xm = -i}Pi(A):::;
:::;PJ{Xk = j I X1 = h1, .. ,,Xm = i}PJ(A) =
= p~J-m>pi(A) = O
Stati numerabili 173

Corollario 5.24 Se E è un insieme finito allora j E E è transitorio se e solo


se esiste uno stato i tale che j - i ma i f-+j.
Dimostrazione. Per la Proposizione 5.23 se esiste uno stato i tale che j - i
ma i f-+j, allora j è transitorio ( che E sia finito o no). Viceversa, se E è finito
allora sappiamo che esiste almeno uno stato ricorrente con cui j comunica.
Certamente i non comunica con j perché, per la Proposizione 5.23 b ), se così
fosse anche j sarebbe ricorrente.

Siamo ora in grado di dimostrare la seguente proposizione, di cui ci siamo già


serviti nel paragrafo 5.4.

Proposizione 5.25 Sia Cuna classe chiusa e indichiamo con D l'insieme degli
stati transitori che non si trovano in C; allora se la catena ha un numero finito
di stati il sistema di equazioni lineari

( 5.28) Xj = LPih+ LPijXj i ED


hEC jED

ha. come unica soluzione Xi= Ài, dove Ài è la probabilità di assorbimento in C


partendo da i.
Dimostrazione. Abbiamo già visto nel para.grafo 5.4 che i valori Ài sono
soluzione di (5.28). Viceversa sia {xi, i E D} una soluzione di (5.28) e in-
dichiamo con r il primo istante in cui la catena entra in C, in modo che sia
Ài = pi{r < +oo}. Sostituendo nel secondo membro di (5.28) il valore di xi
dato dalla (5.28) stessa si ottiene

(5.29) X;= L Pih +L L PihPhj +L L PihPhjXj


hEC hED jEC hED jED

La. somma dei primi due termini vale pi{ r :S 2}. Vediamo il significato del
terzo termine: se j E D allora Phi = O a meno che non sia h E D; dunque se
i,j ED
Pii(2) = '°'
~ PihPhi
hEE
= '°'
~ PihPhj
hED

Il terzo termine in (5.29) vale dunque I:iEDP~})x 1 e (5.29) diviene


17 4 Capitolo 5

Ripetendo lo stesso ragionamento si ricava facilmente che per ogni n

(5.30) Xi= pi{r ~ n} + L p~1J>xj


jED

p~;>
Poiché ogni j E D è transitorio sappiamo che limn---+oo = O e passando al
limite
Xi= lim pi{r ~ n} = pi{r < +oo} = Ài
n---+oo

cioè la tesi.

Una probabilità su E è assegnata da una famiglia v = {v;}ieE di numeri


v; tutti ~ O e tali che LieE v; = 1. Analogamente a quanto abbiamo visto
nel paragrafo precedente, una distribuzione invariante (o stazionaria) per una
catena di Markov su E, di funzione di transizione P, è una probabilità. v su E
tale che per ogni i E E

(5.31) Vi= LVjPji


jEE

Esattamente come nel caso di un numero finito di stati s1 può verificare per
ricorrenza che

(5.32) Vj =L VjP}7)
jEE

e dunque che se Xo ha come legge una distribuzione invariante v allora anche


X 1 , X 2 , ... hanno distribuzione v. Vedremo nel prossimo paragrafo che per una
catena di Markov con una infinità numerabile di stati può accadere che non
esista nessuna distribuzione stazionaria.

Proposizione 5.26 Se i è uno stato transitorio e v una distribuzione sta-


ziona.ria, a.llora.v; = O.
Dimostrazione. P}7)
Sappiamo che limn---+oo = O. Se gli stati sono in numero
finito allora basta passare al limite per n -> +oo nella (5.32). Se invece gli
stati sono una infinità numerabile la somma in (5.32) è una serie e quindi per
concludere dobbiamo mostrare che si può scambiare l'operazione di limite in n
con quella di serie. Questo è conseguenza del prossimo lemma tecnico.
Stati numerabili: ricorrenza e transitorietà 175

Lemma 5.27 Siano a 1 , a 2 , ••• numeri positivi tali che la serie di termine
generale ai sia sommabile, e siano b~n) numeri tali che limn-+oo b~n) = O per
I < M per ogni i, n. Allora
ogni i e per di più esista un numero M tale che Jb~n)

(5.33)

Dimostrazione. Fissiamo é > O;allora esiste un numero io tale che L~io ai <
é n) I s é per ogni i
e poi un numero no tale che sia Jb~ = 1, ... , io - 1 e per ogni
n > no. Allora
oo oo io-1 oo
ILaib~n)I S LaiJb~n)J =L ailb~n)J+ L a;Jbin)JS
i=l i=l i=l i=io
io-1 oo oo
s e L a; + M L a; s e { La; + M}
i=l i=io i=l

e per l'arbitrarietà di é si ha la tesi.

5.8 Stati numerabili: ricorrenza e transitorietà

Per effetto della Proposizione 5.23 se tutti gli stati di una catena comunicano
tra di loro, essi sono tutti ricorrenti o tutti transitori. In effetti se esistesse uno
stato i ricorrente, automaticamente tutti gli altri lo sarebbero come consegu-
enza della Proposizione 5.23 b ).
Diremo che una ca.tena irriducibile (nella quale dunque tutti gli stati comu-
nicano) è transitoria. o ricorrente a seconda che tutti i suoi sta.ti siano transitori
o ricorrenti.
Una ca.tena irriducibile con un numero di sta.ti finito è certamente ricorrente,
poiché abbiamo visto che essa possiede almeno uno stato ricorrente. Se invece
gli stati sono una infinità numerabile, allora essa può essere transitoria o ricor-
rente e, come vedremo, determinare quale delle due eventualità. si verifica è un
problema interessante per le applicazioni.
Supponiamo che l'insieme E degli stati sia l'insieme {O,1, 2, ... } degli in-
teri non negativi. Allora, se la catena è transitoria, per ogni insieme finito
I = {O, 1, ... , N} la catena esce prima. o poi da f per non tornarvi piì1. Più
precisamente esiste un numero n(w) tale che Xn(w) > N per ogni n ~ n(w).
Poiché ciò succede per ogni N
(5.34) q.c.
1 76 Capitolo 5

Se invece la catena è ricorrente allora, come abbiamo visto nel paragrafo pre-
cedente, Xn passa infinite volte per tutti gli stati e (5.34) non vale.
Per determinare se uno stato è ricorrente o transitorio può essere utile il
criterio seguente, che non dimostriamo.

Lemma 5.28 Vale la formula

Pii = Pii + L PihPhi


h#i

In particolare i è ricorrente se e solo se Phi = 1 per ogni stato h tale che Pih >O
(tale cioè che partendo da i vi si possa giungere in un passo solo).

Esempio 5.29 Consideriamo una catena di nascita. e morte che supporremo


irriducibile (per questo ba.sta che sia Qn > O per ogni n 2'.1 e Pn > O per ogni
n 2'.O). Cerchiamo di stabilire sotto quali ipotesi essa sia ricorrente. Poiché la
catena è irriducibile basterà studiare la ricorrenza. dello stato O e poiché in un
passo da O si può andare solo in 1, per il Lemma. 5.28, ciò equivale a valutare
quando p 10 = 1 e quando no. Ora chiaramente P 1 {ro < +oo} 2: P 1 {ro < Tm}
per ogni m E E. Ma un attimo di riflessione mostra che quest'ultima non è
altro che la probabilità di essere assorbiti in O partendo da 1 per la catena di
nascita e morte finita. su O, .•• , m ottenuta trasformando gli stati O e m in stati
assorbenti. Abbiamo calcolato questa. probabilità nel paragrafo .5.4 e sappiamo
che essa vale
"m-1
L..,i=1 Ìi
"m-1
L..,i=O Ìi
dove ìi = .9.1...:..:..:..
Pl···Pi
Dunque

Dunque se la. serie L~o Ìi diverge allora si ha P 1 { To < +oo} = 1 e la ca.tPna


è ricorrente.
Viceversa osserviamo che, poiché la catena si può muovere a destra al più
di un passo alla volta., allora. P 1 { T m 2: m - 1} = 1; dunque se
00

L Ìi =a.< +oo
i=l

allora
-1
P 1 {ro<+oo}= lim P 1 {ro<m-1}~ lim P 1 {ro<rm}=l-i<l
m~~ m~oo
Stati numerabili: ricorrenza e transitorietà 177

e la catena è transitoria.
In conclusione la catena è ricorrente o transitoria a seconda che la serie
L:, 1 Ìi sia divergente o convergente. Da notare quindi che ricorrenza o tran-
sitorietà dipendono solo dal quoziente ~-
Supponiamo ad esempio che sia

Pi =P Qi =q
per ogm i 1, 2, ... Allora ~ _ !I.
p
e Ìi = (!I.p )i; la serie diverge se e solo se
!I.
p -
> 1. Se invece fosse

i+2 i
Pi= 2i + 2 Qi = 2i + 2
allora
Q1 • • -Qi 1 · 2 ... i 2
Ìi = P1 ···Pi 3-4 ... (i+2) (i+l)(i+2)
che è il termine generale di una serie convergente e la catena è transitoria.
Intuitivamente più i valori Pi sono grandi e più la catena. avrà tendenza. a.d
allontanarsi da O e dunque a.d essere transitoria. All'opposto più sono grandi i
va.lori Qi e più la. catena tenderà a torna.re verso O e quindi a.d essere ricorrente.
La condizione sulla serie L~l Ìi stabilisce quale dei due effetti prevale.

Naturalmente se per una ca.tena. irriducibile P esiste una distribuzione inva-


riante v, allora la catena è ricorrente. Per la Proposizione 5.26 infatti se la
catena fosse transitoria, sarebbe v; = O per ogni i, che è in contraddizione con
il fatto che sia Li=I Vi = 1.

Esempio 5.30 Vediamo sotto quali ipotesi una catena di nascita e morte ha
una distribuzione invariante. 11sistema ( 5.31) diviene in questo caso

Vo = Vo To + V1 Ql
Vj = Vj-1]}j-1 + VjTj + 1'.i+Iqj+I j = 1,2, ...
Poiché Pj + r j + Qj = 1 lo si può riscrivere

(.5.35)
v1q1 - PoVo =O
Vj+1Qj+1 - PjVj = VjQj - Vj-IPj-1 j = 1, 2, ...
La quantità Vj+1qj+1 - VjPi è uguale a O per j = O (è la prima. delle (5.35))
1 78 Capitolo 5

e per ricorrenza è uguale a O per ogni j = O, 1, ... per la seconda delle ( 5.35 ).
Dunque si ha

e, se poniamo a = vo, per ricorrenza

Vt = a- Po
ql
V2 = V1-Po
q1
= a--Po Pt
q1 q2
(5.36)

Vj = O'. Po·· ·Pi-1


q1 .. , qj

Poniamo io =1e
-
Ìj = Po·· ·Pi-1
q1 .. ,qj
per j > O. Poiché la somma delle quantità Vi deve valere 1, dovrà essere
00

(.5.37) a I: 1'i= 1
i=O

e dunque se la serie è convergente

1
a=---
"'oo -
L.,i=O Ìi

Questa. relazione insieme con le (5.36) permette di determinare la. distribuzione


invariante v
i
i
Vi = oo -
Ì:::i=O Ìi

Se invece la serie I::o i'i diverge allora non esiste nessuna distribuzione inva-
riante perché non esiste nessun valore di a per cui (5.37) sia soddisfatta.
Ad esempio se Pi = qi = ½per i = 1, 2, ... allora sappiamo già che la catena
è ricorrente, ma i'i = 2po che è il termine generale di una serie divergente e
non esiste nessuna distribuzione invariante. Supponiamo invece Pi p, qi q = =
con Eq < 1 per i= 1, 2, ... (supponiamo cioè che tutti i numeri Pi siano uguali,
tranne al più Po, che può avere un valore diverso, purché > O), allora

-
Ìi = -Po (p)i-1
-
q q
Stati numerabili: ricorrenza e transitorietà 179

che è il termine generale di una serie convergente e perciò esiste una distribu-
zione stazionaria. Possiamo anzi calcolarla esplicitamente:

e dunque

( 5.38)
Po(P)i-t q-p
Vi =q q q- p+ Po
Questo calcolo garantisce che la distribuzione stazionaria per una ca.tena di
nascita e morte irriducibile se esiste è unica. Vedremo che questo è un fatto
generale per le catene irriducibili.

Poniamo, per ogni j E E, mi = Ei[rj]; mj è dunque il tempo medio di ritorno


in j partendo da j. Naturalmente può succedere che sia mj = +oo; questo può
accadere sia che Tj assuma il valore +oo con probabilità. positiva., sia che la
v.a.. Tj sia. finita ma. non abbia speranza. matematica finita. Indicheremo inoltre,
rame nel paragrafo precedente con Nn(j) il tempo trascorso dalla catena in j
fino all'istante n. I tempi medi mi sono quantità. importanti, come mostrano i
due enunciati seguenti, che non dimostreremo.

Proposizione 5.31 Supponiamo clie la catena sia irriducibile. Se si ha


Ei[r;] < +oo per almeno uno stato j E E, allora Ei[r;] < oo per ogni i E E.

Teorema 5.32 Per una catena irriducibile si J1a

(.5.39) lim Nn(j) = _2_ q.c.


n-+OO n ffij

Inoltre se mi< +oo e poniamo Vj - ~-' allora v = (v 0 ,v 1 , .•• ) è l'unica.


1
distribuzione staziona.ria della catena. Viceversa se mi = +oo per qualche
stato j E E allora. non esiste nessuna distribuzione stazionaria.

Sappiamo che se la catena è transitoria allora pi { Tj = +oo} > O e dunque


Ei[r;] = +oo. Dunque nel Teorema 5.32 ritroviamo il fatto che una ca.tena
irriducibile transitoria. non possiede distribuzioni invarianti.
Uno stato j si dice ricorrente positivo se

1.
1m --
Nn(j)
= v·J >O q.c.
n-= n
180 Capitolo .5

Si dice invece ricorrente nullo se

lim Nn(j) =O q.c.


n-+oo n

Per la Proposizione 5.31 ed il Teorema .5.32 in una catena irriducibile e ricor-


rente gli stati o sono tutti ricorrenti nulli oppure sono tutti ricorrenti positivi.
Nel primo caso, sebbene la catena sia ricorrente, non vi è nessuna distribuzione
stazionaria, mentre nel secondo ve ne è una ed una sola.
Il caso ricorrente nullo corrisponde alla situazione in cui il tempo di ritorno
Tj non prende il valore +oo, ma ciononostante si ha Ei[ri] = +oo.

Esempio 5.33Consideriamo una catena. di nascita e morte con p; p, = = Qi q


per ogni i > O. Sia.mo ora in grado di classificarne il comportamento:
a) se Eq > 1 allora. la. ca.tena è transitoria.
b) se E
q
= 1 è ricorrente nulla.
c) se Eq < 1 è ricorrente posi ti va.
Più in generale una catena di nascita. e morte sarà ricorrente positiva se la serie
in (.5.37) è convergente. Altrimenti essa. sarà. ricorrente nulla oppure transitoria.

Il Teorema 5.32 tramite (.5.39) permette di stimare la distribuzione staziona-


ria nei ca.si in cui questa non si può calcolare analiticamente. Basterà infatti
simulare la ca.tena, calcolare numerica.mente i numeri Nn(j) e da essi stimare
la. distribuzione invariante (se esiste) tramite (.5.39) per n abbastanza grande.
Questa osservazione è importante anche se l'insieme degli stati è finito, qualora.
il calcolo esatto della distribuzione invariante sia difficile.

Vedremo ora un analogo del teorema di Markov, nel ca.so di stati numerabili.
Supponiamo al solito la ca.tena irriducibile e consideriamo l'insieme Rj =
{n ~ 1,P}j) > O} formato da.gli istanti n ~ 1 per i quali la probabilità di
tornare in j in n passi sia strettamente positiva.. Indichiamo con dj il massimo
comun divisore dei numeri che si trova.no in Rj,
Ad esempio se in una ca.tena di nascita e morte si ha rj = O per ogni
j E E, allora l'insieme Ri è composto, qualunque sia j, solo da numeri pari:
se j è, ad esempio, dispari, poiché la catena si sposta di un passo ogni volta,
necessariamente essa si trova in uno stato pari nei tempi dispari ed in uno
stato dispari nei tempi pari; dunque necessariamente P}J) = O se n è dispari.
In questo ca.so dunque di non può essere uguale a 1 e sarà uguale a 2 per ogni
j . Se invece ri = Pii > O allora Ri contiene il numero n = 1 e dunque dj = 1.
Si può dimostrare che in una. ca.tena irriducibile il numero dj non dipende
Esempi: file d'attesa 181

da j, ed è dunque uguale per tutti gli stati. Una catena tale che di 1 per
ogni stato j si dice aperiodica.

Teorema 5.34 Se una catena ricorrente positiva è irriducibile e aperiodica


allora
1.nn Pi.
(n)
= 7rJ·
n--+oo J

dove 1r = (1r 0 , 1r1 , ... ) è /a distribuzione invariante (che è certo unica perché la
catena è irriducibile).

5.9 Esempi: file d'attesa

Un contf'sto applicativo che si può modellizza.re con ca.tene di Markov si pre-


senta. quando si vuole studia.re se un determinato servizio è adeguato alla
richiesta.
Consideriamo ad esempio un centralino che dispone di un certo numero di
linee. Quando giunge una richiesta di comunicazione esso fornisce la. linea. se
ve ne è una almeno disponibile, altrimenti la richiesta viene messa in attesa.
Dovendo progettare il centralino occorrerà. dimensionarlo in modo che il numero
di richieste in attesa. non sia troppo grande. Situazioni simili, chiamate file
d'attesa oppure code, si presentano in una quantità. di situazioni, come ad
esempio nei nodi di una rete informatica o di telecomunicazioni o nella gestione
dei sistemi multiutente. Come abbia.mo detto modelli per queste situazioni si
possono costruire con catene di Markov (altri sono possibili).
Nel seguito parleremo di clienti per indicare le richieste di servizio (le
richieste di comunicazione nell'esempio del centralino) e di sportello per m-
dicare l'ente che fornisce il servizio (il centralino).
Supponiamo che ad ogni unità di tempo alla fila d'attesa si aggiunga un
numero (casuale) W di nuovi clienti. Ed inoltre che in ogni unità di tempo lo
sportello sia in grado di servire un numero Z (anch'esso aleatorio) di clienti.
È abbastanza ragionevole supporre che Z e W siano v.a. indipendenti,
entrambe a valori interi ~ O. Indichiamo con pz (la legge d'uscita) e pw (la
legge d'ingresso) le rispettive densità. discrete. Se a.d un dato istante vi sono
k clienti in attesa., all'istante successivo ve ne saranno dunque k + W - Z, se
k + W - Z ~ O e O se invece k + W - Z < O. Indichiamo con g la densità. della
v.a.. Y = W - Z; g si calcola. facilmente con i metodi del capitolo 2:
g(~~)= P{Y = k} = P{W- Z = k} = P(LJ{W = m,Z = m- k})
m

= LPw(m)pz(m - k)
m
182 Capitolo 5

Dunque se ad un dato istante la coda contiene i clienti, all'istante successivo


essa ne conterrà i+ k con probabilità g(k), se i+ k 2'.:O. In altre parole stiamo
considerando una catena di Markov su E = {O, 1, ... } avente come matrice di
transizione
g(j - i) se j > O
{
Pij = Lk~-i g(k) se j =O
Un caso particolare si ha se le leggi d'uscita e d'ingresso sono di Bernoulli di
parametri rispettivamente o e /3.È facile in questo caso vedere che
/3(1 - o) se k =1
g(k) = { (1 - o)(l - ,B)+ a,B se k =O
o( 1 - {3) se k = -1
La. catena. di Ma.rkov associata ha dunque matrice di transizione
/3(1-o) sej =i+ 1
Pij = { (1 - a)(l - /3)+ a,B se j =i
o(l - ,8) se j =i - 1
se i 2'.:1 mentre

{
/3(1-o) se j =1
Poj= 1-,8(1-o-) se j =O
Si tratta. dunque di una catena di nascita. e morte dove
Pi= ,B(l -a) :=.p
per i 2'.:1. Ricordiamo che per l'Esempio 5.33 la catena è transitoria, ricorrente
nulla oppure ricorrente positiva a seconda che P. sia > 1, = 1 oppure < 1;
dunque la catena è q

transitoria. se f3 > a
ricorrente nulla se /3= a
ricorrente positiva se ,B< a
Ovvero, ricordando che o = E[Z] e /3= E[W], la catena è transitoria, ricorrente
nulla o ricorrente positiva a seconda. che sia. E[W] > E[Z], E[W] = E[Z] oppure
E[W] < E[Z].
Si può dimostra.re che ciò resta vero anche se Z e lV hanno una legge più
generale che le leggi di Bernoulli considerate.
Questo fatto ha delle conseguenze applicative importanti. Quando si pro-
getta un servizio, un centra.lino ad esempio, è importante che la catena che
ne descrive la fila d'attesa non sia transitoria., poiché ciò significherebbe che il
numero di clienti in attesa. diverge.
Esempi: file d'attesa 183

Esempio 5.35 Le file d'attesa di due centralini hanno la stessa legge d'uscita,
che supporremo di Bernoulli B(l,a); essi però differiscono per il numero di
chiamate che ciascuno può tenere in attesa ( cioè per la dimensione del buffer).
Indichiamo con m e k le dimensioni dei buffer dei due centralini: ciò significa
che quando giunge una nuova chiamata il centralino la mette in attesa, a meno
che non vi siano già m ( o k rispettivamente) chiamate in attesa; in questo caso
la chiamata viene respinta.
Come si possono confrontare le prestazioni dei due centralini supponendo
una legge d'entrata di Bernoulli B(l,/3)?
L'evoluzione del numero di chiamate in attesa si può descrivere con una
catena di Markov finita comprendente m + 1 e k + 1 stati rispettivamente.
Riprendendo l'esempio precedente possiamo costruire un 'appropriata catena
di nascita e di morte su { 1, 2, ... , m} le cui probabilità di transizione sono date
da
Pi = /3(1 - a) ==p i= O,... , m - 1
qi = a(l - /3)==q i= 1, . .. ,m
(ricordiamo che per una catena di nascita e morte indichiamo di solito con Pi
e q; le probabilità di transizione Pi,i+I e Pi,i-I rispettivamente). Questa catena
di Markov è un modello ragionevole per lo studio della fila d'attesa del primo
centralino e la stessa, con k al posto di m, può servire per il secondo.
Un modo per valutare le prestazioni del primo centralino può essere quello
di calcolare la proporzione di tempo in cui esso è saturo; cioè, nelle notazioni
del Teorema 5.32, la quantità ¾Nn(m). Se 1r indica la densità stazionaria della
catena di nascita e morte associata, per il Teorema 5.32 questa quantità può
essere stimata per n grande con il valore 7rm della densità stazionaria in m.
Ripetendo le argomentazioni dell'Esempio 5.30 si ricava facilmente che la
distribuzione invariante 1r è data da

dove i'i = 1 per i = O e


- PO···Pi-1
ì;=----
q1 ... qj

per i. -- 1, ... , m. I n ques t o caso d unque, ponen d o, per semp 1·1C1ta.,


· ' ì -- .O(l-o)
o(l-.0)

-. -(/3(1-a))i - i
ìi - o(l _ /3) - ì
184 Capitolo 5

per cui

Per quanto osservato sopra 11"m approssima, per n grande, la proporzione di


tempo durante il quale il primo centralino è saturo. Sostituendo k a m si ha
una stima della stessa quantità per il secondo centralino.
Ad esempio per a= 0.75 e per due centralini con buffer pari a 4 e a 8 si ha
rispettivamente per due diversi valori di /3

4 8
/3= 0.5 0.00826 0.00016
/3= 0.66 0.0758 0.0133

Queste cifre possono suggerire che nel secondo caso, in cui il traffico è pii1
intenso, il centralino con il buffer più piccolo possa essere inadeguato (sarebbe
saturo il 7.58% del tempo).

Esercizi

5.1 Un giocatore possiede 1000$ e fa alla roulette una serie di puntate in


ciascuna delle quali egli gioca 1$ ed ha probabilità 18/37 di vincere (e quindi
19/37 di perdere). Egli ha. deciso che si fermerà non appena avrà guadagnato
1$ (e quindi ne avrà 1001) oppure avrà perso tutto.
a) Qual è la probabilità che il giocatore vinca?
b) Sia Y il capitale del giocatore alla fine della. partita. Quanto va.le E(Y)?

5.2 Tre giocatori seduti attorno ad 11ntavolo giocano nel modo seguente: uno
di essi comincia tirando tre volte una. moneta.
Se ottiene tre teste vince la partita.
Se ottiene due teste e una croce mantiene i/ gioco.
Se ottiene due croci e una testa passa il gioco al giocatore alla sua destra.
Se ottiene tre croci passa il gioco a/ giocatore alla. sua. sinistra.
Il giocatore a cui passa il gioco continua. con le stesse regole. Il gioco termina
non appena uno dei gioca tori realizza tre teste. Qual è la probabilità che il
giocatore che inizia il gioco vinca.?

5.3 Due giocatori A e B giocano nel modo seguente. Un 'urna contiene inizia/-
mente 2 palline rosse (R) e 2 palline nere (N ). Si effettuano delle estrazioni
successive con le regole seguenti.
Se la pallina estratta è N. essa viene messa da parte. Se la pallina. estratta
Esercizi 185

è R essa viene rimessa nell'urna insieme ad una nuova pallina N. A vince non
appena. nell'urna ci sono 4 palline N, B vince non appena nell'urna non ci sono
più palline N.
a) Mostrare che il gioco si può modellizzare con una catena di Markov di
cui si determinerà la matrice di transizione.
b) Qual è la probabilità che dopo 3 estrazioni vi sia.no almeno due palline
N nell'urna?
c) Qual è la probabilità che vinca A? Quale dei due giocatori ha più pro-
babilità di vincere?
d) Quanto dura in media. la partita?

5.4 Mostrare che se una. moneta. viene la.ncia.ta successiva.mente più volte, prima
o poi si ottengono n teste consecutive con probabilità 1 qualunque sian.

5.5 Consideriamo la ca.tena. di Ma.rkov su E = {l, 2, 3,4, 5} associata alla


matrice di transizione
o 21 1
2 o o
1
o ¼ 4 ½ o
o o 1
4
1
4
1
2
o o o 41 43
o o o ½ ½
a) Determinare gli stati transitori e quelli ricorrenti.
b) Determinare tutte le distribuzioni invarianti.
c) Qua.I è la probabilità partendo da 1 di passare prima o poi in {4,5}?

5.6 Sia P la matrice di transizione

( 1 -pq l -qp)
Al va.ria.re di p, q tra O e 1, P è la generica matrice di transizione di una C.M.
su un insieme E formato da due elementi.
a.) Mostrare che P è irriducibile se e solo se p e q sono entra.rubi < 1 e che
essa è anche regola.re se per di più uno almeno tra. p e q è > O.
b) Calcolare le probabilità invarianti di P. Per qua.li va.lori di p e q la
probabilità invariante è reversibile?

5. 7 Consideriamo la catena dell'Esempio 5.20 .


a.) Mostrare che la matrice P 2 non è irriducibile.
b) Mostra.re che la matrice Q ottenuta. da P 2 prendendone solo le righe e
186 Capitolo 5

le colonne dispari è una matrice di transizione regolare su {1, 3, 5}. Calcolarne


la distribuzione stazionaria. Se {Xn}n è la C.M. associata a P, quanto vale
P{Xn = =
llXo 1} per n grande e dispari? E per n grande e pari?
c) Partendo da 1, qual è la probabilità di raggiungere 6 prima di 5?

5.8 (Passeggiata a caso sul toro discreto) Consideriamo la catena di Markov


avente come stati i vertici di un poligono regolare con la regola seguente: il
processo si sposta, ad ogni transizione, sul vertice adiacente in senso orario
con probabilità o 1 , su quello adiacente in senso antiorario con probabilità 0_1
mentre resta nel vertice in cui si trova con probabilità oo (o 1 + oo + (L1 = 1).
a) Mostrare che se i tre numeri a 1 , o 0 , o_ 1 sono > O la catena è regolare.
Mostrare che, se a 0 = O e o 1 , o_ 1 sono> O, /a catena è regolare se e solo se il
poligono ha un numero dispari di vertici.
b) Calcolare la distribuzione invariante 1r della catena. nell'ipotesi che i tre
numeri ao,o 1 ,o_ 1 siano> O. Per quali va.lori di o 1 ,o 0 ,o_ 1 1r è reversibile?

5.9 Consideriamo la catena di Ma.rkov su {O,1, ... , N} associata alla matrice


di transizione

Pi,i = j (N)( ·)
;
i (
1-;
· ) N-j

(ovvero la legge di Xn+l sapendo che Xn = i è binomiale B(N, .t)).


a) Classificare gli stati di questa. C.M. Mostrare che O e N sono assorbenti.
b) Qual è la media di X 1 partendo da. i? E quella. di X 2 ?
c) Qual è la. probabilità di essere assorbiti in O partendo da 1, i =
l, ... ,N-1?

5.10 Due coccinelle si trovano inizialmente sui vertici opposti di un ottagono


i cui la.ti sono lunghi 1cm. Ad ogni istante ciascuna. di esse si sposta, a caso e
indipendentemente dall'altra, su uno dei due vertici adiacenti a. quello in cui
essa si trova. Indichiamo con Dn la distanza. in cm che le separa all'istante n.
a) Qual è la. legge di D1 ?
b) Mostrare che {Dn}n è una. catena di Markovdi stati {0,2,4} e determi-
narne la matrice di transizione.
c) Qua.I è la probabilità che esse si trovino nello stesso vertice per n grande?
d) Calcola.re il tempo medio necessario perclié le due coccinelle si trovino
sullo stesso vertice.

5.11 (Modello di Ehrenfest) m paJJine sono ripartite in due urne. Ad ogni unità
di tempo una delle n pa.JJine viene scelta a caso e spostata dall'urna in cui si
trova. all'altra.
Esercizi 187

a) Indichiamo con Xn il numero di palline presenti nella prima urna. al


tempo n. Mostrare che {Xn}n si può descrivere mediante una catena di nascita.
e morte (con un numero finito di sta.ti), di cui si determinerà la matrice di_
transizione.
b) Mostrare che la distribuzione

k = o,... ,m
è una distribuzione stazionaria.
c) Sono soddisfatte le condizioni del Teorema di Markov?

5.12 La Figura 5.3 rappresenta il diagramma di flusso di un programma di


calcolatore. Ad ogni unità di tempo il controllo del programma passa dallo
stato i ad uno stato a cui i è collegato con una freccia e con la probabilità
indicata..

D 1 -
1/2

1/2 Dl
1/4

1/2
11 3/4 1/4
1/4

D D
1/2

1/2

Figura 5.3

a) L'evoluzione del programma può essere descritta. mediante una catena di


Ma.rkov? Scriverne la matrice di transizione.
b) Qual è il tempo medio di esecuzione del programma partendo da 1 ? È
un tempo maggiore o minore che se si partisse da. 3?
c) L'esecuzione risulterebbe accelerata. se invece fosse p 31 = ¼ e p34 = ¾?

5.13 Cosideria.mo una. ca.tena. di nascita. e morte con probabilità di transizione


l i+ k
Pi= 2i +k q; = 2i +k
dove k > O è un parametro intero. Per qua.li va.lori di k la catena è ricorrente
positiva? Per quali va.lori di k è ricorrente nulla?
188 Capitolo 5

5.14 (Passeggiata a caso semplice) Un mobile si muove a caso sugli interi


relativi ( cioè E = {... - 1, O, 1, ... }). Ad ogni istante esso si sposta dallo stato
i a i + 1 con probabilità p ed a i - 1 con probabilità 1 - p, O ~ p ~ l.

- - - - I

i- 2 i- 1 i+ 1
Figura 5.4

Scopo di questo esercizio è lo studio, al variare di p, delle proprietà di ricor-


renza e transitorietà della C.M. risultante da questa situazione. L'intuizione,
insieme ad argomenti di simmetria., dovrebbe però già permettere di prevedere
alcuni dei fatti che verra/lno provati nel seguito.
a) Mostrare che il moto del mobile si può descrivere co/l una catella. di
Markov di cui si determinerà la matrice di trallsiziolle. Si tratta di u/la ca.te/la
irriducibile?
b) Sia {Zn}n Ulla successione div.a. indipendenti tali che P{Zn = 1} = p,
P{Zn = -1} = 1-p e palliamo Xn = Z1 + ... +Zn. Quanto va.le la probabilità
condizionale P{Xn = j I Xn-1 = i}? Dedurne clie {Xn}n è una catena di
Markov associata alla matrice di transizione ottenuta in a) e con O come stato
i lliziale.
c) (La. risoluziolle di questo punto non è indispensabile per a.ffron tare i
successivi) Cosa si può dire del limite limn-+oo ¾Xn? Quanto vale il limite
limn-+oo X n se p f:.¾? Mostrare che se p f:.¾ la catena è transitoria..
d) Con le notazi~ni di b) mostra.re che se~Y; = ¾(Z; + 1) allora Yi "'B(l,p)
e dunque ½(Xn + n)"' B(n,p). Quanto va.le Pb~) ~ P{Xn = O}se n è dispari?
E se n è pa.ri?
e) Usando la formula di Stirling

n!-~(~)n
mostrare che
P~~n)"'[4p{l - P)t ~
y7rn

Per quali va.lori di p la serie I::=oP61n) è convergente? Per quali valori di p la


catena. è ricorrente? Per qua.li è transitoria.?
f) Mostra.re che, se una distribuzione stazionaria esistesse, allora dovrebbe
essere uniforme. La. ca.tena. può essere ricorrente positiva?
6
Statistica Matematica

6.1 Modelli statistici

Esempio 6.1 Una moneta, di cui si ignora se sia o no equilibrata, viene lan-
ciata 1000 volte ottenendo 447 teste. Cosa se ne può dedurre? Si può affermare
che la moneta sia equilibrata?

Questo è un tipico problema di Statistica: siamo in presenza di un fenomeno


aleatorio, come nei capitoli precedenti, ma non abbia.mo informazioni suffi-
cienti per costruire uno spazio di probabilità. adeguato a descriverlo ( non sap-
piamo con quale probabilità p la moneta dia testa). A partire dall'osservazione
vogliamo però ricavare delle informazioni sul fenomeno. In un certo senso è un
problema inverso rispetto a quello dei capitoli precedenti.

Un moijello conveniente per i problemi di statistica è il seguente.

Definizione 6.2 Si chiama modello statistico una. fa.miglia di spazi di proba-


bilità (f2, A, (P 11) 11Ee ), dove 0 è un insieme di indici.

Un modello statistico adatto allo studio dell'Esempio 6.1 può essere il seguente,
basato sullo schema di Bernoulli dell'Esempio 1.18

n = {O,1}1000
A = le parti di n
0 = [O,1)
pll(w) = 0k(l - 0)1-k

dove k è il numero di volte che il simbolo 1 appare nella sequenza w =


(w1, ... , w1000). In altre parole, se indichiamo con 1 il risultato "testa" e con O
"croce", i possibili risultati dell'esperimento casuale sono ora tutte le possibili
sequenze di O e 1. Come nell'Esempio 1.18 ( dove scrivevamo p invece di 0) P 11
190 Capitolo 6

è la probabilità di ottenere una sequenza w quando la probabilità. di osservare


1 in un singolo lancio vale O.

Un modello statistico descrive dunque un fenomeno aleatorio in cui però la


probabilità. di osservare un dato risultato x dipende da un parametro (} che è
incognito.
Uno dei problemi naturali in questa situazione consiste nell'individuare O,
oppure una sua funzione f(O), a partire dall'osservazione x. Un caso frequente
è quello in cui /( O) è la media dell'osservazione.

Data una funzione f :0 -+ Ill m si chiama stimatore del parametro f (O) una
V.a. X: n-+ m,m_
Intuitivamente dare uno stimatore X significa fissa.re la. regola. che, se si
osserva w, allora si stima f(O) con la. quantità. X(w).
Con questa definizione ogni v .a. a valori in Ill m è uno stimatore. Una. prima
questione quindi consiste nello stabilire dei criteri per decidere quali stimatori
sia.no "buoni" e quali no, ovvero per confronta.re due stimatori e stabilire quale
sia. il migliore.
Per la situazione dell'Esempio 6.1, ad esempio le due v.a.

Y(w) = w1
( 6.1) 1 1000
X(w) = -1000 'ç""'
L,__;
w·2
i=l

sono due stimatori di O. Il primo consiste nello stimare (} con il valore di w1 :


se il primo lancio dà testa si decide che (} = 1, altrimenti (} = O. Il secondo
invece stima 0 con la proporzione di teste ottenute nei 1000 lanci (0.447 con i
dati dell'esempio). È chiaro che il primo stimatore è particolarmente grossolano
( usa solo una piccola parte dell'informazione contenuta nell'osservazione).
Il secondo appare invece più ragionevole. Dopo tutto se effettuiamo n lanci
e facciamo crescere n -+ oo la quantità. ~ I:~ 1 w; converge verso(} per la. legge
dei grandi numeri. Naturalmente non possiamo effettuare un'infinità. di lanci,
man = 1000 è un numero già. abbastanza. grande perché si possa. pensare che
X(w) non sia lontano da. O.

Vediamo ora dei criteri rigorosi per valutare e confrontare stimatori diversi.
È però opportuno già osservare che uno stimatore è una variabile aleatoria
( dipende dall'osservazione). I valori che esso assume sono cioè casuali e si può
parla.re della legge dello stimatore, anzi delle leggi dello stimatore, poiché la
legge di X dipenderà. dalla. vera. probabilità P 11che regge il fenomeno. È intuitivo
Modelli statistici 191

ad esempio che se 0 = ½ (cioè la moneta è equilibrata) allora X assumerà con


grande probabilità dei valori vicini a 0.5, mentre se 0 = 0.95 la proporzione di
teste sarà più grande e X tenderà a valori più grandi (e, per la legge dei grandi
numeri, vicini a 0.95 se n è abbastanza grande). Più precisamente, poiché la
legge di X è l'applicazione

al variare di A in una classe di sottoinsiemi di IR (vedi l'Osservazione 3.6),


essa dipende dal parametro 0 e, in generale, per valori di 0 diversi X avrà
leggi (e quindi densità) diverse. Parleremo dunque della legge di X rispetto a
P 11 e indicheremo con E 11e Var 11 rispettivamente la speranza matematica e la
varianza di X rispetto alla probabilità P 11•

Diremo che X è uno stimatore non distorto ( oppure corretto) del parametro
/(0) se per ogni 0 E 0
E11[X] = f(0)
In altre parole uno stimatore non distorto di / ( 0) può prendere dei valori
diversi da f( 0), ma. la. media. dei valori assunti sarà. proprio f( 0) e questo per
ogni valore dell'incognito para.metro 0.
In genere per uno stimatore il fatto di essere non distorto è da considerarsi un
fatto positivo, anche se saremo condotti a consid<'rare stimatori che non godono
di questa. proprietà. Si chiama. invece il rischio quadmtico dello stimatore X la
funzione Rx : 0 -- m+definita. da

Se X è non distorto Rx ( 0) non è altro che la. varianza di X rispetto a P 11•


Ricordando il significato intuitivo della varianza. è chiaro che uno stimatore
sarà. tanto migliore quanto più il suo rischio quadratico è piccolo. Questa os-
servazione può servire come base di un criterio per confronta.re due stimatori
X e Y: considereremo migliore lo stimatore il cui rischio quadratico è minore.
Attenzione però perché Rx è una. funzione di 0; può quindi accadere che uno
stimatore X abbia rischio quadratico minore di un altro stimatore Y per certi
valori di 0 e maggiore per altri, e quindi che X e Y non siano confrontabili.
Diremo che Y è preferibile a. X S<'Ry(0) ~ Rx(0) per ogni 0. Se per di
più Rv(0) < Rx(0) per almeno un 0 E 0 esso si dirà strettamente preferibile
a X. Uno stimatore si dirà ammissibile se non esistono stimatori che gli siano
strettamente preferibili.
192 Capitolo 6

Ad esempio per i due stimatori definiti in (6.1) si vede subito che, se consi-
deriamo al solito su n le v.a. Xi(w) = Wi, poiché le X; sono indipendenti e di
legge B(l, 8)
E[Y] = E[X1] = 8
1 1000
E[X] = -I:E[X·] =8
1000 i=l i

e dunque gli stimatori sono entrambi non distorti. Ma

Ry(8) = Var(Xi) = 8 (1 - 8)
1 1000 1
Rx(0) = 10002 L Var(Xi) = 1000 0 (1 - 0)
i=l

Dunque, come l'intuizione lasciava supporre, lo stimatore X è preferibile a Y,


che quindi non è ammissibile.
Resta la questione di stabilire quanto uno stimatore X sia "vicino" al vero
valore f(0). A questo scopo si introduce la nozione di intervallo di fiducia.

Definizione 6.3 Si chiama. intervallo di fiducia (o di confidenza) per f(0)


di livello a, O < a < 1, un 'applicazione w -+ Bw che ad ogni w E n fa
corrispondere un intervallo Bw C JR tale che
a) {w; Bw 3 J(0)} E A per ogni 0 E 0
b) per ogni 0 E 0

Un intervallo di fiducia di livello a per J(0) è dunque un intervallo di lR tale


che, se il risultato dell 'esperimento casuale è w, allora si può dire che J(8) E Bw
con probabilità 2':1 - n, e questo qualunque sia 0.

Una situazione molto frequente è quella in cui, come per l'Esempio 6.1, l'os-
servazione sia costituita da una successione X 1 , ... , X n di v.a. indipendenti
ed aventi la stessa legge. In questo caso considereremo un modello statistico
(n,A,(P 11)0E0) sul quale siano definite delle v.a. X 1 , ••• ,Xn che per ogni 8
sono tra loro indipendenti ed abbiano la stessa legge. Indicheremo con PII la
densità ( continua o discreta) comune delle v.a. rispetto alla proba:bilità P 11• La
densità congiunta di X = (X 1 , ... , X n) sarà dunque

dove x = (x1, ... ,xn).


Modelli statistici 193

Nel seguito faremo riferimento a questo modello statistico dicendo che


X 1 , ...
, X n è un campione di rango n di legge p9.
Si può in effetti dimostrare che un tale modello esiste sempre: data una fa-
miglia di densità p9, (J E 0, esiste sempre un modello statistico (f!, .A,(P 9)0ee)
su cui sono definite delle v.a. X 1 , ... , Xn le quali per ogni (J siano indipendenti
e di legge p9.
Con questa terminologia il modello statistico dell'Esempio 6.1 è un campione
di rango 1000 di leggi di Bernoulli.

Esempio 6.4 Sia X 1 , •.. , X n un campione di rango n e supponiamo che per


ogni (J E 0 le v.a. Xi abbiano speranza matematica finita. Cerchiamo uno
stimatore non distorto della media /( O) = E 8 [Xi]. Se poniamo al solito

allora per ogni 0 E 0 si ha

E 11[X] (E 9 [Xi] + ... + E9 [X nl) = E 9 [Xi]


= _!.
n
e dunque X è uno stimatore non distorto della media. È facile calcolarne il
rischio quadratico poiché
- 1 1
R(0) = Var9(X) =----:, · n Var0(Xi) = - Var0(Xi)
n· n
Supponiamo ora che le v.a. Xi abbiano varianza finita per ogni 0 E 0 e
cerchiamo uno stimatore non distorto della varianza. a 2 = Var0(Xi ). Se la
media delle Xi è µ allora

E' [ ~ - l ~ t,
t,(x, µ) 2 = E' [(X; - µ) 2 ] = Var,(X;)

e dunque
l n
a2 =- ~:)xi-µ)2
n i=I

è uno stimatore non distorto di a 2 . Spesso però la media µ non è nota per cui
non è possibile calcolare 6 2 . Proviamo allora a sostituire, nell'espressione di
6 2 , a /t il suo stimatore X e vediamo quali sono le proprietà di
194 Capitolo 6

come stimatore di a2 • È non distorto? Ricordando che L~=l Xi = nX si ha


n n n n

i=l i=I i=l i=l


n
= I:xl - nX 2
i=l

e poiché, per la definizione di varianza, E 11


( Xl)
(.X2) = -!iVar0(Xi) + E 11[Xi]2
E 11

E9 [ :f)xi - X)2] = n Va.r11(Xi)+ nE 11[Xi] 2 - Var11(Xi) - n E 11


[Xi] 2 =
i=l

e dunque ¾I:~=I (Xi - X) 2 non è uno stimatore non distorto di a 2 • Se però


modifichiamo la costante di normalizzazione allora

s2 = _1_ ~(Xi - .X)2


n-lL...,
i=l

è uno stimatore non distorto della varianza.

Se X1, ... , X n è un campione di rango n di legge p9 e per di più Var11(Xi) < +oo
per ogni 0 E 0, allora per la. legge dei grandi numeri lo stimatore X converge
q.c. per n - oo alla. media. Si esprime questa proprietà dicendo che X è uno
stimatore consistente della media.

Vediamo ora un esempio di cakolo di intervallo di fiducia.

Esempio 6.5 Abbiamo visto che l'Esempio 6.1 si può modellizzare con un
campione di rango 1000 di leggi di Bernoulli. Calcoliamo un intervallo di fiducia
per 0 di livello a, = 0.0.5 ( ricordiamo che in questo caso 0 è la probabilità di
ottenere testa in un singolo lancio). Usando l'approssimazione normale, come
nel para.grafo 4.4

P{IX - 01> 15}~ 24>(- i5 J1000)


- JO(l-0)

i\faggiorando al solito 0(1 - 0) con ¼,se vogliamo che sia.

2<l>{-2i5J1000) = 0.05
Stimatori di varianza minima 195

deve essere -26\1'1000 = -1.96 (vedi le tavole della legge normale) e dunque
8 = 2~
1000
= 0.03. Quindi

P{w; 0 E [X - 0.03, X+ 0.03)} = P{IX - 01:'.S0.03} 2: 1 - 0.05 = 0.95


e la regione w -+ [X(w) - 0.03,X(w) + 0.03] è un intervallo di fiducia
di
livello a= 0.05. Con i valori numerici dell'Esempio 6.1 0 E (0.417,0.477] con
probabilità del 95%.

Abbiamo visto finora degli esempi di quello che in Statistica si chiama un


problema di stima, cioè il calcolo di stimatori e di intervalli di fiducia. Un altro
problema tipico è quello di test, come quello evocato nell'Esempio 6.1 quando
::i domandavamo se, alla luce dell'osservazione, si poteva dire se la moneta fosse
equilibrata. oppure no. Affronteremo questo tipo di problemi più tardi.
Nei prossimi paragrafi vedremo dei risultati sugli stimatori ammissibili e
alcune tecniche che permettono di determina.re dei buoni stima.tori.

6.2 Stimatori di varianza minima

In alcuni casi è possibile stabilire che uno stimatore è migliore di tutti gli altri,
almeno per il criterio di ammissibilità del paragrafo precedente.
Diremo che uno stimatore T di f(0) è uniformemente di varianza minima
non distorto ( che abbrevieremo con UVM) se è non distorto e se per di più è
preferibile ad ogni altro stimatore non distorto.
Supponiamo che l'osservazione sia. della forma X = (X 1, ... , X n)

Teorema 6.6 Sia T(X) uno stimatore non distorto di f(0) di va.ria.nza finita.
e supponiamo cl1e goda della. proprietà seguente: qualunque sia la. v.a. V(X)
di varianza finita ta.le che E 9[V(X)] = O per ogni 0 E 0, si ha.
E 9 [T( X )V(X)] = Cov11(T(X), V(X)) = O
Allora T(X) è uno stima.tare UVM di f(0).
Dimostrazione. Sia. W(X) un altro stimatore non distorto di f(0) e di va.-
ria.nza finita. Allora se V(X) = W(X) - T(X) si ha. E 9[V(X)] = O per ogni 0.
Allora
Va.r11(W(X)) = Va.r9(T(X) + V(X)) = f
= Var11(T(X)) + Va.rll(V(X)) + 2 Cov1J((T(X), V(X)) =
=O
= Varo(T(X)) + Va.ro(V(X)) 2: Va.ro(T(X))
196 Capitolo 6

e dunque T(X) ha varianza più piccola di ogni altro stimatore non distorto.

Esempio 6. 7 Sia X1, ... , Xn un campione di leggi di Bernoulli. Verifichiamo


che la media empirica X è uno stimatore UVM. Sia V una funzione tale che
E 11[V(X1 , ••• , Xn)] = O per ogni valore di 0 E [O,l]. Ciò significa che

LV(w1, ... ,wn)0w1+...+wn(1-0r-w1-----Wn =o


wen
Poiché questa relazione è vera per ogni valore di 0, sarà uguale a O anche la
sua derivata rispetto a 0. Poniamo sn = w 1 + ... + Wn, in modo che si abbia
nX = Sn; derivando dunque
O= L V(w){ Sn0Sn- 1 (l - 0)n-Sn - (n - Sn)0 8 n(l - 0rsn- 1} =
wen
= "V(w){ Sn - n - Sn }0sn(l - 0r-sn =
L.t 0 l-0
wEO

= n(1+ 1 ~ 0) L X(w) V(w)0 5


" (1 - 0r-sn -
wEO

La condizione del Teorema 6.6 è dunque verificata e X è uno stimatore UVM.

Esempio 6.8 Sia X = (X 1 , ••• , Xn) un campione di rango n di leggi N(µ, u 2 ),


dove il parametro 0 = (µ, a 2 ) è da stimare. Mostriamo che gli stimatori

- 1
X = -(X1
n
+ ... + Xn)
n
S2 1- '°'(Xi
= -n-lL.t - X) 2
i=l

sono stimatori UVM di JL e a 2 rispettivamente.


Stimatori di varianza minima 197

Sia V una funzione tale che E 11


[V(X)] = O per ogni valore di 0 = (µ, cr2 ),
cioè tale che

1) /
2 n 2
( 211"CT
J+oo
_
V( X1, ••• , Xn
) exp ( - I:~1(Xi - µ)2) dXl
2cr2
•••
dXn --
(6.2) 00

= E 11[V(X)] = O
Se deriviamo questa uguaglianza rispetto a µ e ammettiamo, cosa che si può
verificare rigorosamente, che si possa derivare sotto il segno d'integrale otte-
mamo
O= 1
?)n / 2
( 21rcr-
J+oo
Tr( v Xt,···,Xn
)2 I:~-I (xi - µ)
- X
_ 00 2cr2

X exp ( - "n
L..,i=I
(xi - µ)2)
· ,, dx1 ... dxn =
2cr-

.
1
) /?
J+oo (nx nµ)
V(x1, ... ,xn) - - -? X
(21rcr2 n - -(X)
cr2 cr-

I:~=l(Xi-/l)2) d
X exp ( - 2cr2 dx1 ... Xn =
= n2 E11[V(X)X] - n~ E11[V(X)]
cr cr-
= cr-
~)E 11[V(X)X]
Per il Teorema 6.6 dunque .Y è uno stimatore UVM di µ. Con calcoli simili,
derivando rispetto a cr2 si verifica che S2 è uno stimatore UVM di cr2 •

I ragionamenti di questi due esempi si possono ripetere per altri campioni e


ottenere, ad esempio, che se X 1 , ..• , X n è un campione di leggi di Poisson di
parametro >.,allora X è uno stimatore UVM di >.(ricordiamo che per le leggi
di Poisson il parametro >.è anche la media). Anche il caso di campioni di leggi
geometriche, gamma, ... si può trattare allo stesso modo.
Ciò però non significa che questi stimatori siano gli unici meritevoli di es-
sere presi in considerazione. In effetti il criterio di valutare uno stimatore
richiedendo che esso abbia varianza minima è certo ragionevole ma non l'unico.
Vedremo nel prossimo paragrafo esempi di stimatori importanti che pure ncn
sono UVM.
198 Capitolo 6

6.3 Stimatori di massima verosimiglianza

Consideriamo un modello statistico cn, A, ( P0)BES)e supponiamo che l 'osser-


vazione sia data dalle v.a. X1, ... , Xn. Se X1, ... , Xn hanno densità congiunta
( discreta o continua) L9 rispetto a P 9, un modo ragionevole di costruire uno sti-
matore T può essere il seguente: se l'osservazione è X(w) = (X 1 (w), ... , Xn(w))
allora si decide che il vero valore di 0 è quello in corrispondenza del quale la
funzione 0 -+ L0(X(w)) è massima. Se la densità L0 è discreta ciò coincide
con il valore di 0 per il quale l'osservazione X (w) è la più probabile. La fun-
zione 0 -+ L9 ( x) viene anche detta funzione di verosimiglianza (likelihood in
inglese), il che spiega il nome che si dà a questo stimatore.

Definizione 6.9 Uno stimatore T è detto di massima verosimiglianza se per


ogni w E n la funzione di verosimiglianza 0 -+ Lo(X(w)) raggiunge il suo
massimo per 0 = T(w).

Poniamo X(w) = x = (x1,.,.,xn)- Se la funzione 0-+ L9(.r) ha più di


un punto di massimo assoluto allora naturalmente lo stimatore di massima
verosimiglianza non è unico.
In pratica il calcolo dello stimatore di massima verosimiglianza si riduce al
calcolo del massimo di una funzione; quindi se 0 è un aperto di fil.dsi procederà
al solito iniziando con la ricerca degli zeri del gradiente di 0-+ L0(x). Spesso
è però più comodo cercare i punti di massimo di 0 -+ logL0(x); si tratta
chiaramente di nn problema equivalente perché i punti di massimo delle due
funzioni 0-+ L0(x) e 0--1ogL 11(x) sono gli stessi.
In effetti se il modello (f!,A,(Pe)oEe) è un campione di rango n di leggi di
densità fB (continue o discrete), allora L11(x)= JB(xi) ... fB(xn), e 0 E 0 è un
punto critico per 0-+ log Lo(w) se e solo se

n
(6.3) Lgrad 8 logf0(x;) =O
i=l

Questa equazione si chiama equazfone di verosimiglianza. Se 0 E 0 è soluzione


di (6.3) esso è in realtà solo un punto critico del gradiente e quindi non neces-
saria.mente un punto di massimo. Molto spesso (anche se non sempre) il valore
di 0 così ottenuto è però unico ed il punto è di massimo.

Esempio 6.10 Consideriamo un campione di rango n di leggi N(µ, a 2 ), dove i


parametri Jt e a 2 sono entrambi sconosciuti. Calcoliamo lo stimatore di massima
Stimatori di massima verosimiglianza 199

verosimiglianza di () = (µ, 0' 2 ) risolvendo la (6.3). In questo caso

2
fe(x) = ~O' exp( (x ~~) )

a x-µ
oµlogfµ,a(x) = ~
a (x - µ)2 - (12
OO'log Jµ,a(x) = 0' 3

Dunque (6.3) diviene


n

i=l
n
L)xi - µ)2 = nC12
i=l

che hanno soluzione

Si verifica direttamente che (µ,a2 ) è in realtà un punto di massimo per la


verosimiglianza, per cui i valori ottenuti danno effettivamente lo stimatore di
massima verosimiglianza per (µ, 0' 2 ). Un confronto con l'Esempio 6.4 mostra
cheµ coincide con X, mentre o-2 non è non distorto; infatti

È chiaro però che per n grande a2 differisce di poco dallo stimatore UVM S2 •

Il criterio di massima verosimiglianza è molto utile perché fornisce un metodo


di calcolo di stimatori in situazioni in cui, a differenza degli esempi che abbiamo
visto finora, l'intuizione non suggerisce uno stimatore ragionevole. Essi inoltre
hanno un buon comportamento asintotico. Si può cioè dimostrare, nel caso dei
campioni ad esempio, che quando n -+ oo essi convergono verso il valore da
stimare meglio di ogni altro stimatore (in un senso che non preciseremo).
200 Capitolo 6

6.4 Stimatori di Bayes

Fino ad ora abbiamo supposto che non ci fossero a priori dei motivi per consi-
derare dei valori di 8 E 0 più probabili di altri. Questo non è sempre il caso;
consideriamo la situazione dell'Esercizio 1.10: in esso vogliamo stimare da quale
delle urne sia stata fatta l 'estiazione, sapendo che questa ha dato come risul-
tato una pallina bianca ed una rossa. Una strategia ragionevole può essere la
seguente: calcoliamo la probabilità condizionale Pi che l'urna prescelta sia la
i-esima sapendo che l'estrazione ha dato come risultato una pallina rossa ed
una bianca e decidiamo che l'urna prescelta è quella in corrispondenza della
quale il valore Pi è il più elevato. Il risultato naturalmente è diverso a seconda
che in partenza tutte le urne siano ugualmente probabili oppure no.
In generale la situazione si può descrivere nel modo seguente. Si considera
che il parametro 8 E 0 è scelto con una certa distribuzione di probabilità q.
Supponiamo per semplicità che 0 sia JR oppure un suo sottointervallo. Dire che
8 viene scelto con densità q e che se il vero valore del parametro è 8 la densità
dell'osservazione è x--+ p11(x) equivale a dare per il vettore (8, X) la legge di 8
e la legge condiziona.le di X rispetto a 0. Dunque la legge congiunta di (8, X)
è data da.Ila densità
g(fJ,x) = q(0)p11(.r)
La legge dell'osservazione X è la seconda margina.le di g

gz(x) = l q(8)p11(x)d8

e la densità condiziona.le di fJ dato x è

ifx(8) = q(8)p11(x)
gz(x)

Possiamo ora scegliere come stimatore il valore di 8 che rende minimo il rischio
quadratico rispetto alla legge ifx cioè quel valore Oche renda minima la funzione

Rx(z) = [ (z - 8)2 ifx(8) <10


le
Sappiamo però già, dal para.grafo sulle speranze condizionali che il minimo di
Rx viene raggiunto in corrispondenza della media di iix, dunque la quantità

O= [ 0ijx(0) d()
le
Stimatori di Bayes 201

è lo stimatore cercato, a condizione naturalmente che è E 0.


Uno sguardo più attento al calcolo che abbiamo appena fatto mostra che
è non è altro che la speranza condizionale di 0 dato X = x. La densità q si
chiama la legge a priori, mentre iix è la legge a posteriori. Lo stimatore è si
chiama lo stimatore di Bayes. Con queste definizioni, dunque, lo stimatore di
Bayes non è altro che la media della legge a posteriori.

Esempio 6.11 Osserviamo un campione di rango n di leggi N(0, 1) con il


parametro 0 da stimare e supponiamo di sapere a priori che 0 segue una legge
N (O,o-2 ). Calcoliamo la legge a posteriori e lo stimatore di Bayes. La legge
congiunta di (0, X) è data dalla densità

g(0, x) = --e-1 1
82 /· 2u 2 ---e-2LJ;=1 I "l:'"'n Ix;- 912
=
V2ia (2rr )n/2
1
=(2rr)(n+l)/2o-exp
[
-2
1( ?1 + no-
0~ o-2
2 n
-20~xi+~lx;I~
n ?)]
che è dunque una legge normale. Dobbiamo ora calcolare la legge condizionale
di Z dato X = x, x E nr. Con i metodi di calcolo del paragrafo 3.11 si ricava,
con calcoli elementari e un po' di pazienza. ( vedi anche l'Esercizio 3.25), che la
legge condizionale di 0 dato X = x è normale di media
no-2
(6.4) ---i
+
1 no-2
e varianza

1 + no-2
Naturalmente lo stimatore di Bayes è, che è la media della distribuzione a
posteriori, è dato dalla quantità in (6.4).
Appaiono qui due aspetti tipici della. procedura bayesiana: lo stimatore di
Bayes non è non distorto; infatti
2 no-2
E9 [Ò]= no- E9 [x] = -- 0
+
1 no-2 1 + no-2
anche se è chiaro che per n---,. oo la differenza tra. E 8 [0] e 0 tende a O.
In secondo luogo si vede che la distribuzione a posteriori ha una. varianza
più piccola di quella. a priori e decrescente a O per n ---,.oo.

Nel prossimo esempio la legge p9 dell'osservazione è discreta.


202 Capitolo 6

Esempio 6.12 Vogliamo stimare la probabilità(), O ~ () ~ 1, con cui il lancio


di una moneta dà testa. È ragionevole pensare a priori che non tutti i valori
di () siano equiprobabili e ci aspettiamo () non lontano da ½ piuttosto che
vicino a O oppure a 1. Esempi di distribuzioni su [O,1] che privilegino i valori
intorno a ½ sono alcune densità Beta. Ricordiamo (Esercizio 4.5) che le leggi
/3(a, /3), a, f3 > O, hanno densità

q(t) = f(a + /3) to-1(1- t)/3-1


f( a )f(/3)
per t E [O,1] e q(t) = O altrimenti. Un semplice studio di funzione mostra che se
i parametri o e f3 sono uguali e più grandi di 1 allora la densità q si annulla in
O ed in 1 ed ha un massimo per t = ½.Essa può dunque tentativamente essere
usata come distribuzione a priori nel nostro problema. Calcoliamo lo stimatore
di Bayes con una distribuzione a priori /3(a, (3), supponendo che l'osservazione
sia costituita dal risultato di n lanci. Indichiamo con x = (x 1, ... ,xn) l'os-
servazione, dove i numeri Xi possono assumere i valori O oppure 1, a seconda
che il lancio i-esimo abbia dato come risultato croce oppure testa. La densità
congiunta. di (0,x) è dunque

ovvero se scriviamo X1 + ... + Xn = nx


(6.5)

Calcoliamo la densità ( discreta. in questo ca.so) di X

g,,(:z:)= f(o + (3) r1oo+ni·-1(1 - 0)13+11-nx-l d()


~ r( a )f(,13) lo

La legge condizionale di () dato X = x è della forma

q.r(()) = g( (),X) = const. ()o+nx-1 (1 _ ())/3+n-nx-1


92(x)

ed è dunque (3(o+ ni, f3 + n - nx). Lo stimatore di Bayes 0 è la media di questa


densità e dunque (Esercizio 4.5)

0 = a+ nx
o+,B+n
Stimatori di Bayes 203

o 0 x 1
Figura 6.1 Confronto tra la distribuzione a priori (tratteggiata), che è /3(2, 2),
e quella a posteriori, /3(6, 3).

Se ad esempio avessimo scelto a = /3 = 2 e in 5 lanci avessimo ottenuto 4


teste, allora (nx = 4 in questo caso) la legge a posteriori sarebbe stata /3(6, 3)
e 0 = 1 = 0.66. La Figura 6.1 riporta i grafici della densità a priori, di quella a
posteriori ed i valori a confronto di x e 0. Da notare, anche graficamente, che
la legge a posteriori ha una varianza· minore di quella a priori e che 0 f. x. In
un certo senso il valore di 0 è stato ottenuto "correggendo" x per tenere conto
del fatto che il valore a priori pii1 probabile è 0 = ½.

L'Esempio 6.12 mette in evidenza un problema frequente nella stima da un


punto di vista bayesiano, che è la scelta di una ragionevole distribuzione a
priori. La scelta di /3(2, 2) in effetti non era certo l'unica.
Inoltre l'Esempio 6.12 mostra che se la legge a priori è Beta e l'osservazione
è un campione di Bernoulli, allora anche la distribuzione a posteriori è Beta
( anche se con parametri diversi). Abbiamo già incontrato un fenomeno simile
(legge a priori delle stessa famiglia della legge a posteriori) nell'Esempio 6.11
e lo ritroveremo negli esercizi.
Vediamo ora le proprietà degli stimatori di Bayes. Consideriamo per uno
stimatore T del parametro 0 la funzione

Rq(T) = L E11[(T- 0)2]q(0) d0

In un certo senso Rq(T) è il rischio quadratico di T pesato rispetto alla distri-


buzione a priori q.
204 Capitolo 6

Proposizione 6.13 Lo stimatore di Bayes jj è quello che rende minimo il


rischio Rq(T).
Dimostrazione. Se indichiamo con X l'osservazione, allora per uno stimatore
V(X) si ha

Rq(V(X)) =l E 8 [(V(X) - 0)2 ]q(O)dO = l J


q(O)dO (V(x) - 0)2 p 8 (x) dx

Poiché Pe(x)q(O) = g(O,x) = g2(x)ijx(B)

Rq(V(X)) = J
g2(x) dxl (V(x) - 0)2qx dO 2:

2: J
g2(x) dxl (B(x) - 0)2ijx(B)d(J=

= Rq(O(X))
dove abbiamo usato il fatto che 0 è il punto di minimo della funzione

e in particolare

per ogni valore V(x).

Può succedere che la media della distribuzione a posteriori sia una quantità
che non si trova in 0. In questo caso lo stimatore 0 va calcolato cercando il
valore O E 0 che rende minimo il rischio a posteriori Rx,
Una variante di questi metodi di stima è data dal cosiddetto MAP ( ma:i:imum
a posteriori likelihood), che consiste nello stimare (Jcon il valore di z E 0 che
rende massima la densità a posteriori

Z-+ ifx(z)

Il MAP è preferibile in alcune situazioni in cui il calcolo di 0 è intrattabile


e quando non sia naturale considerare l'insieme 0 come un sottoinsieme di
m..n. È in effetti un MA P lo stimatore che abbiamo implicitamente considerato
nell'Esercizio 1.10.
Test 205

6.5 Test

Un particolare problema di stima è quello in cui si vuole stabilire se la proba-


bilità incognita P 11goda di una certa proprietà oppure no: nell'Esempio 6.1 era
naturale chiedersi se la moneta era equilibrata o no, il che si esprime chieden-
dosi se () = ½oppure () =/-½-
In generale in un problema di test si è in presenza di una partizione
{0H,0A} di 0 e si vuole stabilire se() E 0H oppure no. Nel caso dell'Esempio
6.1 sarà 0H ={½}e 0A = [O,1] \ {½}.
L'insieme 0H viene chiamato l'ipotesi mentre 0A è l'alternativa. La regola
di decisione in questo caso è quindi una funzione T dell'osservazione a valori
nell'insieme contenente i due elementi {H, A} e che decide, in funzione dell'os-
servazione w, se () E 0 H oppure no. Poiché T ha due possibili valori, definirla
equivale ad assegnare l'insieme degli w nei quali essa prende il valore H (ovvero
ad assegnare il suo complementare, nel quale essa assumerà il valore A).
Dunque risolvere un test equivale a dare una partizione {D, Dc} di n dove
D = {w;T(w) = 0A} indica. la. regione di n che porta al rigetto dell'ipotesi H.
La regione D si chiama. regione critica del test (o di rigetto). Poiché saremo
spesso condotti a calcolare la probabilità. che w si trovi in D oppure in Dc
supporremo sempre che D E A.
In generale qualunque sia. la scelta della regione critica se l'ipotesi è vera vi
è una probabilità. positiva di osservare un w che sta in D e quindi di respingere
l'ipotesi che pure è vera ( quello che si chiama un errore di prima specie). Allo
stesso modo vi è una probabilità positiva. di accettare una ipotesi falsa ( errore
di seconda specie).
Si chiama livello del test di regione critica D la quantità

OD = sup P 11(D)
IIE0H

Poiché P 9 (D) è la probabilità che l'osservazione w sia in D (e quindi di rigettare


l'ipotesi) quando il vero parametro è 9, il livello OD è il sup delle probabilità
di commettere un errore di prima specie.
Si chiama invece potenza del test di regione critica D la funzione 1rD, definita
su 0A a valori in [O,l], data da 1r0 (8) = P 9 (D). Ricordando che l'errore di
secondo tipo non è altro che P 9 (Dc) = 1 - P 11(D) quando() varia in 0A, la
potenza è pari a 1 meno l'errore di secondo tipo.
Non è inopportuno sottolineare che il livello è un numero, mentre la potenza
è una funzione.
I due tipi di errore non hanno un ruolo simmetrico: un errore di prima specie
è sempre considerato molto più grave di uno di seconda.
206 Capitolo 6

Ad esempio, quando si controlla l'efficacia di un farmaco si fa l'ipotesi che


esso non sia efficace e si considera più grave attribuire a torto al farmaco delle
proprietà che esso non possiede piuttosto che il contrario.
L'approccio usuale è quindi il seguente: si fissa il livello a del test (tipica-
mente i valori sono o= 10%, 5%, 1%) e poi tra tutti i test di livello ~ a si
cerca quello più potente ( quello cioè la cui funzione di potenza è più grande).
Naturalmente non è detto che un test più potente di tutti esista, poiché dati,
due test D1 e D2, può succedere che sia 11'D1 (0) > 11'D2 (0) per alcuni valori di
() E 0 A e che accada il contrario per altri. In questo caso i due test non sono
confrontabili.

Esempio 6.14 La settimana successiva al suicidio di un famoso cantante in


una città si sono registrati !!suicidi, contro una media di 8. Si può dire che vi
sia stato un fenomeno d'imitazione?
Se consideriamo un modello in cui ogni cittadino ha una probabilità p di
commettere suicidio e supponiamo che il fatto che una persona. si suicidi non
influenzi il comportamento degli altri, il numero di suicidi X è una v.a. B(n,p),
dove n è il numero degli abitanti. Poiché è ragionevole supporre che p ( = la
probabilità che un singolo individuo commetta suicidio) sia molto piccola e n
molto grande, si può approssimare questa distribuzione con una legge di Poisson
di parametro À = np. Giungiamo dunque all'affermazione che in condizioni
normali la v.a. X "numero di suicidi" è di Poisson di parametro À = 8.
Dire che vi è stato un fenomeno d'imitazione significa dire che ora la v.a. X
segue una legge, sempre di Poisson, ma di parametro À diverso da 8. Usiamo
dunque come modello un campione ( di rango 1) di leggi di Poisson di parametro
0 E 0 =]0, +oo[.
In questo caso l'ipotesi è 0H =]O, 8] contro l'alternativa 0A =]8, +oo[. Un
modo ragionevole di affrontare questo test è di stabilire di respingere l'ipotesi
se il valore di X è troppo grande. Se fissiamo il livello al valore a = 5%,
sceglieremo come regione di rigetto D = {X 2: k} dove k deve essere tale che
P{X 2: k} ~ 0.05 se X è di Poisson di para.metro 8 (vedi anche l'Esercizio
2.li). Per questa legge, calcolando numericamente la funzione di ripartizione
otteniamo i valori
P{X 2: 11} = 0.1~
P{X 2: 1~} = o.o&ar
P{X 2: lf,c}= O.OJf,_
Dunque l'ipotesi non è respinta. Il valore U..non è sufficiente a stabilire il
manifestarsi di un fenomeno sociale rilevante. La. regione critica di questo test
al livello o= 0.0.5 è infatti D = {X 2: I.4}: se si fosse osservato un valore 2: 1~
il dato sarebbe stato significativo.
Stima e test. per campioni gaussiani 207

6.6 Stima e test per campioni gaussiani

In questo paragrafo risolveremo i problemi di stima e test per dei campioni di


legge normale.

Si chiama legge t di Student con n gradi libertà (e si scrive t( n)) la legge di


una v.a. Z della forma
X
Z= .jy,/n

dove X e Y sono v.a. indipendenti di legge rispettivamente N(O, 1) e x2 (n).


Non è difficile calcolare la densità di una v .a. di legge t( n ), ma. per i nostri
scopi basta conoscerne numericamente la funzione di ripartizione, e per questo
vi sono delle tavole. Uno sguardo a queste ultime mostra che i valori tabulati si
avvicinano per n grande a quelli corrispondenti della legge N(O, 1). In realtà si
può dimostrare (Esercizio 4.4) che se {Xn}n è una successione di v.a. tale che
X n ,..., t( n) allora X n converge in legge a.cluna v .a. N(O, 1). Ciò è suggerito anche
dalle figure nelle quali si vede che l'andamento della densità t(n) è anch'esso a
campana., anche se con una decrescenza. all'infinito più lenta.

-3 -2 -1 o 1 2 3

Figura 6.2 Confronto t.ra densità N(O, I) (tratteggiata.) e t(l).

La sola cosa importante da. segnalare è che una v.a. Z di Student è sim-
metrica, cioè Z e -Z hanno la. stessa distribuzione. Ciò deriva dal fatto che le
v.a. N(O, 1) sono simmetriche e dunque

-X X
-Z=-,/nrv-y'n=Z
.jy Jy
Si chiama quantile di ordine a, O< a< 1, di una v.a. X il più grande numero
-3 -2 -1 o 1 2 3

Figura 6.3 Confronto tra densità N(O, 1) (tratteggiata.) e t(9).

Qo, tale che

Se X è una v.a.. continua, allora. Fx è continua e per il teorema dei valori


intermedi l'equazione
Fx(x) = a
ha sicuramente soluzione per ogni O < a < 1. Se per di piì:i Fx è strettamente
crescente (il che succede ad esempio se X ha densità strettamente positiva)
allora. la soluzione è unica. In questo ca.so Qo, è dunque l'unico numero rea.le x
tale che
P{X~x}=a
Nel seguito indicheremo con
</>cx : il quantile di ordine a di una legge N(O, 1)
tcx(n) : " di una legge t(n)
x~(n) : " di una legge x2 (n)
Se Y"' N(O, 1) allora

= 1 - P{Y ~ </>1-cx}
P{Y ?::</>1-cx} =a
Ma per le proprietà di simmetria della legge normale si ha anche

- cx}= P {Y ?::</>1
P {Y ~ -</>1 - cx}= a
(e quindi -<Po=</>1-cx),
In particolare
Stima e test per campioni gaussiani 209

Poiché anche le leggi di Student sono simmetriche, se Z ,..,,t( n) allora con lo


stesso ragionamento si ha

P{Z ~ -t1- 0 (n)} =a


P{IZI ~ t1-a;2(n)} = a

In questo paragrafo supporremo che X 1 , ... , Xn sia un campione di leggi nor-


mali. Nel paragrafo 6.10 dimostreremo (Corollario 6.27) la seguente importante
proprietà dei campioni gaussiani. Posto

- 1 n
X= - ~ Xi
n!-
i=l
n
52 = _1_
n-lL...,
~(X; - X)2
i=l

allora si ha
Z = yn--X-µ ,..,,
N(O, 1)
(T

52
W = -cr2 (n - l) ,..,,x2 ( n - 1)

ed inoltre queste due v .a. sono indipendenti (quest'ultimo fatto in particolare


non è ovvio perché la quantità ..-Yinterviene nel calcolo di 5 2 ). Quindi la v.a.

è di Student t( n - l ). Ciò è importante perché per calcolare T non occorre


conoscere la varianza cr 2 , che in genere non è nota.

a) Stima della media.


Calcoliamo un intervallo di fiducia. di livello a per la mediaµ.

Primo caso: supponiamo dapprima. che X 1 , ... , Xn sia un campione di leggi


N(0,cr 2 ), dove cr 2 > O è fissata e conosciuta. Allora ,In
(T
(X - 0),..,, N(O, 1) e si
.
ha
1 - a= P (J{lvn
-;:-(.X-.- 0) I ~ <PI-a/2 } =

= P 11{ X - 5n<P1-a/2 '.S0 ~X+ 5n</>1-a/2}


210 Capitolo 6

Dunque [X - Jnc/Jt-o/2 ,.X+ Jnc/Jt-o;2 ] è un intervallo di fiducia al livello o.

Secondo caso: X 1 , ••• , X n sono un campione di leggi N (µ, a 2 ) dove µ e a 2 sono


entrambi da stimare. Le leggi del modello statistico sono quindi indicizzate
dal parametro 0 = (µ,a 2 ) E 0 = JR X IR+. Poiché T = vn(X;µ) ha legge
t( n - 1) qualunque siano µ e a 2 , si ha

{ITI ~ t1-0;2(n -1)}


1- o= P 11 = P 11{J fo,(~ - µ) J ~ f1-0;2(n- 1)} =

= P (J{X- - s,çt1-o:;2(n -1) ~/I~


-
X+ s,çtl-o/2(n -1) }
yn yn

che è come che affermare che [,Y- }nt 1_ 0 ;2(n - l),..,Y + }nt1-a;2(n - 1)] è
un intervallo di fiducia perµ di livello o.
È bene però osservare che di intervalli di fiducia per un parametro ve n'è
più d'uno. Il calcolo di poco fa permette di verificare che anche

[X -
- sr,;/t-o/4(n -1),X
- + s,çtl-3o/4(n -1)]
yn yR

oppure
] - oo,X
- + fo,t1-a(n
s - 1)]

fìono intervalli di fiducia di livello a per jl.


È lana.tura del problema a determinare la scelta dcli' intervallo. Ad esempio
se si vuole commettere il minimo errore possibile nella stima di µ si sceglierà
l'intervallo "simmetrico" [X - }ntt-a; 2 (n - 1),X + }nti-a; 2 (n -1)], mentre
se occorre soprattutto controllare che p non prenda va.lori troppo grandi, allora
si preferirà l'intervallo "unilatero"] - oo,X + }ntt-a(n - 1)].
Queste osservazioni valgono anche per il problema di stima quando a 2 è
nota e per quelli che descriveremo ora..

b) Stima della varianza a 2 • Se la media /l non è nota, allora. per il


Corolla.rio 6.27

Dunque

1 - o= pB { n - 1 52 > .,.,,2(n - 1)} = pB {a2 < (n - 1)S2 }


a2 - ,\.e, - x~(n - 1)
Stima e test per campioni gaussiani 211

e quindi
n- 1 2
[O,x~(n - l)S]
è un intervallo di fiducia di livello a per a 2 • Se invece la media è nota, si può
usare lo stimatore

-2
ed è chiaro che n~
(T
"'x 2 (n); con considerazioni simili alle precedenti si vede
che [O,~]
X;;.\nJ
è un intervallo di fiducia di livello o:.

I risultati di questo paragrafo si· applicano ai campioni gaussiani, ma una più


attenta applicazione del Teorema Limite Centrale permetterebbe di mostrare
che essi si applicano app-rossimativamente a campioni aventi legge non neces-
sariamente normale, a condizione che la cardinalità n sia abbastanza grande.
Per valutare quanto debba essere grande n si possono ripetere le considerazioni
del paragrafo 4.4.

Esempio 6.15 Un dado, di cui si ignora se sia equilibrato o no, viene lanciato
100 volte, ottenendo 13 volte 6. Indicando con 0 la probabilità di ottenere 6 in
un singolo lancio, cerchiamo un intervallo di fiducia per 0.
Considereremo come modello statistico un campione X 1 , ..• , X100 di legge
di Bernoulli di rango n = 100. Poiché in questo caso 13 osservazioni hanno
assunto il valore 1 e 87 il valore O

x = 0.13
s :~::)xi
2 -
= 919
100

i=l
x) 2 = 919 [13 (1 - 0.13) 2 + 87. 0.13 2 ] = 0.114

e quindi, con l'aiuto delle tavole l'intervallo di fiducia al 5% è

- s
[X - y'nto.975(99),X
- + y'nto,975(99)]
s = [0.062,0.197]

Naturalmente avremmo anche potuto usare il metodo dell'Esempio 6.5. Par-


tendo dalla relazione

P{IX - 012::8} ~ 2<I>


(- 8 Jioo)
JB(l - 0)
212 Capitolo 6

e maggiorando 8(1 - 8) con ¼,6 deve essere soluzione di 2cl>(-20b) = 0.0.5.


Ricordan d o ch e <Po.975= 1.96, d eve essere u~ = 1.96 = 0.098, ch e d'a un
20
intervallo di fid uda

[0.13 - 0.098, 0.13 + 0.098] = [0.032, 0.228]


In questo caso il metodo dell'Esempio 6.5 dà un risultato peggiore (l'intervallo
è più grande) perché la maggiorazione di 8( 1-9) con ¼risulta molto grossolana
(S 2 = 0.114 è un valore molto più piccolo di 0.25).

Vediamo ora dei problemi di test per campioni gaussiani.


Consideriamo il test dell'ipotesi
H : µ ~ µo contro A : µ > µo
e cerchia.mane una regione critica. di livello a. Poniamo T -Jn(X -µo) Se
s
µ. < · 11e' --r
_ µ.o, po1c µ-µo _< O, s1· h a.

pii{T > t1-c,(n -1)}= pii{vn(~ - /L) + vn(1~- /Lo)> t1-c,(n -1)}~
~ P 11{ vn(~ - ,,.) > f1-c,(n - 1)}=
= O'
perché ,In(.}-µ) ha legge t( n - 1) rispetto a P 11, dove 8 (µ, a 2 ). Cioè se
l'ipotesi è soddisfatta l'evento

D -_ {w,. T > t1-c,(n - 1)} -_ { w,. vn(X S - µo) > t1-c,(n - 1) }

ha. probabilità minore di a (in questo caso 0 H è l'insieme dei para.metri 8 =


(p, a 2 ) con µ ~ JLo).In conclusione

per ogni 8 E 0 H ovvero


sup P 9 (D) ~ a
IIE0H

L'evento D = {X >/Lo+ }nt1-cr(n '- 1)} è quindi una. regione critica. di livello
a per il test considerato.
Questo si chiama. il test di Stndent. In pratica. la. sua. effettuazione è molto
semplice: si calcola T a. partire dall'osservazione; se il valore ottenuto è maggiore
Stima e test per campioni gaussiani 213

di t1_ 0 (n - 1) l'ipotesi è respinta.


Intuitivamente l'idea è la seguente: se l'ipotesi è soddisfatta allora l'evento
D ha probabilità pii1 piccola di o di verificarsi. Se invece µ > µ 0 allora

T = .fii,(X - µ) + .fii,(µ - µo) = T + J'.


5 5 1 2

In questa decomposizione la v .a. T 1 ha legge t( n - 1), mentre il termine T2, che


è positivo, tenderà ad assumere valori grandi quanto più n è grande e quanto
più lo scartoµ - /Lo è sensibile. Dunque la probabilità che T sia> t1-o(n - 1)
(e dunque l'ipotesi venga respinta) sarà tanto più grande quanto piùµ. - µo e
n sono grandi ( e c,2 , di cui 5 2 è uno stimatore, è piccola.).

Test H : µ=/lo contro A : µ f:.µo.


Sempre usando il fatto che, sotto l'ipotesi, la v.a. jn(X-;/ 0) segue una legge
t(n - 1), l'evento

De 5
= {--); E [po - y'nt1-o;2(n - 1),/to 5
+ y'nt1- 0 ;2(n - 1)]}

ha probabilità 1 - a. Quindi D = {IX - Poi > }it 1_ 0 ;2(n - 1)} è la regione


critica di un test di livello o.

Test H: c,2 s; c,5contro A: c,2 > c,5.


Poiché
52
( n - 1) -----:,
,....,x· (n - 1
? . )

c,-

se l'ipotesi è vera

o= pB{(n - 1)5: > Xi-o(n


a-
-1)}= pB{52 > Xi-o(n - l)c,2} 2:
n- 1
2: pli{52 > Xi-o(n - l)c,5}
n-1

Dunque il test di regione critica. D = {5 2 > Xi- !:~l)o-5} è di livello o.


0

Questo è il test di Fi.scher-5nedecor.


214 Capitolo 6

Esempio 6.16 Per un campione gaussiano di rango n 30 si ottengono i


valori
x = 1.98
52 = 9.06
Cosa si può dire del test H : µ ::; µ 0 = 1 contro
A : µ > 1?
Al livello a= 0.05 si ha to.9s(29) = 1.67 ma

T = vnX - µ0 = V301.98 - 1 = 1. 78
5 y9.06
L'ipotesi è dunque respinta al livello 0.0.5 perché il valore di Tè più grande di
1.67. Da notare però che al livello a= 0.01 il test non avrebbe respinto l'ipotesi
perché to_99(29) = 2.46.
Cerchiamo ora invece di valutare la potenza del test. Più precisamente (la
potenza è una funzione ... ) si tratta di calcolare la probabilità che il test porti
al rigetto dell'ipotesi al variare di /L > 1 e a 2 > O. La. potenza vale

y-
1r(µ, a2) = p,,. v'nT
2
11 {
1
> 1.67}

Questa proba.bili tà si può calcolare usando il fatto che se /l i- 1 la v .a.

r.:- x
T =vn-- -1
5
segue una legge di probabilità ( legge di 5tudent decentrata) per la quale esistono
delle tavole. Vedremo ora un altro ragionamento che, se non è del tutto corretto,
dà però un 'idea dei valori. Supponiamo che il valore di 5 2 sia il vero valore della
varianza a 2 (invece di esserne solo uno stimatore) allora

X-1 X-1t Jt-1 µ-1


T = y'n -S- = y'n -5- + y'n -5- = Ti + y'n -5-
Con l'approssimazione che abbia.mo fatto, la v.a. T 1 segue una legge N(0, 1)
quando la media è /L. Dunque la potenza. vale

1r(p, a 2 ) ../n(/t
= pµ,a 2{T > 1.67} = pµ,a 2{T1 > 1.67 - S - 1)} =
= 1- <1>(1.67-
../n(Il -
S 1))

(<I>è la f.r. di una v.a. N(0, 1)).


Il test del x2 215

È chiaro che se µ è molto vicino a 1 la potenza tende ad assumere valori


vicini al livello a = 0.05 (molto bassa quindi). Se fosseµ = 2 avremmo invece

r;;;;. µ - 1
1.67 - V JU--
s = -0.15
e, poiché <f>(-0.15) = 0.4405, la potenza perµ= 2 varrebbe 55.05%.
Quindi, se il valore della media fosse statoµ = 2, il test non avrebbe portato
al rigetto dell'ipotesi con una probabilità del 44.05%.

Il calcolo della potenza di un test è importante quando si deve pianificare un


esperimento. Se nell'esempio precedente X 1 , ... , X30 fossero stati il risultato
di un esperimento il cui scopo era di respingere l'ipotesi e vi era motivo di
supporre inizialmente che il valore di /t fosse 2, allora forse sarebbe stato
consigliabile soprassedere piuttosto che procedere a un esperimento che con
probabilità elevata (44.05%) sarebbe risultato inutile. O, anzi, sarebbe stato
meglio fare l'esperimento aumentando il valore di n. Ad esempio la stima di
poco fa per n = 60 avrebbe portato ad un valore della potenza per /l = 2 pari
a 81.7%.

6. 7 Il test del x2

Nel paragrafo precedente abbiamo usato un 'idea comune a molti test statistici:
si cerca una funzione T dell'osservazione che segua una legge nota se l'ipotesi
è vera, ma che tenda ad assumere valori molto grandi (o molto piccoli), se
l'ipotesi è falsa. Vedremo ora un altro esempio di applicazione di questa idea.
Supponiamo che l'osservazione sia costituita da una sequenza X1, ... ,Xn
di v.a. indipendenti equidistribuite e a valori in un insieme finito composto
da m elementi, che supporremo essere {l, ... , m}. Poniamo Pi = P{X1 = i},
i = 1, ... , m. La legge delle v.a. Xi è dunque determinata dal vettore 0 =
(P1, ... , Pm), al variare di B tra tutti i vettori B = (P1, ... , Pm) le cui componenti
Pi sono ~ O e tali che PI + ... + Pm = 1.
Per un fissato Bo = (p1, ... , Pm) vogliamo, a partire dall'osservazione, stabi-
lire se B = 00 oppure no. Supponiamo che tutte le componenti Pi di Bo siano
strettamente positive e poniamo, per i= 1, ... m,

-(n) _ NJn)
P·i --- n

Nt) è il numero di volte che si osserva il risultato i e quindi ì:~ 1 Nt) = n


216 Capitolo 6

mentre I:~ 1 p~n)= 1. Chiameremo frequenze empiriche le quantità p;. Nel


seguito ometteremo il sopra.indice (n) e scriveremo N;, p; per semplicità. Con-
sideriamo per ogni n la v .a.

T n -- ~
~
_1 (N· -
1
·)2 -
np 1 - n
~
~
(p; - p;)2
i=l np; i=l Pi

Teorema 6.17 (Pearson) Supponiamo che le v.a. X1, X2, ... , Xn, ... siano
=
indipendenti e di legge Oo (PI,···,Pm)- Allora per n--+ oo Tn converge in
legge verso una v.a. x2 (m - 1).

Dunque, se l'ipotesi è vera e n abbastanza grande, l'evento

D = {Tn > Xi-o(m. - 1)}

ha probabilità approssimativamente pari ad a. Nella terminologia del paragrafo


6 ..5 dunque D è la regione critica di un test di livello a. Questo test è il
cosiddetto test del x2 ( oppure di Pearson). In genere vi è accordo sul fatto
che perché si possa supporre che Tn ::::=x2 ( m - 1) occorre che n sia ab ba.stanza
grande perché sia np; ~ 5 per ogni i = l, ... , m.

Esempio 6.18 Un dado viene lanciato 2000 volte con i seguenti risulta.ti

1: 388 2: 322 3: 314 4: 316 5: 344 6: 316

Si può pensare che il dado sia equilibrato?


Effettivamente il risultato 1 è apparso un numero di volte superiore agli
altri: le frequenze empiriche sono

ii1 = 0.194 th = 0.161 fJ3= 0.157 fJ4= 0.1.58 fJs = 0.172 P6= 0.1.58
contro una frequenza teorica p 1 = ... = p6 = } = 0.167. Per concludere che
il dado non è equilibrato occorre dunque effettuare un test dell'ipotesi 0 = 00 ,
d ove 00 -- ( 61 , ... , 6I ) contro l' a1ternat1va
. 0 _J_
r 00 • I n questo ca.so np; -- -2000
6- e'
largamente maggiore di .5 e possiamo supporre Tn ""'x2 (m.- 1). TI calcolo dà

Tn = 2000 X L (Pi- 61 )
6 2
X 6 = 12.6
i=l

Uno sguardo alle tavole mostra che Xfi.95 (.5) = 11.07. Il test di Pea.rson al livello
5% dunque respinge l'ipotesi che il dado sia. equilibrato (l'ipotesi non sarebbe
Un esempio di analisi statistica 217

però stata. respinta ad un livello più basso).


I dati di questo esempio sono sta.ti simula.ti con delle distribuzioni teoriche
P1 = 0.2, P2 = ... = P6 = 0.16.

Osserviamo che questo test segue l'idea esposta all'inizio di questo para.grafo:
se l'ipotesi è vera Tn ha un a legge nota.; altrimenti se fosse 0 = (q1, ... , Qm) -=/-
(p1, ... , Pm) si avrebbe Pi -=/-Qi per qualche indice i e dunque

f(
i=l
qi - Pi)2
Pi
=A > O

Poiché per la legge dei grandi numeri fi~n) - q;, per n--. oo avremmo

~ (ji; - JJ;) 2 ~ (qi - Pi) 2


Tn = n L...t---- =::::::n L...t---- = nA
i=l Pi i=l Pi
e dunque T 11 tende ad assumere valori grandi.

6.8 Un esempio di analisi statistica

In un campione di 200 famii?;lie di 4 figli si osserva. il numero di figli maschi. Il


risultato è
1, Ni
o 26
( 6.6) 1 49
2 5-1
3 45
4 26
Se supponiamo che i sessi dei figli in una data famiglia siano tra loro indi-
pendenti e che ogni figlio sia maschio o femmina con probabilità. ½,è chiaro
che il numero di figli maschi in una. fa.miglia con 11 bambini segue una legge
B(4,0 ..5); dunque la probabilità di osservare in una famiglia ·i figli maschi sa-
rebbe Pi = (1)2-4 , ovvero numericamente

JJi JJ;
o 0.062.S 0.130
1 0.25 0.2-15
2 0.37,5 0.2,0
3 0.25 0.225
4 0.062.S 0.130
218 Capitolo 6

Nel quadro precedente le probabilità teoriche Pi sono confrontate con quelle


empiriche Pi, ottenute dividendo per 200 i valori Ni degli effettivi riportati in
( 6.6); si nota una certa discrepanza tra i valori.
In questo caso comunque si può applicare il test del x2 del paragrafo pre-
cedente per controllare se le frequenze empiriche provengono effettivamente
da una distribuzione B( 4, 0.5): infatti il più piccolo dei valori Pi è 0.0625 che
moltiplicato per 200 dà un valore pii, grande di 5. Per il t_eorema di Pearson
possiamo dunque assumere che la quantità

= 200 L
4 (- )2
X Pi - Pi
i=O Pi

segua. una. legge \: 2 (4) (in questo caso m = 5). Il calcolo numerico dà X = 3.5.56,
che è un valore nettamente più grande del quantile x5_ 95 ( 4) = 9.48. Viene quindi
respinta. l'ipotesi che i da.ti osserva.ti provenga.no da. una. distribuzione 8(4, 0.5)
e dunque la modellizzazione proposta. non è soddisfacente.
L'ipotesi inizia.le si potrebbP modificare supponendo che i sessi nelle nascite
successive siano sempre delle v.a.. indipendenti, ma. con parametro p diverso
da½- Se però confrontiamo i valori ]Ji e p; (Figura 6.4) le frequenze empiriche
appaiono piì1 grandi di quelle teoriche per valori estremi e più piccole nei valori
centrali.

o 1 2 3 4
Figura 6.4 Le sbarre piene indicano i valori teorici Pi, le altre quelli empirici
Pi·

Abbiamo visto pnò nel Capitolo 2 che facendo crescere il valore di p in


una legge binomia.le B( n, p) il valore della. dPnsità per valori piccoli di k tende
a diminuire e questo non farebbe che aumentare la discrepanza tra i valori
teorici e quelli empirici per i= O. Analogamente se considerassimo un valore di
p minore di ¾ aumenterebbe la disrrepanza per i = 4. È dunque improbabile
eh<' si otteng~no dei va.lori di X pii, bassi con un semplice aggiustamento del
valore di p.
Il semplice modello considerato finora. si rivela dunque insufficiente e bisogna
Un esempio di analisi stat.istica 219

cercare un modello più complesso.


Un 'idea naturale potrebbe essere di supporre che per ogni famiglia i sessi
dei figli successivi siano delle variabili indipendenti, ma che la probabilità di
osservare un figlio maschio sia t, dove t varia da una famiglia all'altra e la
probabilità di osservare in una famiglia un dato valore di t segua una legge di
densità f. In altre parole supponiamo che la legge della v.a. Y "numero di figli
maschi" segua una. legge B( 4, T) dove Tè una. v.a.. di densità f.
Vediamo quale sarebbe la legge di Y se T seguisse una legge Beta /3(a, /3).
La legge di Y dato T = t sarebbe binomiale di parametri 4 e t e dunque per
k = o,... ,4

p; = P{Y =i}= f(o + ;'.3)('~)


f(n)f(,8) 1
/1ta-1(1
lo
- t)f3-lti(l - t)4-i dt =

( G.7) = f(a+ (·I)lo


f( n)f(/3)
/3)
i
/1 ta+i-1(1 - t)f3+4-i-1 dt =
= f(a, + /3) f(n + i)f(/3 + 4 - i) (4)
f(n)f(;'.3) f(n+/3+4) i

Questa espressione naturalmente si può semplificare usando le proprietà della


funzione r. Numericanwnte, se a.cl esempio n = 3, f3 = 3, si otterrebbero i
valori
p; ]Ji

o 5
4'.l =0.119 0.130
5 0.24,5
1 '.li =0.238
(G.8)
2 1 =0.285 0.270
i
5
3 21 =0.238 0.225
4 ...:2..=0.119 0.130
42

Vi è ora un migliore accordo con le frequenze empiriche ed infatti il valore di


X è ora 0.76, pN cui l'ipotesi che le osservazioni segua.no una legge teorica con
i valori dati da (6.7) per o= 3, /3= 3 non può essere respinta.
In questo esempio abbiamo cercato di dare un'idea di come si svolge concre-
tamente una. analisi statistica di dati. Si comincia col fare un 'ipotesi semplice;
se un test mostra che l'ipotesi non è corretta si cerca di spiega.re i dati for-
mulando altre ipotesi. Nell'analisi esplorativa dei dati un grande aiuto viene
dai metodi grafici (istogrammi ... ), che possono suggerire spiegazioni delle
anomalie osservate e indirizzare l'indagine.
Il lettore attento avrà notato nella soluzione che abbiamo fornito degli
220 Capitolo 6

aspetti un po' artificiosi, soprattutto la scelta dei valori a = (3 = 3 non è


stata in alcun modo motivata. In effetti avremmo dovuto prima cercare quali
sono i valori ll'o e (30 "più plausibili", calcolando magari l'estimatore di mas-
sima verosimiglianza per O' e /3e poi fare il test x2 per vedere se le osservazioni
seguivano una legge con i valori Pi dati da ( 6. 7) per i valori di ao e f3ostima.ti.
Questa procedura è corretta, anche se il teorema di Pearson va modificato
quando si confrontano le distribuzioni empiriche con delle distribuzioni teoriche
che sono a loro volta stimate a partire dalle osservazioni.
Tralasciamo questa trattazione, che porta a calcoli più complessi, anche
perché il teorema di Pearson nel caso di confronto con una distribuzione stimata
va aldilà del livello di questo testo ( anche se ha certo una grande importanza
applicativa).

6.9 Regressione lineare

Un problema statistico molto frequente è quello in cui si considera una variabile


y che è funzione di alt re variabili x1, ... , :rk pii, una perturbazione aleatoria..
Ad esempio se si vuole studiare l'assorbimento di una sostanza chimica da
parte di una pianta, si considererà che la quantità assorbita y sia una funzione,
che per semplicità si suppone affine, della concentrazione :i· della sostanza. nel
terreno pii1 un effetto casuale cl1e tenà conto della diversa ricettività. delle
singole piant0, di una diversa ripartizione nel terreno della sostanza etc. Si
suppone cioè che sia
Y = f]o+ /31 ,T + W

dove (30 e (31 sono quantità da determinare. A questo scopo si può procedere
facendo vari esperimenti con delle concentrazioni x 1 , ••• , :z:nche condurranno
a delle quantità assorbite misurate Y1, ... , Yni vedremo ora come da queste
osservazioni si possono stimare f3o e fJ1.

In generale in 1111problcma di regressione lineare si è in presenza di osservazioni


Y1, :z:1,... , Yn, Xn e si fa l'ipotesi che esse siano legate dalla relazione

( 6.9)

dove w 1 , ••. , Wn sono v.a. indipendenti N(O, <T2 ) e a 2 è una quantità incognita
ma indipendente da -i. La variabile y si chiama anche variabile dipendente
mentre la x è detta il predittore. Questo modello dipende dunque dai parametri
incogniti /3o,/31,a 2 • In questo paragrafo studieremo i problemi di stima e di test
per questi parametri mentre piì1 in là vedremo come si tratta. il caso in cui vi
Regressione lineare 221

sia più di un predittore ( cioè la regressione multipla).


Il problema pii:1delicato nell'applicazione concreta dei modelli di regressione
sta però nel fatto che non è detto che il modello sia adeguato al problema.
Ciò può accadere per vari motivi. Innanzitutto può succedere che la varia.bile
dipendente sia in realtà una funzione più complessa del predittore e dell'errore.
Oppure che non sia corretta l'ipotesi che la varianza cr2 dell'errore sia la stessa
per tutte le osservazioni. Occorre quindi sviluppare dei metodi per verificare
se il modello è corretto e per correggerlo se non lo è. Questo sarà l'oggetto
dell'ultimo para.grafo.

Per determinare uno stimatore di {30 e /31 si può ragionare nel modo seguente:
se immaginiamo i punti (:z: 1 , y 1), ... , (.1:n,Yn) sul piano, cerchiamo la retta di
equazione y = /30 + /31:r tale che la distanza della. retta dai punti sia minima ..
Cerchiamo cioè i valori di /3o,/31 pN rni la quantità
n
S .!31)= L)Yi- f3o -
= SLrJo, f31x;)2
i=1

sia m1111ma.Si tratta di un normale prohlema di minimo di una funzione di


due varia.bili che si studia., al solito, cercando i valori che annullano le deriva.te
parziali. In questo caso si tratta. di risolvere
ùS "
- = -2 L(Yi - J3o- /31,1:;)= O
a/3o i=l
(6.10)
aS
a=
/31
-2 z::
i=l
n
.1·;(y; - 130- 131:i:;)= o

Se indichiamo con b0 , b1 le soluzioni, dalla prima delle (6.10) si ricava facilmente

che sostituita nella seconda permette di ottenere

b _ L:1=1
U1i- fi):r;
1 - '°'n
~i=l
( -)
:i:; :i:; - X

Talvolta sui testi si trova una cliversa, ma equivalente, espressione per b1 , poiché
è facile verificare che
n n n

(6.11) n n
z=
i=l
.r;(.r,; - x) = z:=(.-r; -
i=l
x) 2
222 Capitolo 6

Per semplificare le notazioni indicher<'mo con axy la quantità nella prima delle
(6.11) e con a;. quella nella seconda. In conclusione gli stimatori bo e b1 di f3o
e /31 rispettivamente sono dati da
b - CTxy
1 -
(6.12) a-x•)

Abbiamo preferito indicare con b0 , b1 i valori stimati, per distinguerli dai veri
valori (30 , /31 dei parametri. Vediamo ora. alcune proprietà di questi stima.tori.
Iniziamo mostrando che sono non distorti. Nei calcoli che seguono è bene non
dimenticare che le rptantità x 1 , .•. , :i:n sono detnministiche, mentre i valori
della variabile dipendente sono casuali, poiché dipendono dall'errore w tramite
(6.9). Poiché s11pponiarno che le w; ahhiano tutte media O si ha

E[y;] = ,13o+ /31.T;


1 n
E[y] = - L E[y;]= f3o+ /31x
n i=1
Dunque
E[b ] = L7=1 (.r; - x)E[y; - y] =
1 ~n (- --)?
L....i=l Xi - ;i; •

I:7=dxi - i)(/30 + /31xi- f3o - f31i)


~n (
L....i=l Xi -
-)?
.T •

- 3 I:7=1(.1:; - i)2
- / 1 ~n ( -)·)
L....i=l :z:;- .T •

= /31
Anche b0 è non distorto:

E[bo]= E[y]- xE[b1]= /Jo+ /31.i:- /31,i:= /3o


Semplice è anche il calcolo delle varianze degli stima.tori ( e quindi del loro
rischio quadratico): se poniamo per semplicità
:i:; -i
'l'i = Li=l(:r;
n - ·)
- x)-

allora per le proprietà. della varianza e ricordando che Var( Yi) = a 2

(6.13)
Regressione lineare 223

mentre per la formula della varianza di una somma

(6.14) Var(b 0 ) = Var(y) + x2 Var(bi) - 2x Cov(y, b1 ) x2 )


= a 2 ( -n1 +---:,
a;

Infatti Var(y) = o-n mentre


2
y e b1 sono non correlate poiché
n n
Cov(y, b1) = L ViCov(y, Yi - y) = L Vi( Cov(yi, y) - Cov(y, y)) =
i=l i=l
(6.15)
= LV;(a2
n
---
n
a2)=0
n
i=l

Nel derivare queste proprietà in realtà non ci siamo ancora serviti dell'ipotesi
che le v.a. w; che figura.no in (6.9) sia.no gaussiane. Se teniamo conto anche di
questa ipotesi, le v.a. Yi risulta.no anch'esse gaussiane e indipendenti, e dunque
la loro legge congiunta. è normale. Poiché gli stima.tori b0 e b1 sono funzioni
affini delle Yi, anch'essi hanno legge normale. In conclusione

bo ,_.,N ( f3o.cr? ( -1 + 2x2 ))


n ax

Per completare i problemi di stima e determinare degli intervalli di fiducia per


(30 e (31 dobbiamo stima.re a 2 • Si chiamano valori stimati le quantità.

e residui le quantità.
ri = Y; - fÌi
Poniamo infine
1 n
s2 =n- 2 L rf
i=l

Vedremo nel paragrafo dedicato alla. regressione multipla che

s:( n--2)
')

(6.16) X := 11 - 2) ,.., x2 (
a-

ed inoltre che s 2 è indipendente da b0 e b1 • Ricordando che la media di una


224 Capitolo 6

v.a. x2 (n - 2) vale appunto n - 2, s 2 è dunque uno stimatore non distorto di


cr2 • Inoltre per la defì nizione delle leggi di Student, poiché

Z := bo - f3o "'N(O, 1)
Jvar(b 0)

allora

(6.17)

Allo stesso modo si vede che


b1 - /31 r.::
(6.18) T1 := ---crxvn "'t(n - 2)
s

Da. quC'sti fatti si possono calcolarE' degli intervalli di fiducia. o effettuare dei
test riguardanti /3oe /31.
Ripetendo i ragionamenti del paragrafo 6.6 si ha

[bo- sJ¾+~t1-er;2(n - 2),bo + sJ¾+~t1-er;2(11 - 2)]


[b1 - s ,çt1-o;2(n
CTxyn
- 2),b1 + CTxy8 ~t1-a;2(n
n
- 2)]

sono intervalli di fiducia di livello o rispettivamente per /30 e /31.


Come esempio di test possiamo considC'rare il test dell'ipotesi
Jf: /31= O contro A: /31i: O
Si fa cioè l'ipotesi che la variabile dipendente non dipenda dal predittore.
Sempre con le stesse idee del paragrafo 6.7 e grazie a (6.18) è facile vedere che

è una regione critica di livello a per il test considerato.

I residui godono delle proprietà

i=l
(6.19) n
L 1"i'!Ji= o
i=l
Regressione lineare 225

La prima delle (6.19) segue dalla definizione dei residui e dalla prima delle
(6.10). Per la seconda basta osservare che
n n n
L Ti'!Ji = bo L ri + b1 L 1'iXi
i=l i=l i=l

e abbiamo appena visto che la prima somma a destra è nulla, mentre la seconda
è= O per la seconda. delle (6.10).
Dalla prima delle (6.19) si ricava

(6.20)

Una quantità che è spesso utile considc>rare è

R2 = "'n
L.,i=l
(Yi• - Y-)·>
~
"'n
L.,i=l(y; -
--?
y)~
Poiché

L(Yi- y) = L ((y; - iÌi) + (iJ; - y)r=


n n ?

2
i=l i=l
n n n

i=l i=l i=l


n n n

i=l i=l i=l


'--v-'
~o =0
n
~ L(Yi - y)2
i=l

è chiaro che O s; R 2 s; 1. La quantità R 2 è la proporzione di variazione di y


che viene spiegata dal modello. Essa è uno degli indici che conviene conside-
rare quando si vuole valutare la bontà del modello o la. sua correttezza.. Valori
di R 2 vicini a 1 naturalmente indica.no un buon modello. Valori piccoli di R 2
possono essere spiegati da. elevati va.lori di a 2 oppure suggeriscono che il mo-
dello non spieghi completamente il comporta.mento della variabile dipendente.
Torneremo su questi punti nell'ultimo para.grafo, dove vedremo che altre consi-
derazioni, anche più importanti del valore di R 2 , intervengono nella va.lutazione
dei modelli di regressione lineare.
226 Capitolo 6

Osservazione 6.19 Anche il modello di regressione lineare è un esempio di


modello statistico, come descritto dalla Definizione 6.2. Esso è parametrizzato
dal parametro 0 = (f30 ,(31 ,a 2 ) E IR.2 x JR+.
Inoltre, se consideriamo i vettori y = (Yt,···,Yn) ex= (x1, ... ,xn), dei
quali i valori della variabile dipendente e del predittore rispettivamente sono le
componenti, nelle ipotesi fatte all'inizio di questo paragrafo è chiaro che rispetto
a P 9 il vettore y segue una legge normale multivariata N(/30 +f31 x,cr 2 I) (I è la
matrice identità e dunque a 2 I è la matrice di tutti zeri tranne il valore a 2 sulla
diagonale). Da. notare che, a differenza. dei paragrafi precedenti, abbiamo finora
scritto, e continueremo a scrivere, P invece di P 11 per motivi di semplicità.

Osservazione 6.20 Abbia.mo determinato i due stima.tori b0 e b1 di {30 e /31


rispettivament(' risolvendo il probl('ma. di minimo di (6.10). Poiché il modello
statistico della. regressione lineare è parametrizzato da. 0 = ({30 , {31 , a 2 ) e co-
nosciamo per ogni valore di 0 la <knsità dell'osservazione y, possiamo pensare
di calcolare lo stimatore di massima verosimiglianza. Cioè di detNminare il
valore di 0 = (/30, /31 , a 2 ) per cui la quantità

è massima.. L'equazione di VProsimiglianza. è

{) l n
éJf3ilog f11(Y) = 2a 2 ~ :i.·;(Yi - f3o - f31x;) = O
1=1

{) n IY- f3o - /31xl


2
>I •) log !ti(y) = - -2 ·> + 2a 4 = Q
ua- a-
Le prime due equazioni, a meno di una costante moltiplicativa., sono identiche
alle (6.10) e dunque hanno per soluzione i valori b0 e b1 che abbia.mo già
calcolato. Essi sono dunque anche gli stimatori di massima. verosimiglianza di
f3o e (31 . L'ultima. equazione invece è soddisfatta. per a 2 ugual(' a

~he è un valore diverso da .s2 • In particolare lo stimatore di massima verosi-


miglianza. di a 2 non è non distorto, anche se asintoticamente, per n ----+ oo, il
Regressione li1H'are 22i

suo comportamento è simile a quello di s 2 •


Gli stimatori b0 e b1 calcolati tramite la (6.10) si chiamano anche gli stimatori
dei minimi quadrati, poiché vengono ottenuti cercando il punto di minimo di
una somma di quadra.ti. Abbiamo visto che questi stimatori sono comunque non
distorti e che, se le perturbazioni sono gaussiane, coincidono con gli stimatori
di massima verosimiglianza.

Nella pratica i calcoli relativi ai problemi di regressione si effettuano con appo-


siti programmi che calcolano automaticamente le quantità d'interesse. Vediamo
una tipica risposta di uno di essi, relativa a.i dati seguenti:

X y X y
1 6.9081 6.98:1G 9 111.9.512 1..J.2328
2 7.8,157 4.Gì:27 10 16.7334 19 ..5923
3 8.9108 7.32:12 11 16 ..5,196 17.:J,62
4 10A873 8.11019 12 18.-1-1..J2 12.1657
5 10.1862 l 2.:Fl31 13 19.1214 20.0.5.53
6 11.5097 9.3290 1-1 20.6789 16.1889
7 13.2755 10.0553 15 21.0701 19.0677
8 14.G3•19 16.0239 16 21.6860 11.8632

In quPsto caso il display dell'ipotetico calcolatore sarebbe

L'equazione di regressione è
y = 1.72 + 0.765 X

Predittore Coef DevSt t p


bO 1. 717 2.593 0.66 0.519
b1 0.765 0.169 4.52 0.000

s = 3.203 R-quadr = 59.3'/.

La sPconda. riga riporta l'equazione della retta di regressione e quindi anche


i valori di bo e b1 (1.72 e 0.76.5 rispPttivamente). Nell'ultima riga si trovano i
valori di s ( cioè la radice quadrata di quPllo che indichiamo con s 2 ) e di R 2 •
Nel sPcondo gruppo di li11ee, invece, di ogni stimatore viene di nuovo ri-
portato il valore mentre nella seconda colonna ne viene data la deviazione
standard ( cioè la radice quadrata della varianza., calcolata tramite le (6.13) e
(6.U), sostituendo al valore sconosciuto cr2 la sua stima .s2 ).
La terza colonna contiene il calcolo dell<>quantità che indicavamo con T0 e
T 1 in (6.17) e (6.18) ma supponendo /30 = /31 =O.Nell'ultima colonna infiue
228 Capitolo G

sono riportate le probabilità P{lt(14)1 2: T 0 } e P{lt(14)1 2: Ti}. Queste sono


le quantità che occorre conoscere quando si fa il test dell'ipotesi H : /30 = O
oppure /31 = O (in questo caso n - 2 = 14). Perché l'ipotesi venga respinta
occorre che esse siano più piccole del livello o. In questo caso l'ipotesi H :
/31= O viene respinta a qualunque livello, mentre H : /30 = O non può essere
respinta ai livelli di o abituali.
In genere nei programmi statistici a cui abbiamo accennato vi è anche la
possibilità di dare una rappresentazione grafica. della regressione, cioè di avere
un grafico con i punti (:ri, yi) e la retta di regressione. Per questi dati il grafico
è riportato nella Figura 6 ..5.

Figura 6.5

Vedremo nell'ultimo paragrafo che grafici di questo tipo possono essere utili
pn valutare se il modello di regr<'ssione è adeguato ai da.ti.
Qui possiamo però già osservare che, mentre per piccoli valori di :r i punti
sono ahhastanza vicini alla retta., 1wr valori grandi essi tendono a discostarsene
di pii1. All'inizio di questo paragrafo abbiamo invece fatto l'ipotesi eh<' gli scarti
Yi - /3o - f31x; siano v.a. indipendenti e aventi la mrdesima varianza a 2.
Il grafico dà quindi adito a qualche dubbio sul fatto che il modello di regres-
sione considerato in questo para.grafo sia adeguato all'analisi di questi dati.
Approfoncliremo quc>sto tipo di discorsi nell'ultimo paragrafo.

Esempio 6.21 I da.ti s<'gnenti riportano i va.lori del massimo livello d<111'acqua
alta a Venezia tra il 19:30 Pclil 1980 (da R.L.Smith, J.Hidrology, 1986)
Il teorema. di Cochran 229

103 78 121 116 115 147 119 114 89 102


99 91 97 106 105 136 126 132 104 117
1.51 116 107 112 97 95 119 124 118 145
122 114 118 107 110 194 138 144 138 123
122 120 114 96 125 124 120 132 166 134
Vi è evidenza del fatto che il massimo livello dell'acqua alta sia andato
crescendo tra il 1930 ed il 1980?
Possiamo considerare un modello di regressione linea.re semplice in cui la
variabile dipendente y è il livello dell'acqua alta mentre il predittore x è l'anno.
x dunque assume i valori 30, 31, ... , 80. Il risultato della regressione è

L'equazione di regressione è
y = 88.3 + 0.56 X

Predittore Coef DevSt t p


bO 88.35 10.57 8.36 0.000
b1 0.56 0.18 3.02 0.004

s = 18.80 R-quadr = 16.0'/.

Il valore di p per b1 essendo ug11a.lea. 0.00°1,il test dell'ipotesi


ll : /31 = O contro .4 : f31 =/:O
viene respinto fino ad 1111livello n = 0.1%. Se ne conclude che il livello dell'acqua
alta. è effettiva.mente andato aumentando nel periodo considerato.

6.10 Il teorema di Cochran

In questo pa.ragra fo veciremo un 'im porta.n te proprietà delle distrihuzioni nor-


ma.li multiva.ria.te. Conseguenze di questo risultato sono già. state ntilizza.te
nel para.grafo 6.6 <' lo sa.ranno pii, tardi. Un ruolo molto importante hanno i
proiettori ortogonali su un sottospazio di m.m,
di cui ora. richiamiamo alcune
proprietà.

Su m.mè definito il prodotto scalare


m
(x, y) = L X;Yi
i=l

Due vettori .1:,y E lR.m si dicono ortogonali se (:r, y) = O. Se A è una. matrice


m X me con A* indichiamo la. sua tra.sposta allora. è immediato che
(A:r, y) = (x, A*y)
230 Capitolo 6

In particolare per una matrice O ortogonale, tale cioè che O* = 0- 1,

(Ox, Oy) = (x, O*Oy) = (x, y)

Quindi se x e y sono ortogonali lo stesso vale per 0x e 0y.


Due sottospazi vettoriali E e F si dicono ortogonali se ogni vettore di E
è ortogona.le ad ogni vettore di F. Se E è un sottospazio vettoriale di IR.msi
indica con E1- il suo ortogonale, cioè l'insieme di tutti i vettori x di IR.mtali
che (x,z) = O per ogni z E E. E1- è anch'esso un sottospazio vettoriale di IR.m
ed ha dimensione m - k, se k è la dimensione di E. Inoltre ogni x E IR.msi può
scrivere in maniera unica nella forma x = x 1 + x 2 , dove x1 E E, x2 E E1-.
Indichiamo con PE il proieltorP ortogonale su E, cioè l'applicazione P E :
:i: -+ x 1 che ad ogni :i: E lR..massocia la sua componente su E. È immediato
verifica.re d1e PB è un operatore lineare.

Esempio 6.22 Sia. E il sottospazio di IR.mdei vettori le cui ultime m - k


coordinate sono nulle (cioè dei vettori della. forma. (x 1 , ... ,xk,O, ... ,O)). Si
tratta chiaramente di un sottospazio di dimensione k. Il suo ortogonale E1-
è costituito dai vettori della forma (O, ... , O,Xk+t, ... , xm), L'ortogonalità dei
due sottospazi è imrnedia.ta. perché facendo il prodotto scalare tutti i termini
nella somma sono nulli. In questo esempio se :i; = (.1:1,... , Xm)

PEX = (.·i:1,... , :l'k, o.... , O)


PEJ. = (0, ... ,0,Xk+J, .. ,,Xm)

Se O è una matrice ortogonale, allora gli spazi vettoriali O E e O E1- sono


ancora ortogonali, e quindi (O E)1- = 0E1-. Sex = x 1 + x 2 con x 1 E E 1 e
:i.·2E E2, allora 0x = Ox1 + O,T2 dove O:i:1 E O E1 e Ox2 E O E1-.
Sono anche immediate le relazioni ( f indica la matrice identità)

PEPE= PE
(6.21)
I - PE = PEJ.

La prima delle (6.21) segue dal fatto che PEx = x se x E E. La seconda


è particolarmente utile perché permette di calcolare immediatamente PEJ. a
partire da PE.
Il lemma seguente dà 1111utile m<'todo di calcolo dei proiettori ortogonali.
Il teorema di Cochran 231

Lemma 6.23 PEx è il vettore di E che si trova a distanza minima da x.


Dimostrazione. Se y è un generico vettore in E e x = x 1 + xz con x1 E E,
Xz E E1- allora

ly-xl 2 = l(y-xi)-x21 2 = ((y-xi)-xz,(y-x1)-x2) =


= IY- x112 - 2 (y- x1,x2) +lx212
______, =
=O

( (y - x1, x2) = O perché y - X1 E E mentre :1·2 E E.l ). La quantità IY- xl 2 è


dunque sempre 2'.:l,1:212 ed è esatta.mente uguale a lx212 se e solo se y = X1 =
PEa:.

Esempio 6.24 Sia E il sottospazio ( di dimension(' 1) di film dei vettori a.venti


tutte le componenti uguali, e calcoliamo il proiettore ortogonale su E.
Per il Lemma 6.23 PEx è il vettore z E E per cui la quantità lz - xl2 è
minima. Poiché z è della forma z =
(t, t, ... , t) si tratta. di determinare il punto
di minimo di
m

7/1 : t- lz- .1f= L(x; - t) 2


i=l

Derivando e calcolando i punti critici

m
'lj_,'(t) = -2 'I::(,1:; - t)
i=l
m m

O= L(x;- t) = LX;- mt
i=l i=l

cioè
1 m -
t ---~-·-1-·•·
m '"""'~·--~·
i=l

e dunque z = (x, ... , i). La proiezione ortogonale dix su E è dunque il vettore


le cui coordinate sono tutte uguali a.Ila media delle coordina.te di x.
In questo e nei prossimi esempi tralasceremo di verificare che il punto critico
è effettiva.mente un punto di minimo, questione comunque facile perché si tratta
di minimizzare una funzione quadratica.
232 Capit.olo 6

Esempio 6.25 Supponiamo più in generale che E sia generato dai vettori
z1, ... , Zk, k < m, che supporremo indipendenti. Un generico vettore z E E si
scrive z = 01 x 1 + ... + 0kxk, Ovvero, se Z è la matrice m X k di cui i vettori
z 1 , ... ,zk sono le colonne e poniamo 0 = (01 , ... ,0k), un generico vettore di
E si scrive z = Z0 al variare di 0 in lRk. Per il Lemma 6.23 per calcolare PE
basta determinare il valore 00 che renda minima la quantità

0 - </>(0)= lx - z012

dopo di che sarà. P EX = Z0 0 • TI problema è quindi ricondotto al calcolo del


punto di minimo di una funzione su IRk che faremo, al solito, calcolando i punti
critici del gradiente. Ora

cp(0)= l:z:- z01 2 = l,rl2 + 1z012 -2(.1:,Z0) 2 + (Z0, Z0)


= 1.1:1 - 2(.1:,Z0) =
= 2 + (Z* Z0. 0) - 2(Z*.r, 0)
l:z:1

A meno di costanti </Jè la somma della funzione lineare 0----.-2(Z*x, 0) e della


funzione quadratica 0 --- (Z* Z0, 0), dunque il suo gradiente vale

= 2Z* Z0 - 2Z*:r
grad </>(0)

Quindi l'equazione grad d>( 0) = O si risolve facilmente se la matrice Z* Z è


invertibile. Mostriamo che, nelle ipotesi fatte, ciò è vero.
Infatti se 0 fosse tale che Z* Z0 = O a maggior ragione si avrebbe O =
(Z* Z0, 0) = (Z0, Z0) = IZ012 ; ma ciò è possibile solo se Z0 = 01 z 1 + .. .+0kzk =
O e, poiché supponiamo che i vettori z1, ••. , Zk siano linearmente indipendenti,
ciò implicherebbe 01 = ... = Ok = O. Dunque Z* Z0 = O se e solo se 0 = O e
quindi Z* Z è invertibile.
Risolviamo quindi l'equazione grad </J(0)= O ottenendo

da cui si ricava

(6.22)

La (6.22) riconduce il calcolo di PB ad un prodoto di matrici, che può essere


effettuato nmnericanwntc in maniera ahhastanza semplice da un calcolatore.
Il teorema di Cochran 233

Teorema 6.26 (Cochra.n) Sia X una v.a. m-dimensionale di legge N(O, l)


e sia.no E1, ... , Ek sottospazi vettoriali di m,m a due a. due ortogonali. Per
i= 1, ... , k indichiamo con ni la dimensione di Ei e con Pi il proiettore orto-
gonale su Ei, Allora le v.a. PiX, i= 1, .. . k, sono indipendenti e la v.a. IPiXl2
ha. distribuzione x2 (ni).
Dimostrazione. Supponiamo per semplicità k = 2 e consideriamo dapprima.
il caso che E 1 sia il sottospazio relativo alle prime n1 coordinate e E2 quello
relativo alle successive n2. Dunque

PiX = (X1,,,,,Xn 1 ,0, ... ,0)


P2X = (O, ... ,O.Xn 1 +1, ... ,Xn 1 +n 2 ,0, ... ,0)

Se poniamo Y = P 1 X, Z = P2X è chiaro che Cov("Vi,Zj) = O per ogni


i,j = l, ... n, poiché le v.a. X 1 , •• ,,Xm sono indipendenti. Dunque per il
criterio del paragrafo 3.11 Pi X e P 2 ..-Ysono indipendenti. Inoltre, ricordando
che la somma dei quadrati di k v.a.. N(O, 1) indipendenti segue una legge x2 (k)

IP1Xl2 = xf + ... + x~ x2(111) 1 ,....,

IP:.!Xl2= x~1+l + ... + x~1+n2 rv x2(n2)


Se E 1 ed E 2 non sono come in questo ca.so particola.re, si può però mostrare che
esiste una trasformazione ortogonale O tale che O E 1 e O E 2 siano appunto i
sottospazi generati rispettivamente dalle prime n 1 coordinate e dalle successive
n2. Usando il fatto che la legge N(OJ) è invariante rispetto all'azione di
una matrice ortogonale ci si può dunque ricondurre al caso appena trattato.
Ometteremo i dettagli, peraltro elementari, di questa seconda parte della prova ..

Il Teorema. di Cochran è fondamenta.le nei problemi di stima in presenza di un


modello gaussiano. Vediamo ora un suo corollario importante di cui ci siamo
già serviti nel paragrafo 6.6.
Indichiamo con E il sottospazio di 1Rmgenerato dal vettore e = (1, 1, ... , 1)
( cioè il sottospazio dei vettori aventi tutte le coordinate uguali come nell 'Esem-
pio 6.24) e con W il suo ortogonale, che non è altro che l'insieme dei vet-
tori aventi la somma delle coordinate uguale a O. Sappiamo dall'Esempio 6.24
che il proiettore ortogonale PE : m,m - E è dato da PEx = (x, ... , .'r). Se
X rv N(O, I) e .Y = ;1 (X1 + ... + Xm ), allora la proiezione ortogonale di X
su E è PE.Y = (X, .... .\') e quindi, pN la seconda. delle (6.21). la proiezione
ortogonale di X su H' è

Pw.Y = (I - PE)X =X - P1-:X= (X1 - .Y,.. . ,Xm - .Y)


234 Capitolo 6

Per il Teorema 6.26 X e IPwXl2 sono v.a. indipendenti. Ora


m
(6.23) IPwXl = I)xi 2 - X) 2
i=l

e dunque IPwXl2 non è altro che lo stimatore della varianza 5 2 moltiplicato


per m - 1. Per il Teorema di Cochran dunque ( m - 1 )5 2 "' x2 ( m - 1) e 5 2 è
indipendente da X. Inoltre poiché X ha. legge N(O, -;k), vm,X è N(O, 1) e per
la definizione delle leggi di Student si ha che

(6.24) T = -vm,X
5 - "' t( m - 1)

Riassumendo: se X 1 , ... , Xm sono indipendenti e N(O, 1), allora ,X-e 5 2 sono


indipendenti, .Y "'N(O, ~i), (m - l)S 2 "'x(m. - 1) e vale (6.24).
Da ciò è facile ricavare il seguente importante corollario.

Corollario 6.27 Siano Z 1 , ••• , Zm v.a. indipendenti e tutte di legge N(µ, 0' 2 ).
Poniamo
- 1
Z = -(
m
Z1 + ... + Zm)
82 1 - ~(Zi
= -m-1.L..., - Z) 2
i=l

Allora Z e S2 sono indipendenti e si ha

m - 1
-.)-s-(1•
?
"'x·(m
?
- 1)
(6.2.5)
Jm(Z - JI) "'t ( m-
--'------- l)
5
Dimostrazione. Basta ricondursi al caso di v.a. N(O, 1) che abbiamo già
visto. Poniamo

\ . I__- Zi-/L
(1

e dunque il vettore X= (Xi, ... , Xm) è /V(O,J) e per le considerazioni già. fatte
..,Ye I;;:
1 (Xi - .Y) 2 sono indipendenti. Tenendo conto che

Z = ax+ ,,
(6.26)
Lm ( y. -
... i
f
.,
)2 = J_•)
(T·
Lm(z. - l
Z)2 =m- ')
O'"
1 52
i=l i=l
Regressione multipla 235

anche Z e S 2 sono indipendenti come funzioni di variabili indipendenti. Infine


m ~
(J'
1S 2 f'V x2 (m - 1) per (6.26), e poiché

Fn(Z-z)
s J-1'"'~(X·_
m-1 L.n=l i
.,t)2

(6.2,5) segue da (6.21).

6.11 Regressione multipla

Prima. di considera.re il problema. dC'lla regressione multipla è opportuno rive-


dere alcuni aspetti della regressione linea.re semplice del para.grafo 6.9 da un
altro punto di vista. La. r<'lazione tra predittori e varia.bile dipendente si può
scrivere in forma vettoriale

che, se poniamo,

y= C) :r= ( Xt)
.
.
:r,1
e= 1)
( ·.
1
w= (Wt)
.
.
Wn

si può scrivere
y = /3oe+ /31x + w
È chiaro che, al variare di /30 e /31 in m, il
vettore /3oe+ {31 a: va.ria. tra tutti i
vettori di nr che si trova.no nel pia.no generato da e e da a:, che indicheremo
d'ora in a.vanti con E. Un'idea per ottenere uno stimatore di /30 e /31 potrebbe
essere quel-la di stimarli con i valori in corrispondenza dei quali il punto f30 e +
{31 x si trova a distanza minima da. y. In realtà è esattamente quello che abbiamo
fatto nel paragrafo 6.9 per ottener(' gli stima.tori b0 e b1 : essi sono sta.ti ottenuti
cercando il minimo di L~=l(
y; - (30 - (31 x;) 2 , che non è altro che il quadrato
della distanza. tra y e /30 e + /31 :r. Dunque il vettore y = b0 e + b1 x dei valori
stimati è il vettore di E che si trova. a. distanza. minima day ovvero, ricordando
le definizioni del paragrafo prec('{lente, y è la. proiezione ortogonale di y su E.
236 Capitolo 6

Ne segue, in particolare, che poiché il vettore dei residui r è dato da

r = y- y = (I - PE )y
r è ortogonale a E (per la seconda delle (6.21); anzi, r non è altro che la
proiezione ortogonale di y su El.). In particolare r è ortogonale sia ad e che a
x, per cui
n
O= (r,e) = Lri
i=l
n
O= (r,x) = L r;x;
i=l

Troviamo quindi un'interpretazione geometrica delle proprietà dei residui che


avevamo visto in (6.19).

Come abbiamo già anticipato un modello di regressione lineare multipla è


un modello

(G.2ì)

dove si considera che la variabile dipendC'nte y sia una funzione lin<>are dei
predittori x 1 , .•. , xk pitt una perturbazione w, dove le w; sono indipendenti e
di legge N(O,a 2 ) (a 2 al solito è da stimare, ma non dipende da i). A meno di
precisare il contrario supporremo sempre che il primo predittore, x1, assuma
sempre il valore 1, cioè

x 1 si chiama anche il fattore costante.


Supporremo inoltre che i vettori x 1 , ... , Xk siano tra loro linearmente indi-
pendenti.

Osservazioni 6.28
a) Il modello di regressione mult.ipla che abbiamo appena definito è un
modello statistico nel senso della Definizione 6.2. In effetti il parametro 0 in
questo caso è dato da 0 = ({31 , .•• ,(h, a 2 ) e varia in 0 = m,k x ID+. Rispetto
a P 6 la v.a. w ha una legge N(O, cr2 I) e dunque l'osservazione y, che è uguale
a w più il vettore f31x1 + ... + fhxk, ha legge N(/31.T.1+ ... + /3kxk, cr2 J).
b) Il termine lineare nei problemi di regressione non si riferisce al fatto che
si suppone che y sia una funzione lineare dei predittori. Vedremo infatti che
Regressione multipla 237

è possibile fare rientrare in questo modello anche situazioni in cui y è una


funzione più complessa di x 1, ... , Xk, Il termine lineare si· riferisce invece al
fatto che la perturbazione w influisce sull'osservazione in maniera linf'are. In
particolare un modello del tipo

+ /32Xi+ W
Y = /31X1
rientra nel quadro della regressione lineare, mentre ciò non è vero per

c) L'ipotesi che i vettori x 1 , ... , Xk siano indipendenti sarà importante da


un punto di vista matf'matico, ma è comunque abbastanza naturale: se i vettori
x 1 , ... , Xk fossero dipendenti ve ne sarebbe uno (xk ad esempio) che si potrebbe
ottenere come combinazione linf'are degli altri e non sarebbe quindi possibile
distinguere l'effetto di :rk da quello degli a.Itri predittori.

Il primo problema, come per la regressione semplice, consiste nella stima di


/31 , .•• , f3k e di a 2 • A questo scopo possiamo riprendere l'idea esposta all'inizio
di questo paragrafo per la. regressione semplice: al variare di (31 , ... , /3k il vettore
(31 x 1 + ... + /31,-:rkdPscrive l'iperpia.no di Illn ( n al solito è il numero delle
osservazioni) generato dai vettori .1:1 , ••• , :i:k, Possiamo dunqne cercare i valori
di /31,, .. ,/Jk in corrispondenza df'i quali la distanza IY-f31x1 - ... - JJkxkl
sia minima, il che equivale a calcolare la proiezione ortogonale ciel vettore y
sull'iperpiano E generato da :i·1, •• • ,.'I'k,
Se indichiamo con X la matrice n X k di cui i vettori :z:1 , ... , Xk sono le
colonne e poniamo

-(/~1)
/3- :
JJk
allora ogni Vf'ttore appartenente all'iperpiano F, generato da x 1 , ... , Xk si può
scrivere nPlla forma X /3 al variare di /3 E Illk. Abbiamo visto nel paragrafo pre-
cedente (Esempio 6.25) che il valore di /3 per cui X/j è la proiezione ortogonale
di y su E è dato da

(6.28) - ( l.'* ")-1 ,,,y


l}-.·\.•\ '•*.

Il vettore b è uno stimatore di /3 di cui ora studieremo le proprietà. Intanto,


poiché y rv N( X/3, a 2 I) e b è una funzione lineare di y, sappiamo dal paragrafo
3.11 che anche b segue una kp;p;e normale. La media di b vale
238 Capitolo 6

poiché E[y) = X /3. In particolare b è uno stimatore non distorto di /3. Per
calcolare la matrice di covarianza di b ricordiamo che se Cy è la matrice di
covarianza di una v .a. Y allora la matrice di covarianza di AY è ACy A*.
Dunque la matrice di covarianza di b è (qui A= (X*X)- 1 X*)

(abbiamo usato il fatto che (AB)* = B* A* e che (X* X)- 1 è una matrice
simmetrica).
In conclusione lo stimatore b segue una legge N(j3,a 2 (X*X)- 1 ) e le sue
componenti b; hanno legge N(/3;, a 2 mii ), dove con m;j indichiamo l'elemento
di posto ij della matrir(> ( X* X )- 1 .
Come per la regressione semplice poniamo il = Xb = X(X*X)- 1 X*y. iJ è
il vettore dei valori stimati e non è altro che la proiezione ortogonale di y sul
sottospazio E generato dai predittori a:1 , ••• , Xk.
Resta da stimare il parametro a 2 . A questo scopo definiamo il vettore dei
residui
r = y - il = (I - PE )y

Lemma 6.29 Le v.a. n-dimen~ionali r e y sono indipendenti. Inoltre posto

s2 = -- i Irj·" = -- i ~ "
~ r~
n -I.: n-1.: 1
i=l

allora
82 ')
2(7 ( n - k) "' x· (n - k)

Dimostrazione. È una semplice applicazione dC'lTeorema di Cochran: poiché


w"' N(O,a 2 I), possiamo supporre che sia w = avV, dove lV"' N(O,J).
Per ipotesi y = X/3 + aW e d1111<p1e, poiché PEX/3 = Xj3 (Xj3 è un vettore
di E) mentre PEuY (3 = O

il= + aW) = X(3 + aPEHI


I'E(X/3
r = PEJ.(X/3 + aW) = aPEJ. W
Poiché per il Teorema di Cochran le v.a. PEH 1 e PEJ. l,V sono indipendenti,
lo stesso è vero per il e r. Inoltre, sempre per il Teorema di Cochran, poiché
dirnEl. = n -dimE = n - k la v.a. IPEJ.H'l2 ha legge x2 (n - k); ba.sta ora
osservare che ')

s· "
(n - I.·)= IPEJ.l-VI· "'x·(n-
?
-.)
(7• .
k)
Regressione multipla 239

Abbiamo dunque determinato dei buoni stimatori dei parametri /3 e a 2 con i


quali si possono affronta.re i problemi di stima e di test. Poiché infatti bi -
N(/3i, a 2 m;i) e bi è indipendente da s 2 , si ha facilmente

per cui

è un int<'rvallo di fiducia per /3i di livello n. Infatti

P{(3i (/.I}= P {lb.s..,fin:i


.' ·-f3·1
' '~ f1-of2(n - k) }= O'

Allo stesso modo si vede che

{I-~v'mT;I~
bi - z f1-o-;2(n - k)}
è la regione di rigetto per il test
Il : /3i = z contro A : /3i -:/ z
Nei problemi di regressione multipla. sono però spesso utili dei test (o degli
intervalli.di fiducia.) in cui intervengono simultaneamente più componenti di /3.
Un esempio n<' è il test
Il : /31,:-1= fik contro A : f3k-1 -:/ f3k
in cui cioè ci si chiede se l'dfetto della variabile Xk sia lo stesso della variabile
Xk-l · Vedr<'mo come esempio solo il piiJ importante di questi test, a.Itri si
trova.no negli esercizi.
Si chiama. legge F (o di Fi.<:rhe1·) a n, m gradi di libertà. la. legge di una v.a.
della forma.

dove Zn e Zm sono v.a.. indipendenti e di legge rispettiva.mente x2 (n) e x2 (m).


Questa. legge si indica con il simbolo F(n,m), mentre al solito ne indicheremo
con F0 (n, m) i quantili.
240 Capi1olo 6

Esempio 6.30 (Test globale di dipendenza. lineare) Si tratta del test dell'ipo-
tesi
H : /h = ... = (h = O contro l'alternativa A : /3i =/-O per qualche
i= 2, ... , k.
Poiché finora abbiamo supposto che x 1 sia un fattore costante, se l'ipotesi è
vera non vi sarebbe alcuna dipendenza tra la y ed i "veri" predittori x2, ••. , Xk.
Ricordando che indichiamo con E il sottospazio di IRn generato dai vettori
x1, ... ,xk, consideriamo i tre sottospazi di IRn
E 1 : il sottospazio generato da x 1 ( di dimensione 1)
E 2 : l'insieme dei vettori di E che sono ortogonali a x 1 (dim =k - l)
E3: = El. (dim = n - k).
E1, E2 e E3 sono chiaramente ortogonali tra loro. Inoltre per l'Esempio 6.24

(iJx1è il vettore che ha. tutte le componenti uguali a y) mentre, poiché PEY = iJ
e PE2 = PE(y)- PE 1 (y),
PE2Y = Y- jj,T1

e infine per la. seconda. delle (6.:n)

Se l'ipotesi è vera. allora ndle notazioni di poco fa y = {31 x 1 + aW e poiché


PE 1 /31x1 = /31x1 mentre I'F,2 /31:i:1 = PE3 f31:i:1 =Osi ha anche

PE 1 Y = f31x1 + aPE 1 W
PE2 Y = a PE H' 2

PE3Y = PE3 H1
(T

Poiché dim E 2 = k - l, pPr il Teorema. di Cochran

~IPE0Yl
(T• -
2 = IPEJ-Fl2
-
l'V x.2(k-1)

~IPE,Yl
(T•
2 = IPEJH'l 2 l'V i(n - k)

e le due v.a.. sono indipendenti. Dunque sotto l'ipotesi la v.a.


segue una legge F(k - 1, n - I,:) e

"'n ( -)2
- Y n - k
°"n (y,Yi·-··) F ,. ·
A

{ L...i=l
k- ~ l-c,(1t-l.n-•:
L...i=l y, 2 l

è una regione critica di livello a.


L'idea di questo test è simile a quella esposta all'inizio del paragrafo 6.-;-:
in effetti non è difficile rendersi conto che se l'ipotesi non è vera F tende ad
assumere valori grandi.

Anche per la regressione multipla si può considerare la quantità

R2 = "'n (
L...i=l Yi -
A

Y -
-)~

"'"
L...i=l ( Yi - Y-)')•

Se vi è un fattore costante si può ripetC're il cakolo fatto nel paragrafo 6.9


e verificar<' che O ~ R 2 ~ l. La quantità R 2 ha lo stesso significato che nel
ca.so della regressione s<'mplice, a condizione però che vi sia un Jatto1·e costante
( altrimenti non si potrebbe afferma.re che la. somma. dei residui valga O e non
vale pii, la relazione O ~ R 2 ~ 1).

Esempio 6.31 I da.ti seguenti riportano, per gli anni che vanno dal 1924 al
195.5,la qualità del vino di Bordeaux ( y) e quattro misurazioni meteorologiche
del mese di aprile prC'cedente la vendemmia.: la somma. delle temperature medie
giornaliere (x 2 ), il numero cli ore di insolazione (.1:3 ), il numero di giorni in cui
la temperatura ha superato la media stagionale (x 4 ) ed i millimetri di pioggia
caduti (x 5 ).

anno y X2 X3 :1:4 X5 anno y X2 X3 X4 X5

24 1 3064 1201 10 361 40 o 3094 1329 11 339


25 -1 3000 1053 11 338 41 -2 3009 1210 15 536
26 1 31.5,5 1133 19 393 42 1 3227 1331 21 414
27 -2 3080 970 4 467 43 2 3308 1:368 24 282
28 2 32-15 1258 36 294 44 1 3212 1289 17 302
29 3 3267 1386 35 22.5 45 3 3381 1444 2.5 253
30 -2 3080 966 13 417 46 o 3061 1175 12 261
31 -2 2974 118.5 12 488 47 3 3478 1317 42 259
32 -3 3038 1103 H 677 48 1 3126 1248 11 31,5
33 1 3318 1310 29 427 49 3 3468 1508 43 286
(segue)
242 Capitolo 6

anno y X2 X3 X4 X5 anno y Xz X3 X4 X5

34 2 3317 1362 25 326 50 1 3252 1361 26 346


35 -1 3182 1171 28 326 51 -2 3052 1186 14 443
36 -2 2998 1102 9 349 52 2 3270 1399 24 306
37 2 3221 1424 21 382 ,53 2 3198 1299 20 367
38 o 3019 1239 16 275 ,54 -2 2904 1164 6 311
39 o 3022 1285 9 303 55 2 3247 1277 19 375

La regressione di y rispetto ai quattro predittori dà come risultato

L'equazione di regressione è
y = - 26.8 + 0.00767 x2 + 0.00441 x3 - 0.0237 x4 - 0.00597 x5

Coef Stdev t p
b1 -26.77400 5.384 -4.97 0.000
b2 0.00767 0.00193 3.97 0.000
b3 0.00441 0.00144 3.06 0.005
b4 -0.02361 0.02574 -0.92 0.366
b5 -0.00597 0.00154 -3.88 0.001

s = 0.7002 R-quadr = 87.3%


I valori di R 2 e delle va.ria.nze dei predittori sono buoni. Solo il valore di p per
b4 fa sospetta.re che il predittore x4 non sia in realtà. rilevante. Per verificare
questa. ipotesi si può fare una regressione con i soli predittori x2, X3, X5. Il
risultato è
L'equazione di regressione è
y = - 22.9 + 0.00632 x2 + 0.00434 x3 - 0.00592 x5

Coef Stdev t p
b1 -22.86900 3.30200 -6.93 0.000
b2 0.00632 0.00125 5.07 0.000
b3 0.00434 0.00143 3.02 0.005
b4 -0.00592 0.00153 -3.85 0.001

s = 0.6983 R-quadr = 86.9%

Come si vede il valore di R 2 è rimasto praticamente lo stesso ed s è anzi


diminuito.
Regressione lineare: predizione 243

6.12 Regressione lineare: predizione

Gli obiettivi che possono indurre all'uso di un modello di regressione lineare


sono molteplici. Uno di questi è quello di prevedere il valore della va.ria.bile
dipendente per assegna.ti valori dei preditt.ori.
Coi dati dell'Esempio 6.21 sarebbe certo molto utile se si potesse prevedere,
a partire dalle osservazioni degli anni precedenti, il livello dell'acqua. alta per
il 1981, ad esempio. In effetti con il modello considerato tale valore è pari a
{30 +{31 x 81 +w. È possibile. a parti re dai valori degli anni precedenti prevedere
il valore ddl 'acqua alta. per il 1981?
Più in generale supponiamo di volere stimare il valore assunto dalla variabile
dipendente per una nuova osservazione nf'lla. quale il preditore vale z. Sappiamo
che il valore dell'oss0rva.zione sarà y = /30 + /31 z + w. È abbastanza naturale
cerca.re di stimare questa quantità con b0 + b1 z; calcoliamo ora. qua.le errore si
commette con questa approssimazione. La v.a.

y - bo - b1z = w + (/3o - bo) + (/31- bt)z

è la somma di w e (/3o - bo)+ (/3 1 - b1 )z che, n<'lle nostre ipotesi sono v.a.
norma.li c0ntrate e tra loro indipC'nÒent.i. Dunque y - bo - b1z è anch'essa
normale centrata.. Calcoliamone la varianza.. Si ha

Va.r(y - bo- b1z) = Va.r(w) + Va.r (/3o- bo+ (/31 - b1)z)

dove Var( w) = cr2 • Ricordando poi che la varianza non cambia quando ad una
v.a. si aggiunge una. costante

Var (f3o - bo+ (/11 - b1)z) = Var(bo + b1z) =


= Var( b0 ) + z 2 Var( bi) + 2z Cov( b0 , bi)
Conosciamo già i valori di Var(bo) e Var(b 1 ) dalle (6.13) e (6.14), non ci resta
quindi che calcolare Cov(bo, b1):
')
<r
Cov(bo, b1) = Cov(j] - b1i, b1) = Cov( y, b1) -x Cov( b1, b1) = -i----;;
'--v--"' a;
=0 JH'r (6.1.5)

In conclusione

1
= a 2 + a 2 ( -n x ) + z 2 -a -
+ -a;
2 2
2zx- a
2
Va.r( y - b0 - b1 z)
a;, a;,=
·) ( x) 2 )
= (T~ l + -1 + ( z - 2
n ax
244 Capitolo 6

Quindi
y - bo - b1z
-------.==== ""t( n - 2)
S /1 + l + (x-z)2
V n -----;;r-
da cui si ricava

a=P { I Vy -
S
bo - b1z
1 + l + (T-z)2
_. I >t1-cr;2(n-2)
}
n -----;y-
Ciò significa che y si trova nell'intervallo

1 ( x - z )2
[bo+ b1z - .s 1 + - + ., t1-cr;2( n - 2),
n a;
( 6.29)
(x-z) 2
bo+b1z+.s 1+-+1 ·) t1-cr;2(n-2)
]
n a;
con probabilità maggiore di 1 - a. Da notare che questo intervallo è tanto più
stretto quanto pii1 il valore z del predittore è vicino a :f.
Con i va.lori numerici dell'Esempio 6.21 otteniamo b0 + b1 z = 133.43 e, al
livello a = 0.05, l'intervallo [93.12, 173.75]. L'ampiezza di quC'sto intervallo lo
rende poco utile (come del resto era prevedibile dato l'elevato valore di s 2 ).
Per inciso il livello massimo dell'acqua. alta nel 1981 fu di 138.
Un problema diverso, anche se simile in apparenza, è quello della stima. della
media di y per un dato valore del predittore. La. media di y quando il predittore
vale z è /Jo + f31z e bo+ b1 z è uno stimatore non distorto di questa. quantità;
inoltre bo + b1 z segue una legge normale la cui varianza, per il calcolo che
abbia.mo appena fatto, vale

(6.30) Var(b 0 + b 1z) = a 2 (~ + (z -_)x)2 )


n a;
Dunque bo+ b1z è normale di media /30 + (31z e varianza data da. (6.30) da cui
(bo+ b1z) - (/Jo + /31z) ,...,t(n _ 2 )
sJ + .!
71~
(z-.r)2

Dunque un intervallo di fiducia di liv('llo o- per {30 + {31 z è


1 ( z - i)2
-n + ,,
CT;_.
t1-a;2(n - 2),

1 (z-x) 2 ]
bo+b1z+s -+
n a;
,, i1-cr;2(n-2)
Regressione lineare: predizione 2-!5

Occorre fa.re attenzione a. non confondere questo problema di stima della media
di y per un dato valore z del predittore con quello della predizione del valore
di yin corrispondenza di una nuova osservazione in cui il predittore assuma il
valore z. In entrambi i ca.si il valore stimato è b0 + b1 z, ma. nel primo ca.so la.
varianza della stima. è più piccola. e l'intervallo di fiducia più stretto.

Esempio 6.32 Nei dati che seguono la variabile y è la concentrazione di un


CNto enzima misurata nel sangue di 43 individui. Il predittore x è l'età dei
soggetti. Si vuole stimare il valore medio della concentrazione dell'enzima nei
pazienti di 80 anni.
X y X y X y
1 48 1.801 16 68 1.912 30 82 1.823
2 33 1.982 17 79 1 ..531 31 80 1..578
3 3,5 1.893 18 76 1..502 32 87 1.754
4 46 2.068 19 72 1.844 33 89 1.707
5 47 2.029 20 74 1.893 34 82 1.689
6 47 1.76.5 21 72 1.723 35 84 1.557
7 5.5 1.742 22 70 2.2,1 36 86 1.670
8 52 1.8.52 23 71 1.940 37 86 1.653
9 53 1.783 24 74 1.:398 38 80 1.960
10 ,51 1.8.51 25 70 1.'144 39 81 1.744
11 6'.3 1 ..50,5 26 76 1 .489 40 80 1.422
12 66 1.962 27 76 1.889 41 93 1.707
13 60 1.978 28 82 1.753 42 93 1.385
14 68 1.987 29 8.5 1.692 43 96 1.60,5
15 61 1.640
Il risultato della regressione di y su x è

L'equazione di regressione è
y = 2.17 - 0.00591 X

Predittore Coef DevSt t p


bO 2 .1694 0.1259 17.23 0.000
b1 -0.005906 0.001745 -3.39 0.002

s = O .1792 R-quadr = 21.8%

Il calcolo numerico dà, per la. media di y in corrispondenza. di :r 80,


l'intcrva.llo di fiducia. di livello a= .5%
11 = [l.63, 1.76]
246 Capitolo 6

Se invece avessimo voluto stabilire un intervallo di fiducia per il valore misurato


in un nuovo paziente di 80 anni allora avremmo dovuto usare la formula (6.29)
che avrebbe dato come risultato

h = [1.33, 2.06)
Da notare che tra i dati figurano tre pazienti di 80 anni; tutti i va.lori corri-
spondenti {1.578, 1.96, 1.422) si trovano in h, ma nessuno di essi sta in li; la
media dei tre va.lori (che è 1.65) invece si trova nell'intervallo pii1 piccolo fi.
Si utilizzerà l'intervallo Ii se si vuole studiare la fisiologia dell'enzima al
variare dell'età, mentre si userà / 2 per stabilire quali sono i valori normali della
concentrazione per un paziente di 80 anni.

Lo stesso problema si può naturalmente considerare per la. regressione mul-


tipla.. Supponiamo di volere prevedere il valore di y in corrispondenza di una
nuova. osservazione per la quale i prPdittori assumono rispettiva.mente i valori
z1, z2, ... , Zk, Il valore della variabile dipendente sarà y = /31z 1 +... +/hzk +w,
ovvero, con notazione vettoriale, y = (/3, z) + w. Per stima.re un intervallo
di fiducia. per y consideriamo la v.a. y - (b, z) (dove naturalmente (b, z) =
b1z1 + ... + bkzk), Poiché

y- (b,z) = w + (/3- b,z)

e le v.a. (3 - b e w sono normali centrate e indipendenti, anche y - (b, z) è


normale e centrata ((3 - b è ora una. v.a. multidimensionale, mentre (/3- b, z)
è a valori reali). Calcoliamone la varianza:

Var(y- (b,z)) = Var(w) + Var((/3- b,z)) = a 2 + Var((b,z))


Sappiamo però dal para.grafo 3.11 che, poiché b ha. matrice di covarianza
1 , Var( (b, z)) = a 2 ((X*X)-
a 2 (X* .,··q- 1 z, z). In conclusione

Var(y - (b, z)) = a 2 (1 + ((X*X)- 1 z, z))


Da cui si ricava che

y -_ (b, z)
---========== ""t ( n k)
- •
sJI + ((X*X)- 1 z,z)
e dunque y si trova in

[(b, z) - sJl + ((X*X J- 1 z, z) li-afz(n - k),

(b, z) + sJl + ((X* X)- 1 z, z) ti-afz( n - k)]


Regressione lineare: pr<'dizione 247

con probabilità maggiore di 1 - n.


Se invece avessimo voluto stimare la media di yin corrispondenza dei valori
z 1 , ••• , Zk dei predittori, che nelle ipotesi di regressione vale (/3,z), allora ripe-
tendo i calcoli di poco fa avremmo potuto osservare che la v.a.. (b, z) ha media
(/3,z) (ed è dunque nno stimatore non distorto di questa quantità) e varianza
a 2 ((X*X)- 1 z, z). Dunque

(b,z)-(/3,z) rvf(n-k)
sJ((X·X)- 1 z,z)

per cui un intervallo di fiducia di liwllo o per la. media è

Esempio 6.33 Riprendiamo l'Esempio 6.31. I dati meteorologici del mese di


aprile per gli anni 1%6 e 1957 sono

X2 :1:3 X5

1%6 3083 1195 411


1!),57 3043 1208 371

I programmi statistici in rornmflrcio sono in grado anche di fornire la. matrice


di covarianza (X*X)- 1 di b. che in questo caso è (dopo arrotonda.mento alle
prime tre cifre dPcimali)

22.366 -0.007 0.002


( V* \')-1 = ( -0.007 o o
,\ , 0.002 o o
-0.005 o o
Il calcolo degli intervalli di fìdncia. per la qualità del vino dà

195(i : [-2.56, 0.56] ( -2)


19:i7: [-2.68,0.38] (-1)

(tra. parentesi è riportata la valutazione <l<:'lvino nelle due annate considerate).


T; ......

Figura 6.6

r; .•....

ili
Figura 6. 7 È chiara una dip<'nd<'nza tra residui e valori stimati (i punti si
dispongono lungo una rurva).

6.13 Regressione lineare: l'analisi del modello

Abbiamo già accennato al fatto che 1wi prohlemi di regressione lineare la que-
stione piì1 delicata è• in realtà la verifica che i dati soddisfano alle ipotesi che
sono alla hase del modPllo. In pari icolare non è ddto a priori che la variabile
dipend<'nt<' sia una funzion<' affine dei predittori né che la varianza a 2 della
perturbazione sia la stessa pN tuttP le oss('rvazioni.
Libri interi sono stati scritti per analizzare queste questioni e pN suggerire
come correggere il mod<'llo pf'rché sia piì1 adeguato ai dati. In questo paragrafo
ci limiteremo a consid<'rar<' alrnui rasi particolari ed alcune idee di base.
Uno strnm<'nto importante JH'r controllare la bontà di un modello di regres-
sione è dato dall'analisi dei r<'sidui. Abbiamo visto in effetti che, se il modello è
corretto, allora i r<'sidui r ed i valori stimati fJsono v.a. indipendenti. Dunque
1wl grafico dPi punti (y;, r;) dovrebbe apparire che i valori di una d01lc coordi-
Regressione lineare: l'analisi del modello 249

..
....•............

..
ili
Figura 6.8 La varianza dir; cr<'sce all'aumentare di Yi·

nate non influiscono sni valori dell'altra.. È di questo tipo a.d esempio il grafico
della. Figura 6.6, ma lo stesso non si può dire per la Figura 6.7, in cui i punti
tendono a disporsi lungo una curva, lasciando supporre quindi che vi sia una
dipendC'nza di Ti da y;. Né pC'r la Figura 6.8, in cui appa.re che la. dispersione
dei punti Ti tende ad aumentare a.I crescere di Yi·
Un andamC"nto come quello della Figura 6.7 fa pensare ad una dipendenza
piì1 complicata tra la variabile dipendente e i prcclittori, mentre la Figura 6.8
suggerisce che la varianza a 2 non sia costante ed anzi cresca al crescere di y
( questo fenomeno viene chiamato eteroschcdasticitò).

Esempio 6.34 Consideriamo i dati

X y X y
1 0.3184 1.5955 10 6.,5169 15.2764
2 0.9591 1.2329 11 6.6506 16.4691
3 0.9602 0.11848 12 6.8316 14.9625
4 2.8274 .5_30,11 13 7.5106 18.1863
5 3.3197 0.3174 14 8.9595 16.2,520
6 3.7972 0.0610 15 9.5.587 21.8228
7 3.93-53 11.45].'1 16 11.4281 32 ..5456
8 4.6157 8.0251 17 11.8845 37.2964
9 .5.9065 9.9127 18 12.0237 33.190,5

Il risultato della regrC'ssione di y rispetto a x è


250 Capitolo 6

L'equazione di regressione è
y =- 3.58 + 2.92 X

Coef Stdev t p
bO -3.583 1.493 -2.40 0.029
b1 2.924 0.212 13.73 0.000

s = 3.277 R-quadr = 92.2'/.

Il valore di R 2 e quelli di p sono abbastanza soddisfacenti, ma il grafico


dei residui in Figura. 6.9 ha un andamento sospetto: verrebbe da pensare che
la variabile dipendente sia una funzione del predittore più complicata di una
funzione affine. L'andamento, che fa pensare ad una parabola., suggerisce una
dipendenza di tipo quadratico. Per verificare questa ipotesi consideriamo i due
predittori x 1 e x2, dove :r1 = x mentre :r,2 contiene i quadrati dei valori di
x. Considera.re una dipendenza del tipo y = {30 + /31 .1; + f32 x 2 è chiaramente
equivalente a considera.re una rPgressione rispetto a.i due predittori x 1 ,:i:2 .

. . . .. ... . . ..

'!li
Figura 6.9 I residui tendono a disporsi lungo una curva.
Regressione lineare: l'analisi del modello 2,j 1

Il risultato di quC'sta regressione è

L'equazione di regressione è
y = 0.54 + 0.964 x1 + 0.155 x2

Coef DevSt t p
b0 0.538 1.727 0.31 0.760
b1 0.964 0.623 1.55 0.143
b2 0.155 0.047 3.26 0.005

s = 2.588 R-quadr = 95.4¼


Il nuovo modello appare migliore, non tanto perché il valore di R 2 è più alto
e quello di 8 più piccolo: soprattutto il valore di p per /32 è 0.005 e dunque il test
dell'ipotesi TI : /h = O è respinto, dando evidenza. al fatto che la dipendenza
di y rispetto a ;z; sia di tipo (almeno) quadratico. E, pii1 importante ancora,
il grafico dei residui nella Figura. 6.10 non presf'nta. più l'anomalia. riscontrata
nella Figura 6.9.

r·I

']/;
l:'1gura 6.10

L'Esempio 6.3.,1è un caso di rrgres:;ione polinomiale: è possibile considerare nei


modelli di regressione una clipendf'nza polinomiale della variabile dipendente,
aggiungendo dei nuovi predittori i cui valori siano le potenze dei predittori
252 Capitolo 6

considera ti.
Un'altra. possibilità per considera.re una dipendenza non affine della variabile
dipendente dai preditt.ori consiste nell'effettuare una trasformazione dei dati.
Nel caso di una regressione semplice si possono ad esempio considerare i modelli

log y = f3o + f31x


(6.31)
log y = f3o + /31log x
1
-y = f3o + f31x
(altri naturalmente sono possibili), che corrispondono alle dipendenze (Jo
e,Bo)
y = Poe,81x
y = fioxf31
1
y=----
. f3o +/31x
I modelli (6.31) si possono studiare con delle regressioni semplici: per il primo
ad esempio si considererà la nuova variabile dipendente y 1 = log y, ottenuta
ponendo y:
= log Yi e facendone una regressione lineare rispetto a x.
La scelta di uno di qnesti modelli pnò essere motivata da1la natura del
problema. Ad esempio, se y è la dimensione di una popolazione di batteri e
x il tempo, un modello y = ffi0 e131x è certo ragionevole. Si sa infatti che nella
dinamica di questa popolazione ogni batterio si riproduce generando un certo
numero di discendenti; e,81 sarebbe dunque il numero medio di discendenti di
un batterio nell'unità di tempo.
Se invece non si hanno informazioni sui dati che permettano a priori di
individuare un modello appropriato si possono effettuare regressioni lineari
usando modelli diversi e scegliere poi quello che dà i risultati migliori.

Esempio 6.35 Consideriamo i dati


X y X y
1 0.37,588 9 1.81403
2 1.004,50 10 1.,5.5026
3 0.8336:3 11 1.29721
4 1.14230 12 1.62657
.5 0.69800 13 1.37217
6 1.8.5084 1-1 1.78812
7 0.96.593 1.5 1.79291
8 1.01001 16 1.68171
Regressione lineare: l'analisi del modello 2.'.i3

Li analizzeremo ora con i quattro modelli

Y = /3o+ f31x
Y = /3o+ f31x + f32x2
log y = /3o+ /31x
log y = /3o+ /31log x

Per valutare i risultati useremo i criteri già introdotti nell'Esempio 6.34,


confrontando i valori di s, di R e il grafico dei residui. Occorre però fare at-
2
tenzione perché il valore di 8, che<' sensihil(' ai cambiamenti di scala, non può
essere usato per confrontare n10d('lli in cui la variabile dipendente è sottoposta
a trasformazioni diveri=;e.

1fodello 1 ( y = /3o+ /11x)


L'Equazione di regressione è
y = 0.692 + 0.072 X

Coef DevSt t p
b0 0.6916 0.1639 4.22 0.001
b1 0.0716 0.0169 4.22 0.001

s = 0.3125 R-quadr = 56.0'/.

r·i

Yi
Figura 6.11 Residui del modello y =,Bo+ /31x.
254 Capitolo 6

L'equazione di regressione è
y = 0.483 + 0.141 x - 0.00410 x-quadr

Coef DevSt t p
bO 0.4825 0.2673 1.81 0.094
b1 O.1412 0.0724 1.95 0.073
b2 -0.0041 0.0041 -0.99 0.340

s = 0.3127 R-quadr = 59.1¼

..
r; ..
. .
..

..

ili
Figura 6.12 Residui del modello y = f3o + f31x + f32x 2 .

Modello 3 (log y = (30 + (31x)


L'equazione di regressione è
log y = - 0.391 + 0.068 X

Coef DevSt t p
bO -0.3906 O. 1592 -2.45 0.028
b1 0.0679 0.01646 4.13 0.001

s = 0.3035 R-quadr = 54.9%


Regressione lineare: l'analisi del modello 255

r·I .... ' ...•.................................. ~ .....

f;;
Figura 6.13 Residui del modello log y = /3o+ /31x.
Modello 1 (log y = /3o+ /31 log x)
L'equazione di regressione è
log y = - 0.686 + 0.455 log x

Coef DevSt t p
b0 -0.685 0.173 -3.95 0.001
b1 0.455 0.084 5.41 0.000

s = 0.2570 R-quadr = 67.7'1.


I modelli 1 e 3 sono chiara.mente meno va.lidi degli altri per via del grafico
dei residui, nei quali i punti tendono a disporsi lungo una curva .. Tra. i modelli
2 e 4 il valore di R 2 r<'tHI<'prefNibile il modello 4; oltre tutto per il modello 2
l'ipotesi Il : ;32 = O non può essere r<'spinta per livelli a piì1 piccoli di 0.:34,
per cui rima.ne qna.lcll<' d II bbio sulla dip<'ndenza polinomiale.

Vediamo a.desso come si affrontano le situazioni in cui i residui presenta.no


l'aspetto della Figura. 6.8. Il grafico suggerisce che la varianza. della. perturba-
zione Wi non sia. costante ma. dipenda. da i. In altre parole che si possa ancora
usa.re il modello

(6.32)
r·i . . . . . .. . .. .. . . .
.. .. ' ... .. .. . ... .. . . . . . .... . .

..

Yi
Figura 6.14 Residui del mod<'llo logy = f3o+ f31logx.
dove però la varianza. di wi sia uguale a c;a 2 • Se le quantità e; (i pesi) sono
note si può porre 1v; = w;/ .jc;. Le v.a. wi hanno ora. varianza costante a 2 e
dunque dividendo la (6.32) per .jc; si ottiene il modello

(6.33)

dove
- Yi - X1 i - Xki
Yi=- X1;=-
.jc;
Xki = yCi
r,:;-.
fo
La (6.33) soddisfa ora alle ipotesi dei modelli <liregressione che abbiamo consi-
derato all'inizio <liquesto paragrafo ed i parametri /31 , •.. , f3k, a 2 si possono sti-
mare facendo una regressione lineare della nuova variabile dipendente fJrispetto
ai nuovi predittori i1, ... , Xk,
Il problema naturalmente sta nel determinare i pesi e;. Vi sono molti modi
di affrontare questo problema; limitiamoci a considerare l'esempio seguente.

Esempio 6.36 Consideriamo i dati

X y X y
1 8.8420 10.6333 17 14.7956 18.2909
2 5.2488 6.6556 18 9.4455 11.5201
3 16.0995 17.7677 19 0.6850 1.6,579
4 12.4424 14.2605 20 5.6277 5.6,534
,5 15.3011 19.1616 21 3.4656 4.6781
6 12.6330 17.11117 22 13.1946 17.914,5
(segue)
RegrPssio1w linearP: l'analisi del modello 257
--------------

X y X y
7 19.1191 21.063.5 23 9.3232 11.0113
8 9.8846 12.30-57 24 5.4009 7.1646
9 1-5..575.5 24.2271 25 15.1128 22.1857
10 6.9411 7.2943 26 9.1028 12.6174
11 7.6355 10.465'1 27 17.8537 23.4-526
12 14.4380 14.2452 28 11.71.57 14.0966
13 4.7545 5.243.5 29 4.4-564 7.2006
14 14.3149 20.0394 30 17.05.54 19.7391
1.5 9.3577 13.6098 31 11.9259 18.6410
16 9.7184 11.8791 32 10.7331 12.2473

Una prima regressione dà. per risultato

L'equazione di regressione è
y = 0 .39 + 1.23 X

Coef DevSt t p
b0 0.392 0.845 0.46 0.646
b1 1.233 0.073 16.95 0.000

s = 1.872 R-quadr = 90.5%


'
........ ·•· .. ·:.
. .... . ....

Figura 6.15

I residui riportati nella Fig11ra 6.1.S mostrano però l'andamento tipico della
eteroscheda.stirità con varianza crescente. Poiché l'aumento della dispersione
258 Capitolo 6

sembra essere lineare come funzione di y proviamo a supporre che la varianza sia
una funzione linea.re del predittore, e cioè che i pesi sia.no della forma Ci= a ,lx-i
(in modo che cf sia una funzione lineare di xi), Supponiamo cioè che il modello
sia
Yi = f3o+ /31xi + fi°;wi
dove le perturbazioni Wi hanno ora varianza a 2 costante (anche se da stima.re).
Dividendo per ..,jx; nell'equazione precedente otteniamo

1
y;
= /3O yXiç.-:
;-:;:--:
y:z:;
+ (31 y r;;-:
;!:i +
-
Wj

che è un modello di regressione lineare multipla della nuova va.ria.bile dipendente


ih = y;/ ,lx-irispetto a.i nuovi predittori :r1; = 1/ ..,jx;e X2i = ,lx-ie senza fattore
costante.
I risulta.ti di questa regressione sono

L'equazione di regressione è
y = 1.21 x1 + 0.62 x1

Coef DevSt t p
b1 0.617 0.387 1.59 0.122
b2 1. 212 0.046 26.18 0.000

s = 0.533

.. .......
r·t .•..... ·•.. ~
.
·.;, . .

Figura 6.16

Da notare, nel display, l'assenza del dato relativo alla quantità R 2 che, in
assenza. di fattore costante, perde di significato.
Il grafico dei residui ( Figura 6.16), pur la.sciando ancora qualche dubbio è
EsE'rcizi 259

comunque migliorato. Da. nota.re che la regressione pesata dà ora una stima di
{30 e {31 molto più precisa, poiché le deviazioni standard degli stima.tori sono
ora. sensibilmente migliori. Gli intervalli cli fiducia al livello 9.5% sono
f3o /31
regressione non pesata [-1.25, 2.04] [1.09, 1.37]
regressione pesata [-0.14, 1.38] [1.20, 1.30]

Come si vede la ricerca di un buon modello di regressione si fa cominciando con


una normale regressione della variabile dipf'ndente rispetto ai predittori. per
poi adattare il modello considerando modelli polinomiali o di trasformazione.
eventualmente con pesi. La bontà del modello si \·aiuta confrontando i \·alari
di 8, di R 2 e, soprattutto, l'andamento del grafico dei residui.

Esercizi

6.1 ConsidC'riamo per 0 E [-2, 2] la fon;;:ione definita. da.

fo(x) = (0x + 1 - ;)

sex E [O,I] e fo(x) = O altrimPnti.


a) Mostrare che per ogni 0 E [-2, 2] f0 è una densità di proba.bilità.
b) Sia. X una. v.a.. di densità J0 . Calcolare in funzione di 0 media e varianza.
di X e di logX.
=
c) Qua/ è per 0 O la !f•gge di -2 log X?
Sia ora. X1, ... , X n un campione di rango n di legge di densità !tJe poni a.mo

Tn=12 (1 n
-~Xk--
n L__,
k=l
1)
2

d) Mostrare che Tn è uno stima.tare non distorto di 0. Cosa. si può dire della.
successione di v.a.. { ,/n(Tn - 0)}n quando n---+ +oo? Converge in legge verso
qua.Jclie legge nota?
e) Trovare una funzione affine U di ~ ì:Z=1 log ){ k che sia. uno stimatore
non distorto di 0.
f) Paragonare i due stimatori U C' T. Quale dei due è preferibile?
g) Usando il risultato di c) determinare 1111valore di z ta.Je che la. regione

{ÌI Xi> Z}
k=l

sia. la regione critica di un test lJ : 0 :S O contro 0 >Odi livello a e per n = 10.


260 Capitolo 6

6.2 Sia X1, ... , X n un campione di legge di densità

3x 1/2
{ se O~ 0 ~ 1
fe(a:) = i(J3/2
altrimenti

dove 0 E 0 =J0, 2].


a) Calcolare E(X) e Var(S-). Ded1m1<> uno stimatore non distorto U di 0.
Q11alè il suo rischio q1rndratico?
b) Df'tf'rminare lo stimatore di massinrn verosimiglianza.(} dì 0. Calcolare la
lf'gge di /J,F:(0), Var(0). D,•durne 11110
stimatore non distorto V di 0 e calcolarne
il rischio q11<1drat.ico.
c) Supponiamo n = 100. Paragonare i due stimatori U e V. Qua/e c/ei due è
preferil>ile? Usando l'approssimazione normale rnstrnire un intervallo di fiducia
di livello 0.!)S per 0.
d) Usando l'espressìonC' ddla l<>ggedi {J costrnire un i11tcrvallo di fìclucia di
livello 0.!)5 p<>r0.

6.3 Una moneta, 11011 IIC'Cf'ssariamf'nte f'quilibrata viene lanciata pilÌ volte e si
osserva il 1111meroX di lanci 11ffessario a otlell('re testar volt€', dover è un
intero positivo prefissato.
a.) Calcolare la legge di X in funzione della. probabilità p di ottenere testa.
rn u11singolo lancio. Dedurne /;i relazionP

~
~
(n)
r
( 1- JJt = (1 ~ JJY
p'+1
n=1·

b) Mostrare che, per r ~ 2. r=:.\


è 11110 stimatore 11011 distorto di p.
c) Calcolare lo stimatore di massima verosimiglianza p clip.

6.4 Calcolare lo stimator(' di massima verosimiglianza. di p per un campione


X1, ... , X 11 di rango n di una legge geometrica di parametro p. llfostrare che

X+ 1 è 11110 stimatore 11011 distorto di Iuolt.re, posto S2 = n~ 1 1) Xi - X) 2 ,
e utilizzando il fatto c/Je
.t + 1 - l
---~P.jn
s
segue approssimativamPntf' una h1gge t(n - 1) (per n abbastanza grande),
df'terminarf' rrn i11tervallo di fiducia J)f'r p al livello a= 0.0.5.
Esercizi 261

6.5 Si considC"ra tlll campione X 1 , ... , X n di una lC'ggedi densità.


20.1:e-8 x 2 se x >O
fe(.1:) = { o altrimenti

dove il parametro 0 varia in 0 = Ill+ .


a) Calcolare lo stimatore di massima verosimiglianza di 0.
b) Calcolare lo stimatore di Bayes di 0 supponendo una. legge a priori espo-
nenziale di parametro .X.

6.6 Si considera un campione X 1 , ... , X 11 di legge di densità.


~.l.5f-.r2
., /02
se .i:> O
.fe(:i:)= { 0·
O altrimenti
dove 0 è 1111 parametro> O. ralcolarC"lo stimatore di massima verosimiglianza
di 0. È non distorto?

6.7 Sia X1, ... ,Xn un campione di leggC"di densità


•)
,J;i:- -x2;02
se :i:> O
fe (X) = {
il V7/
sex~ O

dove 0 varia in 0 = m+.


a) Determinare lo stimatore 0 di massima VC'rosimiglianza di 0.
b) Calcolare E(02 ). Si può dPcl11rreche 0 è uno stimatore non distorto di 0?
c) Calcolarf' E(X 1 ). Se nc può dcc/urre 11110 stimatore non distorto di 0?

6.8 Si vuole controllare /'C"ffìcienza rii 1111 generatore aleatorio che dovrebbe
proclurrf' sequenze di v.a. inclip<'ndenti e 1111iformeme11te distribuite sugli interi
da O a 9. 11 questo scopo consicleriamo la seguente sequenza di 99 numeri da
esso generata.
303422721545813719868304701524769204639815
7 6 7 ì 3 9 5 4 9 4 4 7 6 I 6 2 2 9 3 2 4 ~ O 9 4 3 9 9 .5 6 8 ,58 2 1 6 1 O 1 6 3 3
6479.59816822966
a) Calcolare gli effettivi e le freq11enze relative cli ogni singolo valore. Ef-
fettuare quindi il test dd x2 : si può respingere l'ipotesi che il generatore sia
uniforme su {O, ... , 9}?
b) Date lrC' v.a . .,Y,Y,Z, in<lipC'1HlC'11tie 1111iformisu {0, ... ,9}, qual è la
probabilità. c/1e Y sia minorf' o ugrialC' sia cli X clie di Z?
e) Chf' ne pensatC' del gcncratorC' in quC'stione?
262 Capitolo 6

6.9 Consirlf'riamo 1111 problema di regressione multipla con le notazioni dd


paragrafo 6.11. Vogliamo studiare un test dell'ipotesi
II : /32= /33 contro l'alternativa /32 f:./3:3
(cioè dell'ipotesi cl1e il predittore x2 abbia lo stesso effetto sulla variabile di-
pendente df'l prf'dittore x3). Indichiamo con mii il termine rii posto ij della
matrice (X*.Y)- 1 e ricordiamo che il vettore b degli sUmatori segt1e 1111a legge
N(/3, cr2 (X*X)- 1 ).

a) Mostrare che la v.a. (reale) b2 - b3 segrie una legge normale cli media
/32 - /33 e di varianza a 2 ( m22 + m33 - 2m23)
b) Mostrare che

b2 - b3
T = ---,====~=
sJm22 + m33 - 2m23
""t(n - k)

c) Mostrare clic
{ITI 2: f1-0;2(n - k)}
è una regione critica di livello n pf'r il test considPNito.
Soluzioni

1.2 p =1- (5/6) 3 = O.,12. Deve 0ssere 1 - ( !j/6)n > 0.9. cioè almr>110n = ì:3.
1.4 Si usa. il metodo della partizione (kll"en'nto rr,rro (,)~L·;> ~-' . ;1 = l.
1.7 a) Indichiamo con A;, i= l.2.:3. l"e\·ento ""10due rialline 111::;11é'ro i·.-.~-:-
gono estratte entramhe": per calcolare P( ....1
1 U _.\2 U .-1
3 ) si u,:;a la di~nih;ìzior.e
ipC'rgeometrica, con la qua.le si determi11a.no le probabilità degli e\·011ti .--\, e
A; n Ai; si applica. poi la formula sulla probabilità della riunione di 3 e\·enti
non disgiunti.

1.8 Si tratta di calcolare la. cardinalità dell'insieme di tutte le permutazioni di


1, ... ,n che spostano nn assegnato nnmero (1 per esempio) a.I k-esimo posto.
Non è difficile vedere che q11C'sto insieme si può mettere in corrispondenza.
biunivoca con le permutazioni di n - 1 elementi e perciò ha. cardinalità ( n - 1)!
qualunque sia k. La. probabilità richiesta. è .dunque (n~?- i
e tutti i va.lori
di k sono equiprobabili.

1.10 a) Se indichiamo con A; l'evento "viene sc<>lta l'urna i-esima." e con B


l'evento "vengono estratte due p,illinC' di colori diversi", allora. la distribuzione
..-, -- (j)(4)/(4+i)
.1pergeome t.rica d'a P(T3 I·\·) 1 1 2 - (·l+i)(8i3+i) ·-
.- q,. e P(A·)-
, - 101. ,
dunque
1 10

P(B) = To L (4 + i)(3Si +i)=


t=I
o..506
b) Per la formula di Dayes

. P(1ti) qi
P(.4; I TJ) = P(JJ I A;) P(B) = lOP(B)

Si tratta quindi di c!C'terminare il valore di i per cui q; è massima, cioè i =3


oppure i= 4; pC'r questi valori P(A;IB) = 0.112.
264 Soluzioni

c)
1 9 2
P( B) ~ q· + - q10
= -11!-' 11
i=l

Va.le ancora. la
P(Ai)
P(AilB) = P(BIAd P(B)

ma ora. P(R,:I
8>)= 11 l!( BJ q; per i = 1, ... 9 (valore massimo ra.gg;iunto ancora
per i= 3,'1), mentre P(~J ~) = llP 2(B) q10, e un confronto numerico mostra
che ora. è l'urna. 10 la. pi11 proba.bile (P(A 3 I B) = 0.103 mentre P(A10 I B) =
0.1.58).

2.1 Il numero di 6 ottenuti in n lanci ha Jc,gge B(n, ¼).


) ( 3) 12 .5
a 2 6 i3·
h ) Pn = (n)
2 6
I 2
(s)n-2
6
n(n-1) (")n-2
=~ .
i . Ca.lcolando
numcncamente ( con un
programma. BASIC di 4 righe) si vede che il massimo è raggi unto per n = 11
e n = 12. Pii, rigorosamente si sarebbe potuto fare uno studio della. funzione
t __.t(t - 1) (¾)1- 2 che è crescente fino a

t = -1 1 s [ - 2 + log Ì - J(2 - log Ì )2 + 4 log


og6
ì] = 11.49
e poi decrescente; ciò implica. che il massimo di Pn può essere raggiunto o per
n = ll o per n = 12; un controllo dir('tto mostra che entrambi questi valori
rea.lizza.no il massimo.

2.2 a) Indichiamo con A l'evento "viene scelto uno dC'i dadi truccati" e con B
il suo complementare. Allora.

P{X = 3} = P{X = 3 I A}P(A) + P{X = 3 I B}P(B) =i~+/ 1 0 = 125

E[X] =L kP{X = k} = L k(P{X = I.:I A}P(A) + P{X = k I tf,}P(8)) =


k k

= ... =--11( 2+ ... +6)


1+ ... +6 ) +-21(1 -+--- =3
26 2 10
b) Se X e Y indica.no i ris11ltati del primo e del secondo lancio rispettiva-
mente e poniamo C = {X = 2, Y = 3} allora

17
P(C) = P(C I A)P(A) + P(C I B)P(B) = -21 ( -361 + -100
1 )
900
Soluzioni 265

La. probabilità che si tratti di uno dei dadi trucca.ti è

P(I¾ I C) = P(C I n) P(A) = ~


" P(C) 34
c) No: ad esempio

2
P{X = 2}P{Y = 3} = ( 125 )

che è diverso dal valore di P{X 1 = 2, Y = 3} calcolato in b ).

2.4 b)

- ·(kl X y = ) = P{X = k. X+ Y = 11}= P{X = k. }. = 71- k} =


P,\ · + n P{X+Y=n} P{X+}·=n}
\ k n-k
P{X = l.:}P{Y = n - k} e - ,\"-- e - 1' J!..___
----,-------=
P{X + Y = n}
k! • n-A-!
p-(.\+µ,) (>.+ti)" = (~) (À~/Jk(À:/Jn-k
- n!

La legge condizionale è dunque ll(n, .\~µ, ).

2.5 Tutte le f.g. sono tali che g( 1) = 1. Dunque e, se esiste, deve valere
(log ½)- 1 = -(log 2)- 1 . Per tale valore di e si ha, sviluppando in serie di Taylor,

00 1
g(z)
·
=~
"'--zn
n2nlog2

g è dunque la f.g. della distribuzione p(n) = (n2nlog2)- 1, n 1,2, ... La


media va.le g'(l) = (log2)- 1.

2.8 a) Applicando la. Proposizione 2.50 si mostra che X e Y sono di Poisson


di parametro Àp e À( 1 - p) rispettivamente.
b) Per l'Esercizio 2.4 la densità condizionale di X dato N = k è binomia.le
B(k,p). Poiché Y = N - X

P{X = /.:,Y = m} = P{X = k, N = m + k} =


= P{X = k IN= m + k}P{N = m + k} =

= ( m + "') 1/(l - p)mc-·'---


Àm+k
=
k (m+k)!
= ... = e-,\p(JJÀt e-.\(I-p) ((l - p)À)m = P{X = k}P{Y = m}
k! m!
266 Soluzioni

2.10

= k} =
(:r)(nm_b
k)
P{X
(m(b/r))
n) mb ... ( mb - k + 1) mr ... ( mr - n + k + l) ----+
(
k m(b+r) ... (m(b+r)-n+l)
(n)(b+r)
----+ k
bk rn-k
11

2.11 Se T gode della proprietà di mancanza di memoria allora


P{T > k + m}
P{T ~ m} = P{T ~ k + m IT ~I.-}= P{T ~ k}
Dunque la funzione f(m) = P{T ~ m} è tale che f(m + k) = f(m)f(k).
Dunque f(2) = f(1) 2 e per ricorrenza f(n) = qn, dove poniamo q = f(l).
Poiché P{T ~ n}----+O p('r n----+ oo necessariamente q < l. Dunque P{T n} = =
P{T ~ n}- P{T ~ n+ 1} = qn(l -q) e Tè geometrica di parametro p = l-q.
2.15 Indichiamo con T il numcro di carte necessario perché appaia il primo
asso; si tratta di calcolare la legge di T. Ma P{T > k} è anche la probabilità
di non trova.re nessun asso in k carte. Questa probabilità si calcola facilmente
con la distribuzione ipergeometrica e vale

Dalla f.r. di T si ricava quindi la densità.

2.17 Il numero di passeggeri che si presenta su un volo, che supponiamo


completo, è una v.a. X 1 di legge B(22, 0.9) per il primo tipo di aereo ed una
v.a. X 2 di legge B(l1, O.O) per il secondo. La probabilità di lasciare a terra
almeno un passeggero nel volo da 20 posti vale

P1 = (~D + (~D=
0.0 21 • 0.1 0.9 22 0.339
mentre per l'altro tipo di aerco

P2 = CD = 0.9 11 0.314
Il rischio è maggiore per il volo da 20 passeggeri.
Soluzioni 267

2.18 Sia,\ < p e mostriamo che F.\(t) 2: F 1,(t). Sia.no X, Y v.a.. indipendenti
e di Poisson di parametri ,\ e I' - >.rispettivamente. Allora 7 X+ Y è di =
Poisson di para.metro p. e dunque

Fµ(t) = P{Z ~ t} = P{X + Y ~ t} ~ P{X::; t} = F.\(t)


dove nella disuguaglianza. si usa il fatto che Y 2: O.

3.4 La quantità P {X+ Y ~ t} che dà la f.r. di X+ Y è pari all 'ar<'a tra t t<'ggiata
nella Figura S.l.

:r+y=t
/

Figura S.1

Dunque
t; se O~ t ~
F(t) = {
1

-1 ( 2 - t) 2 se 1 ::; t ~ 2
2 .
e F(t) = O altrove. Derivando si ottiene la densità

t se O ~ t ~ 1
J(t) ={2- t se 1 ~ t ~ 2

e J(t) = O altrove, che ha il caratl<.'ristico grafirn "a ca.setta" della Figura S.2.

Figura S.2
268 Soluzioni

3.9 a) Il quadrato di una v.a. N(0,1) ha densità f(½,½)- Calcoliamo dunque


la f.r. della prima delle due v.a.: essa assume valori in [O,1]; se O ::; t ::; 1

F(t) = P{X2::; t(X2 + y2)} = p { 1 ~ t x2::; y2}


dunque F(t) = P{(X2, Y 2 ) E A} dove A = {(x, y); cx ::; y}, e = (1 - t)/t.
Ricordando l'Esempio :1.8

F(t) =~
2rr
1 x- 1 ! 2 y- 1 l 2 e-(x+y)/ 2 d.T dy = l - ~ arctan(
rr
V(l - t)/t)
A

e derivando
F'(t) = l
rrJt(l-t)

si ottiene la densità cercata.

3.10 Si usa. il teorema. di cambio di varia.bile per calcolare le densità congiunte.

3.14 a) Si calcola la funzione di ripartizione

Fz(z) = P{Z::; z} = P{Z::; z, Y = 1} + P{Z::; z, Y = -1} =

= 1
P {X ::; z} + ~ P {X ~ - z} = P {X ::; z} = Fx ( z)

La stessa idea si usa per b ).

3.16 b) Se X 1 , X2, ... sono esponenziali di parametro À allora

Z = sup{ n; X1 + ... + X n ::; 1}

è di Poisson di para.metro À per l'Esempio 3.28.

3.18 La legge condiziona.IP di Y dato X vale iJv1x(Ylx) = xe-xy sex> O, y > O


ed è = O altrimenti. Poiché la legge di X è nota, ciò permette di calcolare la
legge congiunta di (X, Y), da cui si deduce la legge di Y, che ne è una marginale,
e poi la legge condiziona.le di X dato Y.
Soluzioni 269

Figura S.3

3.19 Se indichiamo con X e Y i due numeri, le due v.a. hanno distribu-


zione congiunta uniforme sul quadrato [O,1] x [O.l]. La probabilità richiesta
è P{(X, Y) E A} dove A e IR.2 è la regione dei punti (:r. y) tali che 1-r- yl > ¾.
Cioè l'area della regione tratteggiata nella Figura S.3, che vale ¼. -
3.21 Poiché la funzione tan è monotona

Fy(y) = P{X ~ arctan y} = ~ ( arctan y + i)


e derivando
1
fr (Y) = 7r( 1 + y2)
Y non ha speranza matematica finita.

3.22 a) Poiché sin è una funzione dispari, mentre cos è pari

1
</Jx(0)= 2 1+= .
-=
e-lxleillx dx= 1+=.
o
e-x cos0x dx

e integrando per parti


' (0)
<Px = 1 +1 02
b) 0-+ 1/(1 + 02 ) è integrabile; dunque per il Teorema 3.44 d'inversione

_!_
27r
J+ e-ixfJ
l 02
d0 = ~e-lxi
2
Scambiando x con 0 si ricava facilmente

-
1
1r
J+ --
l
eixfJ
x2
dx= e-1 8 1

dunque <jJy(0) = e-llll (</>ynon è derivabile: si ritrova il fatto che Y non ha


speranza matematica finita, come si è visto nell'Esercizio :3.21). La legge di
¾(Y1 + Y2 ) ha ancora fonzion<' caratteristica <jJ(0)= e-llll ed è quindi ancora
;na legge di Cauchy.
270 Soluzioni

3.24 a) Si ha per una generica funzione 1/J

E[1/J(Z,Y)] = E[1j,(X + h(}~), Y)] = J g(y) dy J 1/J(x+ h(y), y) f(x) dx

Effettuando il cambio di variabile z = x + h(y) nel secondo integrale

E[1j,(Z,Y)] = J J
g(y) dy 1/,i(z,y) J(z - h(y)) dx

che implica appunto che la densità congiunta di (Z, Y) è data da (z, y) -+


g(y)J(z - h(y)).
b) La densità condizionale è z -+ f( z - h(y) ). La speranza condizionale si
trova calcolando l'integrale

J zf(z-h(y))dz

con un evidente cambio di variabile.


c) Basta seguire i calcoli dei punti a) e b ), con una piccola differenza nel
cambio di variabile. Occorre però che sia h 1 (y) > O. La densità condizionale
dato Y =y è x -+ hi (y)J ( x~~t;t) e la spC'ranza condizionale vale h1(y )E[X] +
ho(y).

3.25 a) La legge condizionale di X dato Z = z è N(z, ¾),dunque

f (z, x) = :a exp [ -1( z2 ( n +:2) - 2nx z + nx 2 )]


h) Se indichiamo con r la matrice di covarianza, dalla espressione della
densità. congiunta si ricava facilment(' che deve essere

1±~,'72
r -1 = ( (!·

-n
L'inversa di questa matrice si calcola ricordando la regoletta

(ae db)-l- ad-1be (-ed -ab)


per cui

r = ( " 1:~(12
')
a-
2 )
a-
Soluzioni 271

c) Poiché Z - a.\"e ,t hanno legge congiunta normale basta determinare a


in modo che le due v.a. siano non correlate e cioé

- - - - 2 1 + 71,(12
O= Cov(Z - aX, X)= Cov(Z, X) - a Var(X) = CT - a---
n

da • n11 2
CUI a = l+nu 2 •
d) La legge condizionale è normale di varianza pari alla varianza della v.a.
~- c10e
Z - a.~, • ' t+no-
0'2 d• d• • - X7l0'2
2 e I me 1a pa.n a a.x - l+n.o- 2 •
e) La migliore stima del valore assunto da Z sapendo che X = x è data
dalla speranza condizionale 1 ~n,~;
2 • Sostituendo i dati numerici si ottiene il
valore 1.1 7.

3.26 a) Sappiamo che X è il quadrato di 1111av.a. S(O. { 1. Se d1:nq·:" .Y = Z 2 •


allora P{X::; 1} = P{-1::; Z::; 1} = 0.8-1-1(quest"ultfrna quan~:·à -i cé.:cc-:a
con le tavole della legge normale).
b )- Con una integrazione p<'r parti si riconduce la f.r. di una densità 1 ¾, l, r
alla f.r. di una r (½,
1) . . . ·

4.4 a) Il valore di media. e varianza di ¼Xn


suggeriscono quale sia il limite e
come calcolarlo, usando la. disuguaglianza di Chebychev.
c) Siano S1 , S2 , ••• delle v.a., tutte di legge x 2 (1), tali che Z, S1 , S2 , •••
costituisca una famiglia div.a. indipendenti. Allora se Wn = S1 + ... + Sn, Wn
è ancora ii1dipendente da Z ed ha. legge x2 (n). Dunque la v.a . .fii,Z/-/W:i ha
la stessa legge di Yn ed ha anch'essa legge t(n). Ma si può scrivere

Poiché (S1 + ... + Sn)/n '!.:.:·1 per la legge dei grandi numeri, si ha anche

Z
--yn---+
r::q.c. Z
~
Poiché la convergenza qua.si certa implica quella m legge e le v.a. Yn e
.fii,Z/v'W:i, hanno la stessa legge, Yn !:. N(O, 1).

4.5 b) Le X n hanno tutte le stessa media e varianza che tende a O. Basta


quindi applicare la. disuguaglianza di Chebychev.
272 Soluzioni

4.6 Sia X una v.a. N(O, cr2 ). Allora per il Teorema Limite Centrale

P{Zn:::; t} = P{ - vi:::; X1 + ... +Xn:::; vi}- ct>(vi)-et>(- vi)=


(T (T In (T (T (T

= P{X 2 :::; t}
Dunque Zn converge in legge verso X 2 , che è una v .a. f( ¼,-2 \
- (j
).

5.4 Supponiamo n = 3 per semplicità. Nel corso dei lanci possiamo essere in
uno degli stati C, CT, CTT, TTT, a seconda che l'ultimo lancio abbia dato
per risultato C, che l'ultimo lancio abbia dato T ed il precedente C eccetera
rispettiva.mente. Si può quindi considerare la. C.M. sull'insieme di questi 4
stati che risulta dai lanci sucr,essivi della. moneta. Essa ha come matrice di
transizione
I
2 o

(!
o 21
o o
o o ~)
TTT è l'unico stato ricorrente e quindi con probabilità 1 la catena giunge in
TTT. Per il caso di n generico il ragionamento è lo stesso, costruendo una
catena simile, ma con n + l stati. Questo argomento si applica naturalmente a
tutte le sequenze di lunghezza n finita, e non solo a TT ... T.

5.7 b) P{Xn = llXo = 1} vale O se n è dispari; per n pari il suo valore si può
approssimare per il teorema di Markov con la distribuzione invariante di Q.
c) Se si modifica la matrice di transizione Prendendo gli stati 5 e 6 assor-
benti, la probabilità richiesta. non è altro che la probabilità di assorbimento in
6 per la nuova catena.

5.9 b) Se si i,arte dallo stato i la media vale costantemente ·i.


c) Risolvere il sistema (.5..5) può essere complicato. Osservare però che
somma delle due probabilità di essere assorbiti in O e in 1 vale 1 e che se
si parte da i il valore medio di Xn resta sempre uguale a i ...

5.11 a) Se Xn =k, al tempo n + l nell'urna vi possono essere ok- 1 palline,


se la pallina prescelta è una delle k che si trovano nella prima urna, oppure
k + I se la pallina prescel1a. è una delle m - k che si trovano nell'altra urna. Si
Soluzioni 273

tratta dunque di una catena di nascita e morte con

m-k
Pk = Pk k+I
'
= -- m
Tk = Pk,k = o
k
qk = Pk,k-1 = -m
b) È facile verificare l'equazione di stazionarietà per 1r, ma ancora più facile
è mostrare che 1r è reversibile ( e quindi stazionaria). Ricordando che Pii = O
a meno che non sia j = i+ 1 oppure j = i - 1, basterà mostrare che per ogni
k =O, ... , m si ha
11"kPk,k+l = 11"k+IJJk+I,k
che è immediatamente verificata perché

7n) 2 -m m - k _ (m - 1)!
11"kPk,k+I =( k m - /..:!(m-k-1)!

(
m ) 2 _m k l _ +
( m - 1)!
+
k 1 m - k!(m - k - 1)!

c) Se al tempo O la catena si trova in uno stato pari, al tempo successivo essa


si troverà in uno stato dispari e poi in uno pari e così via. Quindi, qualunque
sia n, la matrice cli transizione in n passi pn non può avere tutti i coefficienti
positivi.

6.8 Con un po' di pazienza ed una calcolatrice si ricavano gli effettivi e le


frequenze empiriche

o 1 2 3 4 5 6 7 8 9
N; 6 10 11 10 11 8 13 9 9 12
Pi 0.061 0.101 0.111 0.101 0.111 0.081 0.131 0.091 0.091 0.121

Il test del y 2 dà un valore Tn = 3.77.5 che non permette cli respingere l'ipotesi
che il generatore sia uniforme.
b) Calcoliamo la legge cli min(X,Z). Per k 0, ... ,9 si ha =
P{min(X, Z) > h'} = P{X > k}P{Z > k} = (9 ~i)2

P{min(X, Z) = k} = P{min(X, Z) > k - 1} - P{min(X, Z) > k} =


1 ((9 - /..:+ 1) 2 - {9 - k) 2 ) = - 1 (2(9 - k) + 1)
= -100 100
274 Soluzioni

Dunque, posto W = min( X, Z)


9 9
P{Y ~ W} = LP{Y ~ W,W= k} = LP{Y ~ k,W = k} =
k=O k=O
9 1 9
=~
L
P{Y < k}P{W = k} = -
-
~(k + 1)(2(9
1000 L
- k) + 1)
k=O k=O

Il calcolo, manuale o automatico, dà il valore 0.385.


c) Il generatore aleatorio considerato è probabilmente uniforme su {O, ... , 9},
ma certo non produce sequenze indipendenti. Considerando i numeri a tre a tre
si vede che per ogni terzina il numero al centro è sempre minore o uguale degli
altri due. Poiché vi sono 33 terzine, se veramente i numeri fossero uniformi e
indipendenti allora l'evento

A= {in tutte le terzine il valore più piccolo si trova al centro}

si verificherebbe con probabilità pari a a= 0.385 33 = 2.1 · 10- 14 _ L'evento A è


dunque la regione critica di un test di livello a per l'ipotesi
Jf0 : le v.a. osservate sono indipendenti.
È però opportuno a questo punto ripetere la simulazione e applicare il test in
questione ai nuovi valori simula.ti (è scorretto costruire un test a cui sottoporre
dei da.ti dopo averli visti).

6.9 a) b2 - b3 è una v .a. norma.le perché una funzione lineare di b, che è


normale. La sua media è uguale alla differenza. delle medie e la sua varianza. si
calcola facilmC'nte visto che sono note le varianze di b2 e b3 , come pure la. loro
cova.nanza..
Tavole numeriche
276 Tavole numeriche

Quantili della legge N(O, 1)

~
. ......
. . . . .
. . .. . .. . .. . .. . .. ' .. . ..
. . . . . . . .
. ' ...... .
. . . . . . . . . ' . ...
. . . ..
. . . . . . . . . . . ' . ....
. . . .
::::::::::::

X .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o .50000 .50399 .50798 .51197 .51595 .51994 . .52392 .52790 .53188 .53586
O.I .53983 .54380 .54776 .5.5172 .55567 .55962 .56356 .56750 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63:307 .63683 .64058 .64431 .64803 .65173
0.4 .65.542 .6591 O .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .698-17 .70194 .705-10 .7088·1 .71226 .71566 . 71904 .72240
0.6 .72575 .72907 . 73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 . 76731 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .8314 7 .83398 .83646 .83891

I.O .84134 .84375 .84611 .8-1850 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .8906.'j .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .9236-1 .92507 .92647 .92786 .92922 .93056 .93189
1.5 .93319 .934-18 .93574 .93699 .93822 .93943 .94062 .9·1179 .94295 .94408
1.6 .94520 .94630 .94738 .9484.5 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95819 .95907 .9.5994 .96080 .9616 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .9699.5 .97062
1.9 .97128 .97193 .972.57 .97320 .97381 .97441 .97500 .97558 .97615 .97670

2.0 .97725 .97778 .97831 .97882 .97933 .97982 .98030 .98077 .98124 .98169
2.1 .98214 .98257 .98300 .98341 .98382 .98422 .98-161 .98500 .98537 .98574
2.2 .98610 .98645 .98679 .98713 .98715 .98778 .98809 0.98840 .98870 .98899
2.3 .98928 .98956 .98983 .99010 .99036 .99061 .99086 .99111 .99134 .99158
2.4 .99180 .99202 .99224 .99245 .99266 .99286 .99305 .99324 .99343 .99361
2.5 .99379 .99396 .99413 .99430 .99446 .99461 .99477 .99492 .99.506 .99520
2.6 .99.534 .99547 .99560 .99.573 .9958.5 .99598 .99609 .99621 .99632 .99643
2.7 .99653 .99664 .99674 .99683 .99693 .99702 .99711 .99720 .99728 .99736
2.8 .99745 .99752 .99760 .99767 .99774 .99781 .99788 .99795 .99801 .99807
2.9 .99813 .99819 .9982.5 .99831 .99836 .99841 .99846 .998.51 .998.56 .99861
Tavole numeriche 277

Quantili della distribuzione t( n) di Student

~
. ......
. . . . .
. . .. . .. . .. . .. . .. . .. . ..
. . . . . . . .
. . . . . . . . . .. . . . . . . .
. . . . . . . . . .
. . . . .. . .. . .. . . . . . . . . .
::::::::::::

0.95 0.975 0.99 0.995


1 6.31375 12.7062 31.8206 63.6570
2 2.91999 4.3027 6.9646 9.9248
3 2.35336 3.1824 4.5407 5.8409
4 2.13187 2.7764 3.7470 4.6041
5 2.01505 2.5706 3.3649 4.0322
6 1.94318 2.4469 3.1427 3.7075
7 1.89459 2.3646 2.9980 3.4995
8 1.85955 2.3060 2.8965 3.3554
9 1.83311 2.2622 2.8214 3.2499
10 1.81246 2.2281 2.7638 3.1693
11 1.79589 2.2010 2.7181 3.1058
12 1.78229 2.1788 2.6810 3.0546
13 1.77093 2.1604 2.6503 3.0123
14 1.76131 2.1-148 2.6245 2.9769
15 1.75305 2.1315 2.6025 2.9467
16 1.74589 2.1199 2.5835 2.9208
17 1. 73961 2.1098 2.5669 2.8982
18 1.73407 2.1009 2.5524 2.8784
19 1. 72914 2.0930 2.5395 2.8610
20 1.72473 2.0860 2.5280 2.8453
21 1. 72075 2.0796 2.5176 2.8314
22 1. 71715 2.0739 2.5083 2.8188
23 1.71388 2.0687 2.4999 2.8073
24 1. 71089 2.0639 2.4922 2.7969
25 1.70814 2.0595 2.4851 2.7874
26 1.70.562 2.0555 2.4786 2.7787
27 1. 70331 2.0518 2.4727 2.7707
28 1.70113 2.0484 2.4671 2.7633
29 1.69914 2.0452 2.4620 2.7564
30 1.69726 2.0423 2.4573 2.7500
40 1.68385 2.0211 2.4233 2.7045
60 1.67065 2.0003 2.3902 2.6604
80 1.66413 1.9901 2.3739 2.6387
120 1.65765 1.9799 2.3578 2.6174
278 Tavole numeriche

Quantili delle leggi x 2 ( n)

~
.......
. .. . .. . .. . .. ' .. ....
. . .
. . . .
. . .. . . . . . .. . . . . . . .
.
. .. . .. . -. . ......
.. . . . . . . . . . . . .
.
. .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..
. . . . . . . . . . .
::::::::::::
x~(n)
0.01 0.025 0.05 0.95 0.975 0.99
1 0.0002 0.0010 0.0039 3.841 5.024 6.635
2 0.0201 0.0.506 0.1026 5.991 7.378 9.210
3 0.1148 0.2158 0.3518 7.815 9.348 11.345
4 0.2971 0.4844 0.7107 9.488 11.143 13.277
5 0.5543 0.8312 1.1455 11.070 12.833 15.086
6 0.8721 1.2373 1.6354 12.592 14.449 16.812
7 1.2390 1.6899 2.1674 14.067 16.013 18.475
8 1.6465 2.1797 2.7326 15.507 17 .535 20.090
9 2.0879 2.7004 3.3251 16.919 19.023 21.666
10 2.5582 3.2470 3.9403 18.307 20.483 23.209
11 3.0535 3.8157 4.5748 19.675 21.920 24.725
12 3.5706 4.4038 5.2260 21.026 23 ..337 26.217
13 4.1069 5.0088 5.8919 22.362 24.736 27.688
14 4.6604 5.6287 6.5706 23.685 26.119 29.141
15 5.2293 6.2621 7.2609 24.996 27.488 30.578
16 5.8122 6.9077 7.9616 26.296 28.845 32.000
17 6.4078 7.5642 8.6718 27.587 30.191 33.409
18 7.0149 8.2307 9.3905 28.869 31.526 34.805
19 7.6327 8.906.5 10.1170 30.143 32.852 36.191
20 8.2604 9.5908 10.8508 31.410 34.170 37.566
21 8.8972 10.2829 11.5913 32.671 35.4 79 38.932
22 9.5425 10.9823 12.3380 33.924 36.781 40.290
23 10.1957 11.6886 13.0905 35.172 38.076 41.638
24 10.8564 12.4012 13.8484 36.415 39.364 42.980
25 11.5240 13.1197 14.6114 37.653 40.647 44.314
26 12.1981 13.8439 15.3792 38.885 41.923 45.642
27 12.8785 14.5734 16.1514 40.113 43.195 46.963
28 13.5647 15.3079 16.9279 41.337 44.461 48.278
29 14.2565 16.0471 17.7084 42.557 45.722 49.588
30 14.9535 16.7908 18.4927 43.773 46.979 50.892

Per valori più grandi di n si usa il fatto che se Xn ,...,x2 (n) allora -,/2J[;,,-
y'2n - 1 è approssimativamente N(O, 1) (Vedi Esercizio 4.4). Ovvero
1
x2 (n,a) ~-(</>cx+ v'2n - 1)2
2
Indice Analitico

A E
aperiodica (catena), 181 errore di prima e seconda specie, 205
et.eroschedasticità, 249
B
Bayes F
- formula, 11 file d'attesa, 181
- stimatore, 201 frequenze empiriche, 216
Bernoulli (schema di), 15 funzione gamma, 99
bilancio dettagliato (equazione), 167 funzione di transizione, 148
bist.ocastica (matrice di transizione), 164 funzioni caratteristiche, 114
funzioni generatrici, 59
e funzioni di ripartizione, 32, 73
campioni, 193
catene di nascita e morte, 154 I
Chebychev (disuguaglianza di), 54 indipendenza
code, 181 - di eventi, 13
coefficiente di correlazione, 57 - di V.a., 38, 85
convergenza intervallo di fiducia, 192
- in probabilità, 131 invariante (distribuzione), 162
- quasi certa, 131 irriducibile (classe o catena), 152
- in legge, 135 istogrammi, 134
covarianza, 56, 108
covarianza (matrice di), 110 L
legge di una v.a., 22
D leggi
densità - di Bernoulli, 25
- condizionali, 41, 88, 91 - beta, 144
- continue, 77 - binomiali, 25
- congiunte, 35, 80, 90 - binomiali negative, 61
- discrete, 23 - di Cauchy, 129
- marginali, 35, 84, 90 - chi quadro, 105
- miste, 90 - esponenziali, 104
deviazione standard, 55 - F (o di Fischer), 239
disposizioni, 15 - gamma, 100
distribuzione di una v.a., 22 - gaussiane, 98, 123
disuguaglianza di Chebychev, 54 - geometriche, 28
280 Indice Analitico

- ipergeometriche, 17 ricorrente
- multinomiali, 37 - stato, 152
- normali, 98 - catena, 175
- normali multivariate, 123 ricorrente nullo (stato), 179
- a posteriori, 201 ricorrente positivo (stato), 179
- a priori, 201 rischio quadratico, 191
- di Poisson, 31 rovina del giocatore, 149
- t (o di Student), 144, 207
- uniformi, 79 s
legge dei grandi numeri, 132 schema successo-insuccesso, 15
livello u-algebra, 3
- di un test, 205 spazi di probabilità, 3
- di un intervallo di fiducia, 192 speranza condizionale, 111
speranza matematica, 47, 105
M stato (di una catena), 147
MAP, 204 stazionaria (distribuzione), 162
Markov stimatori
- catena, 14 7 - ammissibili, 191
- proprietà, 147 - di Bayes, 201
matrice di covarianza, 11O - consistenti, 194
matrice di transizione, 148 - di massima verosimiglianza, 198
media, 47 - non distorti, 191
modello statistico, 189 - di varianza minima, 195
momenti, 52, 107
- centrati, 52, 107 T
teorema
p - di Cochran, 233
partizione dell'evento certo, 12 - Limite Centrale, 138
partizioni, 18 test
permutazioni, 15 - del chi quadro, 216
potenza (di un test), 205 - di Student, 212
predittori, 220 - globale di dipendenza lineare, 240
preferibile (stimatore), 191 transitoria (catena), 175
probabilità, 3 transitorio (stato), 152
probabilità condizionale, 1O
probabilità d'assorbimento, 155 V
processo stocastico, 147 variabile dipendente (in regressione), 220
variabili aleatorie, 22
Q - assolutamente continue, 78
quantili, 207 - continue, 76
- discrete, 23
R - estese, 154
regione critica (di un test), 205 - multidimensionali, 34, 79
regolare (catena), 163 - non correlate, 57
reversibile (distribuzione), 166 varianza, 54, 108
ERRATA CORRIGE

pag. riga errata corrige


9 11 AKeA; A~eAK
28
, 34 -6
3
X
rn) ci)
q>(X)
\' 35 13 AclR AclR"
, 38 -12 due v.a. mv.a.
, 41 -2 AclR AclR"'
90 15 g (x, Yk) sia integrabile g (x, Yk) sia una densità continua
'{ 94 -3 AclR"' AclW
123 -2 N(0,l) N(0,1)
139 -2 s,; cJ2=1,s,;
~ (n1) (n2-n1) (nk-nk-I) ~ (n1) (nrn1) (nk-nk-1)
. 151 -16 ~vkpk. P 1· 1· ... p · · ~vip .. P lll2
.. . .. P i.k-1 .·ik
k 11 1 2 i k-1 1k j )li
155 -3
L Pihl Phlh2 • .. Ph,,i L Pihl Phlh2 • • • Ph,,_I j
h1ED h1ED
hn_·;en h11_·;en
jeC jeC
156 -15 paragrafo 5.6 paragrafo 5.7
164 3 ~·j "
PiJ
00 00
171 6 I m=l
I
171 6 p pi
176 -1 = lirn P 1('t0 <'tm}=l-a ~ lirn P1('t0 <'tm}=l- _!_
m->+oo m->+00 a
'Y111 -ym+I 'Y"'_ 1 m+I
184 2 1-ym+l
1-y"'·'
206 12 14 12
206 -9 2.17 2.18
260 4 [0,2] ]0,2]
263 2 P=~
5 P=+
o

264 5 P(BIAJ P(A;IB)


264 6 P(BIA 10) P(A 10 1B)

Inoltre, le ultime 7 righe della pagina 206 vanno sostituite con le seguenti:

P {X ~ 12) = 0.112
P {X ~ 13) = 0.064
P {X ~ 14) = 0.034

Dunque l'ipotesi non è respinta. Il valore 12 non è sufficiente a stabilire il


manifestarsi di un fenomeno sociale rilevante. La regione critica di questo test
al livello a = 0.05 è infatti D = (X ~ 14 j: se si fosse osservato un valore ~ 14
il dato sarebbe stato significativo.
Dal catalogo McGraw-Hill in lingua originale

O 07 O17073 8 Dix on and Massey, lntroduction to Statistica! Analysis


O 07 834370 4 Gordon, Contemporary Statistics: A Computer Approach
O07 085248 O Guilford and Fruchter, Fundamental Statistics in Psycholog_vand Education,
6th Ed.
O07 042353 9 Milton and Amold, lntroduction to Probability and.Statistics: Principles
and Applicationsfor Engineering and The Computing Sciences, 2nd Ed.
O07 112706 2 Milton and Tsokos, Statistica! Methods in the Biologica! and Health
Sciences, 2nd Ed.
O 07 100815 2 Morrison, Multivariate Statistica! Methods, 3rd Ed.
O 07 048477 5 Papoulis, Probability, Random Variables and Stochastic Processes, 3rd Ed.
O 07 085613 3 Rudin, Principles of Mathematical Analysis, 3rd Ed.
O 07 100944 2 Rudin, Real and .Compiex Analysis, 3rd Ed.
O 07 112786 O Runyon, Fundamentals of Behavioral Statistics, 7th Ed.
O07 451938 7 Srinivasan and Metha, Stoèhastic Processes, 2nd Ed.
O07 067674 7 Wadsworth, Handbook of Statistica! Methodsfor Engineers and Scientists
O07 067931 2 Wall, Statistica! and Data Analysis Book
O07 070982 3 Winer, Statistica! Principles in Experimental Design, 3rd Ed.
O 07 072646 9 Young, Statistica! Treatment and Experimental Data

cP_ j(. >'--


Kx ::.---
\ 1- )( )2.

1- li(

Potrebbero piacerti anche