Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
calcolo
delle probabilità
e statistica
Milano • New York • St. Louis • San Francisco • Oklahoma City • Auckland
Bogotà • Caracas • Hamburg • Lisboa • London • Madrid • Montreal • New Delhi
Paris • San Juan • Sao Paulo • Singapore • Sidney • Tokyo • Toronto
Ogni cura è stata posta nella raccolta e nella verifica della documentazione contenuta
in questo libro. Tuttavia né l'Autore, né la McGraw-Hill Libri Italia possono assumersi
alcuna responsabilità derivante dall'utilizzo della stessa. Lo stesso dicasi per ogni
persona o società coinvolta nella creazione, nella produzione e nella distribuzione di
questo libro.
ISBN 88-386-0693-5
2=edizione aprile 1993
Printed in Italy
-156i890GBTLLC9E
Indice
Introduzione Vll
1 Spazi di probabilità
1.1 Fenomeni deterministici e casuali 1
1.2 Spazi di probabilità 2
1.3 Spazi di probabilità uniformi 6
1.4 Proprietà degli spazi di probabilità 7
1.5 Probabilità condizionale, indipendenza 10
1.6 Calcolo combinatorio 15
Esercizi 18
4 Convergenza e approssimazione
4.1 La legge dei grandi numeri 131
4.2 Convergenza in legge . 135
4.3 Il Teorema Limite Centrale 138
4.4 Approssimazione normale 140
Esercizi 143
5 Catene di Markov
5.1 Definizione e generalità 147
5.2 Calcolo delle leggi congiunte 149
5.3 Classificazione degli stati 152
5.4 Problemi di àssorbimento 155
5.5 Probabilità invarianti 162
5.6 L'algoritmo di Metropolis, simulated annealing 166
5.7 Stati numerabili 169
5.8 Stati numerabili: ricorrenza e transitorietà 175
5.9 Esempi: file d'attesa 181
Esercizi 184
6 Statistica Matematica
6 .1 Modelli statistici 189
*6.2 Stimatori di varianza minima 195
*6.3 Stimatori di massima verosimiglianza 198
*6.4 Stimatori di Bayes 200
6.5 Test 205
6.6 Stima e test per campioni gaussiani 207
6.7 Il test del x2 215
6.8 Un esempio di analisi statistica 217
6.9 Regressione linea.re 220
6.10 Il teorema di Cochran 229
6.11 Regressione multipla 235
6.12 Regressione lineare: predizione 243
6.13 Regressione lineare: l'analisi del modello 248
Esercizi 259
Soluzioni 263
***
Lo scopo di questi insegnamenti cosiddeùf·•di servizio" è di mettere effet-
tivamente gli studenti in grado di affrontare i problemi di Calcolo delle Pro-
babilità e Statistica che incontreranno nel prosieguo del corso di Laurea in cui
sono impegna.ti. Ciò implica la necessità di giungere, in un tempo limitato, a
svolgere temi relativamente avanzati, e dunque il sacrificio di altri argomenti,
pure interessanti. Per questo motivo è stata fatta la scelta di limitare a pochi
accenni sbrigativi le questioni rituali dei fondamenti e dell'uso della teoria della
misura.
I primi 5 capitoli (tranne forse i paragrafi 3.11, 5.7 e 5.8) svolgono un
programma adeguato per un corso di 40 ore, specialmente se parte degli esempi
sono trattati in un corso di esercitazioni. Il resto del materiale può essere
utilizzato per un corso più lungo.
Il paragrafo 3.11 (peraltro importante in sè) e le parti scritte in carattere più
piccolo sono indispensabili solo se si affrontano le tematiche legate al teorema
di Cochran (paragrafo 6.10).
Anche i paragrafi che sono segnati nell'indice con un asterisco non sono
indispensabili alla comprensione del seguito e possono essere evitati da un
viii Introduzione
docente che desideri guadagnare tempo per sviluppa.re altri argomenti. Inoltre,
volendo, il capitolo 5 (Catene di Markov) può essere affrontato subito dopo il
capitolo 2.
***
I
L'uso dei calcolatori nelle applicazioni della matematica ha avuto, negli
ultimi vent'anni, un grande impulso anche per il Calcolo delle Probabilità e
la Statistica e di ciò si è avuto un riflesso anche nell'insegnamento.
Da una parte infatti hanno assunto un certo rilievo argomenti come la
generazione di numeri a caso e la costruzione di algoritmi di simulazione; in
questo testo alcuni spazi sono stati riservati a queste tematiche, che sono spesso
collegate a interessanti sviluppi teorici.
Dall'altra. l'uso di software specifici e facilmente accessibili permette ora.
allo studente di cimenta.re la. propria. formazione in veri problemi di statistica.,
resi ardui in altri tempi dalla presenza di lunghi, e poco significativi, calcoli
·numerici e dalla difficoltà di accesso ai metodi grafici. Questi strumenti di ela-
borazione statistica hanno un ruolo importante nel capitolo 6 nel trattamento
degli esempi. ~-
* *' *
Desidero ringraziare tutti i colleghi che con i loro consigli o con la. loro
costru.ttiva disapprovazione hanno contribuito alla messa a punto di queste pa-
gine. In particolare Alberto Frigerio, Giorgio Letta., Federico Marchetti, Mauro
Piccioni, Eugenio Regazzini e Marta Sa.nz.
Pa.olo Ba.Idi
.r-.-Jarzo
1993
Questo libro è dedicato a Alberto Fr-iger-io
1
Spazi di probabilità
h 2 ) se A, BE A allora A n BE A
h 3 ) se A E A allora Ac E A
È chiaro che, per ricorrenza, da b 1 ) si ricava che se Ai, ... , An E A allora
LJ~1 Ai E A e analogamente da b 2 ) se A1, ... , An E A allora la loro interse-
zione è ancora in A.
n An' EA
00
iiib)
n=l
Osserviamo che la Definizione 1.3 è ridondante nel senso che la condizione iiib)
è conseguenza di ii) e di iiia) grazie alla formula di De Morgan
Come è suggerito dagli esempi, gli spazi di probabilità sono dei modelli mate-
matici non innaturali di fenomeni non deterministici. Affrontando un problema
4 Capitolo 1
Ad esempio, nel ca.so dell'Esempio 1.1 è ragionevole, sulla base della discussione
fatta, considerare lo spazio di probabilità dato da
n = {1,2,3,4,5,6}
A= P(f2) (tutte le parti di f2)
P(A) =#A= #A
6 #f2
Spazi di probabilità 5
Un problema tecnico invece si pone per l'Esempio 1.2. È ovviala scelta n = JR+
(f! è l'insieme dei possibili risultati). Vedremo inoltre che sotto certe ipotesi è
ragionevole imporre che sia
dove >.è un parametro positivo. Non è invece chiaro quale sia la a-algebra
degli eventi. Infatti gli intervalli [a, b] non costituiscono una a-algebra (non
sono stabili per unioni finite o numerabili, ad esempio) ed inoltre la a-algebra
P(f!) di tutte le parti di n non è adeguata perché non è possibile definirvi
sopra una probabilità P che assuma sugli intervalli il valore dato da (1.2). Il
problema dunque è il seguente: esiste una a-algebra di parti di lR+, contenente
gli intervalli, sulla quale si possa definire una probabilità P che sugli intervalli
prenda il valore dato da ( 1.2)? A questa domanda si può rispondere in maniera
affermativa, usando però tecniche matematiche che vanno al di là degli obiettivi
di questo testo. Torneremo su questo punto nel capitolo 3.
Nelle Definizioni 1.3 e 1.4 abbiamo imposto delle condizioni, la iii) della Defi-
nizione 1.3 e la 2) della Definizione 1.4, che sono più forti di quanto gli esempi
del paragrafo precedente suggerissero. Infatti ora imponiamo che una unione
numerabile di eventi sia 1 ancora un evento (e non solo una unione finita) e che
la probabilità P sia additiva su una famiglia numerabile (e non solo su una
famiglia finita) di eventi a due a due disgiunti.
È in effetti possibile definire dei modelli nei quali la probabilità è solo finita-
mente additiva e che sono molto utili in alcune situazioni; noi però adotteremo
il pnnto di vista delle Definizioni 1.3 e 1.4 per vari motivi, non ultimo dei qu-
ali il fatto che questi modelli sono ormai usati quasi universalmente da molto
tempo e che i risultati ottenuti sono soddisfacenti.
Una situazione nella quale è facile costruire uno spazio di probabilità ragione-
vole che descriva un dato fenomeno aleatorio si presenta quando, per la natura
del problema ( come nell'Esempio 1.1), si può supporre che tutti i possibili ri-
sultati abbiano la stessa probabilità di verificarsi.
1 = P(n) =L P({w}) = p· #n
wEO
si ricava che P( {w}) =p = #ln. È ora facile vedere che se _poniamo per ogni
Acn
allora P è una probabilità sq P(n) ed è anzi l'unica che assegna a tutti gli
eventi della forma {w} la stessa probabilità.
Ritroviamo nella ( 1.3) una definizione popolare di probabilità: la probabilità
di un evento è il rapporto tra il numero di casi favorevoli ( #.4.) ed il numero
di casi possibili ( #n). Attenzione però: questa relazione vale solo quando la
natura del fenomeno è tale che si possa supporre che tutti i possibili risultati
sia.no equiprobabili.
La formula (1.3) lega, per uno spazio di probabilità finito e uniforme, il
calcolo della probabilità di un evento a quello della cardinalità di un insieme
( calcolo combinatorio).
• Se A E A allora
P(Ac) =1- P(A)
r segue da ( 1.4) scegliendo B = n).
• Se A C B allora P(A) ~ P(B). Si ha infatti da (1.4)
( 1.5)
Questa formula può essere utile nel calcol9 della probabilità. cli una riunione di
eventi n~~-disgiunti. -· - - - - -
delle coppie w = (w1 ,w2 ) che hanno la prima coordinata uguale a 6, mentre
A2 è il sottoinsieme delle coppie per le quali è la seconda coordinata ad essere
uguale a 6). Gli eventi Ai non sono disgiunti (la loro intersezione contiene
w = (6,6)) ma Af n Af è l'insieme di tutti gli w le cui componenti w1,w2
possono prendere solo i valori da 1 a 5; dunque #(Af n Af) = 5 X 5 = 25. Per
la (1.5) quindi
e e 25 11
P(A) = 1 - P(A 1 n A2 ) = 1 - 36 = 36 = 0.306
Teorema 1.9
i) Sia {An}n una successione crescente di eventi (tale cioè che A1 C A 2 C
.··he ... ) e A= UnAn. Allora
P(A) = n-+oo
lim P(An)
A= LJBk
k=l
Poiché gli eventi B 1 , B2, ... sono disgiunti
n
k=I
OC> n
P(A) = "P(Bk)
~
= n-+oo
lim "P(Bk)
~
= n--+oo
lim P(An)
k=I k=l
che dimostra il punto i). Per il punto ii) basta osservare che se A = nn An
allora Ac = UnA~. Ma poiché la successione {An}n è decrescente, {A~}n è
crescente; applicando il punto i) si ha dunque
P(A) =1- P(Ac) =1- lim P(A~)
n-+oo
= n--+CX>
lim (1 - P(A~)) = n-+cc
lim P(An)
10 Capitolo 1
Esempio 1.11 Si giocano alla roulette i numeri 3, 13, 22. Poiché i possibili
risultati sono 37 (i numeri da O a 36) ed è naturale considerare la distribuzione
uniforme, la probabilità di vincere è 3/37. Se però veniamo a sapere che il
gioco è truccato in modo che esca un numero dispari, qual è ora la probabilità
di vincere?
Se poniamo B = {3,13,22} e A= {1,3,5, ... ,3.5} un istante di riflessione
mostra che ora la probabilità di vincere è
Esempio 1.12 Una popolazione si compone per il 40% di fumatori (F) e per
il 60% di non fumatori (N). Si sa che il 2,5% dei fumatori ed il 7% dei non
fumatori sono affetti da una forma di malattia respiratoria cronica (M) . Qual
è la probabilità che un individuo scelto a caso sia affetto dalla malattia?
È chiaro che se (O, A, P) è uno spazio di probabilità che descrive questa
si tu azione, A dovrà contenere gli eventi
Probabilità condizionale, indipendenza 11
P(M) = P(M n F)
I
+ P(M n N) = P(F) P(M i F) + P(N) P(M I N) = 0.142
Siano A 1 , ••• , An eventi disgiunti tali che A 1 U ... U An = n (il che si esprime
anche dicendo che A 1 , .•• , An costituisce una partizione di fl). Vale allora la
formula di Bayes
Esempio 1.14 Tre mobili tra di loro indistinguibili contengono ciascuno due
·a,:;setti. Il primo contiene una moneta. d'oro in ciascuno dei due cassetti, il
12 Capitolo 1
secondo una moneta d'argento nel primo cassetto ed una d'oro nel secondo, il
terzo una moneta d'argento in ciascuno dei due. Si apre un cassetto a caso e si
trova una moneta d'oro. Qual è la probabilità che anche l'altro cassetto dello
stesso mobile contenga una moneta d'oro?
Consideriamo gli eventi A 1 : il cassetto prescelto appartiene al 1° mobile
A2 : il cassetto prescelto appartiene al 2° mobile
A3 : il cassetto prescelto appartiene al 3° mobile
B : il cassetto prescelto contiene una moneta d'oro
È chiaro che la probabilità richiesta è P(A 1 I B) ed inoltre che
1
P(B I A1) = 1 P(B I A2) = 2
P(B) =~ P(Ai) = -31 i= 1,2,3
Notiamo che negli ultimi esempi non abbiamo descritto completamente lo spa-
zio di__probabilità, ma. ci siamo limita.ti a. dire che (n, A, P) doveva. contenere
certi eventi con assegnate probabilHà e probabilità condizionali. È chiaro però
che una descrizione completa non sarebbe stata. difficile. Ad esempio nel caso
dell'Esempio 1.14 avremmo potuto considerare n = {wi,j, i= 1, 2 j = 1, 2, 3}
dove che w;,j corrisponde all'evento "viene scelto il cassetto i-esimo del mo-
bile j-esimo", e quindi considerare su n la probabilità uniforme. Nel seguito
vedremo che è spesso possibile evitare una descrizione completa. dello spazio
di probabilità e che solo la conoscenza di una parte di esso sarà rilevante. Del
resto la costruzione completa dello spazio di probabilità sarà sempre possibile,
e spesso evidente come poco fa.
Osserviamo infine che anche la formula (1.8) ha una sua propria utilità. Tal-
volta. non è immediato calcolare direttamente P(B) mentre si può trovare una
partizione A 1, ... , An di n (cioè una partizione dell'evento certo) per la quale il
calcolo di P(B I Ai) sia facile per ogni i (intuitivamente si tratta di decomporre
B in tante parti la cui probabilità si calcoli più facilmente).
Probabilità condizionale, indipendenza 13
b-l
P(B2 I B1) = --
n- l
poiché dopo la prima. estrazione di una. pallina. bianca nell'urna sono rimaste
n -1 palline di cui b-1 bianche; analogamente P(B2 I R1) = n~l. Per la (1.8)
bb-l
P(B2) = P(B1)P(B2 I B1) + P(R1)P(B2 I Ri) = - --
nn-l
r
-- b
+ -nn-l = -
n
b
doè la stessa probabilità che estrarre una pallina bianca alla prima estrazione.
P(A n B) = P(A)P(B)
Definizione 1.17 Si dice che A1, ... , An E A sono a due a due indipendenti
,e e solo se
-~·erogni scelta di i, j = 1, ... , n, i f::j. Si dice clie essi formano una famiglia di
,:-·:entiindipendenti se per ogni k '.Sne per ogni scelta di indici i 1 , ... , ik, tutti
:::,;tinti e compresi tra 1 e n si ha
~ .9)
Un istante di riflessione ora fa ca.pire che questo risultato dipende solo dal
numero di 1 presenti n{'lla sequenza e non dalle loro posizioni. Abbiamo quindi
ottenuto la formula
(1.10)
Calcolo combinatorio 15
(n)
k
n!
- k!(n- k)!
Esempio 1.23 Qual è la probabilità che tra n persone scelte a caso almeno
due festeggino il compleanno nello stesso giorno?
Possiamo scegliere n = sndove S = {1, ... , 365}. Dunque un generico
w E n è della forma w = (w 1 , .•• , Wn) dove Wi può assumere i valori da 1
a 365. Se supponiamo (il che non è del tutto corretto perché si sa che le
nascite sono più frequenti in certi periodi dell'anno) che la probabilità che
una persona sia nata in un \
determinato giorno sia uniforme su {1, ... ,365},
possiamo considerare la probabilità uniforme su n. Dobbiamo ora calcolare
la cardinalità di A = {w E f!; w ha almeno due componenti uguali}. È però
più facile calcolare la cardinalità di Ac = {w E n; w ha tutte le componen-
ti diverse} perché Ac si può mettere in corrispondenza biunivoca. con D~65 •
Dunque #n = 365n e #Ac = 365!/(365 - n)! da cui
, 1.11)
1
= 11748 = 0.000085
(k1n)
Per ricorrenza si può dimostra.re che
Proposizione 1.26
n!
#C(k1, ... ,km) = 1 k 1
k1 · · · · 'm·
Esercizi
1.7 Un giocatore gioca al lotto i numeri 1,2,3. Per aiutare la fortuna egli fa
.. 1modo di aggiungere all'urna tre palline supplementari con i numeri 1, 2, 3
quindi ora vi sono nell'urna. 93 palline).
a) Qual è la probabilità clie il trucco venga. scoperto (cioè che vengano
,-tratte almf'no due palline con numeri uguali)?
b) Di quanto è aumentata la sua probabilità. di fare terno? J
1.8 Le chiavi di un mazzo che ne contiene n vengono prova.te una dopo l'altra
-' :-;oa tro-vare quella giusta. Naturalmente le chiavi già prova.te vengono messe
~a parte. Qual è la probabilità c/1e la chiave giusta. venga. trovata a.l k-esimo
·c-ntativo?
1.9 a) Due amici senza saperlo si trovano entrambi in coda ad uno sportello,
-.-ieme ad a/tre n - 2 persone. Qual è la probabilità cli e essi siano separati da
·· persone (n 2: k + 2)?
b) Duf' palline vengono estratte da un 'urna che ne contiene n numerate da
~ a n. Qual è la probabilità cl1e i due numeri differisca.no di k (n 2: k + l)?
20 Capitolo 1
1.10 Dieci urne contengono tutte 4 palline rosse (R) e ed un numero variabile
di palline bianche (B). Più precisamente l'urna i-esima contiene 4 palline R e
i palline B. Un 'urna viene scelta a caso e da essa vengono estratte due palline.
a) Qual è la probabilità che le due palline siano una B e una R?
b) Supponiamo che l'estrazione abbia dato come risultato una pallina B e
una R. Qual è la probabilità Pi che l'urna prescelta sia. la i-esima.? Qual è l'urna
più probabile?
c) Rispondere alle stesse domande, supponendo però che vi siano ora 2 urne
contenenti 4 palline Be 10 R (le urne sono qufodi 11).
1.11 Un 'urna contiene due carte: una di esse ha entrambi i lati neri mentre
l'altra ha un lato nero ed uno bianco. Una. carta viene estratta. e se ne guarda.
uno dei la.ti: è nero. Qual è la probabilità che anche il secondo lato sia nero?
2
Variabili aleatorie discrete
jc ·O •
1
(1, ' J .' '
'' ', ,'
\ ~.· ' "'r.: v
- > ..
1,.f,_;
"
Esempio 2.1 Supponiamo di giocare alla roulette per tre volte 1 milione sul-
1·uscita del numero 29. Sappiamo ormai facilmente calcolare la probabilità di
vincere O, 1, 2 oppure tutte e 3 le partite; in realtà però in questa situazione
più interessante sarebbe fare una previsione su quello che sarà il nostro capi tale
alla fine del gioco. In altre parole ciò che interessa è la quantità
··na variabile aleatoria (v.a.) è dunque una funzione di w tale che si possa
·2.'.rnlare P{w; X(w) :S t}, cioè tale che abbia seyso calcolare la probabilità che
.\" prenda valori più piccoli di t.
Pii'1 in generale è fondamentale per le v.a. il calcolo di probabilità del tipo
?: _.: X(w) E A} dove A è un sottoinsieme di R. È di questo tipo la questione
_ dell'Esempio 2.1.
Siamo dunque condotti a studiare l'applicazione
-..:
.1 ) A-+ P{w; X(w) E A}
Nello studio delle leggi delle v.a. considereremo separatamente due ca.si: quello
in cui X può prendere al più una infinità numerabile di valori ( come nell'esem-
pio della roulette di poco fa, dove X ha 4 valori possibili) e quello in cui i valori
possibili sono tutto IR o un suo intervallo.
Un 'altra nozione importante è quella di media_evocata nel punto b) del-
l'Esempio 2.1. Pensando all'esempio della scommessa. si tratta di una nozione
abbastanza intuitiva: anche chi in questo momento non sarebbe capace di darne
una definizione rigorosa. sente intuitivamente che vis_ono scommesse nelle quali
in Ill_ediasi v_inceed altre in cui in media si perde o si rimane in parità.
Definiremo rigorosa.men te la media ( nel gergo probabilistico si chiama. spe-
ranza matematica) di una v.a. X, e vedremo come anche questa nozione sia
strettamente legata a quella di legge,(o distribuzione).
Abbia.mo motivato la nozione di v.a.. con l'opportunità di considera.re delle
funzioni di un esperimento casuale. In realtà la loro importanza va molto più in
là: d'ora. in avanti il modello fonda.menta.le dello studio di un fenomeno aleatorio
sarà. costituito da uno spazio di probabilità (S1,A, P), di cui spesso ignoreremo
la. natura, su cui sono definite delle v.a. con certe leggi assegnate. Questo fatto
~piega l'importanza che nei prossimi capitoli dedicheremo ali 'uso delle v .a. ed
al calcolo delle loro leggi.
Per semplicità di notazione nel seguito scriveremo {X ~ t}, {X E A} ...
im-ece di {w; X(w) ~ t}, {w; X(w) E A} ...
Variabili aleatorie discrete 23
{X ~ t} = LJ{X = xi}
x;~t
~-3) LP(x) =1
xER
r
:,;;_a) è ovvia, mentre per la b) osserviamo che nella somma tutti i termini
-.:,nonulli tranne al più quelli in corrispondenza dei valori x 1 , x2, ... Inoltre gli
~·.-enti{X= xi} sono a due a due disgiunti perché se X(w) = Xi non può essere
·,_·..:)= Xj con Xj =/:-Xi e, infine, poiché X(w) deve essere uguale ad uno dei
· :::ioriX;, si ha U~1 {X= Xi} = n; quindi
00 1 oc oc
L p(xi) =L P{ x = x;} = P ( LJ{x = xi}) = P( n) = 1
i=l i=l i=l
-~.iameremo <f!n_sità
d.iscretauna funzione p che s.od~_isfialle condizioni a) e b)
··:ne sopra.
24 Capitolo 2
-
X: ·se A e lR e vogliamo calcola.re P (Y E A} poss1a1no sèriveì·e
o altrimenti
Variabili aleatorie discrete 25
Esempio 2.5 I bulloni prodotti da una ditta sono difettosi con una probabilità
del 20% e vengono messi in commercio in confezioni di 3 pezzi ciascuna. Qual
ic:la probabilità che in una confezione vi sia al più un bullone difettoso?
Si può supporre che il fatto che uno dei 3 bulloni possa essere difettoso sia
:ndipendente dal fatto che lo siano o no gli altri. Usiamo quindi lo schema
3uccesso-insuccesso con n = 3 e p = 0.2. Il numero totale X di bulloni difettosi
-? dunque una v.a. di legge B(3, 0.2) e la probabilità richiesta vale
Per le estrazioni senza rimpiazzo abbiamo visto (Esempio 1.24 ) che il nu-
::·.ero totale X di palline bianche estratte segue una distribuzione ipergeo-
~~etrica. Dunque
r
: ,::ue Esempi 2.5 e 2.6 riguardano il calcolo della legge di una v.a., X, che
· :,:Ha quante volte un determinato fenomeno si verifica in una sequenza di
~: Jve ripetute. In entrambe le situazioni la probabilità che il fenomeno si
-=::ifichiin ogni singola prova (il bullone difettoso oppure la pallina bianca
_,·,atta, rispettivamente) è la stessa (pari a 0.2). La differenza sta nel fatto
· ..-': nella secon,da le prove ripetute non sono indipendenti: se lo fossero le
: .'? probabilità sarebbero state uguali, perché saremmo stati in presenza di
. :_,::,schema succes·so-insuccesso in entrambe le situazioni. Del resto è intuitivo
· --~i risultati di estrazioni senza rimpiazzo non debbano essere indipendenti,
~ -=::ché,ad esempio, se la prima estrazione dà una pallina bianca, la probabilità
Jttenere ancora una pallina bianca alla. seconda dovrà essere minore .
.\'el seguito ci riferiremo alla situazione dell'Esempio 2.6 parlando di schema
26 Capitolo 2
Esempio 2. 7 Sapendo che il 30% dei passeggeri che hanno prenotato non si
presenta alla partenza, una compagnia aerea accetta fino a 28 prenotazioni su
un volo con la capienza di 24 posti. Qual è la probabilità che (almeno) un
passeggero che ha regolarmente prenotato resti a terra?
Se supponiamo che i comportamenti dei singoli passeggeri siano indipendenti
tra loro possiamo usare come modello lo schema. successo-insuccesso con prove
indipendenti. Il numero X di passeggeri che si presentano è il numero di successi
in 28 prove indipendenti, dove in ogni prova si ha successo con probabilità
p = 1-0.3 = 0.7. X ha dunque legge B(28, 0.7). Poiché la probabilità richiesta
non è altro che P{X 2'.25} si ha
p=
(1~0)
(2~~0)
(
3000) = 0.385
28
o 1 2 3 4 5 6 7 8
o 1 2 3 4 5 6 7 8
::~~mpio 2.9 Un dado viene lanciato più volte fino a che si ottiene 6. Qual è
- ~rJbahilità che occorrano esattamente k lanci?
: ,ìirhiamo con T il numero di lanci necessario e con Xk il numero di volte
- :: si è ottenuto 6 nei primi k lanci; allora l'evento "nei primi k lanci non
28 Capitolo 2
o 1 2 3 4 5 6 7 8
è mai apparso il 6" si può indicare indifferentemente con {T > k} oppure con
{Xk = O}; poiché sappiamo che Xk segue una legge B(k, p) con p = ½abbiamo
La distribuzione geometrica è legata alla v.a. T ( che non è altro che il tempo
di prifno successo della successione di lanci) dell'Esempio 2.9: per (2.7) si ha
P {T - 1 =k} =P {T =k + 1} =p( 1 - p l
e dunque T - l segue una distribuzione geometrica di para.metro p.
Variabili aleatorie discrete 29
P {X 2 k} = L p ( 1 - p) = (1 - p l L p ( 1 - p )i = (1 - p l
-----
i
i=k j=O
=I
a questa relazione si ricava facilmente una classica proprietà. della distribu-
:- 1
= r:ine geometrica: se m 2: O
Osservazione 2.13 In alcuni degli esempi abbiamo fatto ipotesi che ci hanno
permesso di costruire un modello con il quale abbiamo calcolato le probabi-
lità che ci interessavano. Ad esempio nel caso delle prenotazioni aeree abbiamo
Variabili aleatorie discrete 31
supposto che i comportamenti dei singoli passeggeri fossero tra di loro indi-
pendenti. A ben guardare non è una ipotesi totalmente ovvia, perché si sa che
i passeggeri viaggiano spesso in gruppo (famiglie, squadre di calcio ... ), il che
significa che i comportamenti dei passeggeri del gruppo non sono indipendenti
(o partono tutti o non parte nessuno). L'ipotesi d'indipendenza in questo caso,
come in altri, va quindi considerata come una prima approssimazione, che co-
munque permette di costruire un modello semplice e di dare delle risposte.
È però naturale il problema di verificare a posteriori se il modello sia ade-
guato o no. È questa una questione che prende il problema al contrario rispetto
a come lo abbiamo sempre considerato: mentre finora abbiamo fatto delle pre-
visioni sul fenomeno basate sul suo modello, ora si richiede, a partire dall'os-
servazione del fenomeno, di ricava.re delle informazioni sul modello. È questo
un tipico problema di Statistica Matematica.
Il Calcolo delle Probabilità e la Statistica Ma.tematica si servono degli stessi
strumenti matematici ma, mentre il primo usa un modello per fare delle pre-
visioni su un fenomeno, la seconda cerca, al contrario, di ricavare informazioni
sul modello a partire dall'osservazione. Ne diremo di più nel capitolo 6.
P{X=k}= (;)(~)k
(1-~)n-k
_xk( À)n-k ----
n!
1--
k!(n - k)! nk n
= _xk(i-~)nn(n-1)
k!
...(n-k+l) (i-~)-k
n nk n
32 Capitolo 2
( 1 - ~) n - e-À
n( n - 1) ... ( n - k + 1) _ 1
nk
(il limite per n - oo del rapporto di due polinomi aventi lo stesso grado è
uguale al quoziente dei coefficienti del termine di grado massimo, qui entrambi
uguali a 1). Quindi, se X è una v,a. çli legge B(n,p), con n grande e p pic-
colo, la sua legge può··essere approssimat-a-coit una distribuzione di Poisson
_di parametro np. Ciò è molto utile, perché per n grande la manipolazione dei
coefficienti binomiali è disagevole.
Questo calcolo implica anche che le distribuzioni di Poisson appaiono in ma-
niera naturale come leggi di quantità" casuali X che rappresentano il numero di
successi su un numero molto grande di prove ripetute indipendenti, in ciascuna
delle quali la probabilità di successo sia molto piccola. Un esempio tipico di
questa situazione è il numero di telefonate che giungono ad un centralino in
un determinato periodo di tempo. Si può infatti supporre che il numero di
persone che potrebbero fare una chiamata sia molto grande e che ciascuna di
esse chiami effettivamente con piccola probabilità (e indipendentemente dalle
altre).
Ripetendo questo tipo di argomentazioni si può supporre che seguano una
distribuzione di Poisson
a) il numero di complicazioni postoperatorie per un dato intervento chirur-
gico in un dato periodo di tempo (purché il numero di interventi nel periodo
considerato sia elevato e la probabilità di complicazione piccola);
b) il numero di piante di un determinato infestante presenti in una. parcella
di terreno;
c) il numero di clienti che si presentano ad uno sportello in un dato periodo
di tempo;
eccetera.
1
-
O 1 2 3 4 5 6
Figura 2.4 Funzione di ripartizione di una v.a. uniforme su O, ... , 6.
O 1 2 3 4 5 6
Figura 2.5 Funzione di ripartizione di una v.a. di legge B(6, 0.5).
Fx ( t) = L p( x)
x~t
: :.e esprime la f.r. in termini della densità. Viceversa supponiamo per semplicità
· · ,,.X prenda solo valori interi, allora
.:. l O) F x (k) - Fx ( k - 1) = P { k - 1 < X :s;k} = P { X = k} = p( k)
34 Capitolo 2
Talvolta per calcolare la densità di una v .a. può essere più facile calcolare
prima la funzione di ripartizione Fx (o, che è lo stesso, la funzione 1 - Fx) e
poi da questa ricavare la densità tramite (2.10). È questa la procedura seguita
nell'Esempio 2.9 per trovare la densità del tempo di primo successo.
È chiaro che se X è una v .a. m-dimensionale discreta allora essa può assumere al
più un'infinità numerabile di valori x E Illm. Infatti sex= (x 1 , ... ,xm) E Illm
allora
{X= x} = {X1 = xi} n ... n {Xm = Xm}
x è dunque un valore assunto da X se e solo se simultaneamente x 1 è un valore
assunto da X 1 , x 2 un valore assunto da X 2 eccetera, e questi sono al più una
infinità numerabile. La relazione precedente mostra inoltre che {X = x} è un
evento, come intersezione di eventi.
Indicheremo con x<l), x(2), ... i valori assunti da X. Osserviamo che se X è
una v .a. m-dimensionale e </>: IRm ----+ IRd una funzione, allora </>(X)= </>oX
è ancora una v .a., ( d-dimensionale, questa volta). È chiaro infatti che </>(X)
assume i valori </>(x(l) ), </>(
x<2 l), ... che sono al più un 'infinità numerabile (può
succedere naturalmente che </>( x(l l ), </>(
x<2 l ), ... non siano tutti distinti, se </>
non è iniettiva). Inoltre, se indichiamo con y uno dei valori </>(x(ll),</>(x< 2 l), ...
allora
{</>(X)= y} = {X E </>-1 ( y)} = U { X = x}
xE<f,- 1 (y)
ponendo
, 2.11) p( X) = p {X = X}
2.12) p {X E A} =L p( :i:)
xEA
.-'\nalogarnente si ha
2.14)
6 • • • • • •
5 • • • • • •
4 • • • • • •
3 • • • • • •
2 • • • • • •
1 • • • • • •
1 2 3 4 5 6
Figura 2.6
Effettuiamo ora invece due estrazioni senza rimpiazzo, che indicheremo con
Y1e Y2e poniamo al solito Y = (Y1 , Y2). I valori della v.a. Y non sono gli stessi
poiché, ad esempio, il risultato (1, 1) non è più possibile. I risultati possibili sono
infatti le coppie (i,j) con i e j variabili in 1,2,3,4,5,6, ma con i e/-j. Si tratta di
30 valori, tutti equiprobabili, e dunque assunti ciascuno con probabilità 310 • Ciò
si può vedere nella Figura 2.7, dove però ognuno dei valori indicati col simbolo
• viene assunto con probabilità }0 •
D'altra parte però anche le v.a. Yi e Y2 hanno distribuzione uniforme su
{ 1. 2, 3, 4, .5,6} (Esempio 1.25) e quindi le distribuzioni marginali sono le stesse
che per le ef.trazioni con rimpiazzo.
Leggi congiunte, indipendenza 37
6 • • • • •
5 • • • • •
4 • • • • •
3 • • • • •
2 • • • • •
1 • • • • •
1 2 3 4 5 6
Figura 2. 7
~~;r:!i~ip2e.t~~e ~::ir:~~~ii~~;~~l~~;~~~i~~s;ee~·~a~~-~1~~-~!:~~~-~~~
· :>ati possibili, che indicheremo convenzionalmente 1, ... , m, rispettivamente
·: ~, probabilità q1 , •.• , Qm • Indichiamo con Y; il numero di prove che hanno
:o.ro per risultato i, i= 1, ... ,m (quindi Y1 + ... + Ym = n). Qual è la legge
:.0: vettore Y = (Y1, ... , Ym)?
Consideriamo lo spazio di probabilità costituito dall'insieme
: :in• wk può prendere i va.lori 1, ... , m ( ovvero n = {1, ... , m} n) e della <Y-
,.:e:ebra A di tutte le parti di n. Definiamo su n le v.a.
k = 1, .. . ,n
X~ rappresenta il risultato della k-esima prova. Poiché i risultati delle singole
~~ove devono risultare indipendenti e P{Xk =i}= q;, si deve avere
I
P{Y = x} = P{Y1 = n1, ... , Ym = nm} = 1 n. 1 qf
1 •• • q::;,,
n1 ... . nm.
solo se per ogni m > O risultano tra /oro indipendenti le v.a. X1, ... , X m·
che non significa altro che il fatto che i due eventi {X 1 E A 1} e {X 2 E A2}
sono tra. loro indipendenti per ogni scdta degli insiemi A 1 , A 2 • Scegliendo A 1
{.ri}, ... , Am = {xm} (2.1.5) diviene
(2.17) P{X1 = XJ, ... , Xm = :tm} = P{X1 =xi} ... P{Xm = Xm}
(2.18)
Leggi congiunte, indipendenza 39
di mostra che la (2.18), che lega la densità. congiunta delle v .a. X 1 , ... , X n
]P marginali, è una condizione equivalen.te all'indipendenza di X 1 , ••• , Xn.
- ~>articola.re,nel caso di v.a. indipendenti, tramite (2.18) è possibile calcolare
~ :·r nsità congiunta a partire dalle marginali, ciò che non è vero in generale.
: : ·:ryk è il numero di valori x; che sono uguali a 1. Uno sguardo più attento
~.:Tsempio 1.18 mostra. del resto che lo spazio di probabilità dello schema
' _~cesso-insuccesso è stato costruito appunto in modo che le v .a. Xi risultassero
: iipendenti.
}-serviamo che per determinare se due v.a. sono indipendenti basta conoscere
;;,.loro distribuzione congiunta p. Infatti a partire da essa è possibile, tramite
].13) e (2.14), calcolare le marginali p 1 e p 2 e quindi verificare (2.18).
In particolare se (X 1 ,X2) e (Y1 , Y2) hanno la stessa distribuzione congiunta
" Y1 e X2 sono indipendenti, lo stesso è vero per Y1 e Y2.
Esempio 2.19 Riprendiamo l'Esempio 2.15. Nel caso delle v.a. X 1 , X 2 ( quelle
~ ~o\"enienti dalle estrazioni con rimpiazzo) si ha
1
per z = l, 2, 3, 4, 5, 6
P1( z) = P2( z) = { ~ altrimenti
40 Capitolo 2
mentre
}6 sex= (i,j) con i,j = 1,2,3,4,5,6
p(x) ={O altrimenti
La (2.18) è dunque vera e X 1 e X 2 sono indipendenti. Ciò non è del resto
sorprendente se si pensa al significato intuitivo della nozione d'indipendenza:
poiché si fanno delle estrazioni con rimpiazzo la conoscenza del risultato di una
estrazione non dà informazioni utili alla previsione dell'altra.
Viceversa per le v.a. Y1,Y2, quelle cioè provenienti dalle estrazioni senza
rimpiazzo, le densità marginali sono le stesse, mentre la congiunta è data da
Siano X e Y v.a. indipendenti e </>, 1/;: ffi.-+ IR due applicazioni. Le v.a. </>(X)
e v,(Y) sono anch'esse indipendenti?
Intuitivamente è ovvio di sì. Se la conoscenza di X non dà informazioni utili
alla previsione di Y non si vede perché </>(X)dovrebbe darne pei la previsione
di 1/;(Y).
Occorre però verificare che </>(X)e 1/;(Y) soddisfano alla condizione della
Definizione 2.17. Indichiamo con p la densità congiunta di X e Y e con P1, pz
le marginali. Allora per ogni z, w E IR
= P{X E </>-
1 (z)}P{Y E 1/;-1 (w)} = P{</>(X) = z}P{1/;(Y) = w}
- ( I) y)
- ~ 9) PXIY X y = p(x,
py (y )
-.e _-:-~·(y)> O,e PxjY(xly) = O altrimenti (in realtà il valore di Px1Y(xJy) per
: ':. i = O è irrilevante e non interviene mai). Analogamente si definisce la
-· <tà condizionale di Y dato X= x. Per (2.13), se py(y) > O allora
L Px1Y(xJy) = l
:i:ER
Px1Y(xJy) = Px(x)
(2.20) LP(x)
xEA
6 • • • .. •
5 • • .. • •
4 • • • • ..
3 .. • • .. •
2 • • .. • •
1 • • • • •
1 _./2 3 4 5 6
Figura 2.8
-- c.llora
- 21) P{S < T} = P{(T, S) E A}= L p(x, y)
(x,y)EA
p(x) ={ !
1 (5)h-l
6
1 (l)k-l
2 2
se x = (h, k),
altrimenti
h, k = 1, 2, ...
00 00 1(5)h-11 (l)k-1
LL55
k=lh=k+l
22
·: ~-i soliti calcoli di somme geometriche si ha
00 1 (5) h-1
I:
h=k+l
6 6
' ; :stituendo
1 00
1) k-l ( 5) 5 00
5) 5 1 5
=2L 2 = 12 L
k k
P{S < T}
(
6
(
12 - 12 5 -
7
k=l k=O 1- -
12
_ . ;:chema usato nella risoluzione degli Esempi 2.21 e 2.22 permette di affron-
tutta una serie di situazioni. Un problema frequente, ad esempio, è quello
-=-:-::
:_ :alcolare la densità di una v.a. della forma </>(X),dove X è una v.a. m-
--=:-"nsionale di densità nota p e </>una funzione IRm -+ IR. Il problema è in
-< ~;a immediatamente risolto, tenendo conto che se z è un valore assunto da
: X i allora
Proposizione 2.24 SianoX 1 , ••• ,Xm v.a.. indipendenti di legge B(n 1 ,p), ... ,
B( nm, p) rispettiva.meri te. Allora la loro somma X 1 +... +Xm ha legge B( n,p)
dove n = n1 + ... + nm.
Dimostrazione. Per semplicità fa.remo la. dimostrazione nel caso di due v.a.
(m = 2).
Siano Y1, .. . , Yn (n = n1 +n2) delle v.a.. indipendenti e di legge di Bernoulli
B(l, p). Allora le v.a. Z1 = Y1 + ... Yn 1 e Z2 = Yn 1 +1 + ... + Yn hanno legge
B(n 1 ,p) e B(n 2 ,p) rispettiva.mente e sono indipendenti per la Proposizione
2.20. Ma. Z = Z1 + Z2 = Y1+ ... + Yn ""B(n,p).
g(z) = LP1(t)p2(z - t)
tER
- ~ 1e [T +V è di Poisson di parametro À + p.
-<~aper calcolare la l~gge di una v.a. della forma 4>(X) conviene prima
·: >.me la funzion~ di ripartizione.·
::.~mpio 2.27 Due monete vengono lanciate più volte fino a che entrambe
· o_:_oottenuto almeno una volta testa. Qual è la probabilità che occorrano
:.:-,-i·?
._, :ndichiamo con S e T il numero di lanci necessari perché la prima e la
- -:a moneta rispettivamente diano testa, allora la questione proposta non è
- . ~:io il calcolo della densità della v .a. max( S, T). Più in generale, <;)atedue
da. cui
1 3 1
P{max(S
'
T) = k} = P{max(S - 1 T - 1) = k - 1} = -
' 2k-l
- - -
4 4k-l
: . 5 Speranza matematica
- . =- densità.
- - ) l
> analogia con la meccanica di un corpo rigido, se ponessimo sulla retta nei
.. · ·: .r 1 , x 2 , ••• delle masse proporzionali a p(x 1 ),p(x 2 ), ••• rispettivamente, la
. "-~:ità E[X] non sarebbe altro che la coordinata del baricentro del sistema di
e ; o,=, così definito.
__ '::_1I
48 Capitolo 2
e in questo caso
(2.27)
Quindi
{Z = Zj} = LJ{X= x<il}
x<•lEA;
,i..(x (il)
. h,e..,,
e pmc = Zj sex (i) E A j,
=L L lzilp(x(il) = L L 11(:i:<i))I
p(x(il) =L 11(:i:(i))Ip(x(i))
j x<•>EA; j x<òlEA; i
(il passaggio segnato con (!) è possibile solo perché sappiamo già. che la serie
converge assolutamente. Solo in questo caso è lecito fare la somma riordinando
i termini).
i,j i,j
i,j
i,j i,j
(2.28)
Osservazione 2.32 Supponiamo che X sia una v.a .. limitata., cioè tale che
esista M > O tale che P{IXI :'.S.M} = 1 (ovvero tale che tutti i valori assunti
da X sia.no compresi tra -M e M). Allora X ha speranza matematica finita.
Infatti in questo caso
i,j i,j
Es~
aì X --B(l,p). Una v.a B(l,p) prende i valori O e 1 con probabilità 1- p
~ p rispettivamente. Quindi
E[X] =O· (1 - p) + 1 ·p = p
E[lA] = p = P(A)
e) X"' B(n,p). Per la Definizione 2.28
-~;iesta somma si può calcolare con qualche sforzo, ma è più semplice ragionare
-:'. modo seguente: se X 1 , .•• ,Xn sono v.a. indipendenti B(l,p), a.llora la
:-nma X1 + ... + Xn è B(n,p). Dunque
= >.
52 Capitolo 2
Definizione 2.36 $ia X una v.a. Per k = l, 2 ... diremo che X ha momento
di ordì11e k finito se la. v.a. Xk ha speranza matematica fi11ita. In questo caso si
chiama momento di ordine k della v.a. X la. quantità E[Xk]. Analogamente se
la. v.a. (X - E[X])k ha speranza matematica finita diremo clie X ha momento
centrato di ordine i~ finito e chiameremo momento centrato di ordine k la
q11a11tit.àE[(X - E[X])k].
!\,fomenti, varianza, covarianza 53
i,j i,j
< +oo
54 Capitolo 2
(X - E[X]) 2 ~ Y
perché Y = 172 < (X - E[X]) 2 sull'evento {IX - E[X]I > 77}mentre sull'evento
{IX - E[X]I :S:77}la v.a. Y vale O mentre (X - E[X]) 2 ~O.Dunque prendendo
la speranza matematica si ha
Var(aX) = a 2 Va.r(X)
Ll2)
Var(a +X)= Var(X)
Li:' (2.32) sono praticamente immediate: per la seconda delle due, ad esempio
'-,asta scrivere
Qnl'sta relazione è del resto coerente con l'interpretazione della varianza come
r:1isura della dispersione: se si aggiunge ad una v.a. una costante a, la media Jt
-: sposta della quantità a, così pure come i va.lori assunti da. X. In definitiva la
dispersione di X rispetto a JLe quella di X+ a rispetto a Jl + a sono le stesse.
56 Capitolo 2
m m
(2.37) Var(X1 + ... +Xm) = z:=var(Xi)+ L Cov(Xi,Xj)
i=l i,j=l
:::;;empi 2.39
2. ( Legge di Bernoulli) Se X ,....,
B( l. p) allora
Var(X)
.,. ··-
= E[X 2 ] - E[X]2 =p - p2 =--
p(l - p)
-·
= À(À + 1)-
'
Var(X) = E[X 2 ] -
,\_d.eJ-pa,rn,1ne.t1:u
~·< una v .a. di E.oisson_rl_1111q_t!~_lL~:(_l.lor(;'
E[X]2
.co!ncid.e sia con la_
,\ 2
..
= ,\
·~·-=-_dia
che con la varianza. Dunque al crescere di ,\ aumentano sia media che
:_,,2ersione .
.-.. ,:a usa di (2.36) la covarianza viene ~esso usata com~ 11na misura dell'indi-
~-:··,de_~adelle_ Y:a:_:se la c_ovaria11zaè prossima a zero le V.a. sono-oonsiderat~
- ~ 1asi" indipeudent,i. mentre valori grandi della covarianza fanno pensare ad.
-~.é:. ··forte" dipendenza. Vi_sono però esempi d_i_ y._a.che hanno covarianza nulla
,;?.zaes-sereiiiaipeì1d.enti. Se Cov(X, Y) = 0 si dice·c·l{e le V.a. X ~--F;-òno non
. -,·!'fate. Come ··misura d;ii~èìipendenza•i è pei·ò meglio usare il coe.ffì~ie~ù-éH
--d~::ù;ne Px.Y definito da
Cov(X. Y) Cov(X, Y)
p X' y = ---;======
JVar(X) Va.r(Y)
PaX.b}' = PX.}'
~: ::-~oposizione seguente implica che si ha sempre -1:::; Px,'r· :::; 1.
58 Capitolo 2
e dunque p\ y :::; 1.
'
La condizione di non correlazione è in realtà, molto più debole di quella di
indipendenza, ma è anche più facile da verificare per cui è abbastanza. usata
nella pratica come forma debole di indipendenza.
::Ya.ltra parte sappiamo che sia X1 che X2 sono B(l, b~r), dunque
· - Funzioni generatrici
'1/-ix(z)= L znp(n)
n=O
60 Capitolo 2
e quindi la funzione generatrice dipende solo dalla densità pese due v.a. hanno
uguale densità hanno anche uguale f.g.
Nella (2.40) siamo stati in realtà un po' sbrigativi: perché la definizione abbia
senso occorre infatti che la v.a. zX abbia speranza matematica finita, ovvero
che la serie in (2.41) converga assolutamente. Ma se lzl ~ 1 la serie risulta
maggiorata in valore assoluto, termine a termine, dalla serie di termine generale
p(n) che è convergente (e di somma= 1). Dunque la funzione generatrice "Px
è definita almeno per -1 ~ z ~ l, qualunque sia la v.a. X. Naturalmente può
succedere che il raggio di convergenza della serie sia più grande. È il caso ad
esempio se X prende solo un numero finito di valori. In questo caso la serie in
(2.41) si riduce a una somma finita (e la funzione generatrice è un polinomio).
Esempi 2.42
a) (Leggi binomiali) Se X "' B(n,p), allora ricordando lo sviluppo del
binomio
= (1 - p + zpr
b) (Leggi di Poisson) Se X è di Poisson di para.metro >.allora
00 00
"-·:·~·:1dizioneche sia lz(l - p)I < 1, altrimenti la serie non converge. In questo
:a funzione generatrice è definita per lzl < l~p.
Funzioni generatrici 61
(/3)
k
= /3(/3- 1) .. . (/3- k + l)
k!
: =-~ogni o > Oe O~ p ~ l poniamo
p(x) = {
pCi (O'
+ X -
X
l)(l_ )x p sex= O, l, 2 ...
o altrimenti
:,::isì d0fi11ita è una densità discreta: è chiaro che p(x) 2: O; inoltre poiché è
·: ·o lo sviluppo in serie di potenze
- .~:3)
(l-t)(i
1 =~
L.t
(a+ l) k -
k
tk
k=O
-6(a+kk -
f-- l)( l - p
l
= (1 -
1
(1 - p))Ci = p
-a
·< cui
00
I: p(i:) = 1
k=O
n=O n=O
(2.44)
La (2.44) fornisce un metodo per il calcolo della densità a partire dalla funzione
generatrice; esso può rivelarsi però inutilizzabile in alcuni casi: se le derivate
successive di '1/Jxdiventano sempre più complicate, calcolare il valore della
densità per n grande può essere una operazione laboriosa. Ricordiamo perciò
che la (2.44) fornisce solo uno dei metodi possibili. Ogni metodo di calcolo di
uno sviluppo in serie di potenze è d'altra parte utilizzabile.
Qual è la densità di X?
Se provassimo a fare le derivate successive, come in (2.44) , saremmo presto
in difficoltà perché la derivata n-esima di '1/Jxè della forma Pn(z)'ljJ(z), dove Pn
è un polinomio di grado n e il calcolo delle derivate successive con la formula
della derivata di un prodotto è sempre piì1 laborioso. Ba.sta invece osservare
che
,:111H111e sostituendo z 2 a z
->. À n
{
e -:;:;-r se k = 2n n = O, 1, ...
p(k) = O n.
altrimenti
> - -ità di X+ Y sviluppando in serie con uno dei metodi visti poco fa.
:: una tecnica che non sempre funziona (soprattutto lo sviluppo in serie di
, _ }" può dare luogo a complicazioni), ma che è talvolta efficace.
p2
"Px+y(z) = (1 - z(l - p))2
1 z 1- z6
"Px
., (z) = -(z
6 + z 2 + z 3 + z 4 + z 5 + z6 ) = ---
61-z
z3 (1 - z6)3
'lpX ( Z) = 63 ( 1 - z )3
::_:-:,"'ffi.cientedi z 11 nella prima serie vale 9-10/2 = 45, nella seconda 3·4/2 = 6
- <. tre è nullo nelle ultime due, che hanno i coefficienti uguali a O fino al
: .=:·wrdicesimo ed al ventesimo rispettivamente. Dunque
P{X = 8} = 2!_
216
· : ~ ~re col calcolo combinatorio avremmo dovuto ripetere da capo tutto lo
·_ "'O calcolo svolto per il valore 11.
/ p(l-p)
1/Jx(z)= (1- z(l - p))2
Il ( ) 2p( 1 - p )2
1/Jxz = (1 - z(l - p))3
E[X] =l- P·
p
2p(l - p) 2 1- p 2 1- p
V ar (X) -_ ---- + -- (1 - p)
- --- --
p3 p p2 p2
.. [a su {N = i} si ha SN =Sie dunque
CX)
CX)
=:.;coliamoora la media di SN. Supponiamo che le v.a. N, X1, X2, ... abbiano
· ~ "ranza matematica finita. Poiché ·le Xi hanno la stessa densità e quindi la
---:c sa speranza matematica E[Xt]
0
CX)
- -19) i=O X
CX) CX)
tp(z) = 'IPN('itx(z)) 1
k=0
CX) CX)
k=0 i=0
CX) 00
= LP{N = i} LzkP{S; = k}
i=0 k=0
00
i=0
= 1PN(1Px(z))
Esempio 2.51 50 monete vengono lanciate simultaneamente. Dopo il lancio
quelle che hanno dato croce vengono eliminate e si lanciano di nuovo quelle
che restano. Si continua così eliminando ogni volta le monete che danno croce
e lanciando le rimanenti, fino a che tutte le monete non sono eliminate. In-
dichiamo con Zi il numero di monete ancora in gioco dopo i lanci. Qual è la
legge di Zi? Indichiamo con T il numero di lanci necessario per eliminare tutte
le monete ( cioè T = i se Zi = O ma Zi-l > O). Qual è la legge di T?
È chiaro che Z 1 "' B(50, ½), perché Z 1 si può scrivere come una somma
di 50 v.a. indipendenti di Bernoulli B(l, ½). Un attimo di riflessione mostra
che Z 2 è a sua volta la somma di Z1 v.a. indipendenti tutte di legge B(l, ½).
Ricordando che la f.g. di B(n,p) è z--+ (1 - p + pzt e dunque quella di una
B(l, ½)è z--+ (1 - ½+ 1), per la Proposizione 2.50 si ha
1
1Pz2(z)= ( 1-2+2 1 ( 1-2+2
1 z)) 50
= ( 1
1-4+4 z) 50
Poiché Z 2 ha la f.g. di una v.a. B(50, ¼),essa ha legge B(50, ¼). Ripetendo il
ragionamento e osservando che Z 3 è una somma di Z 2 v.a. indipendenti di legge
B( 1, ½)si ricava facilmente ripetendo il calcolo appena fatto che Z3 "' B( 50, ½)
e per ricorrenza Zn rv B(50, 2-n).
Resta da calcolare la densità di T. Con viene ( come spesso succede con le v .a.
che sono dei tempi di attesa) calcolarne la funzione di ripartizione. In effetti
{T ~ i}= {Z; = O} e dunque
50
P{T ~ i}= P{Zi =O}= O ( 21i ) o ( 1 - 21i )
( 50) = (
1 - 21i ) 50
Esercizi
r
2. 2 n 'urna con tiene 112 dadi di cui 56 ( cioè la metà) sono equilibrati, men tre
:: ' altri sono stati manipolat1 in modo che, per ciascuno di essi, la probabilità
:_ ottenere 1 sia ½,mentre ogni altro risultato si verifica con probabilità / 0 •
a) Un dado viene estratto a caso e lanciato; indicliiamo con X il risultato
-- _ lancio. Qual è la probabilità di ottenere 3? Quanto vale E[X]?
J: Un dado viene estratto a caso e lanciato due volte ottenendo 2 e 3. Qual
2 probabilità che si tratti di 11110 dei dadi truccati?
Un dado viene estratto a caso e lanciato due volte. Indichiamo con X e
'! risultato dei due lanci. Si tratta di v.a. indipendenti?
• :i Data la funzione
g( z) = clog( 1 - 2z )
·--:-minare c in modo che g sia la funzione generatrice di una legge di proba-
. à. C;i/rn/arne poi esplicitamente la densità. e la media..
70 Capitolo 2
2.8 Una moneta dà testa con probabilità p e viene lanciata N volte, dove N è
una v.a. di Poisson di para.metro À. Indichiamo con X e Y il numero di teste
e di croci ottenute rispettiva.mente.
a) Calcolare le leggi di X e Y.
b) (Pirì difficile) Dimostrare che X e Y sono indipendenti.
2.9 Nel gioco del lotto ad ogni estrazione cinque numeri vengono estratti simul-
tanea.mente da un 'urna che contiene 90 palline numerate da. 1 a 90. Fissiamo
un numero, ad esempio il 67, ed indichiamo con p la probabilità. che esso appaia.
in una singola. estrazione.
a) Quanto vale p?
b) Qual è la probabilità. clie dopo ,'JOestrazioni il 67 non sia. ancora uscito?
Quante settima.ne occorrono in media perché il 67 venga. estratto?
c) Supponiamo che nelle prime 100 estrazioni il 67 non sia. ancora. uscito.
Qual è la probabilità che esso esca. alla 101-esima.? Qua.I è la probabilità che
non esca. prima della. 130-esima.?
d) Qual è la probabilità che esso esca a/meno 5 volte nelle prime 50 estra-
zioni?
2.10 Un 'urna. contiene mb palline bianche e mr palline rosse. Da. essa. vengono
fatte n estrazioni senza. rimpiazzo. lndicliia.mo con X il numero di palline rosse
estratte. Mostra.re che se rn -+ oo, allora
2.11 Sia T una. v.a.. a. va.lori interi 2::O e che goda della proprietà di mancanza.
di r.Jemoria
P{T 2::k + m I T 2: k} = P{T 2::m}
allora T è una. v.a.. geometrica..
Esercizi 71
· = 1, ..., 40. Qual è la legge di Y;? Le Yi sono indipendenti? Sono a due a due
~riipendenti? Sono non correlate?
e) IndicJiiamo con X il numero di unità disco necessarie per l'esecuzione del
::--rogra.mma.Quanto vale E[X]?
2.17 Una compagnia aerea dispone di due tipi di aerei, uno da 20 ed un altro
da 10 posti. Poiché si sa che i passeggeri che prenotano poi non si presentano
con una proba.bilità del 10%, vengono sempre accettate 22 prenotazioni sui voli
da 20 posti e 11 su quelli da 10. In quale dei due tipi di aereo è maggiore il
rischio di lasciare a terra almeno un passeggero che ha regolarmente prenotato?~-
2.18 Indichiamo con F>.la f.r. di una v.a. di Poisson di parametro..\. Afostrare
che, per ogni t fissato,,\ -t F,\(t) è una funzione decrescente di..\.
: : Definizioni
i
- :::uecapitoli precedenti abbiamo considerato la nozione di variabile aleatoria
' ·11azioni in cui si modellizzavano quantità che prendono al più una infinità
-·-:rabile di valori. È facile però immaginare quantità casuali che possono
:..·' :~nere qualunque valore in lll (oppure in un intervallo di lll).
~-='-come nell'Esempio 1.2, vogliamo studiare il primo istante in cui un
:-:-.;ionenteelettronico smette di funzionare (il tempo di vita del componente)
:.:-::o condotti a considera.re una quantità casuale che può prendere qualunque
e :,~e reale 2: o.
~-"'idee fondamentali che abbiamo sviluppato per le v.a. discrete restano va-
:.c ;ier le v.a. che studieremo ora. A parte alcune differenze tecniche (le somme
. =-~:.nnosostituite da integrali) anéhele formule e Ìe dimostrazioni saranno si-
- . a quelle del caso discreto. Il lettore anzi avrà la sensazione di ripercorrere
-'-'~<:>sse nozioni: in effetti sarebbe stato possibile trattare simultaneamente il
· ;__,,.discreto e quello di questo capitolo, ma ciò avrebbe richiesto strumenti
- =-·"matici più complessi.
· =- dunque X una v.a. nel senso della Definizione 2.2. Il fatto che {X~ t} sia
: - P\·ento implica che ha senso calcolare la probabilità P{X ~ t} e che dunque
-:-,uòdefinire la funzione di ripartizione
F(t) = P{X ~ t}
P { a < X ~ b} = P{ X ~ b} - P { X ~ a} = F( b) - F( a)
· .C.:iamoora alcune proprietà delle funzioni di ripartizione, valide per ogni v.a.
~-1indi anche per le v.a. discrete.
1. Per ogni t E lll si ha O~ F(t) ~ 1.
74 Capitolo 3
A=
n=l n=l
A= n =n
00
n=l
An
00
n=l
{X:::; tn}
(3.2)
per ogni n, che non può essere perché X(w) :s;tn per ogni n implicherebbe
Definizioni 75
Le quattro proprietà delle f.r. che abbiamo messo in evidenza sono importanti
in quanto caratterizzano le f.r.: data una funzione G che soddisfi a 1.,2.,3. e 4.,
allora è sempre possibile costruire uno spazio di probabilità (n, A, P) ed una
v.a. X su (n, A, P) tali che la f.r. di X sia proprio G.
È ben noto che una funzione monotona ammette limiti a destra e a sinistra in
ogni punto. Dunque il limite a sinistra
lim F(t)
t-+x-
-:he indicheremo F(x- ), esiste sempre, anche se può succedere che sia F(x-) f:.
F( .r ),perché una f.r non è necessariament~_.9!Jl.tinua (abbiamo già. visto esempi
~i f.r. che hanno punti di discontinuità). E chiaro però che F(x-) :S F(x); la
::i~continuità F(x) - F(x-) ha un signific'ato probabilistico che viene messo in
c.·:idenza dalla proposizione seguente.
F(x-) = n-+oo
lim F(tn)
·
~unque
3) A= n{tn<X:Sx}={X=x}
n=l
(3.4) P{X=x}=O
qualunque sia x E HL
Diremo che una v.a. X è continua se la sua f.r. è una funzione continua
ovvero, che è lo stesso, se vale (3_A).Osserviamo che per una v.a. X continua
le quantità
P{a <X< b}
P{a~X<b}
P{a<X~b}
P{a~X~b}
~
sono
..__
__
uguali. Infatti, ad esempio
soddisfa alle quattro condizioni di poco fa ed è dunque una f.r., anzi una f.r.
continua1 Se X ha F come f.r., allora poiché P{X ~ O} = F(O) = O, X è una
v.a. a valori positivi.
o 1 2
Figura 3.1
',
Variabili aleatorie assolutamente continue 77
o 1
Figura 3.2
O set< O
F(t) = { t se O~ t ~ l
1 se t > 1
è: una f.r. continua. Si tratta della f.r. di una v.a. a valori nell'intervallo [O,1]
----------
;)Oiché P{O ~X~ 1} = F(l) - F(O) = l.
Definizione 3.4 Una funzione f : Ill -+ Ill si dice una densità se e solo se
_: ~ O, f è integra.bile su Ill e
~ia X una v.a., F la sua f.r. e sia f una densità: diremo che X ha densità J se
F(x) = J_xoo
J(t)dt
'\
: ':vero, che è equivalente, se
:::-1realtà è facile vedere che se una funzione f ~ O soddisfa a (3.6) per ogni
78 Capitolo 3
a, b E Ill, a ~ b allora essa è automaticamente una densità. Infatti per a-+ -oo
e b -+ +oo nella (3.6)
1 = lim F(b) -
b-+oo a-+-oo
lim F(a) = j
_
+oo
00
J(t) dt
. . ' ..
. . .. . .. . ...'' .. ....
. . .... . .. . .. . ' . ...
. .. ... . ... .'.'. .. . . ....... . . . . . .. . .
. . . . . . . . . . . ...
. . . . . ... ... .... . . . . . . . . . .
.... . .. .. . .. . . . . . .. . . . . . . .
. ... ... ... ... ...... ... .. . .. .... .. . .. . ..
' ........... '
. .............
. .... ... .. . .
. .. . ... .. . ... .' . .. . .. . ... .. . .. ... . .. . ..
.............
. . . . . .. .. ....
.. . .. .. .' ...... . . ' .... ' .
.
. ....... ... .. . . ... .. ......
. ....... ... ... .. .. .. .. .. ..
..... . . .... .. ... . .. ... ....
a b
Figura 3.3
Esempi 3.5
a, La f.r. F dell'Esempio 3.2 è derivabile con derivata continua tranne che
Densità congiunte, indipendenza 79
Vedremo più avanti che si tratta di una densità importante ( de'flsità esponen-
::iale di parametro À ). ·--
b) Anche la f.r. dell'Esempio 3.3 è derivabile con derivata continua tranne
che in O e in 1. La sua derivata vale
= {~
se0<t<l
f(t) altrimenti
I
P{a ~X~ b} = 1b dt = b - a
per ogni a, b E [O,~- Cioè la probabilità che X assuma dei valori in un sot-
tointervallo di [O,1] dipende solo dall'ampiezza del sottointervallo e non, ad
esempio, da dove esso si trova. Quindi si tratta di una v.a. che prende, in un
certo senso, ogni valore in [O,1] con la stessa probabilità. Diremo, in analogia
con la nozione introdotta nel paragrafo 1.3, che X è uniforme in [O,1].
Figura 3.4
F(x,y)= J_~
du j_Y f(u,v)dv= 00
i z,y
f(u,v)dudv
Si può però dimostrare che se esiste una densità congiunta, allora la relazione
,::;_uasi
sempre soddisfatte; lo sono ad esempio per le funzioni che si incontrano
:1ei corsi sugli integrali multipli.
In conclusione se il problema di determinare quali siano gli insiemi A C IR?
:ali che {(X, Y) E A} sia un evento e quali siano le funzioni </> tali che </>oZ sia
·ma v .a. è un problema delicato, d'altra parte vi sono delle condizioni sufficienti
,u A e </>che sono verificate praticamente in tutti i casi che si incontrano di
solito.
(3.10) JJA
J(x, y) dx dy = J,b
dx 1<J>(x)J(x,
a -.t,(x)
y) dy
(3.11) JJ f(x, y) dx dy = je
d 1J(y)
dy _
1/;(y)
J(x, y) dx
A
82 Capitolo 3
Se A è normale rispetto a entrambi gli assi l'integrale doppio si può calcola.re sia
mediante la (3.10) che la (3.11) (che quindi danno lo stesso risultato). Se A non
è normale si procede decomponendolo nella unione di sottoinsiemi misurabili
A1 , •.. , Ak disgiunti e normali rispetto a uno degli assi. L'integrale su A è pari
alla somma degli integrali su A 1 , ••• , Ak, calcolati tramite (3.10) o (3.11).
Le (3.10) e (3.11) restano valide se/ oppure A (o entrambi) non sono limi-
tati, a condizione che l'integrale converga assolutamente, ovvero a condizione
che sia
1 a
b
dx
14>(:i:)
,J.,(:i:r
Jflx,y)I dy ~ +oo
1 l~(y)
ovvero
d
dy _ lf(x, y)I dx~ +oo
e ,j.,(y)
Figura 3.5
= je
+oo r+oo
v-1/2 lo e-x(v+l)/2 dx
= j e
+oo 2
-,----dv
vl/2(v+l)
J +oo
,1c
--2
1 +t
4
dt = 21r - 4 arctan ve
l 2
J(x, y) d:r_
dy =1
Come per le v.a. discrete si possono ricavare dalle quantità congiunte (f.r.,
densità) le rispettive quantità marginali.
Ad esempio calcoliamo a partire da F la f.r. Fx di X. Per definizione
Fx(x) = P{X ~ x}
84 Capitolo 3
= y-oo
lim F(x,y)
= 1b du 1-: 00
l (u, v) dv
Dunque se poniamo
= j_
+oo
(3.12) lx(u) l(u,v)dv
00
allora si ha
P{a$X$b}= 1blx(u)du
che vuole dire che lx data da (3.12) è la (o meglio una) densità. per X.
Analogamente la densità lv di Y è data da
= j_
+oo
:3.13) lv(v) l(u,v)du
00
f x( u) =
Analogamente si ottiene
={
~~
fv(v) 7r
o altrimenti
Diremo che le v.a. X 1 , •. . ,Xn, ... (un numero infinito) sono indipendenti se e
solo se per ogni m > O risultano tra loro indipendenti le v.a. X 1 , ... , Xm.
La Definizione 3.10 nel caso di due v.a. X, Y si riduce a richiedere che sia
(3.15) ie la1
d b
f(x,y)dxdy = j
d
fy(y)dy
1b
la fx(x)dx
Quest'uguaglianza è certo soddisfatta se
(3.16) f(x, y) = fx(x)fv(Y)
per ogni x, y. Viceversa si può dimostrare che, se vale (3.15) per ogni scelta di
a :::; b, e :::; d, allora necessariamente deve valere (3.16), tranne al più per un
insieme di punti (x, y) di misura di Riemann nulla. In altre parole ~-~_Q!lO
indipendenti se e solo se vale (3.16) per ogni (x,y_) E IR2 tranne al più su un
·iniieme di misura nulla. ··
Analogamente a quanto si è visto per le v.a. discrete, per determinare l'in-
dipendenza di due v.a. X e Y basta conoscere la loro densità congiunta f: a
partire da J si possono
t""
calcolare le densità marginali f x e fy tramite (3.12) e
(3.13) e quindi verificare se vale (3.16.), In particolare se X, Y sono indipendenti
e U, V sono altre v.a. aventi la stessa densità congiunta, allora sono anch'esse
indipendenti.
fx(x)= J_+oo
J(x,y)dy?::.f1(x)
00
J+oo
-= fz(y)dy=cfi(x)
fy(y) J
+oo
= -oof(x,y)dx
!+ f1(x)dx = ~1 fz(y)
= fz(y) -c,:i
00
Osservazione 3.13 In generale per dimostrare che due v.a. non sono indi-
pendenti purtroppo non basta mostrare che esiste un punto (x, y) per il quale
l'uguaglianza (3.16) non vale; un punto infatti ha misura O, mentre occorre
invece provare che (3.16) non vale su un insieme di misura> O.
Se però le funzioni l, lx, lY sono per di più continue in un punto (x, y) tale
che l(x, y) -/- l x(x )lv(y), allora X e Y non sono indipendenti. Supponiamo
infatti che sia l(x,y) > lx(x)ly(y); allora si avrebbe l(u,v) > lx(u)lv(v)
su tutto un intorno Udi (x,y). Dunque le due funzioni l(u,v) e lx(u)lY(v)
~
assunto dalle v .a. reali X 1, ... , Xd 1 non dà informazioni sul valore assunto da
Yt, ... 'yd2·
È facile vedere che se le v .a. X 1, ... , X di , Y1, ... , Yd2 sono indipendenti nel
senso della Definizione 3.10, allora X e Y sono indipendenti nel senso della
Definizione 3.14 (è facile infatti verificare (3.17)). Vedremo però degli esempi in
cui le v.a. X1, ... , Xd 1 non sono indipendenti come pure le Y1, ... , Yd2 , mentre
X e Y lo sono nel senso della Definizione 3.14. \
Naturalmente la Definizione 3.14 vale anche per delle v.a. discrete, per le
quali bisognerà intendere (3.17) nel senso delle densità discrete.
Proposizione 3.15 Siano X 1 , ... , Xm delle v.a. indipendenti come nella. De-
1 : Illd1 -+ Ill, ... ,</Jm:Il.ldm-+ Ill delle applicazioni che sod-
finizione 3.14 e </>
disfino a.Ilecondizioni dell'Osservazione 3.6. Allora. le v.a.. </>1 (X1), ... , <Pm(Xm)
-nno indipendenti.
' ·me ca.so particolare, se le v.a. X1, ... ,Xk,Y1,, .,,Yr sono indipendenti, ap-
~ . ·~ando la Proposizione 3.15 alle applicazioni </> 1 ( x 1 , ... , x k) = x 1 + ... + x k e
: _ ~: .... , Yr) = Yt + ... + Yr, si ricava che le v .a. X 1 + ... + X k e Y1 + ... + Yr
anch'esse indipendenti.
- f(x,y)
fx[Y(xly) = Jy(y)
Densità congiunte, indipendenza 89
\ f+oo
_ f xjY(xly) dx= 1
00
,A.bbiamo definito la densità condizionale per v.a. discrete e per v.a. assoluta-
mente continue e dotate di densità. congiunta. Il significato intuitivo di questa
nozione resta però valido anche in presenza di coppie miste div.a. X, Y, quando
cioè la. prima.~ia. assoluta.mente continua. e la. seconda. discreta.
In questa situazione e indicando con y 1 , y2 , ••• i valori assunti da Y chiame-
remo densità congiunta. di X e Y una. funzione g(x, y) tale che per ogni Yk
l'applicazione x -+ g(x, yk) sia una densità continua e che per ogni intervallo
A C Ill e per ogni Yk si abbia
Chiameremo una. tale funzione g una densità congiunta mista. È facile verificare
che
e dunque che
oo
~
J+oo
g(x, Yk) dx=
-oo 1
J +oo
-oo
f x1v(xlyk) dx=
1 !+ 00
( )
PY Yk -oo
g(x, Yk) dx= 1
l
e cioè, anche nel caso div.a. miste, è possibile determinare la densità. congiunta
non appena si conosca la densità di una delle v.a. e la densità condizionale
dell'altra rispetto alla prima.
Esempio 3.18 Sia X una v.a. reale di densità f. Qual è la. legge di X 2 ?
= x 2 e, set> O, 4,- 1 (]-
In questo ca.so <t>(i:) oo,t]) = [-vt,vt]; il calcolo
in (3.22) è quindi facile: se t > O
e derivando G si ottiene
l
I
(3.23) g(t) = G'(t) ~ 2~ (!(,/i)+ J(-vt))
j _
t
00
g(s)ds=
r...rt
Jo (f(u)+f(-u))du=
Esempio 3.19 Siano X una v.a. reale di densità f e a, b numeri reali con
a =/=O. Qual è la legge di aX + b?
Supponiamo a > O, allora
G(t) = P{aX + b ~ t} = P { X~ t-
-a- b}= Fx (t-a-- b)
Calcolo di leggi 93
e derivando
g(t) = G (t) = ~1 f
1 (t- b)
-a-
e derivando
g(t) = G (t) = -~1 f
1 (t-a-- b)
Mettendo insieme i due casi si ha, qualunque sia il segno di a,
l.
G(t) = 1-:1-t~x 00
dx f(x, y)dy =
+' t
=[ 00
00
dx [ 00
f(x, z - x)dz =
= 1-too
dz 1-: 00
f(x,z-x)dx=
= /~ 00 g(z) dz
............................
"
...... .... ...... .........' ......... ' ............ .
... ... .. .... ..... .... .. . ... ... .. . .. . ......... ......... .. . ... ..... ..
.. .. .. .. .. . .. ... ... .... ..... ......... . .. . .. . ..... ...... ......... ... . .. ... ... ... . ... .. .... ..
. ... ..' . ..........................
:::,::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
. . . . . . ...............
, .............. ::::::::... '
.. . . . . . . .. .. .. . . . . ' ........... .
. ... . ... . .. ..... .... .. ... .. .. .. . . ' . . . .
. . .. . . . ... .
. . '.......... . . . . . . . . ....
. . . .. . .. ..' ' ...
..........
. ............
...........
' ............
. .
. . . . . . . .' .' . .... .... .
............ .
'
. . . . . . . '.. . ............. .. '
Figura 3.6
(3.25) i g(y) dy =
,p-I(A)
J f(x) dx
P {e/>(
X) E A} = i g ( y) d y
Calcolo di leggi 95
(3.26) J
IA(y)g(y)dy= J lA(<f>(x))f(x)dx
Teorem! 3.21 (Di cambio di variabile) Siano D, V aperti di m,m, </>: D-+ V
un diffeomorfìsmo. Per ogni funzione integrabile positiva h su D sì ha allora
(3.27)
Sia ora X una v .a. a valori in D e di densità f (dunque </>(X) è una v .a. a
valori in V); se A CV, ponendo h(x) = IA(<l>(x))f(x) la (3.27) diviene
(3.28)
Altri metodi possono essere usati per risolvere (3.26), anche se quasi sempre
basati su cambiamenti di variabile.
Esempio 3.23 Sia X una v.a. uniforme sul cerchio C = {lxl2 :'.S1}, ovvero la
v .a. bidimensionale di densità
1
(
J(x)={;sex E C
altrimenti
Calcoliamo la legge della v.a., anch'essa bidimensionale
Z=X
-2log1x1
2
1x12
È chiaro che Z = </>(X)dove
X) = X
cp( -2log lxl2
lxl2
Non è difficile vedere che </>è invertibile e calcolarne I 'inversa, ma il calcolo
del differenziale di cp-1 e soprattutto del suo determinante portano a lunghe
manipolazioni. È piì1 semplice affrontare diretta.mente (3.26) passando prima.
in coordinate polari:
=;:1 lo
[ 2
7r /1lA (pcosB v-2logp
dB lo p2
2
,psinB
v-2logp
p2
2 )
pdp =
1 /2,r r1
=;: lo d(} lo 1A(cosBJ-21ogp 2 ,sinBJ-21ogp 2 )pdp
Leggi normali 97
211"= 1-:001-:00
e-(x2+y2)/2
dxdy = 1-:00
e-x2/2dx 1-+: e_Y2/2dy =
= (1-: 00
e-x 2 /2dx)
2
(3.30)
r- --------··---- I
Se X è una. v.a. di densità f e <:J,µ sono numeri reali con <:J > O, allora sappiamo
per l'Esempio 3.19 che la. v.a.
y = <:JX + µ
98 Capitolo 3
ha densità
(3.32) g(y) = ~f
1 (y-µ)
-a-
1 ( (y-µ)2)
= -/'iiraexp - 2a 2
-3 -2 -1 o 1 2 3
-3 -2 -1 o 1 2 3
La f.r. di una v.a. N(O, 1) si indica spesso con il simbolo~- Non è possibile
calcolarla analiticamente perché per l'integrale
~(x) =- 1 jx e-t 2
/ 2 dt
../2i -oo
non esiste una primitiva elementare. Data però la sua importanza _e~s<l.è_ca_!c:o-
lata numericamente su tavole. Il suo grafico è riportato nella Figura 3.9. Dalle
· Figure 3.7 e 3.9 si vede in particolare che una v.a. N(O, 1) assume valori al di
fuori dell'intervallo [-3, 3] con piccolissima probabilità.
1 """""""""""''..:.,";..;..••;..:.."~--
-3 -2 -1 o 1 2 3
3.~Leggi gam~;·1
--------·
--- ------··--- . \
--
(3.34)
100 Capitolo 3
Tranne che in alcuni casi speciali non è possibile calcolare analiticamente l'in-
tegrale in (3.34); esistono però anche qui delle tavole numeriche.
Osserviamo comunque che -
(3.36)
= of(a)
Da (3.35) e (3.36) si ha facilmente per ogni intero positivo n
f(n) = (n - 1)!
dove e è una costante positiva, allora g è necessariamente una densità f(o, >.)
e e= >.0 /f(a).
Infatti se g è una densità di probabilità allora, con il cambio di variabile
>.x= y
1= 1+=
o
g(x) dx= e 1+= o
x0 - 1 e-,\x e
dx =---;;-
>. o
1+= y0 - 1 e-Y dy =
f(a)
=c--
).o
Esempio 3.25 Sia X una v.a. N(O, a 2 ) allora (Esempio 3.18) X 2 ha densità
per y > O mentre g(y) = O per y::; O. Poiché g è una densità di probabilità (è
la densità di 'X 2 ), per l'Osservazione 3.24 g è una densità r( ½,2 2 ) ed inoltre !
f(½)=fo.
o 1 2 3
Figura 3.10 =
Grafico di densità gamma per .>. 2 e diversi valori di a.
Vediamo ora alcune proprietà. delle leggi gamma ed alcune situazioni tipiche
in cui esse appaiono.
La densità congiunta è
/3°' xk
g(x,k) = fx(x)finx(klx) = f(o:) x°'- 1e-Pxe-xk!
/3cx x°'+k-le-(!3+l)l:
f( a )k!
y
/3°'
P (k) = ___
f(a)k!
1+o
00
,.o:+k-le-(!3+l)x
.,
• .• = 3
I°'
r(a)k!
r( a+ k)
(/3+ 1) +k
0
g(y)= ! +cx:,
-,x, li(x)f2(y-x)dx
Tenendo conto che sia. li che !2 sono nulle per valori negativi della variabile,
l'integrale è in realtà esteso all'intervallo [O,y] e
e con il cambio di variabile x = ty
g(y) = ----e->.y
À_0'1+02 11 (ty)a1-1(y- ty)arly dt
f(o1)f(o2) o
=e
Quindi per l'Osservazione 3.24 g è una densità f(o 1 + o 2, À) e per di più vale
la relazione
(3.37)
Non ci sono formule semplici per la funzione di ripartizione delle leggi gamma,
a meno che o non sia un intero > O (in realtà c'è un altra famiglia di valori
o per cui si può fare un calcolo abbastanza esplicito, e che il lettore potrà
immaginare alla fine del calcolo che segue ... ). Se infatti Fm è la f.r. di una
v.a. f(m,À) si ha per x > O
(3.38)
(3.40)
A :i.
= --(1-n---l-)!-e -,\x
-
A X
(m - 2)! e
-Àx
+ Fm-2 ( )
x =
m-1 , )k
= 1- L --e(AXk! -,\x
k=O
Esempio 3.28 Si suppone che gli intervalli tra due telefonate successive che
giungono ad un centralino siano v.a.indipendenti ed esponenziali di parametro
>..Sia T > O; qual è la prohabilità che nell'intervallo di tempo [O,T] giungano
esatta.men te k telefonate?
Consideriamo una successione X 1 , X 2 •.•. di v.a. indipendenti e di legge
f(l, >.) (esponenziali). X; rappresenta il tempo tra.scorso tra la i - 1-esima
e la i-esima telefonata. Poiché le v .a. X 1, X 2 , ••• sono tutte a valori positivi le
somme X 1 + ... + Xn crescono al crescere di n. Indichiamo con Y il più grande
valore di n per cui si abbia X 1 + ... + Xn :ST. Più precisamente
In particola.re {Y :Sk} = {X 1 + ... +X k+l > T}, che mostra che {Y :Sk} è un
evento e dunque Y è una. v.a. Poiché X 1+...+X k rappresenta il tempo d'arrivo
della k-esima telefonata., è chiaro che Y è il numero di telefonate pervenute
nell'intervallo di tempo [O,T]. La questione che ci eravamo posta non è altro
che il calcolo della legge di Y; poiché le v.a. X 1,X 2 , ••• sono indipendenti e di
legge f(l,>.), X 1 + ...+Xk ha legge f(k, >.)ed ha funzione di ripartizione data
da. (3.40); quindi
k '
. ~ (>.T)I ->.T
P { Y :Sk } = P { X1 + ... + .\k+1 > T} = 1-Fk+i(T) = ~-.,-e
i=O t.
Speranza matematica, momenti 105
Come le leggi geometriche (che erano anch'esse leggi di tempi d'attesa) anche
le leggi esponenziali godonò della -proprietà drmancanza -di memoria:
Si può anzi dimostra.re che questa. proprietà è caratteristica. della legge espo-
I~('nziaJe, nel senso che se una. v.a.. X ha una densità. f nulla su JR- (ovvero
se X prende solo valori positivi) e va.le (3.41) per ogni s, t > O, allora essa ha
necessaria.mente legge esponenziale.
Si chiam9- invece legge del chi quad!"o a n gradi di libertà e si indica con x2 ( n)
una legge f( ~, { ). Per l'Esempio 3.2,5 e la Proposizione 3.27 è la legge della
\·.a. Y =X;+: .. + X;, dove le X1, .. . ,Xn sono indipendenti e N(O, 1).
Definizione 3.29 Sia X una. v.a.. di densità continua. f. Si dice che X ha.
speranza. matematica. finita. se e solo se
! +=
-oo lxlf(x)dx < +oo
( 3.42) E[X]= ! +=
-oo xf(:r)d:r
Definizione 3.29.
Enunciamo ora tre risultati che sono l'esatto analogo del Teorema 2.29 e
delle Proposizioni 2.30 e 2.31. Non ne daremo la dimostrazione, che pure non è
particolarmente complicata e consiste nell'approssimare le v.a. assolutamente
continue che stiamo considerando con delle v.a. discrete, alle quali si applicano
i risultati citati.
Teorema 3.30 Siano X1, ... , Xm v.a.. di densità congiunta f e</>: IRm -> IR
una funzione che soddisfi alle condizioni dell'Osservazione 3.6. Allora, se Z =
</>(X
1 , ... , Xm), Z ha. speranza. ma.tematica. finita se e solo se
j +ooj+oo
_
00
l</>(x1,,,,,xm)lf(x1,
••• _
00
... ,xm)dx1, .. dxm<+oo
e in questo caso
E[cX] = cE[X]
ii) X +Y ha speranza. ma.tematica. finita e
r1x dx = 1
= lo
E[X] 2
b )_ (Leggi normali) Calcoli a.mo la. speranza matematica di una v .a. X di
Speranz11 mat.enrnt.ica, momenti 107
]('gge N(µ,a 2 ). Come al solito trattiamo prima. il ca.so X "' N(O, 1). Poiché
x -+ x e-:r 12 è una funzione dispari
2
E[XY] = f a:yfx(,T)h·(y)dxdy=
JR 2
J.
H
.1:fx(x)d:r f yfr(y)dy=
Jn
E[X]E[Y]
Esempi 3.35
-------
a) Varianza della distribuzione uniforme su [O,1]:
·------·
E[X 2 ] = f 1 x 2 dx= ~
lo 3
e dunque
Var(X) = E[X 2 ] - E[X]2 =~
12
Speranza matematica, momenti 109
E(X) = f(a+ 1) =~
.Àf (o) .À
=~-
particolare per O' = 1 (leggi esponenziali)
E[X]= i
Var(X) = \\-
/\
110 Capitolo 3
E[X] = n
Var(X) = 2n
Dunque la media di una v .a. chi quadro è pari ai gradi di libertà.
d) Momenti di una v.a. X,.._,N(O, 1). I momenti di ordine dispari sono tutti
nulÌi
E[X2k+I] = _1_ !+oo
x2k+1e-x2/2 dx= O
-/'ii -oo
k k(/)13
2r12-- ... ( k-- 1)
E[x2kl = E[(X2t] = 2 f(k + 1/2) = 22 2
f(l/2) f{l/2)
= 1 · 3 .. · (2k - 1)
Si tratta di una matrice simmetrica che, per di più, è semi-definita positiva: per
ogni vettore x E JRm si ha ( ( , ) indica il prodotto scalare)
ij
= E[(x,X - E[X]) 2 ]
L aihajkChk
h,k=I
E'x!Y[Xly] = j xfx1Y(xly) dx
j x fx1v(xly) dx - (j x fxw(xly)
2 d.r)
2
2'.:O
(la quantità a sinistra non è altro che la varianza di una. v.a. av<'nte densità
.r--+ f\'1v(xly), ed è dunque 2'.:O). Possiamo dunque scrivere
Quindi
E[X 2 ] = J x 2 fx(x) dx= J Jx 2 dx J(x, y) dy =
= j Jy(y) dy j x 2 Jxp-·(xly) dx~
Lemma 3.36 Per ogni funzione G ( che soddisfi alle condizioni dell'Osserva-
zione .3.6) e tale che la v.a. G(Y)X abbia speranza matematica finita si ha
che è una densità f( a+ k, /3+ 1). La sua media vale dunque 0$~.Sostituendo
i valori indicati si ha ~ = 3.5 come stima del valore di X.
114 Capitolo 3
per ogni 0 E IRm; per di più è ovvio che </>(O)= 1. I Teoremi 3.30 e 2.29
implicano che
</>(0)= r ei(0,x)f(:r)dx
}Rm
(3.48)
ef;(0)= L ei(0,:r)p(x)
:rERm
a seconda che la legge di X sia. data dalla densità continua f oppure dalla
densità discreta p.
Funzioni caratteristiche 115
Infatti
b) Geometrica
00 00
= "p(l
</>(O) - PleiBk = "p((l - p)eiBl = p .
~ ~ 1 - ( 1 - p )e18
k=O k=O
c) Poisson
d) Esponenziale
~;kei8X(w) = (iX(w)leiBX(w)
Se si potesse scambia.re l'operazione di derivazione con quella di speranza. ma-
tematica. si avrebbe
!!(O)= ~(JE[eiBX]= E[~(JeiBX] = E[iXeiBX]
(3 ..52)
(3.53)
1°1= 0 1 + · · · + O'm
X
Ci
=x1 0'1 O'm
.. ,Xm
{Y:~ alol
a90 - oBfi •.. afJ?,,,m
In particolare
~(Jh
<Px(O)= iE[Xh]
i:hfJ(Jk
<Px(O)= -E[XhX1.:]
! :J..54)
118 Capitolo 3
Questo integrale si calcola in molti modi (ma non cercate una primitiva ... );
il metodo seguente può servire anche per altre funzioni caratteristiche.
Poiché X ha varianza finita possiamo applicare (3.52)
( 0)
<I>' = 0</>(
0)
( 3.56)
dove 0 = (0, ... ,0,0,0, ... ,0) è il vettore di IRm le cui componenti sono tutte
nulle tranne la h-esima che vale 0.
Lo stesso ragionamento si può ripetere nel caso più generale seguente. Sia
X, 1, •.. , X m una f am1g· 1· · 1Rd1 , •.. , IRdm rispettivamente
1a d'I v.a. a va Iori· 111 · · e
per ogni fJ1 E 1Rd1 , ..• , (Jm E JRdm indichiamo con (J = (fJ1, ... , (Jm) il vettore di
dimensione d = di+ . .. + dm che si ottiene giustapponendo i vettori fJ1, ... , Bm.
120 Capitolo 3
Allora si ha
Teorema 3.45 Le v.a. X1, ... , Xm sono indipendenti se e solo se
F(x) ~ n
sex:::; O
se O< x < 1
se 1 ::; x
e poiché O ::; F( t) ::; 1 allora
= {~ -
set< O
F(t) e->.t
set::::: O
Generatori aleatori, simulazione 121
Questo metodo è però poco efficace quando la funzione F- 1 non abbia una
espressione analitica esplicita, come succede ad esempio per le leggi normali,
binomiali e di Poisson, oppure quando si vuole simulare una probabilità su Illn.
In alcuni casi (per le leggi N(O, 1) per esempio) si possono usare le tavole della
f.r. per avere un 'approssimazione di p- 1 , ma si tratta di una procedura pesante
da inserire in un programma di calcolatore. Gli esempi seguenti mostrano altri
approcci al problema.
Esempio 3.48 (Legge binomiale) Dati dei numeri casuali X 1 ,X 2 , ... indipen-
denti e uniformi su [O,1] si pone Zi = 1 se Xi :::;p e Zi = O se p < X; :::;1.
È chiaro che Z 1 , ... , Zn sono B(l,p) e indipendenti, essendo funzioni di v.a.
indipendenti. Dunque Z 1 + ... + Zn "'B( n, p).
Esempio 3.51 (Leggi normali) Sappiamo che basta saper simulare una legge
N (O,1), da cui si possono ottenere facilmente tutte le altre leggi normali.
Abbiamo visto nell'esempio precedente come si simula una v.a. Z uniforme
sul cerchio. Per l'Esempio 3.23 la v .a.
-2logJZJ 2
W=Z
1z1
2
ha densità
!( x ) =--e 1 -x2
1
/?
• ... --e1 -x2
"' /2 =---e 1 -lxl2/2
-/'h ../2-rr (2~)m/2
2
</Jy(0)= ei(ll,z)<Px(A*0) = ei(B,z) exp (--2-IA*01 ) =
= ei(ll,z) exp ( - ~ (A*0, A*0)) = ei(B,z)exp ( - ~ (AA*B, 0))
Osserviamo che la matrice AA* è simmetrica e semi-definita positiva, poiché
(AA*B, 0) = (A*B, A*B) = IA*Bl 2 2'.O. AA* è anzi la matrice di covarianza Cy
di Y: in effetti, come abbiamo visto al termine del paragrafo 3. 7, Cy = ACx A*,
e in questo caso Cx è la matrice identica I.
Leggi normali multivariate 123
À1
(
C=
o
allora poiché C è semi-definita positiva gli autovalori Ài sono tutti 2: O e quindi
ba.sta porre
A 2 = 0- 1 BO· 0- 1 BO = 0- 1B2 0 = C
Siano X"' N(z, C), A una matrice p X me b E IllP. Consideriamo allora la v.a.
Y = AX + b, che è a valori in IllP e calcoliamone la funzione caratteristica. Per
la (3.51) si ha
dove 0 = (O, ... , O,8, O,... , O) e chh è l'elemento di posto hh della matrice C.
Quindi Xh ha una legge normale N( zh, chh)-
Per la Proposizione 3.45 quindi le v.a. X 1 , ... ,Xm sono indipendenti. Ricor-
dando che C è la matrice di covarianza di X, abbiamo dunque provato una
proprietà importante delle leggi normali: variabili aleatorie non correlate sono
indipendenti se la loro distribuzione congiunta è normale. Attenzione comun-
que perché può accadere che le v .a. X 1 , ••. , X m abbiano ciascuna. distribuzione
Leggi normali multivariate 125
o o
Cx
C=
o o
o o
Cv
o o
che implica
ovvero
Cov(X, Y)
a=----
Var(Y)
126 Capitolo 3
Quindi scrivendo
X= X -aY +aY
=Z
abbiamo scritto X come la somma di aY e di u11av.a. ~ indipendente da Y.
La legge condizionale di X dato Y = y è la legge di Z + ay. Questo fatto
è evidente, dato il significato intuitivo della nozione di legge condizionale, e si
può verificare rigorosamente senza troppa difficoltà (vedi Esercizio 3.24).
Ma Z + ay è una v.a. normale (è anch'essa una funzione lineare di v.a.
normali ... ) ed ha varianza
e media
E[Z
+ ay ] = E[X] + Cov(X,
Var(Y)
Y)( -
y
E[Y])
Esercizi
3.1 Sia X una v.a. uniforme su [O,l]. Posto Y = l3XJ+ X, calcolare la legge
di Y (l J è la funzione parte intera).
3.6 Sia (X, Y) un vettore aleatorio uniforme sul quadrato di vertici (1, O),
(O,1), (-1,0), (O,-1).
a) Calcolare le densità di X e di Y.
b) Calcolare P{Y > 1/2 I X< 1/2}.
c) Calcolare la densità di X+ Y. Mostrare che X+ Y e X - Y sono
indipendenti.
3.10 Siano X, Y v.a. indipendenti di legge N(O, 1). Calcolare la legge della
v.a X - Y. Calcolare le densità di (X, X - Y), (X, v'2Y) e le loro marginali.
Mostrare che X + Y e X - Y sono indipendenti.
3.18 Un numero reale X viene scelto con legge f(a, .X).Se X= x viene allora
scelto un numero Y con legge esponenziale di parametro x. Qual è la legge di
Y ? Qual è /a legge di X dato Y?
3.20 Un componente elettronico ha. un tempo di vita che segue una. legge
esponenziale di media 10 giorni. Un secondo componente è composto da due
elementi in parallelo (il che significa che funziona fintanto che uno almeno dei
due elementi è funzionante), ciascuno dei quali ha tempo di vita. esponenziale
di media 8 giorni.
a) Qual è /a densità del tempo di vita del secondo componente? Quanto
vale la sua vita media?
b) Qua/ è /a probabilità che il primo componente duri più del secondo?
3.21 (Legge di Ca.uchy) Sia X una v.a. uniforme su] - ¾,¾[ (cioè di densità
J( x) = ¾ se -f ~ x ~ "Ì e f( x) = O altrimenti). éal~olare la legge di
Y = tan X. Quanto vale E[Y]?
1
g(y)= 7r(l+y2)
Che ne pensate?
3.26 a) Sia X una v.a. f(½, 1). Quanto vale P{X ~ 1}?
b) E se X fosse rn,1)? f(!, 1)?
4
Convergenza e approssimazione
ha probabilità 1.
Diremo che X n converge a X in probabilità (X n ~X) se e solo se per ogni
numero "7> O fissato si ha
lim P{IXn -
n-+oo
Xl > "7}= O
Si può dimostrare che la convergenza q.c. implica quella in probabilità, cioè se
v q.c.x·11
-'~n-+ a ora X n-+P x·.
\da½· L'intuizione dice però anche che se n cresce questo fenomeno dovrebbe
•tendere a sparire: se i primi lanci hanno dato una eccedenza di teste, ciò
idovrebbe poi essere compensato dai lanci successivi e insomma al crescere di
In la proporzione dovrebbe stabilizzarsi intorno al valore ½.
/ Questa situazione può essere modellizzata con una successione X 1, X 2, ••.
I di v.a. indipendenti tutte di Bernoulli B(l, ½), dove al solito considereremo
i che l'evento {X; = 1} corrisponde all'evento "l'i-esimo lancio ha dato testa".
I
I
Con questo modello il numero di teste ottenute in n lanci è X 1 + ... + Xn e la
l proporzione di teste in n lanci ( che poco fa indicavamo con ~) sarà
- 1
Xn = -(X1
n
+ ... + Xn)
Ì Come conseguenza dunque ci aspettiamo che X n assuma dei valori lontani da
1 ½ con probabilità sempre minore. È quanto afferma la legge dei grandi numeri.
Teorema 4.2 (Legge dei grandi numeri) Sia {Xn} una. successione di v.a..
indipendenti ed a.venti tutte la stessa. legge. S11pponia.moche esse abbia.no
speranza matematica /l e varianza finita a 2 . Allora posto
'
si ha Xn ~- µ ·-(e quindi anche Xn ~ Jt).
-·
Dimostrazione. Dimostreremo solo la convergenza in probabilità. La v.a. Xn
ha media p:
E[Xn] = ~E[X1
n
+ ... + Xn] = ~n (E[X1] + ... + E[Xn]) = µ
e la sua varianza vale
-
Var(Xn) = n12 Var(X1 + ... + Xn) = n12 ( Var(X1) + ... + Var(Xn) ) =
1 a2
= 2 n Var(X 1) = -
n · n
Basta ora applicare la Disuguaglianza di Chebychev (Proposizione 2.38)
La legge dei grandi numeri 133
Esempio 4.3 Supponiamo di non sapere se una data moneta sia equilibrata o
no. La legge dei grandi numeri fornisce uno strumento per stimare la probabilità
p di ottenere testa in un singolo lancio. Basterà infatti lanciare n volte la moneta
e stimare p con la quantità
- 1 -
allora Xn = -(X1 + ... +X n) e per il Teorema 4.2 Xn -+ p = E(Xi).
n
In pratica è però possibile fare solo un numero finito di lanci e quindi
occorre valutare l'errore che si commette stimando p con X n, per n fissato.
Naturalmente può succedere che lanciando una moneta equilibrata 1000 volte
si ottenga testa tutte le volte, il che darebbe Xn = 1, ben diverso dal vero
valore p = ½;è chiaro però che la probabilità che ciò si verifichi è molto
piccola. Un modo di procedere può essere quello di fissare un errore 1Je di
stimare la probabilità di commettere un errore più grande dell'errore prefissato.
Si tratta cioè di maggiorare la quantità P{IXn - PI > 7J}.Poiché il calcolo
della funzione di ripartizione di una legge binomiale con un parametro n molto
grande è difficile ( anche se per valori di n non troppo grandi vi sono delle tavole
numeriche), limitiamoci per ora a maggiorare la quantità qui sopra usando la
disuguaglianza di Chebychev:
- I } Var(Xn) 1 1
P {IX n - p > 1] ~ 2 = 2 2 n · p( 1 - p) =
1J n 1J
p(l - p) 1
1/2 n
Zh(n) = -1 ~
~lh
(
X; )
n i=l
o 1 2 3 4 5 6 7 8 9
Definizione 4.5 Siano X,X 1 ,X 2 , . .. v.a. reali e indichiamo con F,Fi,F2, ...
·1e rispettive funzioni di ripartizione. Diremo che X n converge a X in legge
.. e
(Xn--+ X) se e solo se
lim Fn(x) = F(x)
n-oo
Viceversa se P{Xn = k}--+ P{X = k} per ogni k = 0,1,2, ... allora per ogni
x E JR si ha (LxJ=parte intera di x)
LxJ LxJ
Fn(x) = P{Xn :Sx} = LP{Xn = k}--+ LP{X = k} = P{X :Sx} = F(x)
k=O k=O
Teorema 4.8 (P.Lévy) Siano X, X 1 , X2, ... v.a. reali e indichiamone con
~, </> . .. le ris~ettl~e funzioni caratteristich~J Allora X n !:..X se e solo se
1 , </>2,
<f>n(0)-+ </>(0) per ogni 0 E lll.
Esempi 4.9
a) Supponiamo che Xn assuma con probabilità 1 il valore ¾- Allora Xn
converge in legge verso una v.a. X che assume con probabilità 1 il valore O.
Infatti la f.r. di X è data da
= {~
sex< O
F(x) se X 2'.:Q·
mentre
= {~
sex<¾
Fn(x) sex >- .1
n
Il solo punto di discontinuità di F è x = O. Ora se x < O si ha Fn( x) = F( x)
per ogni n. Se invece x > O per n abbastanza grande si ha x 2'.:¾ e dunque
Fn(x) = 1 = F(x). Dunque la convergenza in legge è verificata. Osserviamo
che in questo caso Fn(O) = O per ogni n mentre F(O) = 1. Dunque Fn non
converge a F(O) nel punto O, di discontinuità per F.
Alternativamente (e qui sarebbe stata la cosa più semplice) avremmo potuto
applicare il Teorema di P.Lévy e calcolare il limite delle funzioni caratteristiche.
(0) = ei 9/n -+ 1 e la funzione caratteristica di una. v .a. che prende il
Infatti <f>n
valore O con probabilità 1 vale appunto identicamente 1.
b) Supponiamo che Xn prenda i valori 0,.1,1.,n n
... , n-l
n
ognuno con proba-
bilità ¾-Calcoliamo il limite in legge di {Xn}n-
Le v.a. Xn assumono valori sempre pii1 fitti nell'intervallo [O,1]. L'intuizione
Convergenza in legge 137
suggerisce quindi che il limite in legge sia una v .a. uniformemente distribuita.
Applichiamo la definizione e calcoliamo il limite delle f.r. Osserviamo che, se
O$ x $ 1, vi sono lnxJ+ 1 punti della forma~ (k = O, 1, ... ) tali che~ $ x,
dove con L J indichiamo la funzione parte intera. Quindi se O $ x $ 1
F(x) = n sex< O
se O$ x $ 1
sex> 1
che è la funzione di ripartizione di una v.a. uniforme su [O,l]. La verifica con
le funzioni caratteristiche sarebbe stata un po' più complicata in questo caso.
c) Supponiamo X n ,....,N(11,¾).Come abbiamo visto nel paragrafo 3.5 le v.a.
Xn hanno densità date da curve a campana centra.te tutte nel puntoµ e che
tendono ad essere sempre più alte e strette al crescere di n. Questo dovrebbe
suggerire che un eventuale limite dovrebbe essere concentrato in µ.
Anche in questo caso per studiare la convergenza si può sia calcolare il limite
delle funzioni di ripartizione sia usare le funzioni caratteristiche, che in questo
caso forniscono il metodo più semplice:
cf>n(0)= eÌJL8e-8 2 /2n - ejµ8
In questo paragrafo avremo bisogno dei fatti seguenti sulle funzioni esponen-
ziale e logaritmo complesso.
La funzione esponenziale complessa si può definire per ogni numero complesso
z, in maniera equivalente, in uno dei due modi seguenti
ez = eRez(cos(Imz) + isin(Imz))
oo n
( 4.1)
ez= L;n.
n= O
oo n
log(z + 1) = I:(-1t+ 1 zn
n=l
(convergente per lzl < 1). Da questo sviluppo si ricava che log(z + 1)"" z per
z - o.
Teorema 4.10 (Teorema Limite Centrale) Sia {Xn}n una successione div.a.
indipendenti equidistribuite, di mediaµ e varianza a 2 > O. Allora posto
S" = X1 + ... + Xn - nµ
n a.fii
j.
Per il Teorema di P.Lévy basta dimostrare che <Ps· (0) - e- 62 12 , che è la
funzione caratteristica di una v.a. N(O, 1). Il calcol~ di questo limite è una
classica forma 100 : calcoliamo il polinomio di Taylor intorno a 0 = O di <Pe,
ricordando che </J'(O) = iE(Yj) = O,</J"(O)= - Var(Y1) = -1, si ha
02
</)(0)= 1 - 2 + o(l01
2)
00 n ( <P
= exp [ nl~m ( ~) - 1)] =
= exp [n-+oo
lim n(-_!_0
2n
+ o(.!))]
n
2
cioè S~ si può vedere come la somma di un numero sempre più grande di v .a.
che diventano sempre più "piccole". Si può dimostrare che il Teorema Limite
Centrale resta vero (cioè che S~ !:+N(0, 1)) se S~ è una v.a. che si può scrivere
come una somma di un numero crescente di v.a. indipendenti, tutte "piccole"
{in un senso da precisare), anche senza l'ipotesi che siano equidistribuite.
In altre parole il TLC afferma che un effetto casuale che sia la risultante di
molti effetti aleatori, ciascuno dei quali dia solo un piccolo contributo all'effetto
finale, segue approssimativamente una legge normale.
Per questo motivo, ad esempio, si assume spesso che un errore di misurazione
segua una legge normale: in assenza di errore sistematico è ragionevole pensare
che la discrepanza tra il valore vero e quello misurato sia la risultante di
numerosi piccoli errori che si sono sovrapposti. Dunque l'errore finale seguirà
una legge normale (e l'esperienza lo conferma).
dove <I>indica, come al solito, la funzione di ripartizione della legge N(0, 1).
Parleremo sempre di approssimazione normale facendo riferimento alla ( 4.2).
Approssimazione normale 141
Figura 4.3 200 simulazioni di S~ per delle leggi di Bernoulli con p = 0.95 e
n=50. L'istogramma è chiaramente asimmetrico.
Esempio 4.11 Una lampada ha un tempo di vita che segue una legge espo-
nenziale di mediaµ = 10 giorni. Non appena la lampada smette di funzionare
essa viene sostituita con una nuova. Qual è la probabilità che 40 lampade siano
sufficienti per un anno?
Se si indica con Xi la durata della i-esima lampada, possiamo supporre le Xi
i
indipendenti e di legge esponenziale di parametro À = = /0 ; la probabilità
richiesta non è altro che P {X 1 + ... + X 40 2:::365}. Usando le tavole della legge
normale e (4.2)
come la legge normale possa essere usata per approssimare una legge r (n, ..X)
per n grande. La stessa idea naturalmente si può applicare per approssimare
la funzione di ripartizione di leggi binomiali B( n, p) con n molto grande o di
Poisson di parametro ..Xgrande ( che si può vedere come la legge della somma
di n v .a. di Poisson di parametro ~ ).
Un calcolo esatto avrebbe dato come risultato 0.16. Osserviamo però che,
poiché le Xi assumono va.lori interi,
P{X1 + ... + Xso > 28} = P{X1 + ... + Xso > 28.5}
e l'approssimazione normale darebbe ora
:= 1 - <I>(2
8 ··5 -
50 . 0 ·5 ) = 1 - ~(0.99) = 0.16
J56· 0.5
In generale con v .a. a valori interi si ottiene una migliore approssimazione
Esercizi 143
Esercizi
4.2 Sia {X n}n una successione di v.a. e supponiamo elle X 11 ,..,, f(n, >.).
a) Quanto vale P{X1 ~ ½}? E P{X3 ~ 1}?
b) Calcolare quanto vale
1 1
P{-X
n n_).> -}
per n grande.
144 Capitolo 4
4.4 Sia {Xn}n una successione div.a., dove per ogni n Xn,..., x2 (n).
a) Calcolare il limite in legge di { ¾Xn}n .
b) Mostrare che
~-J2n- I!:+N(O,I)
c) Sia. Z una v.a. N(O, 1) e tale che le v.a.. Z, Xn sia.no indipendenti per ogni
n. Poniamo
z
Yn = ffn ../n
Vedremo nel capitolo dedicato alla statistica. che la v.a. Yn segue una legge che
si chi a.ma t di Student a. n gradi di libertà, che si indica. t( n). Calcolare il limite
in legge di Yn per n-+ oo.
4.5 (Leggi Beta) Sappiamo per (3.37) che per ogni a, f3> O la funzione definita
da
f(t) = f(o + /3) to-1(1 - tl-1
f(o)f(/3)
e da J(t) = O set (/. [O,l] è una densità di probabilità; essa si chiama legge
Beta di parametri a e f3e si indica con f)(a,{3).
a) Mostrare cl1ese X ,...,/3(a, /3) allora
0
E[X]=- -
o + /3
E[X 2]_ o(o+l)
- ( a + /J)(o+ /3 + 1)
a/3
Var(X) = (a+ {3)"·a+
( /3+l )
4.6 Sia {Xn}n una successione di v.a. indipendenti e di uguale legge, tutte di
media O e varianza a 2 • Mostrare che la successione di v.a.
Zn = (X1 +, .. + Xn) 2
n
4.8 Sia {Xn}n una successione di v.a. indipendenti, tutte di legge uniforme
sull'intervallo [O,2a].
a) Calcolare media e varianza delle Xi,
b) Calcolare, per n -+ oo e per x E Ill fissato, il limite della probabilità
Si chiama processo stocastico una famiglia {X 1}t di v.a. definite su uno stesso
spazio di probabilità, dove t varia in un sottoinsieme T Cm,+.
I processi stocastici sono modelli matematici di fenomeni aleatori che si
evolvono nel tempo. La varietà dei processi stocastici e delle problematiche ad
essi collegate è grande, come del resto molto grande è la varietà dei fenomeni
di cui essi sono i modelli.
= P{Xn+l E E I Xn = i} = 1
È chiaro che, come funzione di j, Pii non è altro che la densità condizionale
(discreta) di Xn+l dato Xn = i.
Ad ogni catena di Markov (C.M.) si può quindi associare una funzione di
transizione P che goda delle proprietà a) e b ). Viceversa vedremo che, data
una funzione di transizione P ed una legge iniziale v, esiste sempre una catena
di Markov ad essa associata.
U
sarà
se j =i+ 1
P{Xn+I = j I Xn =i)= se j = i - 1
altrimenti
Calcolo delle leggi congiunte 149
D'altra parte
se j = O
P {X n+t = j I X n = O}= { ~ altrimenti
P {X n+I = j I X n = a + b} = { ~ se j =a+ b
altrimenti
(Non appena Xn giunge in O oppure in a+ b il gioco si ferma perché uno dei
giocatori è a O). Cioè la matrice di transizione è
1 o o o
q o p o
o q o p o
P=
o q o p o
o q o p
o o o 1
La C.M. di questo esempio è abbastanza celebre e viene chiamata la rovina del
giocatore (gambler's ruin). Questioni a cui sarebbe interessante sa.per rispon-
dere in questo esempio sono le seguenti:
1) Qual è la legge di Xn?
2) Qual è la probabilità che A vinca?
3) Poniamo T = inf{n;Xn = OoppureXn = a+b} (è sottinteso che
r = +oo se { } = 0); r è cioè l'istante in cui il gioco termina perché uno dei
gioca.tori è ridotto a O. Quanto vale P{ r < oo}, cioè qual è la probabilità che il
gioco non duri all'infinito? Quanto vale E(r), cioè qual è la durata media del
gioco?
Di questi e di altri problemi vedremo la soluzione in seguito. In particolare
le risposte dipenderanno unicamente dalla matrice di transizione P.
p\jl = P{Xn+m = j I Xn = i}
150 Capitolo 5
=L PhjP~r;:-t)
hEE
Ovvero, se indichiamo con Pm la matrice di cui i numeri P~j) sono gli elementi,
Pm = Pm-1P
nel senso del prodotto righe per colonne di matrici (eventualmente di dimen-
sione infinita), da cui
P2 = P · P = P 2
e per ricorrenza
Pm = .._.--,
p ... p = pm
m volte
Supponiamo E= {1,2, ... } oppure E= {1, ... ,n} a seconda che E sia infinito
oppure finito e di cardinalità n. Poiché le v.a. Xn assumono valori in E, la
legge di X n è individuata dai numeri Vt, v2, ... dove
Vk=P{Xn=k}
Posto v = (v 1 ,v 2 , ••• ), v è un vettori:' riga ai dimensione pari alla cardinalità
di E (eventualmente infinita); inoltre deve essere
a) Vi ~ O per ogni i= 1, 2, ...
b) Ì:iEEVi=l.
Viceversa se v è un vettore di dimensione pari alla cardinalità di E e valgono
a) e b ), allora v è una densità discreta su E. Supponiamo che X 0 abbia legge
v e calcoliamo la legge w di X n·
(5.3) w = vPn
Se O< n1 < n2 < ... < nk, possiamo ora calcolare la legge congiunta
( 5.4)
Se i, j E E diciamo che i comunica con j se esiste n > O tale che P~j) > O.
Un sottoinsieme C e E è una classe chiusa se gli stati di C non comunicano
con gli stati che stanno nel complementare di C. Una classe chiusa C si dice
irriducibile se tutti i suoi stati comunicano fra loro. Se uno stato costituisce da
solo una classe irriducibile, esso si dice assorbente.
Una C.M. si dice irriducibile se tutti gli stati comunicano, ovvero se E è
l'unica classe irriducibile.
Per ogni j E E poniamo
P~~)
IJ
> o
quindi
(n+m) > >O
Pih = ""'"' (n) (m)
L..,.;Pik Pkh
(n)
- PiJ Pjh
(m)
Esempio 5.5 Classifichiamo gli stati della C.M. avente la matrice di transi-
zione seguente dove i puntini indicano O e gli * numeri > O.
1 2 3 4 5 6 7 8 9 10
1 * *
2 * *
3 * *
4 *
5 * * * * *
6 * *
7 * *
8 *
9 * *
10 *
1) 1 comunica. con 7 e 9, 7 comunica. con 1 e 9, 9 comunica con 7 e 9. Questi
tre stati comunica.no tra di loro e {1, 7, 9} costituisce una classe irriducibile.
2) 2 comunica. con 2 e 4, 4 comunica. con 2, {2,4} è una classe irriducibile.
3) 3 ---+5, 5 ---+2, ma 2 non comunica né con 3 né con 5. 3 e .5 sono quindi
transi tori.
-n 6---+ 1 ma 1 f+ 6: 6 è transitorio .
.:i) 8---+ 3, 3---+ 5, 5 - 2, quindi 8 comunica con 2 che non comunica. con 8; 8 è
transi torio.
6) 10 comunica solo con se stesso: 10 è assorbente.
L'insieme degli stati si decompone dunque in 3 classi irriducibili
ed un insieme di sta.ti transitori: {3, 5, 6, 8}. Si può dimostrare che una catena
di Markov ammette una decomposizione unica
Esempio 5.6 Classifichiamo gli sta.ti della. rovina del giocatore (Esempio .5.3).
Supporremo O< p < 1.
Se O < i < a+ b, allora i comunica con tutti gli altri stati. Infatti Pi i-l =
q > O; quindi i---+ i -1; per lo stesso motivo i- 1 - i- 2, i- 2---+ i- 3
154 Capitolo 5
o Pn o
In effetti poniamo
allora
(.5.8)
156 Capitolo 5
e dunque
00 00
Esempio 5.9 Consideriamo una catena di nascita e morte (Esempio 5.7) in cui
supponiamo che gli stati O e m siano assorbenti (e cioè che sia p0 = O,qm = O)
e studiamo l'assorbimento nella classe C = {O}. Il sistema (5 ..5) diviene
À1 = q1 + P1À2 + r1À1
À2 = q2À1 + 1·2À2 + P2À3
Problemi di assorbimento 157
Ovvero, se poniamo Ào = 1 e Àm = O
i=l, ... ,m-1
= q1 ···Qi(Ào->-1)=
Pt ···Pi
= ìi(l - >.i)
Se sommiamo i termini di sinistra di questa relazione per i che va da O a m - 1
otteniamo "telescopicamente" Ào - Àm = 1. La. somma dei termini di destra dà
invece (1 - Àt) I:~~1 Ìi· Cioè
1
1- Àt = '°'m-1
L.,i=O Ìi
158 Capitolo 5
e ancora da ( 5.10)
).i - ).i+l = '°'m-1'Yi
~h=O 'Yh
Ora la somma dei termini a sinistra di questa relazione per i che va da j a
m - 1 dà .Xj- .Xm= .Xj. Dunque finalmente
, ._ 'Yi + •· · + 'Ym-1
"i -
1 + 'Yl + · · · + 'Ym-1
Le probabilità di assorbimento dipendono dunque solo dai quozienti t.Nel
caso della rovina del giocato.re, ricordando che m = a + b, la probabilità di
assorbimento >.anon è altro che la probabilità che il primo giocatore perda.
Abbiamo Pi = p, qi = q e dunque i rapporti -}; = { = a non dipendono da i
per cui
Se p = q = ½allora a =1e
e quindi
b
).a= --
a+ b
Se invece a -:f.1, moltiplicando numeratore e denominatore per 1 - a si ha
modellizzato da una C.M. i cui stati indicheremo con i numeri da 1 a 12, dove
7 è lo stato assorbente "B vince", 1 è lo stato assorbente "A vince", mentre
per i diverso da 1 e 7 lo stato i corrisponde all'evento "l'ultimo lancio ha avuto
i come risultato". Se indichiamo con q;, i = 2 ... 12 la probabilità di ottenere
i in un lancio con due dadi, la matrice di transizione di questa C.M. è data da
1 2 3 4 5 6 7 8 9 10 11 12
1 1 o o o o o o o o o o o
2 q2 o q3 q4 q5 q6 q7 qs q9 q10 q11 q12
3 q3 q2 o q4 q5 q6 q7 qg q9 q10 qu q12
4 q4 q2 q3 o q5 q6 q7 qs q9 q10 qu q12
5 q5 q2 q3 q4 o Q6 q7 Qs q9 Q10 Q11 q12
6 q6 Q2 q3 q4 Qs o q7 Qs q9 q10 Qn q12
7 o o o o o o 1 o o o o o
8 Qs q2 q3 q,i Qs q6 q7 o q9 Q10 Qn Q12
9 q9 Q2 q3 q4 q5 Q6 q7 Qs o Q10 Q11 Q12
10 Q10 Q2 q3 q,i q5 Q6 q7 Qs q9 o Qn Q12
11 Qn Q2 q3 q4 q5 Q6 q7 qs q9 q10 o Q12
12 Q12 Q2 q3 q4 Qs Q6 q7 Qs q9 Q10 q11 o
Se À; è la probabilità di essere assorbiti in 1 partendo da i, il sistema (5.5)
diventa
(5.11) Ài = q; + I: QhÀh i ::/-7
h#l,7,i
Se X 0 è il risultato del primo lancio, la probabilità che A vinca varrà
(5.13) Ài = 1 : Qi ( qi +1 !!M)
dove
2
N=L~
h-#7 1 + qh
L __!!!!:__
M= h-#7 1 + Qh
Sostituendo i va.lori numerici Q2 = Q12 = }6 , q3 = Q11 = 1 q10
18' q4
1
12' qs = q9 = }, q6 = qs = }6 ,q1 =¼si ottiene da (5.13)
À2 = À12 = 0.33 À3 = À11 = 0.35 À4 = À10 = 0.37
.À5= .À9= 0.38 .À6= .Às = 0.4
160 Capitolo 5
Ti = Ei[T] = L n g!n)
n=l
(5.14) Tj = 1 + L PihTh
hET
1 = -qTi-1 + Ti - PTi+l
1= -qTa+b-2 + Ta+b-1
Se p = q = ½la soluzione è Ti = i( a+ b - i) e quindi r 0 = ab. Ad esempio se
a = 1, b = 100 allora, come abbiamo calcolato nell'Esempio 5.9, B vince con
probabilità 100/101, ma il tempo medio della partita è ab= 100.
Se poniamo per n ~ I
<Pn(i)= pi{r ~ n}
abbiamo, usando (5.15) e (5.16)
n+l n+l
<Pn+1(i)= LPi{r = k} = LPij + Lpi{r = k}
k=l jEC k=2
n
= L Pij + L Pir L pr {T = k} = L Pii + L Pir<Pn( r)
jEC rED k=l jEC rED
che permette di calcolare uno dopo I'altro i valori di </> 2 ••• fino al valore
1 , </>
voluto <f>n,Se E non ha cardinalità troppo grande questi calcoli si possono
facilmente eseguire numericamente con un programma di poche righe anche su
un persona! computer.
Esempio 5.12 Una moneta viene lanciata 100 volte. Qual è la probabilità di
ottenere almeno una sequenza di 6 teste consecutive?
Possiamo considerare una catena di Markov avente i 7 stati seguenti: C, CT,
CTT, CTTT, CTTTT, CTTTTT, CTTTTTT, dove C indica che nell'ultimo
lancio si è avuta croce, CT indica che nell'ultimo lancio si è avuta testa ma
nel penultimo croce e così via fino a CTTTTTT che indica che abbiamo ap-
pena ottenuto una sequenza di 6 teste. Imponiamo che quest'ultimo stato sia
assorbente. È chiaro inoltre che da ciascuno degli altri 6 stati si può passare
nello stato C con probabilità ½(corrispondente al fatto che il lancio successivo
dia croce) e che si passa da C a CT con probabilità ½,così pure per i pas-
saggi da CT a CTT da CTT a CTTT eccetera. In definitiva la probabilità di
transizione è data da
e
CT CT 2 CT 3 CT 4 CT 5 CT 6
e 1
2
1
2 o o o o o
CT 1 o 1
o o o o
2 2
CT 2 1
2 o o 2
1
o o o
CT 3 1
o o o 1 o o
2 2
CT 4 1
2 o o o o 1
2 o
CT 5 1 o o o o o 1
2 2
CT 6 o o o o o o 1
162 Capitolo 5
Supporremo anche in questo paragrafo che l'insieme E degli stati sia finito ( car-
dinalità N). Questa ipotesi è fondamentale: vedremo nel prossimo paragrafo
cosa cambia se gli sta.ti sono una infinità numerabile. Sia v una probabilità su
E; v si dice invariante o stazionaria se
( ,5.18) v = vP
Se la legge v di X o è stazionaria, allora X n ha legge
È facile costruire esempi in cui esiste più di una probabilità invariante. Inoltre se
v1 , v2 sono probabilità invarianti e O :SÀ :S 1 allora anche Àv1 +(1 - À)v2 è una
probabilità invariante. Dunque le probabilità invarianti formano un convesso
chiuso e, se non c'è unicità, hanno cardinalità infinita.
Una matrice di transizione P si dice regolare se esiste un intero m > O tale che
p~.i) > O per ogni i,j E E. Una catena di Markov si dice regolare se tale è la
sua matrice di transizione.
È chiaro che una. catena regolare è irriducibile (tutti gli stati comunicano
tra loro) e quindi tutti gli stati sono ricorrenti. Esistono però catene irriducibili
che non sono regolari.
2m-n(i,h)-n(h,j) volte
LPij =1
iEE
cioè se anche la somma degli elementi di ogni colonna vale 1. È immediato che
per una matrice bi stocastica la distribuzione uniforme Vi = iE
è invariante ( a
meno di fare ipotesi di irriducibilità. o di regolarità. non è però detto che sia
unica).
Esempio 5.18 Sia G un grafo, E l'insieme dei suoi vertici; dato un vertice i
sia ki il numero di vertici di E adiacenti a i (cioè il numero di vertici che sono
connessi a i da un arco) e poniamo k = LiEE ki; su E si può considera.re la
catena di M arkov associata alla matrice di transizione
se j è adiacente a i
p··tJ -- { 1;
o altrimenti
Probabilità invarianti 165
~ k·
L., ViPij = ...1. = Vj
. E
1E k
3 2
Figura 5.1
1 2 3
Figura 5.2
indice pari nei tempi dispari e in uno di indice dispari nei tempi pari. Quindi
pn sarà della forma
o * o o
o o* * *o
o* * o* o
o o* * o*
o* * *o o
* o * o* * o*
per n dispari e
o o * o
o* * o* o
*o o o* o* * o*
* o
*o o o* o* * o*
* * o *
per n pari, dove * indica un numero > O. Dunque la catena non può essere
regolare. Vedremo negli esercizi che è comunque possibile analizzare il compor-
tamento asintotico anche in questo caso.
(5.20)
L
i EE
1riPii = L 'TrjPji = 'Trj L Pii=
i EE i EE
'Trj
L'algoritmo di Metropolis, simulated annealing 167
se J =z
Si vede subito che P = (Pii )ii è anch'essa una matrice di transizione. Inoltre
1r è reversibile (e dunque invariante) per P. Supponiamo infatti 1ri ~ 1ri, allora
Pii = ~Qij mentre Pii = Qji e
71"·
Mostriamo ora che se per di più i -+ 7ri non è costante ( cioè se la distribuzione
1r non è la distribuzione uniforme) allora P è anzi regolare perché esiste io E E
tale che Pioio > O (vedi l'Osservazione 5.16). Intanto esistono due stati io,io
tali che qioio > O e 7rj0 < 7ri0 : basta considerare l'insieme M degli stati i tali
che 7ri = maxj 7rjj poiché Q è irriducibile esistono io E M_,j0 E Mc tali che
Qioio > O (altrimenti M sarebbe una classe chiusa, mentre Q è irriducibile) e
naturalmente si ha anche 7r;0 > 7rj 0 per la definizione di M. Quindi
Per il teorema di Markov, nelle ipotesi del Teorema 5.21, se {Xn}n è una
168 Capitolo 5
Qij se H(j) ~ H( i)
(5.22) ~-
PIJ ={ q· -e-(H(j)-H(i))/e
IJ se H (j) > H (i)
1- Lj#i Pij se J =i
La nuova regola di transizione è dunque la seguente: si sceglie un nuovo stato
j secondo la matrice di transizione q. Se H(j) ~ H(i) si effettua la transizione
in j; se invece JI(j) > H(i) con probabilità e-(H(j)-H(i))/e la transizione viene
rifiutata ed il processo resta in i. Da notare che per simulare questa procedura
non occorre conoscere il valore di Ze.
Stati numerabili 169
Negli ultimi due paragrafi abbiamo studiato vari problemi riguardanti il com-
portamento asintotico di una ca.tena di Ma.rkov quando l'insieme E degli sta.ti
è finito. Vediamo ora cosa succede se invece questa ipotesi viene tolta ed a.m-
1 70 Capitolo 5
pi{X1 1'j, · ·,, Xn-1 1'j, Xn = j, Xn+l 1'j,, · •, Xn+m-1 1'j, Xn+m = j} =
L Pih1Ph1h2'' •Phn-iiPihn+I '' •Phn+m-ii = pi{ri = n}Pi{ri = m}
Poniamo ora
00
(5.24) m 2'.1
Dunque per ogni i E E e per ogni stato transitorio j la serie a termini positivi
L~=tp~'J) è convergente, il che implica la relazione importante
(5.26)
Ciò implica che una catena di Markov finita ha almeno uno stato ricorrente;
infatti se tutti gli stati fossero transitori si avrebbe T = E e dunque
LP~j) = LP~j) = l
jET jEE
pi ( {ri = k} n A) =
Pi{Tj = k I A}Pi(A) = PÌ{Tj = k I X1 = h1, .. ,,Xm = -i}Pi(A):::;
:::;PJ{Xk = j I X1 = h1, .. ,,Xm = i}PJ(A) =
= p~J-m>pi(A) = O
Stati numerabili 173
Proposizione 5.25 Sia Cuna classe chiusa e indichiamo con D l'insieme degli
stati transitori che non si trovano in C; allora se la catena ha un numero finito
di stati il sistema di equazioni lineari
La. somma dei primi due termini vale pi{ r :S 2}. Vediamo il significato del
terzo termine: se j E D allora Phi = O a meno che non sia h E D; dunque se
i,j ED
Pii(2) = '°'
~ PihPhi
hEE
= '°'
~ PihPhj
hED
p~;>
Poiché ogni j E D è transitorio sappiamo che limn---+oo = O e passando al
limite
Xi= lim pi{r ~ n} = pi{r < +oo} = Ài
n---+oo
cioè la tesi.
Esattamente come nel caso di un numero finito di stati s1 può verificare per
ricorrenza che
(5.32) Vj =L VjP}7)
jEE
Lemma 5.27 Siano a 1 , a 2 , ••• numeri positivi tali che la serie di termine
generale ai sia sommabile, e siano b~n) numeri tali che limn-+oo b~n) = O per
I < M per ogni i, n. Allora
ogni i e per di più esista un numero M tale che Jb~n)
(5.33)
Dimostrazione. Fissiamo é > O;allora esiste un numero io tale che L~io ai <
é n) I s é per ogni i
e poi un numero no tale che sia Jb~ = 1, ... , io - 1 e per ogni
n > no. Allora
oo oo io-1 oo
ILaib~n)I S LaiJb~n)J =L ailb~n)J+ L a;Jbin)JS
i=l i=l i=l i=io
io-1 oo oo
s e L a; + M L a; s e { La; + M}
i=l i=io i=l
Per effetto della Proposizione 5.23 se tutti gli stati di una catena comunicano
tra di loro, essi sono tutti ricorrenti o tutti transitori. In effetti se esistesse uno
stato i ricorrente, automaticamente tutti gli altri lo sarebbero come consegu-
enza della Proposizione 5.23 b ).
Diremo che una ca.tena irriducibile (nella quale dunque tutti gli stati comu-
nicano) è transitoria. o ricorrente a seconda che tutti i suoi sta.ti siano transitori
o ricorrenti.
Una ca.tena irriducibile con un numero di sta.ti finito è certamente ricorrente,
poiché abbiamo visto che essa possiede almeno uno stato ricorrente. Se invece
gli stati sono una infinità numerabile, allora essa può essere transitoria o ricor-
rente e, come vedremo, determinare quale delle due eventualità. si verifica è un
problema interessante per le applicazioni.
Supponiamo che l'insieme E degli stati sia l'insieme {O,1, 2, ... } degli in-
teri non negativi. Allora, se la catena è transitoria, per ogni insieme finito
I = {O, 1, ... , N} la catena esce prima. o poi da f per non tornarvi piì1. Più
precisamente esiste un numero n(w) tale che Xn(w) > N per ogni n ~ n(w).
Poiché ciò succede per ogni N
(5.34) q.c.
1 76 Capitolo 5
Se invece la catena è ricorrente allora, come abbiamo visto nel paragrafo pre-
cedente, Xn passa infinite volte per tutti gli stati e (5.34) non vale.
Per determinare se uno stato è ricorrente o transitorio può essere utile il
criterio seguente, che non dimostriamo.
In particolare i è ricorrente se e solo se Phi = 1 per ogni stato h tale che Pih >O
(tale cioè che partendo da i vi si possa giungere in un passo solo).
L Ìi =a.< +oo
i=l
allora
-1
P 1 {ro<+oo}= lim P 1 {ro<m-1}~ lim P 1 {ro<rm}=l-i<l
m~~ m~oo
Stati numerabili: ricorrenza e transitorietà 177
e la catena è transitoria.
In conclusione la catena è ricorrente o transitoria a seconda che la serie
L:, 1 Ìi sia divergente o convergente. Da notare quindi che ricorrenza o tran-
sitorietà dipendono solo dal quoziente ~-
Supponiamo ad esempio che sia
Pi =P Qi =q
per ogm i 1, 2, ... Allora ~ _ !I.
p
e Ìi = (!I.p )i; la serie diverge se e solo se
!I.
p -
> 1. Se invece fosse
i+2 i
Pi= 2i + 2 Qi = 2i + 2
allora
Q1 • • -Qi 1 · 2 ... i 2
Ìi = P1 ···Pi 3-4 ... (i+2) (i+l)(i+2)
che è il termine generale di una serie convergente e la catena è transitoria.
Intuitivamente più i valori Pi sono grandi e più la catena. avrà tendenza. a.d
allontanarsi da O e dunque a.d essere transitoria. All'opposto più sono grandi i
va.lori Qi e più la. catena tenderà a torna.re verso O e quindi a.d essere ricorrente.
La condizione sulla serie L~l Ìi stabilisce quale dei due effetti prevale.
Esempio 5.30 Vediamo sotto quali ipotesi una catena di nascita e morte ha
una distribuzione invariante. 11sistema ( 5.31) diviene in questo caso
Vo = Vo To + V1 Ql
Vj = Vj-1]}j-1 + VjTj + 1'.i+Iqj+I j = 1,2, ...
Poiché Pj + r j + Qj = 1 lo si può riscrivere
(.5.35)
v1q1 - PoVo =O
Vj+1Qj+1 - PjVj = VjQj - Vj-IPj-1 j = 1, 2, ...
La quantità Vj+1qj+1 - VjPi è uguale a O per j = O (è la prima. delle (5.35))
1 78 Capitolo 5
e per ricorrenza è uguale a O per ogni j = O, 1, ... per la seconda delle ( 5.35 ).
Dunque si ha
Vt = a- Po
ql
V2 = V1-Po
q1
= a--Po Pt
q1 q2
(5.36)
Poniamo io =1e
-
Ìj = Po·· ·Pi-1
q1 .. ,qj
per j > O. Poiché la somma delle quantità Vi deve valere 1, dovrà essere
00
(.5.37) a I: 1'i= 1
i=O
1
a=---
"'oo -
L.,i=O Ìi
Se invece la serie I::o i'i diverge allora non esiste nessuna distribuzione inva-
riante perché non esiste nessun valore di a per cui (5.37) sia soddisfatta.
Ad esempio se Pi = qi = ½per i = 1, 2, ... allora sappiamo già che la catena
è ricorrente, ma i'i = 2po che è il termine generale di una serie divergente e
non esiste nessuna distribuzione invariante. Supponiamo invece Pi p, qi q = =
con Eq < 1 per i= 1, 2, ... (supponiamo cioè che tutti i numeri Pi siano uguali,
tranne al più Po, che può avere un valore diverso, purché > O), allora
-
Ìi = -Po (p)i-1
-
q q
Stati numerabili: ricorrenza e transitorietà 179
che è il termine generale di una serie convergente e perciò esiste una distribu-
zione stazionaria. Possiamo anzi calcolarla esplicitamente:
e dunque
( 5.38)
Po(P)i-t q-p
Vi =q q q- p+ Po
Questo calcolo garantisce che la distribuzione stazionaria per una ca.tena di
nascita e morte irriducibile se esiste è unica. Vedremo che questo è un fatto
generale per le catene irriducibili.
1.
1m --
Nn(j)
= v·J >O q.c.
n-= n
180 Capitolo .5
Vedremo ora un analogo del teorema di Markov, nel ca.so di stati numerabili.
Supponiamo al solito la ca.tena irriducibile e consideriamo l'insieme Rj =
{n ~ 1,P}j) > O} formato da.gli istanti n ~ 1 per i quali la probabilità di
tornare in j in n passi sia strettamente positiva.. Indichiamo con dj il massimo
comun divisore dei numeri che si trova.no in Rj,
Ad esempio se in una ca.tena di nascita e morte si ha rj = O per ogni
j E E, allora l'insieme Ri è composto, qualunque sia j, solo da numeri pari:
se j è, ad esempio, dispari, poiché la catena si sposta di un passo ogni volta,
necessariamente essa si trova in uno stato pari nei tempi dispari ed in uno
stato dispari nei tempi pari; dunque necessariamente P}J) = O se n è dispari.
In questo ca.so dunque di non può essere uguale a 1 e sarà uguale a 2 per ogni
j . Se invece ri = Pii > O allora Ri contiene il numero n = 1 e dunque dj = 1.
Si può dimostrare che in una. ca.tena irriducibile il numero dj non dipende
Esempi: file d'attesa 181
da j, ed è dunque uguale per tutti gli stati. Una catena tale che di 1 per
ogni stato j si dice aperiodica.
dove 1r = (1r 0 , 1r1 , ... ) è /a distribuzione invariante (che è certo unica perché la
catena è irriducibile).
= LPw(m)pz(m - k)
m
182 Capitolo 5
{
/3(1-o) se j =1
Poj= 1-,8(1-o-) se j =O
Si tratta. dunque di una catena di nascita. e morte dove
Pi= ,B(l -a) :=.p
per i 2'.:1. Ricordiamo che per l'Esempio 5.33 la catena è transitoria, ricorrente
nulla oppure ricorrente positiva a seconda che P. sia > 1, = 1 oppure < 1;
dunque la catena è q
transitoria. se f3 > a
ricorrente nulla se /3= a
ricorrente positiva se ,B< a
Ovvero, ricordando che o = E[Z] e /3= E[W], la catena è transitoria, ricorrente
nulla o ricorrente positiva a seconda. che sia. E[W] > E[Z], E[W] = E[Z] oppure
E[W] < E[Z].
Si può dimostra.re che ciò resta vero anche se Z e lV hanno una legge più
generale che le leggi di Bernoulli considerate.
Questo fatto ha delle conseguenze applicative importanti. Quando si pro-
getta un servizio, un centra.lino ad esempio, è importante che la catena che
ne descrive la fila d'attesa non sia transitoria., poiché ciò significherebbe che il
numero di clienti in attesa. diverge.
Esempi: file d'attesa 183
Esempio 5.35 Le file d'attesa di due centralini hanno la stessa legge d'uscita,
che supporremo di Bernoulli B(l,a); essi però differiscono per il numero di
chiamate che ciascuno può tenere in attesa ( cioè per la dimensione del buffer).
Indichiamo con m e k le dimensioni dei buffer dei due centralini: ciò significa
che quando giunge una nuova chiamata il centralino la mette in attesa, a meno
che non vi siano già m ( o k rispettivamente) chiamate in attesa; in questo caso
la chiamata viene respinta.
Come si possono confrontare le prestazioni dei due centralini supponendo
una legge d'entrata di Bernoulli B(l,/3)?
L'evoluzione del numero di chiamate in attesa si può descrivere con una
catena di Markov finita comprendente m + 1 e k + 1 stati rispettivamente.
Riprendendo l'esempio precedente possiamo costruire un 'appropriata catena
di nascita e di morte su { 1, 2, ... , m} le cui probabilità di transizione sono date
da
Pi = /3(1 - a) ==p i= O,... , m - 1
qi = a(l - /3)==q i= 1, . .. ,m
(ricordiamo che per una catena di nascita e morte indichiamo di solito con Pi
e q; le probabilità di transizione Pi,i+I e Pi,i-I rispettivamente). Questa catena
di Markov è un modello ragionevole per lo studio della fila d'attesa del primo
centralino e la stessa, con k al posto di m, può servire per il secondo.
Un modo per valutare le prestazioni del primo centralino può essere quello
di calcolare la proporzione di tempo in cui esso è saturo; cioè, nelle notazioni
del Teorema 5.32, la quantità ¾Nn(m). Se 1r indica la densità stazionaria della
catena di nascita e morte associata, per il Teorema 5.32 questa quantità può
essere stimata per n grande con il valore 7rm della densità stazionaria in m.
Ripetendo le argomentazioni dell'Esempio 5.30 si ricava facilmente che la
distribuzione invariante 1r è data da
-. -(/3(1-a))i - i
ìi - o(l _ /3) - ì
184 Capitolo 5
per cui
4 8
/3= 0.5 0.00826 0.00016
/3= 0.66 0.0758 0.0133
Queste cifre possono suggerire che nel secondo caso, in cui il traffico è pii1
intenso, il centralino con il buffer più piccolo possa essere inadeguato (sarebbe
saturo il 7.58% del tempo).
Esercizi
5.2 Tre giocatori seduti attorno ad 11ntavolo giocano nel modo seguente: uno
di essi comincia tirando tre volte una. moneta.
Se ottiene tre teste vince la partita.
Se ottiene due teste e una croce mantiene i/ gioco.
Se ottiene due croci e una testa passa il gioco al giocatore alla sua destra.
Se ottiene tre croci passa il gioco a/ giocatore alla. sua. sinistra.
Il giocatore a cui passa il gioco continua. con le stesse regole. Il gioco termina
non appena uno dei gioca tori realizza tre teste. Qual è la probabilità che il
giocatore che inizia il gioco vinca.?
5.3 Due giocatori A e B giocano nel modo seguente. Un 'urna contiene inizia/-
mente 2 palline rosse (R) e 2 palline nere (N ). Si effettuano delle estrazioni
successive con le regole seguenti.
Se la pallina estratta è N. essa viene messa da parte. Se la pallina. estratta
Esercizi 185
è R essa viene rimessa nell'urna insieme ad una nuova pallina N. A vince non
appena. nell'urna ci sono 4 palline N, B vince non appena nell'urna non ci sono
più palline N.
a) Mostrare che il gioco si può modellizzare con una catena di Markov di
cui si determinerà la matrice di transizione.
b) Qual è la probabilità che dopo 3 estrazioni vi sia.no almeno due palline
N nell'urna?
c) Qual è la probabilità che vinca A? Quale dei due giocatori ha più pro-
babilità di vincere?
d) Quanto dura in media. la partita?
5.4 Mostrare che se una. moneta. viene la.ncia.ta successiva.mente più volte, prima
o poi si ottengono n teste consecutive con probabilità 1 qualunque sian.
( 1 -pq l -qp)
Al va.ria.re di p, q tra O e 1, P è la generica matrice di transizione di una C.M.
su un insieme E formato da due elementi.
a.) Mostrare che P è irriducibile se e solo se p e q sono entra.rubi < 1 e che
essa è anche regola.re se per di più uno almeno tra. p e q è > O.
b) Calcolare le probabilità invarianti di P. Per qua.li va.lori di p e q la
probabilità invariante è reversibile?
Pi,i = j (N)( ·)
;
i (
1-;
· ) N-j
5.11 (Modello di Ehrenfest) m paJJine sono ripartite in due urne. Ad ogni unità
di tempo una delle n pa.JJine viene scelta a caso e spostata dall'urna in cui si
trova. all'altra.
Esercizi 187
k = o,... ,m
è una distribuzione stazionaria.
c) Sono soddisfatte le condizioni del Teorema di Markov?
D 1 -
1/2
1/2 Dl
1/4
1/2
11 3/4 1/4
1/4
D D
1/2
1/2
Figura 5.3
- - - - I
i- 2 i- 1 i+ 1
Figura 5.4
n!-~(~)n
mostrare che
P~~n)"'[4p{l - P)t ~
y7rn
Esempio 6.1 Una moneta, di cui si ignora se sia o no equilibrata, viene lan-
ciata 1000 volte ottenendo 447 teste. Cosa se ne può dedurre? Si può affermare
che la moneta sia equilibrata?
Un modello statistico adatto allo studio dell'Esempio 6.1 può essere il seguente,
basato sullo schema di Bernoulli dell'Esempio 1.18
n = {O,1}1000
A = le parti di n
0 = [O,1)
pll(w) = 0k(l - 0)1-k
Data una funzione f :0 -+ Ill m si chiama stimatore del parametro f (O) una
V.a. X: n-+ m,m_
Intuitivamente dare uno stimatore X significa fissa.re la. regola. che, se si
osserva w, allora si stima f(O) con la. quantità. X(w).
Con questa definizione ogni v .a. a valori in Ill m è uno stimatore. Una. prima
questione quindi consiste nello stabilire dei criteri per decidere quali stimatori
sia.no "buoni" e quali no, ovvero per confronta.re due stimatori e stabilire quale
sia. il migliore.
Per la situazione dell'Esempio 6.1, ad esempio le due v.a.
Y(w) = w1
( 6.1) 1 1000
X(w) = -1000 'ç""'
L,__;
w·2
i=l
Vediamo ora dei criteri rigorosi per valutare e confrontare stimatori diversi.
È però opportuno già osservare che uno stimatore è una variabile aleatoria
( dipende dall'osservazione). I valori che esso assume sono cioè casuali e si può
parla.re della legge dello stimatore, anzi delle leggi dello stimatore, poiché la
legge di X dipenderà. dalla. vera. probabilità P 11che regge il fenomeno. È intuitivo
Modelli statistici 191
Diremo che X è uno stimatore non distorto ( oppure corretto) del parametro
/(0) se per ogni 0 E 0
E11[X] = f(0)
In altre parole uno stimatore non distorto di / ( 0) può prendere dei valori
diversi da f( 0), ma. la. media. dei valori assunti sarà. proprio f( 0) e questo per
ogni valore dell'incognito para.metro 0.
In genere per uno stimatore il fatto di essere non distorto è da considerarsi un
fatto positivo, anche se saremo condotti a consid<'rare stimatori che non godono
di questa. proprietà. Si chiama. invece il rischio quadmtico dello stimatore X la
funzione Rx : 0 -- m+definita. da
Ad esempio per i due stimatori definiti in (6.1) si vede subito che, se consi-
deriamo al solito su n le v.a. Xi(w) = Wi, poiché le X; sono indipendenti e di
legge B(l, 8)
E[Y] = E[X1] = 8
1 1000
E[X] = -I:E[X·] =8
1000 i=l i
Ry(8) = Var(Xi) = 8 (1 - 8)
1 1000 1
Rx(0) = 10002 L Var(Xi) = 1000 0 (1 - 0)
i=l
Una situazione molto frequente è quella in cui, come per l'Esempio 6.1, l'os-
servazione sia costituita da una successione X 1 , ... , X n di v.a. indipendenti
ed aventi la stessa legge. In questo caso considereremo un modello statistico
(n,A,(P 11)0E0) sul quale siano definite delle v.a. X 1 , ••• ,Xn che per ogni 8
sono tra loro indipendenti ed abbiano la stessa legge. Indicheremo con PII la
densità ( continua o discreta) comune delle v.a. rispetto alla proba:bilità P 11• La
densità congiunta di X = (X 1 , ... , X n) sarà dunque
E' [ ~ - l ~ t,
t,(x, µ) 2 = E' [(X; - µ) 2 ] = Var,(X;)
e dunque
l n
a2 =- ~:)xi-µ)2
n i=I
è uno stimatore non distorto di a 2 . Spesso però la media µ non è nota per cui
non è possibile calcolare 6 2 . Proviamo allora a sostituire, nell'espressione di
6 2 , a /t il suo stimatore X e vediamo quali sono le proprietà di
194 Capitolo 6
Se X1, ... , X n è un campione di rango n di legge p9 e per di più Var11(Xi) < +oo
per ogni 0 E 0, allora per la. legge dei grandi numeri lo stimatore X converge
q.c. per n - oo alla. media. Si esprime questa proprietà dicendo che X è uno
stimatore consistente della media.
Esempio 6.5 Abbiamo visto che l'Esempio 6.1 si può modellizzare con un
campione di rango 1000 di leggi di Bernoulli. Calcoliamo un intervallo di fiducia
per 0 di livello a, = 0.0.5 ( ricordiamo che in questo caso 0 è la probabilità di
ottenere testa in un singolo lancio). Usando l'approssimazione normale, come
nel para.grafo 4.4
2<l>{-2i5J1000) = 0.05
Stimatori di varianza minima 195
deve essere -26\1'1000 = -1.96 (vedi le tavole della legge normale) e dunque
8 = 2~
1000
= 0.03. Quindi
In alcuni casi è possibile stabilire che uno stimatore è migliore di tutti gli altri,
almeno per il criterio di ammissibilità del paragrafo precedente.
Diremo che uno stimatore T di f(0) è uniformemente di varianza minima
non distorto ( che abbrevieremo con UVM) se è non distorto e se per di più è
preferibile ad ogni altro stimatore non distorto.
Supponiamo che l'osservazione sia. della forma X = (X 1, ... , X n)
Teorema 6.6 Sia T(X) uno stimatore non distorto di f(0) di va.ria.nza finita.
e supponiamo cl1e goda della. proprietà seguente: qualunque sia la. v.a. V(X)
di varianza finita ta.le che E 9[V(X)] = O per ogni 0 E 0, si ha.
E 9 [T( X )V(X)] = Cov11(T(X), V(X)) = O
Allora T(X) è uno stima.tare UVM di f(0).
Dimostrazione. Sia. W(X) un altro stimatore non distorto di f(0) e di va.-
ria.nza finita. Allora se V(X) = W(X) - T(X) si ha. E 9[V(X)] = O per ogni 0.
Allora
Va.r11(W(X)) = Va.r9(T(X) + V(X)) = f
= Var11(T(X)) + Va.rll(V(X)) + 2 Cov1J((T(X), V(X)) =
=O
= Varo(T(X)) + Va.ro(V(X)) 2: Va.ro(T(X))
196 Capitolo 6
e dunque T(X) ha varianza più piccola di ogni altro stimatore non distorto.
- 1
X = -(X1
n
+ ... + Xn)
n
S2 1- '°'(Xi
= -n-lL.t - X) 2
i=l
1) /
2 n 2
( 211"CT
J+oo
_
V( X1, ••• , Xn
) exp ( - I:~1(Xi - µ)2) dXl
2cr2
•••
dXn --
(6.2) 00
= E 11[V(X)] = O
Se deriviamo questa uguaglianza rispetto a µ e ammettiamo, cosa che si può
verificare rigorosamente, che si possa derivare sotto il segno d'integrale otte-
mamo
O= 1
?)n / 2
( 21rcr-
J+oo
Tr( v Xt,···,Xn
)2 I:~-I (xi - µ)
- X
_ 00 2cr2
X exp ( - "n
L..,i=I
(xi - µ)2)
· ,, dx1 ... dxn =
2cr-
.
1
) /?
J+oo (nx nµ)
V(x1, ... ,xn) - - -? X
(21rcr2 n - -(X)
cr2 cr-
I:~=l(Xi-/l)2) d
X exp ( - 2cr2 dx1 ... Xn =
= n2 E11[V(X)X] - n~ E11[V(X)]
cr cr-
= cr-
~)E 11[V(X)X]
Per il Teorema 6.6 dunque .Y è uno stimatore UVM di µ. Con calcoli simili,
derivando rispetto a cr2 si verifica che S2 è uno stimatore UVM di cr2 •
n
(6.3) Lgrad 8 logf0(x;) =O
i=l
2
fe(x) = ~O' exp( (x ~~) )
a x-µ
oµlogfµ,a(x) = ~
a (x - µ)2 - (12
OO'log Jµ,a(x) = 0' 3
i=l
n
L)xi - µ)2 = nC12
i=l
È chiaro però che per n grande a2 differisce di poco dallo stimatore UVM S2 •
Fino ad ora abbiamo supposto che non ci fossero a priori dei motivi per consi-
derare dei valori di 8 E 0 più probabili di altri. Questo non è sempre il caso;
consideriamo la situazione dell'Esercizio 1.10: in esso vogliamo stimare da quale
delle urne sia stata fatta l 'estiazione, sapendo che questa ha dato come risul-
tato una pallina bianca ed una rossa. Una strategia ragionevole può essere la
seguente: calcoliamo la probabilità condizionale Pi che l'urna prescelta sia la
i-esima sapendo che l'estrazione ha dato come risultato una pallina rossa ed
una bianca e decidiamo che l'urna prescelta è quella in corrispondenza della
quale il valore Pi è il più elevato. Il risultato naturalmente è diverso a seconda
che in partenza tutte le urne siano ugualmente probabili oppure no.
In generale la situazione si può descrivere nel modo seguente. Si considera
che il parametro 8 E 0 è scelto con una certa distribuzione di probabilità q.
Supponiamo per semplicità che 0 sia JR oppure un suo sottointervallo. Dire che
8 viene scelto con densità q e che se il vero valore del parametro è 8 la densità
dell'osservazione è x--+ p11(x) equivale a dare per il vettore (8, X) la legge di 8
e la legge condiziona.le di X rispetto a 0. Dunque la legge congiunta di (8, X)
è data da.Ila densità
g(fJ,x) = q(0)p11(.r)
La legge dell'osservazione X è la seconda margina.le di g
gz(x) = l q(8)p11(x)d8
ifx(8) = q(8)p11(x)
gz(x)
Possiamo ora scegliere come stimatore il valore di 8 che rende minimo il rischio
quadratico rispetto alla legge ifx cioè quel valore Oche renda minima la funzione
O= [ 0ijx(0) d()
le
Stimatori di Bayes 201
g(0, x) = --e-1 1
82 /· 2u 2 ---e-2LJ;=1 I "l:'"'n Ix;- 912
=
V2ia (2rr )n/2
1
=(2rr)(n+l)/2o-exp
[
-2
1( ?1 + no-
0~ o-2
2 n
-20~xi+~lx;I~
n ?)]
che è dunque una legge normale. Dobbiamo ora calcolare la legge condizionale
di Z dato X = x, x E nr. Con i metodi di calcolo del paragrafo 3.11 si ricava,
con calcoli elementari e un po' di pazienza. ( vedi anche l'Esercizio 3.25), che la
legge condizionale di 0 dato X = x è normale di media
no-2
(6.4) ---i
+
1 no-2
e varianza
1 + no-2
Naturalmente lo stimatore di Bayes è, che è la media della distribuzione a
posteriori, è dato dalla quantità in (6.4).
Appaiono qui due aspetti tipici della. procedura bayesiana: lo stimatore di
Bayes non è non distorto; infatti
2 no-2
E9 [Ò]= no- E9 [x] = -- 0
+
1 no-2 1 + no-2
anche se è chiaro che per n---,. oo la differenza tra. E 8 [0] e 0 tende a O.
In secondo luogo si vede che la distribuzione a posteriori ha una. varianza
più piccola di quella. a priori e decrescente a O per n ---,.oo.
0 = a+ nx
o+,B+n
Stimatori di Bayes 203
o 0 x 1
Figura 6.1 Confronto tra la distribuzione a priori (tratteggiata), che è /3(2, 2),
e quella a posteriori, /3(6, 3).
Rq(V(X)) = J
g2(x) dxl (V(x) - 0)2qx dO 2:
2: J
g2(x) dxl (B(x) - 0)2ijx(B)d(J=
= Rq(O(X))
dove abbiamo usato il fatto che 0 è il punto di minimo della funzione
e in particolare
Può succedere che la media della distribuzione a posteriori sia una quantità
che non si trova in 0. In questo caso lo stimatore 0 va calcolato cercando il
valore O E 0 che rende minimo il rischio a posteriori Rx,
Una variante di questi metodi di stima è data dal cosiddetto MAP ( ma:i:imum
a posteriori likelihood), che consiste nello stimare (Jcon il valore di z E 0 che
rende massima la densità a posteriori
Z-+ ifx(z)
6.5 Test
OD = sup P 11(D)
IIE0H
-3 -2 -1 o 1 2 3
La sola cosa importante da. segnalare è che una v.a. Z di Student è sim-
metrica, cioè Z e -Z hanno la. stessa distribuzione. Ciò deriva dal fatto che le
v.a. N(O, 1) sono simmetriche e dunque
-X X
-Z=-,/nrv-y'n=Z
.jy Jy
Si chiama quantile di ordine a, O< a< 1, di una v.a. X il più grande numero
-3 -2 -1 o 1 2 3
= 1 - P{Y ~ </>1-cx}
P{Y ?::</>1-cx} =a
Ma per le proprietà di simmetria della legge normale si ha anche
- cx}= P {Y ?::</>1
P {Y ~ -</>1 - cx}= a
(e quindi -<Po=</>1-cx),
In particolare
Stima e test per campioni gaussiani 209
- 1 n
X= - ~ Xi
n!-
i=l
n
52 = _1_
n-lL...,
~(X; - X)2
i=l
allora si ha
Z = yn--X-µ ,..,,
N(O, 1)
(T
52
W = -cr2 (n - l) ,..,,x2 ( n - 1)
che è come che affermare che [,Y- }nt 1_ 0 ;2(n - l),..,Y + }nt1-a;2(n - 1)] è
un intervallo di fiducia perµ di livello o.
È bene però osservare che di intervalli di fiducia per un parametro ve n'è
più d'uno. Il calcolo di poco fa permette di verificare che anche
[X -
- sr,;/t-o/4(n -1),X
- + s,çtl-3o/4(n -1)]
yn yR
oppure
] - oo,X
- + fo,t1-a(n
s - 1)]
Dunque
e quindi
n- 1 2
[O,x~(n - l)S]
è un intervallo di fiducia di livello a per a 2 • Se invece la media è nota, si può
usare lo stimatore
-2
ed è chiaro che n~
(T
"'x 2 (n); con considerazioni simili alle precedenti si vede
che [O,~]
X;;.\nJ
è un intervallo di fiducia di livello o:.
Esempio 6.15 Un dado, di cui si ignora se sia equilibrato o no, viene lanciato
100 volte, ottenendo 13 volte 6. Indicando con 0 la probabilità di ottenere 6 in
un singolo lancio, cerchiamo un intervallo di fiducia per 0.
Considereremo come modello statistico un campione X 1 , ..• , X100 di legge
di Bernoulli di rango n = 100. Poiché in questo caso 13 osservazioni hanno
assunto il valore 1 e 87 il valore O
x = 0.13
s :~::)xi
2 -
= 919
100
i=l
x) 2 = 919 [13 (1 - 0.13) 2 + 87. 0.13 2 ] = 0.114
- s
[X - y'nto.975(99),X
- + y'nto,975(99)]
s = [0.062,0.197]
pii{T > t1-c,(n -1)}= pii{vn(~ - /L) + vn(1~- /Lo)> t1-c,(n -1)}~
~ P 11{ vn(~ - ,,.) > f1-c,(n - 1)}=
= O'
perché ,In(.}-µ) ha legge t( n - 1) rispetto a P 11, dove 8 (µ, a 2 ). Cioè se
l'ipotesi è soddisfatta l'evento
L'evento D = {X >/Lo+ }nt1-cr(n '- 1)} è quindi una. regione critica. di livello
a per il test considerato.
Questo si chiama. il test di Stndent. In pratica. la. sua. effettuazione è molto
semplice: si calcola T a. partire dall'osservazione; se il valore ottenuto è maggiore
Stima e test per campioni gaussiani 213
De 5
= {--); E [po - y'nt1-o;2(n - 1),/to 5
+ y'nt1- 0 ;2(n - 1)]}
c,-
se l'ipotesi è vera
T = vnX - µ0 = V301.98 - 1 = 1. 78
5 y9.06
L'ipotesi è dunque respinta al livello 0.0.5 perché il valore di Tè più grande di
1.67. Da notare però che al livello a= 0.01 il test non avrebbe respinto l'ipotesi
perché to_99(29) = 2.46.
Cerchiamo ora invece di valutare la potenza del test. Più precisamente (la
potenza è una funzione ... ) si tratta di calcolare la probabilità che il test porti
al rigetto dell'ipotesi al variare di /L > 1 e a 2 > O. La. potenza vale
y-
1r(µ, a2) = p,,. v'nT
2
11 {
1
> 1.67}
r.:- x
T =vn-- -1
5
segue una legge di probabilità ( legge di 5tudent decentrata) per la quale esistono
delle tavole. Vedremo ora un altro ragionamento che, se non è del tutto corretto,
dà però un 'idea dei valori. Supponiamo che il valore di 5 2 sia il vero valore della
varianza a 2 (invece di esserne solo uno stimatore) allora
1r(p, a 2 ) ../n(/t
= pµ,a 2{T > 1.67} = pµ,a 2{T1 > 1.67 - S - 1)} =
= 1- <1>(1.67-
../n(Il -
S 1))
r;;;;. µ - 1
1.67 - V JU--
s = -0.15
e, poiché <f>(-0.15) = 0.4405, la potenza perµ= 2 varrebbe 55.05%.
Quindi, se il valore della media fosse statoµ = 2, il test non avrebbe portato
al rigetto dell'ipotesi con una probabilità del 44.05%.
6. 7 Il test del x2
Nel paragrafo precedente abbiamo usato un 'idea comune a molti test statistici:
si cerca una funzione T dell'osservazione che segua una legge nota se l'ipotesi
è vera, ma che tenda ad assumere valori molto grandi (o molto piccoli), se
l'ipotesi è falsa. Vedremo ora un altro esempio di applicazione di questa idea.
Supponiamo che l'osservazione sia costituita da una sequenza X1, ... ,Xn
di v.a. indipendenti equidistribuite e a valori in un insieme finito composto
da m elementi, che supporremo essere {l, ... , m}. Poniamo Pi = P{X1 = i},
i = 1, ... , m. La legge delle v.a. Xi è dunque determinata dal vettore 0 =
(P1, ... , Pm), al variare di B tra tutti i vettori B = (P1, ... , Pm) le cui componenti
Pi sono ~ O e tali che PI + ... + Pm = 1.
Per un fissato Bo = (p1, ... , Pm) vogliamo, a partire dall'osservazione, stabi-
lire se B = 00 oppure no. Supponiamo che tutte le componenti Pi di Bo siano
strettamente positive e poniamo, per i= 1, ... m,
-(n) _ NJn)
P·i --- n
T n -- ~
~
_1 (N· -
1
·)2 -
np 1 - n
~
~
(p; - p;)2
i=l np; i=l Pi
Teorema 6.17 (Pearson) Supponiamo che le v.a. X1, X2, ... , Xn, ... siano
=
indipendenti e di legge Oo (PI,···,Pm)- Allora per n--+ oo Tn converge in
legge verso una v.a. x2 (m - 1).
Esempio 6.18 Un dado viene lanciato 2000 volte con i seguenti risulta.ti
ii1 = 0.194 th = 0.161 fJ3= 0.157 fJ4= 0.1.58 fJs = 0.172 P6= 0.1.58
contro una frequenza teorica p 1 = ... = p6 = } = 0.167. Per concludere che
il dado non è equilibrato occorre dunque effettuare un test dell'ipotesi 0 = 00 ,
d ove 00 -- ( 61 , ... , 6I ) contro l' a1ternat1va
. 0 _J_
r 00 • I n questo ca.so np; -- -2000
6- e'
largamente maggiore di .5 e possiamo supporre Tn ""'x2 (m.- 1). TI calcolo dà
Tn = 2000 X L (Pi- 61 )
6 2
X 6 = 12.6
i=l
Uno sguardo alle tavole mostra che Xfi.95 (.5) = 11.07. Il test di Pea.rson al livello
5% dunque respinge l'ipotesi che il dado sia. equilibrato (l'ipotesi non sarebbe
Un esempio di analisi statistica 217
Osserviamo che questo test segue l'idea esposta all'inizio di questo para.grafo:
se l'ipotesi è vera Tn ha un a legge nota.; altrimenti se fosse 0 = (q1, ... , Qm) -=/-
(p1, ... , Pm) si avrebbe Pi -=/-Qi per qualche indice i e dunque
f(
i=l
qi - Pi)2
Pi
=A > O
Poiché per la legge dei grandi numeri fi~n) - q;, per n--. oo avremmo
JJi JJ;
o 0.062.S 0.130
1 0.25 0.2-15
2 0.37,5 0.2,0
3 0.25 0.225
4 0.062.S 0.130
218 Capitolo 6
= 200 L
4 (- )2
X Pi - Pi
i=O Pi
segua. una. legge \: 2 (4) (in questo caso m = 5). Il calcolo numerico dà X = 3.5.56,
che è un valore nettamente più grande del quantile x5_ 95 ( 4) = 9.48. Viene quindi
respinta. l'ipotesi che i da.ti osserva.ti provenga.no da. una. distribuzione 8(4, 0.5)
e dunque la modellizzazione proposta. non è soddisfacente.
L'ipotesi inizia.le si potrebbP modificare supponendo che i sessi nelle nascite
successive siano sempre delle v.a.. indipendenti, ma. con parametro p diverso
da½- Se però confrontiamo i valori ]Ji e p; (Figura 6.4) le frequenze empiriche
appaiono piì1 grandi di quelle teoriche per valori estremi e più piccole nei valori
centrali.
o 1 2 3 4
Figura 6.4 Le sbarre piene indicano i valori teorici Pi, le altre quelli empirici
Pi·
o 5
4'.l =0.119 0.130
5 0.24,5
1 '.li =0.238
(G.8)
2 1 =0.285 0.270
i
5
3 21 =0.238 0.225
4 ...:2..=0.119 0.130
42
dove (30 e (31 sono quantità da determinare. A questo scopo si può procedere
facendo vari esperimenti con delle concentrazioni x 1 , ••• , :z:nche condurranno
a delle quantità assorbite misurate Y1, ... , Yni vedremo ora come da queste
osservazioni si possono stimare f3o e fJ1.
( 6.9)
dove w 1 , ••. , Wn sono v.a. indipendenti N(O, <T2 ) e a 2 è una quantità incognita
ma indipendente da -i. La variabile y si chiama anche variabile dipendente
mentre la x è detta il predittore. Questo modello dipende dunque dai parametri
incogniti /3o,/31,a 2 • In questo paragrafo studieremo i problemi di stima e di test
per questi parametri mentre piì1 in là vedremo come si tratta. il caso in cui vi
Regressione lineare 221
Per determinare uno stimatore di {30 e /31 si può ragionare nel modo seguente:
se immaginiamo i punti (:z: 1 , y 1), ... , (.1:n,Yn) sul piano, cerchiamo la retta di
equazione y = /30 + /31:r tale che la distanza della. retta dai punti sia minima ..
Cerchiamo cioè i valori di /3o,/31 pN rni la quantità
n
S .!31)= L)Yi- f3o -
= SLrJo, f31x;)2
i=1
b _ L:1=1
U1i- fi):r;
1 - '°'n
~i=l
( -)
:i:; :i:; - X
Talvolta sui testi si trova una cliversa, ma equivalente, espressione per b1 , poiché
è facile verificare che
n n n
(6.11) n n
z=
i=l
.r;(.r,; - x) = z:=(.-r; -
i=l
x) 2
222 Capitolo 6
Per semplificare le notazioni indicher<'mo con axy la quantità nella prima delle
(6.11) e con a;. quella nella seconda. In conclusione gli stimatori bo e b1 di f3o
e /31 rispettivamente sono dati da
b - CTxy
1 -
(6.12) a-x•)
Abbiamo preferito indicare con b0 , b1 i valori stimati, per distinguerli dai veri
valori (30 , /31 dei parametri. Vediamo ora. alcune proprietà di questi stima.tori.
Iniziamo mostrando che sono non distorti. Nei calcoli che seguono è bene non
dimenticare che le rptantità x 1 , .•. , :i:n sono detnministiche, mentre i valori
della variabile dipendente sono casuali, poiché dipendono dall'errore w tramite
(6.9). Poiché s11pponiarno che le w; ahhiano tutte media O si ha
- 3 I:7=1(.1:; - i)2
- / 1 ~n ( -)·)
L....i=l :z:;- .T •
= /31
Anche b0 è non distorto:
(6.13)
Regressione lineare 223
Nel derivare queste proprietà in realtà non ci siamo ancora serviti dell'ipotesi
che le v.a. w; che figura.no in (6.9) sia.no gaussiane. Se teniamo conto anche di
questa ipotesi, le v.a. Yi risulta.no anch'esse gaussiane e indipendenti, e dunque
la loro legge congiunta. è normale. Poiché gli stima.tori b0 e b1 sono funzioni
affini delle Yi, anch'essi hanno legge normale. In conclusione
e residui le quantità.
ri = Y; - fÌi
Poniamo infine
1 n
s2 =n- 2 L rf
i=l
s:( n--2)
')
(6.16) X := 11 - 2) ,.., x2 (
a-
Z := bo - f3o "'N(O, 1)
Jvar(b 0)
allora
(6.17)
Da. quC'sti fatti si possono calcolarE' degli intervalli di fiducia. o effettuare dei
test riguardanti /3oe /31.
Ripetendo i ragionamenti del paragrafo 6.6 si ha
i=l
(6.19) n
L 1"i'!Ji= o
i=l
Regressione lineare 225
La prima delle (6.19) segue dalla definizione dei residui e dalla prima delle
(6.10). Per la seconda basta osservare che
n n n
L Ti'!Ji = bo L ri + b1 L 1'iXi
i=l i=l i=l
e abbiamo appena visto che la prima somma a destra è nulla, mentre la seconda
è= O per la seconda. delle (6.10).
Dalla prima delle (6.19) si ricava
(6.20)
R2 = "'n
L.,i=l
(Yi• - Y-)·>
~
"'n
L.,i=l(y; -
--?
y)~
Poiché
2
i=l i=l
n n n
{) l n
éJf3ilog f11(Y) = 2a 2 ~ :i.·;(Yi - f3o - f31x;) = O
1=1
X y X y
1 6.9081 6.98:1G 9 111.9.512 1..J.2328
2 7.8,157 4.Gì:27 10 16.7334 19 ..5923
3 8.9108 7.32:12 11 16 ..5,196 17.:J,62
4 10A873 8.11019 12 18.-1-1..J2 12.1657
5 10.1862 l 2.:Fl31 13 19.1214 20.0.5.53
6 11.5097 9.3290 1-1 20.6789 16.1889
7 13.2755 10.0553 15 21.0701 19.0677
8 14.G3•19 16.0239 16 21.6860 11.8632
L'equazione di regressione è
y = 1.72 + 0.765 X
Figura 6.5
Vedremo nell'ultimo paragrafo che grafici di questo tipo possono essere utili
pn valutare se il modello di regr<'ssione è adeguato ai da.ti.
Qui possiamo però già osservare che, mentre per piccoli valori di :r i punti
sono ahhastanza vicini alla retta., 1wr valori grandi essi tendono a discostarsene
di pii1. All'inizio di questo paragrafo abbiamo invece fatto l'ipotesi eh<' gli scarti
Yi - /3o - f31x; siano v.a. indipendenti e aventi la mrdesima varianza a 2.
Il grafico dà quindi adito a qualche dubbio sul fatto che il modello di regres-
sione considerato in questo para.grafo sia adeguato all'analisi di questi dati.
Approfoncliremo quc>sto tipo di discorsi nell'ultimo paragrafo.
Esempio 6.21 I da.ti s<'gnenti riportano i va.lori del massimo livello d<111'acqua
alta a Venezia tra il 19:30 Pclil 1980 (da R.L.Smith, J.Hidrology, 1986)
Il teorema. di Cochran 229
L'equazione di regressione è
y = 88.3 + 0.56 X
PEPE= PE
(6.21)
I - PE = PEJ.
m
'lj_,'(t) = -2 'I::(,1:; - t)
i=l
m m
O= L(x;- t) = LX;- mt
i=l i=l
cioè
1 m -
t ---~-·-1-·•·
m '"""'~·--~·
i=l
Esempio 6.25 Supponiamo più in generale che E sia generato dai vettori
z1, ... , Zk, k < m, che supporremo indipendenti. Un generico vettore z E E si
scrive z = 01 x 1 + ... + 0kxk, Ovvero, se Z è la matrice m X k di cui i vettori
z 1 , ... ,zk sono le colonne e poniamo 0 = (01 , ... ,0k), un generico vettore di
E si scrive z = Z0 al variare di 0 in lRk. Per il Lemma 6.23 per calcolare PE
basta determinare il valore 00 che renda minima la quantità
0 - </>(0)= lx - z012
= 2Z* Z0 - 2Z*:r
grad </>(0)
da cui si ricava
(6.22)
(6.24) T = -vm,X
5 - "' t( m - 1)
Corollario 6.27 Siano Z 1 , ••• , Zm v.a. indipendenti e tutte di legge N(µ, 0' 2 ).
Poniamo
- 1
Z = -(
m
Z1 + ... + Zm)
82 1 - ~(Zi
= -m-1.L..., - Z) 2
i=l
m - 1
-.)-s-(1•
?
"'x·(m
?
- 1)
(6.2.5)
Jm(Z - JI) "'t ( m-
--'------- l)
5
Dimostrazione. Basta ricondursi al caso di v.a. N(O, 1) che abbiamo già
visto. Poniamo
•
\ . I__- Zi-/L
(1
e dunque il vettore X= (Xi, ... , Xm) è /V(O,J) e per le considerazioni già. fatte
..,Ye I;;:
1 (Xi - .Y) 2 sono indipendenti. Tenendo conto che
Z = ax+ ,,
(6.26)
Lm ( y. -
... i
f
.,
)2 = J_•)
(T·
Lm(z. - l
Z)2 =m- ')
O'"
1 52
i=l i=l
Regressione multipla 235
Fn(Z-z)
s J-1'"'~(X·_
m-1 L.n=l i
.,t)2
che, se poniamo,
y= C) :r= ( Xt)
.
.
:r,1
e= 1)
( ·.
1
w= (Wt)
.
.
Wn
si può scrivere
y = /3oe+ /31x + w
È chiaro che, al variare di /30 e /31 in m, il
vettore /3oe+ {31 a: va.ria. tra tutti i
vettori di nr che si trova.no nel pia.no generato da e e da a:, che indicheremo
d'ora in a.vanti con E. Un'idea per ottenere uno stimatore di /30 e /31 potrebbe
essere quel-la di stimarli con i valori in corrispondenza dei quali il punto f30 e +
{31 x si trova a distanza minima da. y. In realtà è esattamente quello che abbiamo
fatto nel paragrafo 6.9 per ottener(' gli stima.tori b0 e b1 : essi sono sta.ti ottenuti
cercando il minimo di L~=l(
y; - (30 - (31 x;) 2 , che non è altro che il quadrato
della distanza. tra y e /30 e + /31 :r. Dunque il vettore y = b0 e + b1 x dei valori
stimati è il vettore di E che si trova. a. distanza. minima day ovvero, ricordando
le definizioni del paragrafo prec('{lente, y è la. proiezione ortogonale di y su E.
236 Capitolo 6
r = y- y = (I - PE )y
r è ortogonale a E (per la seconda delle (6.21); anzi, r non è altro che la
proiezione ortogonale di y su El.). In particolare r è ortogonale sia ad e che a
x, per cui
n
O= (r,e) = Lri
i=l
n
O= (r,x) = L r;x;
i=l
(G.2ì)
dove si considera che la variabile dipendC'nte y sia una funzione lin<>are dei
predittori x 1 , .•. , xk pitt una perturbazione w, dove le w; sono indipendenti e
di legge N(O,a 2 ) (a 2 al solito è da stimare, ma non dipende da i). A meno di
precisare il contrario supporremo sempre che il primo predittore, x1, assuma
sempre il valore 1, cioè
Osservazioni 6.28
a) Il modello di regressione mult.ipla che abbiamo appena definito è un
modello statistico nel senso della Definizione 6.2. In effetti il parametro 0 in
questo caso è dato da 0 = ({31 , .•• ,(h, a 2 ) e varia in 0 = m,k x ID+. Rispetto
a P 6 la v.a. w ha una legge N(O, cr2 I) e dunque l'osservazione y, che è uguale
a w più il vettore f31x1 + ... + fhxk, ha legge N(/31.T.1+ ... + /3kxk, cr2 J).
b) Il termine lineare nei problemi di regressione non si riferisce al fatto che
si suppone che y sia una funzione lineare dei predittori. Vedremo infatti che
Regressione multipla 237
+ /32Xi+ W
Y = /31X1
rientra nel quadro della regressione lineare, mentre ciò non è vero per
-(/~1)
/3- :
JJk
allora ogni Vf'ttore appartenente all'iperpiano F, generato da x 1 , ... , Xk si può
scrivere nPlla forma X /3 al variare di /3 E Illk. Abbiamo visto nel paragrafo pre-
cedente (Esempio 6.25) che il valore di /3 per cui X/j è la proiezione ortogonale
di y su E è dato da
poiché E[y) = X /3. In particolare b è uno stimatore non distorto di /3. Per
calcolare la matrice di covarianza di b ricordiamo che se Cy è la matrice di
covarianza di una v .a. Y allora la matrice di covarianza di AY è ACy A*.
Dunque la matrice di covarianza di b è (qui A= (X*X)- 1 X*)
(abbiamo usato il fatto che (AB)* = B* A* e che (X* X)- 1 è una matrice
simmetrica).
In conclusione lo stimatore b segue una legge N(j3,a 2 (X*X)- 1 ) e le sue
componenti b; hanno legge N(/3;, a 2 mii ), dove con m;j indichiamo l'elemento
di posto ij della matrir(> ( X* X )- 1 .
Come per la regressione semplice poniamo il = Xb = X(X*X)- 1 X*y. iJ è
il vettore dei valori stimati e non è altro che la proiezione ortogonale di y sul
sottospazio E generato dai predittori a:1 , ••• , Xk.
Resta da stimare il parametro a 2 . A questo scopo definiamo il vettore dei
residui
r = y - il = (I - PE )y
s2 = -- i Irj·" = -- i ~ "
~ r~
n -I.: n-1.: 1
i=l
allora
82 ')
2(7 ( n - k) "' x· (n - k)
s· "
(n - I.·)= IPEJ.l-VI· "'x·(n-
?
-.)
(7• .
k)
Regressione multipla 239
per cui
{I-~v'mT;I~
bi - z f1-o-;2(n - k)}
è la regione di rigetto per il test
Il : /3i = z contro A : /3i -:/ z
Nei problemi di regressione multipla. sono però spesso utili dei test (o degli
intervalli.di fiducia.) in cui intervengono simultaneamente più componenti di /3.
Un esempio n<' è il test
Il : /31,:-1= fik contro A : f3k-1 -:/ f3k
in cui cioè ci si chiede se l'dfetto della variabile Xk sia lo stesso della variabile
Xk-l · Vedr<'mo come esempio solo il piiJ importante di questi test, a.Itri si
trova.no negli esercizi.
Si chiama. legge F (o di Fi.<:rhe1·) a n, m gradi di libertà. la. legge di una v.a.
della forma.
Esempio 6.30 (Test globale di dipendenza. lineare) Si tratta del test dell'ipo-
tesi
H : /h = ... = (h = O contro l'alternativa A : /3i =/-O per qualche
i= 2, ... , k.
Poiché finora abbiamo supposto che x 1 sia un fattore costante, se l'ipotesi è
vera non vi sarebbe alcuna dipendenza tra la y ed i "veri" predittori x2, ••. , Xk.
Ricordando che indichiamo con E il sottospazio di IRn generato dai vettori
x1, ... ,xk, consideriamo i tre sottospazi di IRn
E 1 : il sottospazio generato da x 1 ( di dimensione 1)
E 2 : l'insieme dei vettori di E che sono ortogonali a x 1 (dim =k - l)
E3: = El. (dim = n - k).
E1, E2 e E3 sono chiaramente ortogonali tra loro. Inoltre per l'Esempio 6.24
(iJx1è il vettore che ha. tutte le componenti uguali a y) mentre, poiché PEY = iJ
e PE2 = PE(y)- PE 1 (y),
PE2Y = Y- jj,T1
PE 1 Y = f31x1 + aPE 1 W
PE2 Y = a PE H' 2
PE3Y = PE3 H1
(T
~IPE0Yl
(T• -
2 = IPEJ-Fl2
-
l'V x.2(k-1)
~IPE,Yl
(T•
2 = IPEJH'l 2 l'V i(n - k)
"'n ( -)2
- Y n - k
°"n (y,Yi·-··) F ,. ·
A
{ L...i=l
k- ~ l-c,(1t-l.n-•:
L...i=l y, 2 l
R2 = "'n (
L...i=l Yi -
A
Y -
-)~
"'"
L...i=l ( Yi - Y-)')•
Esempio 6.31 I da.ti seguenti riportano, per gli anni che vanno dal 1924 al
195.5,la qualità del vino di Bordeaux ( y) e quattro misurazioni meteorologiche
del mese di aprile prC'cedente la vendemmia.: la somma. delle temperature medie
giornaliere (x 2 ), il numero cli ore di insolazione (.1:3 ), il numero di giorni in cui
la temperatura ha superato la media stagionale (x 4 ) ed i millimetri di pioggia
caduti (x 5 ).
anno y X2 X3 X4 X5 anno y Xz X3 X4 X5
L'equazione di regressione è
y = - 26.8 + 0.00767 x2 + 0.00441 x3 - 0.0237 x4 - 0.00597 x5
Coef Stdev t p
b1 -26.77400 5.384 -4.97 0.000
b2 0.00767 0.00193 3.97 0.000
b3 0.00441 0.00144 3.06 0.005
b4 -0.02361 0.02574 -0.92 0.366
b5 -0.00597 0.00154 -3.88 0.001
Coef Stdev t p
b1 -22.86900 3.30200 -6.93 0.000
b2 0.00632 0.00125 5.07 0.000
b3 0.00434 0.00143 3.02 0.005
b4 -0.00592 0.00153 -3.85 0.001
è la somma di w e (/3o - bo)+ (/3 1 - b1 )z che, n<'lle nostre ipotesi sono v.a.
norma.li c0ntrate e tra loro indipC'nÒent.i. Dunque y - bo - b1z è anch'essa
normale centrata.. Calcoliamone la varianza.. Si ha
dove Var( w) = cr2 • Ricordando poi che la varianza non cambia quando ad una
v.a. si aggiunge una. costante
In conclusione
1
= a 2 + a 2 ( -n x ) + z 2 -a -
+ -a;
2 2
2zx- a
2
Va.r( y - b0 - b1 z)
a;, a;,=
·) ( x) 2 )
= (T~ l + -1 + ( z - 2
n ax
244 Capitolo 6
Quindi
y - bo - b1z
-------.==== ""t( n - 2)
S /1 + l + (x-z)2
V n -----;;r-
da cui si ricava
a=P { I Vy -
S
bo - b1z
1 + l + (T-z)2
_. I >t1-cr;2(n-2)
}
n -----;y-
Ciò significa che y si trova nell'intervallo
1 ( x - z )2
[bo+ b1z - .s 1 + - + ., t1-cr;2( n - 2),
n a;
( 6.29)
(x-z) 2
bo+b1z+.s 1+-+1 ·) t1-cr;2(n-2)
]
n a;
con probabilità maggiore di 1 - a. Da notare che questo intervallo è tanto più
stretto quanto pii1 il valore z del predittore è vicino a :f.
Con i va.lori numerici dell'Esempio 6.21 otteniamo b0 + b1 z = 133.43 e, al
livello a = 0.05, l'intervallo [93.12, 173.75]. L'ampiezza di quC'sto intervallo lo
rende poco utile (come del resto era prevedibile dato l'elevato valore di s 2 ).
Per inciso il livello massimo dell'acqua. alta nel 1981 fu di 138.
Un problema diverso, anche se simile in apparenza, è quello della stima. della
media di y per un dato valore del predittore. La. media di y quando il predittore
vale z è /Jo + f31z e bo+ b1 z è uno stimatore non distorto di questa. quantità;
inoltre bo + b1 z segue una legge normale la cui varianza, per il calcolo che
abbia.mo appena fatto, vale
1 (z-x) 2 ]
bo+b1z+s -+
n a;
,, i1-cr;2(n-2)
Regressione lineare: predizione 2-!5
Occorre fa.re attenzione a. non confondere questo problema di stima della media
di y per un dato valore z del predittore con quello della predizione del valore
di yin corrispondenza di una nuova osservazione in cui il predittore assuma il
valore z. In entrambi i ca.si il valore stimato è b0 + b1 z, ma. nel primo ca.so la.
varianza della stima. è più piccola. e l'intervallo di fiducia più stretto.
L'equazione di regressione è
y = 2.17 - 0.00591 X
h = [1.33, 2.06)
Da notare che tra i dati figurano tre pazienti di 80 anni; tutti i va.lori corri-
spondenti {1.578, 1.96, 1.422) si trovano in h, ma nessuno di essi sta in li; la
media dei tre va.lori (che è 1.65) invece si trova nell'intervallo pii1 piccolo fi.
Si utilizzerà l'intervallo Ii se si vuole studiare la fisiologia dell'enzima al
variare dell'età, mentre si userà / 2 per stabilire quali sono i valori normali della
concentrazione per un paziente di 80 anni.
y -_ (b, z)
---========== ""t ( n k)
- •
sJI + ((X*X)- 1 z,z)
e dunque y si trova in
(b,z)-(/3,z) rvf(n-k)
sJ((X·X)- 1 z,z)
X2 :1:3 X5
Figura 6.6
r; .•....
ili
Figura 6. 7 È chiara una dip<'nd<'nza tra residui e valori stimati (i punti si
dispongono lungo una rurva).
Abbiamo già accennato al fatto che 1wi prohlemi di regressione lineare la que-
stione piì1 delicata è• in realtà la verifica che i dati soddisfano alle ipotesi che
sono alla hase del modPllo. In pari icolare non è ddto a priori che la variabile
dipend<'nt<' sia una funzion<' affine dei predittori né che la varianza a 2 della
perturbazione sia la stessa pN tuttP le oss('rvazioni.
Libri interi sono stati scritti per analizzare queste questioni e pN suggerire
come correggere il mod<'llo pf'rché sia piì1 adeguato ai dati. In questo paragrafo
ci limiteremo a consid<'rar<' alrnui rasi particolari ed alcune idee di base.
Uno strnm<'nto importante JH'r controllare la bontà di un modello di regres-
sione è dato dall'analisi dei r<'sidui. Abbiamo visto in effetti che, se il modello è
corretto, allora i r<'sidui r ed i valori stimati fJsono v.a. indipendenti. Dunque
1wl grafico dPi punti (y;, r;) dovrebbe apparire che i valori di una d01lc coordi-
Regressione lineare: l'analisi del modello 249
..
....•............
..
ili
Figura 6.8 La varianza dir; cr<'sce all'aumentare di Yi·
nate non influiscono sni valori dell'altra.. È di questo tipo a.d esempio il grafico
della. Figura 6.6, ma lo stesso non si può dire per la Figura 6.7, in cui i punti
tendono a disporsi lungo una curva, lasciando supporre quindi che vi sia una
dipendC'nza di Ti da y;. Né pC'r la Figura 6.8, in cui appa.re che la. dispersione
dei punti Ti tende ad aumentare a.I crescere di Yi·
Un andamC"nto come quello della Figura 6.7 fa pensare ad una dipendenza
piì1 complicata tra la variabile dipendente e i prcclittori, mentre la Figura 6.8
suggerisce che la varianza a 2 non sia costante ed anzi cresca al crescere di y
( questo fenomeno viene chiamato eteroschcdasticitò).
X y X y
1 0.3184 1.5955 10 6.,5169 15.2764
2 0.9591 1.2329 11 6.6506 16.4691
3 0.9602 0.11848 12 6.8316 14.9625
4 2.8274 .5_30,11 13 7.5106 18.1863
5 3.3197 0.3174 14 8.9595 16.2,520
6 3.7972 0.0610 15 9.5.587 21.8228
7 3.93-53 11.45].'1 16 11.4281 32 ..5456
8 4.6157 8.0251 17 11.8845 37.2964
9 .5.9065 9.9127 18 12.0237 33.190,5
L'equazione di regressione è
y =- 3.58 + 2.92 X
Coef Stdev t p
bO -3.583 1.493 -2.40 0.029
b1 2.924 0.212 13.73 0.000
. . . .. ... . . ..
'!li
Figura 6.9 I residui tendono a disporsi lungo una curva.
Regressione lineare: l'analisi del modello 2,j 1
L'equazione di regressione è
y = 0.54 + 0.964 x1 + 0.155 x2
Coef DevSt t p
b0 0.538 1.727 0.31 0.760
b1 0.964 0.623 1.55 0.143
b2 0.155 0.047 3.26 0.005
r·I
']/;
l:'1gura 6.10
considera ti.
Un'altra. possibilità per considera.re una dipendenza non affine della variabile
dipendente dai preditt.ori consiste nell'effettuare una trasformazione dei dati.
Nel caso di una regressione semplice si possono ad esempio considerare i modelli
Y = /3o+ f31x
Y = /3o+ f31x + f32x2
log y = /3o+ /31x
log y = /3o+ /31log x
Coef DevSt t p
b0 0.6916 0.1639 4.22 0.001
b1 0.0716 0.0169 4.22 0.001
r·i
Yi
Figura 6.11 Residui del modello y =,Bo+ /31x.
254 Capitolo 6
L'equazione di regressione è
y = 0.483 + 0.141 x - 0.00410 x-quadr
Coef DevSt t p
bO 0.4825 0.2673 1.81 0.094
b1 O.1412 0.0724 1.95 0.073
b2 -0.0041 0.0041 -0.99 0.340
..
r; ..
. .
..
..
ili
Figura 6.12 Residui del modello y = f3o + f31x + f32x 2 .
Coef DevSt t p
bO -0.3906 O. 1592 -2.45 0.028
b1 0.0679 0.01646 4.13 0.001
f;;
Figura 6.13 Residui del modello log y = /3o+ /31x.
Modello 1 (log y = /3o+ /31 log x)
L'equazione di regressione è
log y = - 0.686 + 0.455 log x
Coef DevSt t p
b0 -0.685 0.173 -3.95 0.001
b1 0.455 0.084 5.41 0.000
(6.32)
r·i . . . . . .. . .. .. . . .
.. .. ' ... .. .. . ... .. . . . . . .... . .
..
Yi
Figura 6.14 Residui del mod<'llo logy = f3o+ f31logx.
dove però la varianza. di wi sia uguale a c;a 2 • Se le quantità e; (i pesi) sono
note si può porre 1v; = w;/ .jc;. Le v.a. wi hanno ora. varianza costante a 2 e
dunque dividendo la (6.32) per .jc; si ottiene il modello
(6.33)
dove
- Yi - X1 i - Xki
Yi=- X1;=-
.jc;
Xki = yCi
r,:;-.
fo
La (6.33) soddisfa ora alle ipotesi dei modelli <liregressione che abbiamo consi-
derato all'inizio <liquesto paragrafo ed i parametri /31 , •.. , f3k, a 2 si possono sti-
mare facendo una regressione lineare della nuova variabile dipendente fJrispetto
ai nuovi predittori i1, ... , Xk,
Il problema naturalmente sta nel determinare i pesi e;. Vi sono molti modi
di affrontare questo problema; limitiamoci a considerare l'esempio seguente.
X y X y
1 8.8420 10.6333 17 14.7956 18.2909
2 5.2488 6.6556 18 9.4455 11.5201
3 16.0995 17.7677 19 0.6850 1.6,579
4 12.4424 14.2605 20 5.6277 5.6,534
,5 15.3011 19.1616 21 3.4656 4.6781
6 12.6330 17.11117 22 13.1946 17.914,5
(segue)
RegrPssio1w linearP: l'analisi del modello 257
--------------
X y X y
7 19.1191 21.063.5 23 9.3232 11.0113
8 9.8846 12.30-57 24 5.4009 7.1646
9 1-5..575.5 24.2271 25 15.1128 22.1857
10 6.9411 7.2943 26 9.1028 12.6174
11 7.6355 10.465'1 27 17.8537 23.4-526
12 14.4380 14.2452 28 11.71.57 14.0966
13 4.7545 5.243.5 29 4.4-564 7.2006
14 14.3149 20.0394 30 17.05.54 19.7391
1.5 9.3577 13.6098 31 11.9259 18.6410
16 9.7184 11.8791 32 10.7331 12.2473
L'equazione di regressione è
y = 0 .39 + 1.23 X
Coef DevSt t p
b0 0.392 0.845 0.46 0.646
b1 1.233 0.073 16.95 0.000
r·
'
........ ·•· .. ·:.
. .... . ....
Figura 6.15
I residui riportati nella Fig11ra 6.1.S mostrano però l'andamento tipico della
eteroscheda.stirità con varianza crescente. Poiché l'aumento della dispersione
258 Capitolo 6
sembra essere lineare come funzione di y proviamo a supporre che la varianza sia
una funzione linea.re del predittore, e cioè che i pesi sia.no della forma Ci= a ,lx-i
(in modo che cf sia una funzione lineare di xi), Supponiamo cioè che il modello
sia
Yi = f3o+ /31xi + fi°;wi
dove le perturbazioni Wi hanno ora varianza a 2 costante (anche se da stima.re).
Dividendo per ..,jx; nell'equazione precedente otteniamo
1
y;
= /3O yXiç.-:
;-:;:--:
y:z:;
+ (31 y r;;-:
;!:i +
-
Wj
L'equazione di regressione è
y = 1.21 x1 + 0.62 x1
Coef DevSt t p
b1 0.617 0.387 1.59 0.122
b2 1. 212 0.046 26.18 0.000
s = 0.533
.. .......
r·t .•..... ·•.. ~
.
·.;, . .
Figura 6.16
Da notare, nel display, l'assenza del dato relativo alla quantità R 2 che, in
assenza. di fattore costante, perde di significato.
Il grafico dei residui ( Figura 6.16), pur la.sciando ancora qualche dubbio è
EsE'rcizi 259
comunque migliorato. Da. nota.re che la regressione pesata dà ora una stima di
{30 e {31 molto più precisa, poiché le deviazioni standard degli stima.tori sono
ora. sensibilmente migliori. Gli intervalli cli fiducia al livello 9.5% sono
f3o /31
regressione non pesata [-1.25, 2.04] [1.09, 1.37]
regressione pesata [-0.14, 1.38] [1.20, 1.30]
Esercizi
fo(x) = (0x + 1 - ;)
Tn=12 (1 n
-~Xk--
n L__,
k=l
1)
2
d) Mostrare che Tn è uno stima.tare non distorto di 0. Cosa. si può dire della.
successione di v.a.. { ,/n(Tn - 0)}n quando n---+ +oo? Converge in legge verso
qua.Jclie legge nota?
e) Trovare una funzione affine U di ~ ì:Z=1 log ){ k che sia. uno stimatore
non distorto di 0.
f) Paragonare i due stimatori U C' T. Quale dei due è preferibile?
g) Usando il risultato di c) determinare 1111valore di z ta.Je che la. regione
{ÌI Xi> Z}
k=l
3x 1/2
{ se O~ 0 ~ 1
fe(a:) = i(J3/2
altrimenti
6.3 Una moneta, 11011 IIC'Cf'ssariamf'nte f'quilibrata viene lanciata pilÌ volte e si
osserva il 1111meroX di lanci 11ffessario a otlell('re testar volt€', dover è un
intero positivo prefissato.
a.) Calcolare la legge di X in funzione della. probabilità p di ottenere testa.
rn u11singolo lancio. Dedurne /;i relazionP
~
~
(n)
r
( 1- JJt = (1 ~ JJY
p'+1
n=1·
6.8 Si vuole controllare /'C"ffìcienza rii 1111 generatore aleatorio che dovrebbe
proclurrf' sequenze di v.a. inclip<'ndenti e 1111iformeme11te distribuite sugli interi
da O a 9. 11 questo scopo consicleriamo la seguente sequenza di 99 numeri da
esso generata.
303422721545813719868304701524769204639815
7 6 7 ì 3 9 5 4 9 4 4 7 6 I 6 2 2 9 3 2 4 ~ O 9 4 3 9 9 .5 6 8 ,58 2 1 6 1 O 1 6 3 3
6479.59816822966
a) Calcolare gli effettivi e le freq11enze relative cli ogni singolo valore. Ef-
fettuare quindi il test dd x2 : si può respingere l'ipotesi che il generatore sia
uniforme su {O, ... , 9}?
b) Date lrC' v.a . .,Y,Y,Z, in<lipC'1HlC'11tie 1111iformisu {0, ... ,9}, qual è la
probabilità. c/1e Y sia minorf' o ugrialC' sia cli X clie di Z?
e) Chf' ne pensatC' del gcncratorC' in quC'stione?
262 Capitolo 6
a) Mostrare che la v.a. (reale) b2 - b3 segrie una legge normale cli media
/32 - /33 e di varianza a 2 ( m22 + m33 - 2m23)
b) Mostrare che
b2 - b3
T = ---,====~=
sJm22 + m33 - 2m23
""t(n - k)
c) Mostrare clic
{ITI 2: f1-0;2(n - k)}
è una regione critica di livello n pf'r il test considPNito.
Soluzioni
1.2 p =1- (5/6) 3 = O.,12. Deve 0ssere 1 - ( !j/6)n > 0.9. cioè almr>110n = ì:3.
1.4 Si usa. il metodo della partizione (kll"en'nto rr,rro (,)~L·;> ~-' . ;1 = l.
1.7 a) Indichiamo con A;, i= l.2.:3. l"e\·ento ""10due rialline 111::;11é'ro i·.-.~-:-
gono estratte entramhe": per calcolare P( ....1
1 U _.\2 U .-1
3 ) si u,:;a la di~nih;ìzior.e
ipC'rgeometrica, con la qua.le si determi11a.no le probabilità degli e\·011ti .--\, e
A; n Ai; si applica. poi la formula sulla probabilità della riunione di 3 e\·enti
non disgiunti.
. P(1ti) qi
P(.4; I TJ) = P(JJ I A;) P(B) = lOP(B)
c)
1 9 2
P( B) ~ q· + - q10
= -11!-' 11
i=l
Va.le ancora. la
P(Ai)
P(AilB) = P(BIAd P(B)
ma ora. P(R,:I
8>)= 11 l!( BJ q; per i = 1, ... 9 (valore massimo ra.gg;iunto ancora
per i= 3,'1), mentre P(~J ~) = llP 2(B) q10, e un confronto numerico mostra
che ora. è l'urna. 10 la. pi11 proba.bile (P(A 3 I B) = 0.103 mentre P(A10 I B) =
0.1.58).
2.2 a) Indichiamo con A l'evento "viene scelto uno dC'i dadi truccati" e con B
il suo complementare. Allora.
17
P(C) = P(C I A)P(A) + P(C I B)P(B) = -21 ( -361 + -100
1 )
900
Soluzioni 265
2
P{X = 2}P{Y = 3} = ( 125 )
2.4 b)
2.5 Tutte le f.g. sono tali che g( 1) = 1. Dunque e, se esiste, deve valere
(log ½)- 1 = -(log 2)- 1 . Per tale valore di e si ha, sviluppando in serie di Taylor,
00 1
g(z)
·
=~
"'--zn
n2nlog2
2.10
= k} =
(:r)(nm_b
k)
P{X
(m(b/r))
n) mb ... ( mb - k + 1) mr ... ( mr - n + k + l) ----+
(
k m(b+r) ... (m(b+r)-n+l)
(n)(b+r)
----+ k
bk rn-k
11
P1 = (~D + (~D=
0.0 21 • 0.1 0.9 22 0.339
mentre per l'altro tipo di aerco
P2 = CD = 0.9 11 0.314
Il rischio è maggiore per il volo da 20 passeggeri.
Soluzioni 267
2.18 Sia,\ < p e mostriamo che F.\(t) 2: F 1,(t). Sia.no X, Y v.a.. indipendenti
e di Poisson di parametri ,\ e I' - >.rispettivamente. Allora 7 X+ Y è di =
Poisson di para.metro p. e dunque
3.4 La quantità P {X+ Y ~ t} che dà la f.r. di X+ Y è pari all 'ar<'a tra t t<'ggiata
nella Figura S.l.
:r+y=t
/
Figura S.1
Dunque
t; se O~ t ~
F(t) = {
1
-1 ( 2 - t) 2 se 1 ::; t ~ 2
2 .
e F(t) = O altrove. Derivando si ottiene la densità
t se O ~ t ~ 1
J(t) ={2- t se 1 ~ t ~ 2
e J(t) = O altrove, che ha il caratl<.'ristico grafirn "a ca.setta" della Figura S.2.
Figura S.2
268 Soluzioni
F(t) =~
2rr
1 x- 1 ! 2 y- 1 l 2 e-(x+y)/ 2 d.T dy = l - ~ arctan(
rr
V(l - t)/t)
A
e derivando
F'(t) = l
rrJt(l-t)
= 1
P {X ::; z} + ~ P {X ~ - z} = P {X ::; z} = Fx ( z)
Figura S.3
1
</Jx(0)= 2 1+= .
-=
e-lxleillx dx= 1+=.
o
e-x cos0x dx
_!_
27r
J+ e-ixfJ
l 02
d0 = ~e-lxi
2
Scambiando x con 0 si ricava facilmente
-
1
1r
J+ --
l
eixfJ
x2
dx= e-1 8 1
E[1j,(Z,Y)] = J J
g(y) dy 1/,i(z,y) J(z - h(y)) dx
J zf(z-h(y))dz
1±~,'72
r -1 = ( (!·
-n
L'inversa di questa matrice si calcola ricordando la regoletta
r = ( " 1:~(12
')
a-
2 )
a-
Soluzioni 271
- - - - 2 1 + 71,(12
O= Cov(Z - aX, X)= Cov(Z, X) - a Var(X) = CT - a---
n
da • n11 2
CUI a = l+nu 2 •
d) La legge condizionale è normale di varianza pari alla varianza della v.a.
~- c10e
Z - a.~, • ' t+no-
0'2 d• d• • - X7l0'2
2 e I me 1a pa.n a a.x - l+n.o- 2 •
e) La migliore stima del valore assunto da Z sapendo che X = x è data
dalla speranza condizionale 1 ~n,~;
2 • Sostituendo i dati numerici si ottiene il
valore 1.1 7.
Poiché (S1 + ... + Sn)/n '!.:.:·1 per la legge dei grandi numeri, si ha anche
Z
--yn---+
r::q.c. Z
~
Poiché la convergenza qua.si certa implica quella m legge e le v.a. Yn e
.fii,Z/v'W:i, hanno la stessa legge, Yn !:. N(O, 1).
4.6 Sia X una v.a. N(O, cr2 ). Allora per il Teorema Limite Centrale
= P{X 2 :::; t}
Dunque Zn converge in legge verso X 2 , che è una v .a. f( ¼,-2 \
- (j
).
5.4 Supponiamo n = 3 per semplicità. Nel corso dei lanci possiamo essere in
uno degli stati C, CT, CTT, TTT, a seconda che l'ultimo lancio abbia dato
per risultato C, che l'ultimo lancio abbia dato T ed il precedente C eccetera
rispettiva.mente. Si può quindi considerare la. C.M. sull'insieme di questi 4
stati che risulta dai lanci sucr,essivi della. moneta. Essa ha come matrice di
transizione
I
2 o
(!
o 21
o o
o o ~)
TTT è l'unico stato ricorrente e quindi con probabilità 1 la catena giunge in
TTT. Per il caso di n generico il ragionamento è lo stesso, costruendo una
catena simile, ma con n + l stati. Questo argomento si applica naturalmente a
tutte le sequenze di lunghezza n finita, e non solo a TT ... T.
5.7 b) P{Xn = llXo = 1} vale O se n è dispari; per n pari il suo valore si può
approssimare per il teorema di Markov con la distribuzione invariante di Q.
c) Se si modifica la matrice di transizione Prendendo gli stati 5 e 6 assor-
benti, la probabilità richiesta. non è altro che la probabilità di assorbimento in
6 per la nuova catena.
m-k
Pk = Pk k+I
'
= -- m
Tk = Pk,k = o
k
qk = Pk,k-1 = -m
b) È facile verificare l'equazione di stazionarietà per 1r, ma ancora più facile
è mostrare che 1r è reversibile ( e quindi stazionaria). Ricordando che Pii = O
a meno che non sia j = i+ 1 oppure j = i - 1, basterà mostrare che per ogni
k =O, ... , m si ha
11"kPk,k+l = 11"k+IJJk+I,k
che è immediatamente verificata perché
7n) 2 -m m - k _ (m - 1)!
11"kPk,k+I =( k m - /..:!(m-k-1)!
(
m ) 2 _m k l _ +
( m - 1)!
+
k 1 m - k!(m - k - 1)!
o 1 2 3 4 5 6 7 8 9
N; 6 10 11 10 11 8 13 9 9 12
Pi 0.061 0.101 0.111 0.101 0.111 0.081 0.131 0.091 0.091 0.121
Il test del y 2 dà un valore Tn = 3.77.5 che non permette cli respingere l'ipotesi
che il generatore sia uniforme.
b) Calcoliamo la legge cli min(X,Z). Per k 0, ... ,9 si ha =
P{min(X, Z) > h'} = P{X > k}P{Z > k} = (9 ~i)2
~
. ......
. . . . .
. . .. . .. . .. . .. . .. ' .. . ..
. . . . . . . .
. ' ...... .
. . . . . . . . . ' . ...
. . . ..
. . . . . . . . . . . ' . ....
. . . .
::::::::::::
X .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o .50000 .50399 .50798 .51197 .51595 .51994 . .52392 .52790 .53188 .53586
O.I .53983 .54380 .54776 .5.5172 .55567 .55962 .56356 .56750 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63:307 .63683 .64058 .64431 .64803 .65173
0.4 .65.542 .6591 O .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .698-17 .70194 .705-10 .7088·1 .71226 .71566 . 71904 .72240
0.6 .72575 .72907 . 73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 . 76731 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .8314 7 .83398 .83646 .83891
I.O .84134 .84375 .84611 .8-1850 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .8906.'j .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .9236-1 .92507 .92647 .92786 .92922 .93056 .93189
1.5 .93319 .934-18 .93574 .93699 .93822 .93943 .94062 .9·1179 .94295 .94408
1.6 .94520 .94630 .94738 .9484.5 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95819 .95907 .9.5994 .96080 .9616 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .9699.5 .97062
1.9 .97128 .97193 .972.57 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97933 .97982 .98030 .98077 .98124 .98169
2.1 .98214 .98257 .98300 .98341 .98382 .98422 .98-161 .98500 .98537 .98574
2.2 .98610 .98645 .98679 .98713 .98715 .98778 .98809 0.98840 .98870 .98899
2.3 .98928 .98956 .98983 .99010 .99036 .99061 .99086 .99111 .99134 .99158
2.4 .99180 .99202 .99224 .99245 .99266 .99286 .99305 .99324 .99343 .99361
2.5 .99379 .99396 .99413 .99430 .99446 .99461 .99477 .99492 .99.506 .99520
2.6 .99.534 .99547 .99560 .99.573 .9958.5 .99598 .99609 .99621 .99632 .99643
2.7 .99653 .99664 .99674 .99683 .99693 .99702 .99711 .99720 .99728 .99736
2.8 .99745 .99752 .99760 .99767 .99774 .99781 .99788 .99795 .99801 .99807
2.9 .99813 .99819 .9982.5 .99831 .99836 .99841 .99846 .998.51 .998.56 .99861
Tavole numeriche 277
~
. ......
. . . . .
. . .. . .. . .. . .. . .. . .. . ..
. . . . . . . .
. . . . . . . . . .. . . . . . . .
. . . . . . . . . .
. . . . .. . .. . .. . . . . . . . . .
::::::::::::
~
.......
. .. . .. . .. . .. ' .. ....
. . .
. . . .
. . .. . . . . . .. . . . . . . .
.
. .. . .. . -. . ......
.. . . . . . . . . . . . .
.
. .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..
. . . . . . . . . . .
::::::::::::
x~(n)
0.01 0.025 0.05 0.95 0.975 0.99
1 0.0002 0.0010 0.0039 3.841 5.024 6.635
2 0.0201 0.0.506 0.1026 5.991 7.378 9.210
3 0.1148 0.2158 0.3518 7.815 9.348 11.345
4 0.2971 0.4844 0.7107 9.488 11.143 13.277
5 0.5543 0.8312 1.1455 11.070 12.833 15.086
6 0.8721 1.2373 1.6354 12.592 14.449 16.812
7 1.2390 1.6899 2.1674 14.067 16.013 18.475
8 1.6465 2.1797 2.7326 15.507 17 .535 20.090
9 2.0879 2.7004 3.3251 16.919 19.023 21.666
10 2.5582 3.2470 3.9403 18.307 20.483 23.209
11 3.0535 3.8157 4.5748 19.675 21.920 24.725
12 3.5706 4.4038 5.2260 21.026 23 ..337 26.217
13 4.1069 5.0088 5.8919 22.362 24.736 27.688
14 4.6604 5.6287 6.5706 23.685 26.119 29.141
15 5.2293 6.2621 7.2609 24.996 27.488 30.578
16 5.8122 6.9077 7.9616 26.296 28.845 32.000
17 6.4078 7.5642 8.6718 27.587 30.191 33.409
18 7.0149 8.2307 9.3905 28.869 31.526 34.805
19 7.6327 8.906.5 10.1170 30.143 32.852 36.191
20 8.2604 9.5908 10.8508 31.410 34.170 37.566
21 8.8972 10.2829 11.5913 32.671 35.4 79 38.932
22 9.5425 10.9823 12.3380 33.924 36.781 40.290
23 10.1957 11.6886 13.0905 35.172 38.076 41.638
24 10.8564 12.4012 13.8484 36.415 39.364 42.980
25 11.5240 13.1197 14.6114 37.653 40.647 44.314
26 12.1981 13.8439 15.3792 38.885 41.923 45.642
27 12.8785 14.5734 16.1514 40.113 43.195 46.963
28 13.5647 15.3079 16.9279 41.337 44.461 48.278
29 14.2565 16.0471 17.7084 42.557 45.722 49.588
30 14.9535 16.7908 18.4927 43.773 46.979 50.892
Per valori più grandi di n si usa il fatto che se Xn ,...,x2 (n) allora -,/2J[;,,-
y'2n - 1 è approssimativamente N(O, 1) (Vedi Esercizio 4.4). Ovvero
1
x2 (n,a) ~-(</>cx+ v'2n - 1)2
2
Indice Analitico
A E
aperiodica (catena), 181 errore di prima e seconda specie, 205
et.eroschedasticità, 249
B
Bayes F
- formula, 11 file d'attesa, 181
- stimatore, 201 frequenze empiriche, 216
Bernoulli (schema di), 15 funzione gamma, 99
bilancio dettagliato (equazione), 167 funzione di transizione, 148
bist.ocastica (matrice di transizione), 164 funzioni caratteristiche, 114
funzioni generatrici, 59
e funzioni di ripartizione, 32, 73
campioni, 193
catene di nascita e morte, 154 I
Chebychev (disuguaglianza di), 54 indipendenza
code, 181 - di eventi, 13
coefficiente di correlazione, 57 - di V.a., 38, 85
convergenza intervallo di fiducia, 192
- in probabilità, 131 invariante (distribuzione), 162
- quasi certa, 131 irriducibile (classe o catena), 152
- in legge, 135 istogrammi, 134
covarianza, 56, 108
covarianza (matrice di), 110 L
legge di una v.a., 22
D leggi
densità - di Bernoulli, 25
- condizionali, 41, 88, 91 - beta, 144
- continue, 77 - binomiali, 25
- congiunte, 35, 80, 90 - binomiali negative, 61
- discrete, 23 - di Cauchy, 129
- marginali, 35, 84, 90 - chi quadro, 105
- miste, 90 - esponenziali, 104
deviazione standard, 55 - F (o di Fischer), 239
disposizioni, 15 - gamma, 100
distribuzione di una v.a., 22 - gaussiane, 98, 123
disuguaglianza di Chebychev, 54 - geometriche, 28
280 Indice Analitico
- ipergeometriche, 17 ricorrente
- multinomiali, 37 - stato, 152
- normali, 98 - catena, 175
- normali multivariate, 123 ricorrente nullo (stato), 179
- a posteriori, 201 ricorrente positivo (stato), 179
- a priori, 201 rischio quadratico, 191
- di Poisson, 31 rovina del giocatore, 149
- t (o di Student), 144, 207
- uniformi, 79 s
legge dei grandi numeri, 132 schema successo-insuccesso, 15
livello u-algebra, 3
- di un test, 205 spazi di probabilità, 3
- di un intervallo di fiducia, 192 speranza condizionale, 111
speranza matematica, 47, 105
M stato (di una catena), 147
MAP, 204 stazionaria (distribuzione), 162
Markov stimatori
- catena, 14 7 - ammissibili, 191
- proprietà, 147 - di Bayes, 201
matrice di covarianza, 11O - consistenti, 194
matrice di transizione, 148 - di massima verosimiglianza, 198
media, 47 - non distorti, 191
modello statistico, 189 - di varianza minima, 195
momenti, 52, 107
- centrati, 52, 107 T
teorema
p - di Cochran, 233
partizione dell'evento certo, 12 - Limite Centrale, 138
partizioni, 18 test
permutazioni, 15 - del chi quadro, 216
potenza (di un test), 205 - di Student, 212
predittori, 220 - globale di dipendenza lineare, 240
preferibile (stimatore), 191 transitoria (catena), 175
probabilità, 3 transitorio (stato), 152
probabilità condizionale, 1O
probabilità d'assorbimento, 155 V
processo stocastico, 147 variabile dipendente (in regressione), 220
variabili aleatorie, 22
Q - assolutamente continue, 78
quantili, 207 - continue, 76
- discrete, 23
R - estese, 154
regione critica (di un test), 205 - multidimensionali, 34, 79
regolare (catena), 163 - non correlate, 57
reversibile (distribuzione), 166 varianza, 54, 108
ERRATA CORRIGE
Inoltre, le ultime 7 righe della pagina 206 vanno sostituite con le seguenti:
P {X ~ 12) = 0.112
P {X ~ 13) = 0.064
P {X ~ 14) = 0.034
1- li(