Probabilità e Statistica (E. L. Piazza)

Elio Lello Piazza
Probabilità
e statistica
appunti di teoria ed esercizi risolti
--
--- --
---
SOCIETA
EDITRICE
-- ESCULAPID
ISBN 978-88-7488-701-9
Prima edizione: Maggio 1998

Seconda edizione: Aprile 2002
Terza edizione: Maggio 2003
Quarta edizione: Aprile 2006
Ristampa corretta: Marzo 2007
Quinta edizione: Dicembre 2008
Ristampa: Dicembre 2009
Sesta edizione: Maggio 2011
Ristampe: Marzo - Settembre 2013
Settima edizione: Febbraio 2014
Responsabile produzione: Alessandro Parenti

Redazione: Giancarla Panigali, Carlotta Lenzi
Fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di cia-
scun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dal-
1'art. 68, comma 4 della legge 22 aprile 1941, n. 633 ovvero dall'accordo stipulato tra SIAE,
AIE, SNS e CNA, CONFARTIGIANATO, CASA, CLAAI, confcommercio, confesercenti
il 18 dicembre 2000.
Le riproduzioni ad uso differente da quello personale potranno avvenire, per un numero di
pagine non superiore al 15% del presente volume, solo a seguito di specifica autorizzazio-
ne rilasciata da AIDRO, via delle Erbe, n. 2, 20121 Milano, Telefax 02-80.95.06, e-mail:
aidro@iol.it
SOCIETÀ
EDITRICE
ESCULAPID
40131 Bologna - Via U. Terracini 30 -Te!. 051-63.40.113 - Fax 051-63.41.136
www.editrice-esculapio.it
probabilità e statistica
Questi appunti sono tratti da lezioni tenute a partire dal 1991 a studenti del primo e
secondo anno di varie Facoltà di Ingegneria del Politecnico di Milano.
Gli argomenti esposti si dividono in più parti. La prima riguarda la Statistica Descrittiva
con una rapida esposizione di temi inerenti all'analisi dei dati osservati; la seconda il
Calcolo delle Probabilità, con l'esposizione dei modelli probabilistici più comuni; la terza
riguarda la Statistica Inferenziale con l'esposizione di tecniche di stima e di verifica di
ipotesi per parametri incogniti presenti nella funzione di distribuzione relativa a una
certa popolazione. Ci sono infine due capitoli che presentano brevemente i modelli di
previsione e i processi stocastici. Ma prima c'è un cuore ...
"Addio", disse la volpe. "Ecco il mio segreto. È molto semplice: non si vede bene che
col cuore. L'essenziale è invisibile agli occhi".
"L'essenziale è invisibile agli occhi", ripeté il piccolo principe, per ricordarselo.
"È il tempo che tu hai perduto per la tua rosa che ha fatto la tua rosa così importante".
"È il tempo che ho perduto per la mia rosa ... " sussurrò il piccolo principe per ricordar-
selo.
"Gli uomini hanno dimenticato questa verità. Ma tu non la devi dimenticare. Tu diventi
responsabile per sempre di quello che hai addomesticato. Tu sei responsabile della tua
rosa ... "
"Io sono responsabile della mia rosa ... " Ripetè il piccolo principe per ricordarselo .
... e' est le temps qu e tu a per du pour ta rose

quifait ta rose si important e...
Saint - Ex
lll
Indice
0.1 Introduzione X
Esempi di modelli Xl
0.2 Tre modelli probabilistici frequenti XlV
0.3 Nota storica XVll
Capitolo 1 Statistica descrittiva 1

1.1 Variabili, mutabili, classi, frequenze 4
Diagramma a barre e istogramma 6
1.2 Indici della posizione (misure della intensità) 8
1.3 Quantili percentili 9
1.4 Scarti (misure della dispersione) 12
1.5 Asimmetria di una distribuzione 13
1.6 Box Plot 14
1.7 Indici per dati raggruppati 15
1.8 Trasformazione lineare dei dati 16
1.9 Osservazione congiunta di due variabili 17
1.10 Indici di una distribuzione doppia
1.11 Regressione lineare univariata 18
Metodo dei minimi quadrati 20
1.12 Frequenze nel caso bivariato 24
Le frequenze marginali 26
Le frequenza cumulata 27
La frequenza relativa condizionata
1.13 Test di avvenuto apprendimento 29
Capitolo 2 Introduzione all'algebra dell'incerto 31
2.1 Definizioni di probabilità
La definizione nel caso discreto finito
La definizione frequentista 32
La definizione soggettiva
La definizione assiomatica 33
2.2 Calcolo combinatorio 33
Disposizioni senza ripetizione 34
Permutazioni
Disposizioni con ripetizione
Combinazioni 35
Esempi di calcolo di probabilità con tecniche di conteggio 36
2.3 Spazio dei casi possibili (o campionario) e spazio degli eventi 39
2.4 Probabilità 44
Proprietà di P[·]
2.5 Principio di inclusione esclusione 52
2.6 Nota storica 55
IV
Capitolo 3 Probabilità condizionata 61

3.1 Eventi indipendenti 68
3.2 Affidabilità 77
3.3 L'illusione di sapere 79
La legge di Bayes 80
Il paradosso delle 3 scatole
3.4 Nota storica
Capitolo 4 Variabili e vettori aleatori 85
4.1 Eventi e sottoinsiemi di JR
4.2 Variabili aleatorie discrete 88
4.3 Variabili aleatorie continue
4.4 Esempi 89
Proprietà della funzione di ripartizione 92
Caso discreto, Caso continuo 93
4.5 Vettori aleatori (vtan) 94
4.6 Funzione di ripartizione di un vtan 98
Proprietà della fdr congiunta 99
4.7 Variabili e vettori aleatori indipendenti 103
4.8 Nota storica 107
Capitolo 5 Indici per variabili aleatorie 111
5.1 La media
5.2 La varianza 114
5.3 Mediana, quantili e percentili 116
5.4 Momenti 117
La funzione di failure rate (tasso di guasto) 119
5.5 Disuguaglianza di Markov 120
5.6 Disuguaglianza di Chebyscev 121
5.8 Test di avvenuto apprendimento
Capitolo 6 Distribuzioni discrete 129
6.1 Distribuzione uniforme discreta
6.2 Distribuzione di Bernoulli 130
6.3 Distribuzione binomiale B(n,p)
6.4 Distribuzione ipergeometrica 132
6.5 Distribuzione geometrica 134
6.6 Distribuzione binomiale negativa 138
6.7 Distribuzione di Poisson 140
Distribuzione di Poisson in più dimensioni* 144
Capitolo 7 Distribuzioni continue 147
7.1 Distribuzione uniforme
7.2 Distribuzione esponenziale 148
7.3 Distribuzione r (gamma) 150
7.4 Distribuzione normale 151
V
Capitolo 8 Funzioni di variabili aleatorie 159

8.1 Distribuzioni di funzioni di va
1 :Metodo della fdr 160
2.1 Metodo della trasformazione: caso univariato 162
2.2 Metodo della trasformazione: caso multivariato 165
3 :Metodo della fgm 166
8.2 Distribuzione della somma di va 167
Caso discreto
Caso continuo 171
8.3 Somma di densità notevoli 172
Caso discreto 173
Caso continuo 175
8.4 Le variabili aleatorie min e Max 176
Capitolo 9 Indici per vettori aleatori 179
9.1 Vettore media di un vtan
9.2 Valore atteso per distribuzioni congiunte 180
9.3 Funzioni generatrici di momenti per un vtan 181
9.4 ~fomenti di distribuzioni congiunte 183
Proprietà della covarianza
La matrice di covarianza 185
Proprietà di Cx
Una generalizzazione 186
Altre considerazioni 187
9.5 Indice di correlazione lineare 188
Significato di covarianza
Proprietà del coefficiente di correlazione 189
9.6 Riassunto di risultati sulle fgm 190
9.7 Funzioni di ripartizione condizionate 191
Caso univariato
Caso multivariato 192
Teorema delle probabilità totali 197
Esempio di utilizzo delle distribuzioni condizionate 198
Valori attesi condizionati
Varianza condizionata 203
Valore atteso condizionato e stima ottima 206
Formule di riepilogo 208
Funzioni e rette di regressione nel caso discreto finito 209
Capitolo 10 Argomenti speciali 221
10.1 Trasformazione integrale di probabilità
10.2 Motori aleatori 222
10.3 Metodo :Monte Carlo 224
10.4 Vettori gaussiani 232
fgm di un vettore gaussiano 234
vtan gaussiani: una generalizzazione
Un esempio scoraggiante 239
10.5 Riassunto di risultati sui vtan gaussiani 243
10.6 va di tipo misto 244
Vl
Capitolo 10
10.7 Funzione generatrice di probabilità 247
10.8 Entropia 251
10.9 Compressione di un segnale 253
Capitolo 11 Comportamenti asintotici 259
11.1 Il campionamento
11.2 Successioni di va 260
11.3 Convergenza in legge 266
11.4 Teorema centrale del limite 267
Importante: uso del TCL per un test 270
11.5 Approssimazioni via TCL 273
11.6 Altri tipi di convergenze 278
Convergenza in probabilità
Convergenza q.c.* 279
11.7 La legge debole dei grandi numeri 280
11.8 Distribuzioni x2 e t-Student 284
11.9 La distribuzione di Cauchy 295
11.10 La distribuzione della va F di Fisher 296
Capitolo 12 Stimatori e stime 303
12.1 Statistiche, stimatori, quantità pivotali 304
12.2 Correttezza 306
12.3 Stime asintotiche 308
12.4 Consistenza
12.5 Stimatore di una distribuzione 309
12.6 Efficienza 311
12.7 Stimatori per via analitica 314
12.8 Metodi per la ricerca di uno stimatore 317
Metodo dei momenti e della massima verosimiglianza
Proprietà degli stimatori MLE 320
Quando non esiste uno stimatore MLE 323
12.9 Riepilogo sul concetto di stimatore
Capitolo 13 Stima intervallare 329
13.1 le per la media di una popolazione normale (a 2 nota) 330
13.2 le per la media di una popolazione normale (a 2 ignota) 333
13.3 le per la varianza di una popolazione normale (µ ignota) 336
13.4 Osservazioni importanti 338
13.5 le asintotico per il parametro 0 di una popolazione 339
Bernoulli 340
Binomiale, geometrica 344
Poisson 345
Esponenziale 346
Uniforme continua 347
Un altro le per la proporzione p 348
13.6 le per la differenza di due medie (popolazioni normali)
Caso di medie non note e varianze note
Vll
Capitolo 13
Caso di medie e varianze non note 350
Capitolo 14 Verifica delle ipotesi 355
14.1 Test parametrici 356
Caso generale 361
Ipotesi nulla e alternativa - Test e regione critica
Errori di I e II tipo e Potenza del test 362
Tipi di ipotesi 362
Ampiezza del test 363
Il p - value 364
Passi di un test d'ipotesi 364
Test e informazioni sulla popolazione 366
Campioni di grande dimensione: test per la media di una
366
popolazione (varianza nota, momento secondo finito)
Test per la media di una popolazione normale (varian. ignota) 368
Test per la media di una popolazione di Bernoulli 370
Confronto tra il test d'ipotesi per la media di una
popolazione qualunque (varianza nota, campione grande) 372
e per la proporzione di una popolazione di Bernoulli
Il test x 2 per la varianza di una popolazione normale 373
Test per confronto medie e varianze gaussiane 374
Test d'ipotesi e intervalli di confidenza* 374
Test d'ipotesi semplici* 378
Riassunto dei test parametrici 382
14.2 Test non parametrici 387
Test di Pearson ( o test chi-quadrato) 388
Test di Kolmogorov-Smirnov 393
Test q-q plot di normalità 403
Un altro test di normalità 404
Test di indipendenza 406
Capitolo 15 Modelli di previsione 411
15.1 Regressione univariata lineare
15.2 Varianza spiegata e varianza residua 414
15.3 Stimatori di bo, b1 e di a 416
Correttezza di boe b1 417
Distribuzione di boe b1
Uno stimatore corretto per a 2 418
15.4 Il coefficiente di variazione r 2 419
15.5 Una pulce nell'orecchio 420
15.6 Inferenza su b1 428
15.7 Predizione di eventi futuri: inferenza sul responso Y 431
15.8 Analisi della varianza: caso univariato 434
15.9 Riassunto di risultati univariati 435
15.10 Regressione multivariata lineare 437
Proprietà del modello gaussiano 442
La legge di S SE e la stima di a 2
Test e intervalli di confidenza per i parametri bi 444
Vlll
Capitolo 15
Test e intervallo di confidenza per a 2 445
15.11 Analisi della varianza 446
15.12 Tabella ANOVA
15.13 Regressione univariata lineare 455
15.14 Riassunto di risultati multivariati 458
Capitolo 16 Processi stocastici: cenni 463
16.1 Introduzione
16.2 Processi a tempo discreto 466
16.3 Processo di Poisson 468
16.4 Il moto browniano 470
Gaussianità 472
Media e correlazione del moto browniano 473
16.5 Catene di Markov a tempo discreto 474
Classificazione degli stati 479
Equilibrio 483
16.6 Esempi 484
Capitolo 17 Aggiunte e spiegazioni 495
17.1 Test confronto medie di gaussiane
17.2 Test confronto di varianze di gaussiane 499
17.3 IC del rapporto di varianze di gaussiane 501
17.4 Confronto proporzioni 504
IC per la differenza tra proporzioni
Test per la differenza tra proporzioni 506
17.5 Errori di II tipo 509
Test bilatero per la media di una gaussiana, varianza nota
Curva Operativa Caratteristica 516
Test unilatero per la media di una gaussiana, varianza nota
Curva Operativa Caratteristica 521
Test bilatero per la media di una gaussiana, varianza ignota 522
17.6 Modellazione lineare 527
Una questione di terminologia
Conciliazione formule sulla scomposizione della varianza
Collinearità e matrice di Hilbert 528
17. 7 Legge di propagazione dell'errore 534
Approssimazione della media della va g(X)
Approssimazione della varianza della va g(X) 535
17.8 Convergenza in probabilità a una costante 536
Esercizi vari 538
0.1 Probabilità
0.2 Statistica 565
lX
Appendici
XXl
0.1 Arrotondamento (dei dati)
0.2 Teoria degli insiemi XXll
Diagrammi di Venn xxm
Teoremi di De Morgan
Funzione indicatrice XXlV
0.3 Logica
0.4 Numeri binari xxv
0.5 La formula di Stirling XXVll
0.6 Combinazioni con ripetizione
0.7 Coniche XXVlll
O. Matrici e vettori xxx
0.8 Misure e funzioni misurabili xl
0.9 Serie numeriche xliii
Serie a termini non negativi
0.10 Serie di funzioni xlv
0.11 La funzione r
0.12 Una formula importante per la normale xlvi
0.13 Una formula importante per la media
0.14 Derivazione sotto il segno di integrale xlvii
0.15 Determinante Jacobiano xlviii
0.16 La condizione di Lindeberg xlix
0.17 Correlazioni bizzarre
0.18 Errori dei pollster: elezioni presidenziali Usa 1936 e 1948 li
0.19 L'illusione di sapere (soluzioni) liii
La legge di Bayes
Premesse sui quantili lv
Appendice 2 tavola della N(O, 1) lvii
Appendice 3 tavola della t - Student lviii
Appendice 4 tavola della chiquadrato lix
Appendice 5 tavola della Poisson lx
Appendice 6 tavola della distribuzione F lxii
Appendice 7 funzione di Kolmogorov lxviii
Appendice 8 OC Curve lxxi
Appendice 9 specchio dei legami tra distribuzioni lxxvi
Appendice 10 Le più comuni distribuzioni discrete lxxvii
Appendice 11 Le più comuni distribuzioni continue lxxviii
Appendice 12 specchio sugli intervalli di confidenza lxxix
Appendice 13 specchio dei test d'ipotesi parametrici per gaussiane lxxx
Appendice 14 specchio dei test d'ipotesi per proporzioni lxxxi
Appendice 15 tempi d'attesa lxxxii
Appendice 16 tavola sulla equità dei giochi d'azzardo in Italia lxxxiii
Appendice 17 Itaca lxxxv
Indice analitico lxxxvii
Per familiarizzare con il modo di ragionare matematico si consiglia di imparare almeno
le dimostrazioni di Teoremini e Teoremi accanto ai quali è stato posto il simbolo(:•).
Queste sono, tra l'altro, le dimostrazioni richieste agli orali del mio corso.
X
BIBLIOGRAFIA: ALTRI EVENTUALI TESTI

DI CONSULTAZIONE CONSIGLIATI
TEORIA ED ESERCIZI
» E.Battistini, "Consulenze statistiche, sussidiario di probabilità e statistica"; Editrice
Esculapio - Progetto Leonardo - Bologna
» E.Battistini, "Probabilità e statistica, un approccio interattivo con Excel"; McGraw-
Hill
» [MRH] Montgomery - Runger - Hubele, "Statistica per Ingegneria"; Egea
» M.Verri, "Probabilità e Statistica - 500 temi d'esame risolti"; Editrice Esculapio -
Progetto Leonardo
» [MGB] Mood - Graybill - Boes, "Introduzione alla statistica"; McGraw-Hill
» [B] M.Bramanti, "Calcolo delle probabilità e Statistica"; Editrice Esculapio - Progetto
Leonardo, Bologna
» P.Baldi, "Calcolo delle probabilità e statistica"; McGraw-Hill
» [BV] Barchielli-Verri: "Attese condizionate e modelli di previsione"
SULLA MATEMATICA IN GENERALE
» K.Devlin, "Il linguaggio della matematica", Bollati Boringhieri.
SUL MODO DI PENSARE SCIENTIFICO
[MPP] » M.Piattelli Palmarini, "L'illusione di sapere", Oscar Mondadori;
» P.Odifreddi, "La repubblica dei numeri", Raffaello Cortina Editore.
Xl
0.1 Introduzione
Nel dicembre del 1926 Albert Einstein, che aveva vinto il Nobel nel 1921, scrive a Max
Born, che vincerà il Nobel solo nel 1954 ma che già allora era uno dei fisici più eminenti
della Germania e lavorava con Heisenberg: "Tu ritieni che Dio giochi ai dadi col mondo; io
invece ritengo che tutto ubbidisca a una legge". E ancora in un'altra lettera successiva:
"Non vorrei lasciarmi indurre ad abbandonare la causalità rigorosa senza prima aver
lottato in modo assai diverso da come si è fatto finora. L'idea che un elettrone esposto a
una radiazione possa scegliere liberamente l'istante e la direzione in cui spiccare il salto
(da un'orbita di energia all'altra ndr.) è per me intollerabile. Se così fosse, preferirei fare
il ciabattino, o magari il biscazziere, anziché il fisico".
Ora noi non sappiamo se Dio gioca ai dadi o no. È però certo che abbiamo spesso la
sensazione di assistere a una delle innumerevoli partite dove il risultato dipende dal caso.
Se così non fosse potremmo conoscere con certezza il futuro.
Predire un certo futuro valutando "scientificamente" le probabilità di successo è il com-
pito che ci proponiamo affrontando gli argomenti di questo corso.
La nostra indagine riguarderà il mondo reale. Il nostro studio avrà bisogno di farsi
un'immagine "matematica" del particolare aspetto del mondo reale che ci interessa stu-
diare. Tale immagine prende il nome di modello ed è in generale costituita da una o
più equazioni e da una o più funzioni.
Mondo reale, esempi di problemi

1) elfica.eia di un farmaco
2) controllodegli errori nella trasmissione di segnali
3) exit poll eleltorali
4~ durata di un sistema costituito di sottosistemi
)!....---------.~) ~~:~f~~nnee
~e~np~~~t~ r~~'azione
7) numero di incidenti lungo un p e rcorso strada le
individuazionedei casi possibili
si conosce una distribuzione che assegna la probabilità di ciascuno dei

casi possibili(ossia la distribuzionedi probabilità su questi casi)cioè un
osserva
zione modello matemalico probabilisticodel problema?
utilizzo del modello noto "invenzione" di un nuovo modello
previsione
i risultati previsti concordano con i dali osservati ? no. modifiche al modello
si
sono stati presi in considerazione 1ulli gli no, modifiche alla definizione dei casi possibili
aspe1tidel proble ma che interessano ?
Il matematico o l'ingenere seguono un percorso logico che conduce alla costruzione e alla
verifica di un modello. La correttezza della sua formulazione deve subire un test che
permetta di controllare il "buon adattamento" del modello stesso con il fenomeno del
mondo reale che si è interessati a indagare. È fondamentale perciò avere dimestichezza
Xli
con l'osservazione dei dati e con la valutazione del loro significato. A questo problema è
dedicato il primo capitolo del corso, capitolo che riteniamo di fondamentale importanza.
La narrazione che il celebre matematico Poisson fa dell'origine del Calcolo delle Probabi-
lità è un esempio di questo procedimento. Racconta Poisson che nell'anno 1654, durante
un lungo viaggio in carrozza da Parigi verso Pitou, il cavaliere de Méré, uomo di mondo
e giocatore d'azzardo chiede consiglio all'amico Blaise Pascal 1 . De Meré ben sapeva che,
giocando con un solo dado, se scommetteva alla pari di fare "almeno un 6" con 4 lanci
aveva più chances di vincere che di perdere. Vedremo nel capitolo 2 che la probabilità
di fare almeno un 6 con 4 lanci di un dado è pari a 1 meno la probabilità di non fare
nemmeno un 6, cioè 1 - (~) 4 = 0.51775 > ~- I problemi nascevano nel gioco a 2 dadi,
comune ai suoi tempi. Questa è la domanda di de Meré: se si scommette di fare almeno
una coppia di 6 lanciando due dadi qual è il numero minimo di lanci necessario affinché
le possibilità di vittoria superino quelle di sconfitta? Il cavalier de Méré aveva indivi-
duato due possibili risposte. Suggerita dalla matematica del tempo la prima, errata a
suo parere, cioè 24 lanci. La logica (o il modello) sottostante alla prima risposta era la
seguente: lanciando un dado, a ogni lancio ci sono 6 risultati possibili e occorrono 4 lanci
per avere più chances di fare almeno un 6 che di non farne nessuno; giocando con due
dadi, a ogni lancio ci sono 36 possibilità, 6 volte quelle di prima, e allora i lanci necessari
per fare almeno una coppia di 6 sono anche loro 6 volte quelli di prima cioè 24.
Dalla sua esperienza di incallito giocatore che osservava e si appuntava i risultati di molte
partite, nasceva invece la seconda soluzione, cioè 25 lanci.
Pascal risolve il problema dando ragione all'esperienza di de Meré. La probabilità di fare
almeno una coppia di 6 in 24 lanci è uguale a 1 meno la probabilità di non fare nessuna
35 1
coppia, cioè 1 - ( 36 ) 24 = 0.4914 < 2 mentre la probabilità di fare almeno una coppia di
6 in 25 lanci è 1- (!!)2
= 5 0.50553 > ~-
Esempi di modelli
Lo studio scientifico della realtà avviene attraverso la realizzazione di modelli matematici
(equazioni) che simulano il fenomeno (o il processo) in esame.
L'input del modello è rappresentato da misure di certe quantità, l'output da numeri che
rappresentano altre quantità o le stesse quantità variate.
Quando il modello e le date condizioni (misure) iniziali sono tali da permettere di cono-
scere con certezza lo stato del fenomeno (processo) a ogni istante, il modello è di tipo
deterministico.
Esempio Studio del moto di un grave in caduta libera soggetto solo alla forza di gravità
terrestre, in assenza di attrito.
Il modello è un'equazione differenziale lineare del 2° ordine:

1vedi nota storica in fondo al capitolo
Xlll
s(t) = g, (.)
dove g è l'accelerazione di gravità e s(t) è la funzione incognita che dà la posizione del

grave a ogni istante t sotto le condizioni iniziali
s(O) = so; s(O) = vo (++)

Ciò significa che, in un esperimento ideale, ogni volta che si lascia cadere un grave, la sua
posizione dopo il tempo t è data dalla funzione s(t) soluzione della ( +}, soddisfaciente
la condizione ( ++).
Esempio Tutte le economie, sia pre-industriali che industriali, presentano nel tempo un
susseguirsi di espansioni, crisi, depressioni e riprese, cioè un susseguirsi di cicli economi-
ci. Le teorie del ciclo economico, tese a identi.ficame le regolarità, sono state elaborate da
economisti famosi tra i quali citiamo Thomas Malthus {1766-1834, teoria del sottocon-
sumo), Karl Marx {1818-1883, teoria della accumulazione capitalistica), John Maynard
Keynes {1883-1946, teoria della domanda globale) e infine Paul A. Samuelson {1915} e
John R. Hicks {1904-1989) che hanno elaborato un modello matematico del ciclo basato
sull'azione congiunta del moltiplicatore del reddito (meccanismo che vuole spiegare come
un incremento degli investimenti porta a un incremento della domanda globale e quindi
del reddito nazionale), e dell'acceleratore {in base al quale il livello dell'investimento net-
to, che viene effettuato in un certo periodo di tempo, è proporzionale all'incremento di
reddito che si manifesta nello stesso periodo). In questo noto modello si suppone che il
reddito nazionale Yn all'anno n sia composto da tre voci: i consumi Cn, gli investimenti
In e la spesa pubblica Go che viene ritenuta costante. La relazione tra reddito, consumi,
investimenti e spesa si ipotizza essere il seguente:
dove si suppone che i consumi dipendano non dal reddito attuale ma da quello dell'anno
precedente in modo lineare, cioè
Cn = cYn-li c E (O,1), (4)
mentre gli investimenti dipendono dall'incremento dei consumi da un anno al successivo,

cioè
In= a[Cn - Cn-1]; a> O (5).
Le costanti c e a rappresentano rispettivamente la propensione marginale al consumo e

l'acceleratore. Sostituendo la (4) e la (5) nella (3) si ottiene l'equazione del modello:
Yn+2 - c(l + a)Yn+l + acYn = Go

Tutte le volte che si può si realizza un modello deterministico, come nei due esempi
precedenti, ma esistono infinite situazioni in cui ciò non è possibile o non è conveniente.
Esempio Consideriamo un sistema formato da miliardi di punti materiali.
XIV
. ..
·' .... ~..... - . . . •• I :. • I .. . ...
•
• • I••
-:. ..... :· . ..
• • • •
..
••
. . .. .
. ...... :. .. .. ..... . - . .. .. . ..
'
. ... .... .. .... ...... . , .... . •.....

... . .. ., .
""
.. . .... . .
. .. ... .... .... ... ... .. ..... ...
• ..... I
.... .... .., ..

.. . ..' ..
Un sistema di questo genere si ha, per esempio, quando si vuole descrivere il comporta-
mento di un gas (molecole = punti). Si potrebbe pensare di descrivere con un modello
deterministico il comportamento del gas: occorrerebbe conoscere in un certo istante le
singole posizioni di ogni molecola, tutte le forze che agiscono su di essa e la velocità ( a
quell'istante) di ogni molecola. Occorrerebbe scrivere un'equazione differenziale del moto
per ogni molecola e risolverla per determinare il suo movimento. Ciò non è possibile per
due motivi.
1) Il primo è di tipo pratico: se il gas è ottenuto da una mole di una qualunque
sostanza chimica ( cioè da una quantità di peso pari al peso molecolare della sostanza
stessa) il numero di molecole in esso contenute ha ordine di grandezza II pari a 1023 . Il
numero di equazioni da risolvere è perciò "praticamente" in.finito. Ci si accontenta in
questo caso di assegnare la posizione di ciascuna molecola non con certezza ma con una
certa alea di errore, realizzando un modello probabilistico.
2) Il secondo è di tipo teorico: per il principio di indeterminazione di Heisenberg, non
c'è modo di conoscere contemporaneamente posizione e velocità di una singola molecola.
Esempio Lancio di un dado: il dado è un corpo rigido e, anche in questo caso, teorica-
mente, conoscendo esattamente posizione iniziale del dado, la forza e la coppia impresse
al momento del lancio, applicando le equazioni che reggono il movimento di un corpo ri-
gido, si potrebbe, risolvendole, determinare univocamente il movimento del dado e quindi
anche quale faccia si deve presentare superiormente quando il dado si ferma. Noi non
vogliamo ( e inoltre la meccanica quantistica ci dice che il nostro procedimento di misu-
ra relativo alle condizioni iniziali ha dei limiti intrinseci) fare questo. Vogliamo invece
dire qualcosa a proposito della posizione finale del dado senza conoscere nulla riguardo
alla sua posizione iniziale e senza, soprattutto, risolvere nessuna equazione differenziale.
Adottiamo pertanto un atteggiamento probabilistico accontentandoci di predire, con un
certo margine di errore, la faccia che si presenterà .
IIPrincipio di Avogadro: Volumi uguali di gas diversi nelle stesse condizioni di temperatura e di
pressione contengono lo stesso numero di molecole. Almeno idealmente, ogni sostanza chimica può
essere portata allo stato gassoso: ne consegue che una mole di qualsiasi sostanza contiene lo stesso
numero di molecole. Tale numero, detto numero di Avogadro, è pari a N = (6, 02252 ± O, 00028) · 10 23
(IUPAP, International Union of Pure and Applied Physics).
xv
0.2 Tre modelli probabilistici frequenti
Prima di dare una veste matematica rigorosa a strumenti progettati per studiare il
mondo dell'incerto, anticipiamo schematicamente tre tipi di modelli probabilistici che
si presentano con frequenza: bernoulliano, poissoniano, normale
Bernoulliano
Descrive un insieme di prove ripetute in identiche condizioni e indipendenti (nel senso
che il risultato di una prova non influenza le altre prove). Ogni prova dà luogo soltanto
a due risultati: successo o insuccesso (oppure {l} o {O}).
Il modello di Bernoulli si applica per esempio a: lanci di una moneta, esame dei pezzi
difettosi prodotti da una macchina, assicurazioni sulla vita (vita = successo, morte =
insuccesso).
Caratteristiche numeriche che si è interessati a descrivere, dipendenti dall'andamento del
fenomeno sono:
1) Numero di successi in n prove;
numero di successi (cioè T) In n lanci
e e Ie Ie Ie I, ~ T e
2) Tempo di attesa del primo successo (sotto);
tempo d'attesa del primo succes::imI successo

la stringa è infinita
.__I c_._l
_c--'--1
c___.__l
c__._l_cl _c......,.I
....... r___ l _c..__I
l_c....... ___.r
l_r_._l_c...L-1
r____.__r-'--c-'--c
...._____..I ~J
~1//~I tempo d'attesa del k-esimo successo k-esimo successo
3) Tempo di attesa del k-esimo successo (sopra).
Poissoniano
Descrive fenomeni ("arrivi") che si manifestano casualmente nel tempo o nello spazio,
dove il manifestarsi dei fenomeni ubbidisce a questi requisiti:
1) la probabilità di un arrivo in un intervallo di tempo piccolo è proporzionale all'ampiezza
dell'intervallo
2) la probabilità che si verifichino 2 o più arrivi in un intervallo di tempo piccolo è
trascurabile (eventi non frequenti)
3) gli arrivi in due diversi intervalli di tempo non si influenzano l'un l'altro se gli intervalli
non sono sovrapposti.
Il modello di Poisson si applica a: studio degli incidenti lungo un tratto autostradale, va-
lutazione del numero di telefonate in arrivo a un centralino, valutazione delle imperfezioni
su un cavo, ecc.
Le caratteristiche numeriche interessanti sono:
XVI
1) numero di arrivi nell'intervallo di tempo Ot o numero di "accidenti" m una

prefissata zona di uno spazio unidimensionale;
·B
' ,, ••
r.n
·r-à .a.a
o _____.___l___________.__----:::~-\ -1-1
-~-----·
numero di arrivi nell'intervallodi tempo O
t
2) tempo di attesa del primo arrivo;

3) tempo di attesa del k-esimo arrivo;
ml
. ,, ' ,, -'- .,
0 1
·ili ·B·B k
~ ~ I
fempod'auesadel primo arrivo tcmpod'attcsadc1
k-esimo arrivo
Chiamando "successo" un "arrivo" si può vedere che il modello di Poisson descrive una
situazione che è una sorta di limite della situazione descritta dal modello bernoulliano.
Normale
Moltissimi fenomeni in natura seguono (o quasi) la legge "normale". Per esempio, quando
si misura una grandezza, non ci si ferma mai ad un solo rilevamento: per aumentare la
"precisione" della misura ottenuta, si ripete il rilevamento diverse volte.
Si può pensare di decomporre ogni misura in g + E:8 + E:a : g è la misura "reale" della
grandezza, E:8 è l'errore sistematico, E:a è l'errore accidentale. g e E:8 sono costanti (r::
8
viene stimato una volta per tutte dalla taratura dello strumento); E:a è invece "aleatoria"
e dipende da moltissimi fattori, dei quali ne è in un certo senso la risultante, la somma.
Il comportamento di ca si descrive con il modello normale (a rigore anche E:8 è aleatorio,
perché lo si determina con tecniche probabilistiche, ma lo si considera costante fissato
una volta per tutte).
In modo ingenuo, che preciseremo matematicamente, il comportamento di ogni fenomeno
che possa essere pensato come la somma, la risultante, di diversi fattori che ubbidiscono a
modelli anche diversi da quello normale, è approssimabile con un modello normale (sotto
opportune ma larghe ipotesi).
È il teorema centrale del limite a garantircelo, uno dei teoremi più importanti e
sorprendenti della Matematica.
Considerate come esempio la Figura 0-1 che rappresenta il quincunx, ideato da Francis
Galtonm nel 1873. Un certo numero di palline sono contenute in una specie di imbuto
appoggiato a una parete e possono uscire dal condotto A. Nella loro caduta le palline in-
contrano dei pioli sistemati in un reticolo triangolare. Rimbalzando da un piolo all'altro
le palline finiscono in un raccoglitore diviso a scomparti. Il fatto che una pallina finisca
in uno scomparto piuttosto che in un altro dipende da una miriade di fattori casuali che
contraddistinguono la caduta della pallina stessa. Se fate l'esperimento osserverete che
Illvedi nota storica in fondo al capitolo
XVll
il mucchio delle palline nei vari scomparti ha la forma di una curva gaussiana che identifica
una distribuzione normale. Sul sito http:/ /www.mathsisfun.com/probability / quincunx.html
una immagine suggestiva del suo funzionamento.
T o
o
o
•
• o•
o. • •
• .o .o •
• q • o • •
Figura 0-1:
XV!ll
0.3 Nota storica
Blaise Pascal (Francia) 19 giugno 1623 -19 agosto 1662
È Etienne Pascal padre di Blaise a occuparsi

della sua educazione scolastica e a decidere
che il figlio non avrebbe studiato matematica
fino all'età di 15 anni. Blaise comunque coltiva
la sua passione per la geometria senza libri
e a 12 anni dimostra che la somma degli angoli interni
di un triangolo equivale a un angolo piatto.
Quando suo padre lo viene a sapere gli concede di leggere una copia degli Elementi di Euclide.
Nel febbraio del 1640 Blaise Pascal pubblica la sua prima opera matematica: Essay sur les
Coniques.
Per aiutare il padre che lavora in campo fiscale, Pascal lavora dal 1642 al 1645 alla realizzazione
della prima macchina calcolatrice meccanica. A questa invenzione, che verrà prodotta in 50
esemplari nel 1652, viene dato il nome di Pascalina.
Nel 1646 la dedizione di due giovani monaci che curano il padre, seriamente ferito a una gamba,
impressiona Pascal che diviene profondamente religioso.
Continua però la sua vita scientifica e nel 164 7 inizia gli studi sulla pressione atmosferica e
dimostra che il vuoto esiste. Cartesio, incredulo, gli fa visita il 23 settembre ma commenta: "Il
vuoto ce l'ha nella testa".
Nel 1648 Pascal osserva che la pressione atmosferica diminuisce con l'altezza e congettura che
sopra l'atmosfera ci sia il vuoto. Tre anni più tardi pubblica un importantissimo lavoro Expé-
riences nouvelles touchant le vide e nel '53 Traité de l'équilibre, la prima opera nella storia della
scienza che tratta sistematicamente problemi di idrostatica e idrodinamica.
Sempre nel 1653 Pascal pubblica Traité du triangle arithmétique sulle proprietà del cosiddetto
triangolo di Pascal, che altri avevano studiato senza successo prima di lui e che porteranno
Newton a definire i coefficienti dello sviluppo della potenza del binomio.
La sua corrispondenza epistolare con Fermat è considerata basilare per la nascita della teoria
della probabilità.
Nel 1654 affrontano insieme un problema di dadi già studiato da Cardano: è il problema posto
dal cavaliere di Meré a Pascal citato a pagina 38.
Studiano e risolvono insieme anche il problema dei punti: due persone mettono sul piatto 100
ducati ciascuna e giocano a testa e coda decidendo che si porterà a casa il monte premi di
200 ducati chi arriva per primo a 10 teste. Si suppone che quando stanno per esempio 8 a
6 una comunicazione urgente li costringe a interrompere la partita. Il problema dei punti è
così formulato: qual è la divisione equa del monte premi tra i giocatori in quel momento della
partita? Anche questo problema era stato studiato senza successo da altri matematici del tempo,
Cardano, Pacioli e Tartaglia.
Nel 1654, dopo la sua visita al monastero giansenista di Port-Royal des Champs, 30 km a sud
di Parigi, Pascal comincia a pubblicare lavori anonimi su argomenti religiosi.
XIX
I Pensées, una raccolta di riflessioni personali a cui lavora dal 1656 al 1658, rappresentano il più
importante risultato di questa fase della sua vita. Nei Pensées enuncia tra l'altro: "Pesiamo il
guadagno e la perdita prendendo per croce (nel gioco con la moneta) che Dio esiste: se vincete
guadagnate tutto e se perdete non perdete niente; scommettete dunque che esiste senza esitare"
(Pensées, III, 233).
Il suo ultimo lavoro matematico è dedicato alla cicloide una curva nel piano descritta da un
punto di una circonferenza che viene fatta rotolare su una retta immaginaria.
Dopo questo lavoro dedica gli ultimi anni della sua vita a portare sollievo ai poveri girando di
chiesa in chiesa.
Muore all'età di 39 anni.
Francis Galton (Inghilterra) 16 febbraio 1822 - 17 gennaio 1911
È stato il padre del concetto di regressione.

Sebbene non particolarmente dotato in matematica,
subì il fascino della statistica e diede importanti contributi
nel campo della meteorologia e della antropometria.
Esploratore e antropologo, è famoso per i suoi studi
sull'intelligenza dell'uomo.
Cugino di Charles Darwin, affermava che le qualità
di un individuo sono dovute quasi interamente a fattori
ereditari, rifiutando l'idea che i condizionamenti
ambientali potessero avere influenza.
Ciò lo portò a trarre conclusioni sulla diversa qualità delle razze umane che sono totalmente
inaccettabili alla luce della scienza odierna.
Capitolo 1
Niente è impossibile per chi non deve farlo
Legge di W eiler
Aiutatemi a capire ciò che vi dico

e ve lo spiegherò meglio
Antonio Machado {1875-1939}
Tutto quello che hai visto ricordalo

perché tutto quello che dimentichi
ritorna a volare nel vento
canto indiano d'America
Statistica descrittiva
Così Carlo Alberto Salustri (1871-1950), poeta romano più conosciuto con lo pseudonimo
di Trilussa (che si è dato anagrammando il suo cognome), definisce così la statistica:
Sai ched 'è la statistica? È na' cosa / che serve pe fà un conto in generale /
de la gente che nasce, che sta male, / che more, che va in carcere e che sposa.
Ma pè me la statistica curiosa / è dove c'entra la percentuale, /
pè via che, lì,la media è sempre eguale / puro co' la persona bisognosa.
Me spiego: da li conti che se fanno / seconno le statistiche d 'adesso /
risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, /
t'entra ne la statistica lo stesso/ perch'è c'è un antro che ne magna due.
Dietro questa arguta definizione c'è l'intuizione che la Statistica può essere utilizzata dal
Potere per il suo tornaconto. Ciononostante questa scienza rappresenta uno strumento
imprescindibile per descrivere quantitativamente certe caratteristiche della realtà. Le sue
tecniche sono applicate in quasi tutti i campi di indagine e di decisione umani: dall'agri-
coltura alle comunicazioni, dall'urbanistica alla sociologia, dall'economia all'istruzione,
oltre, naturalmente, ai campi scientifici, fisica, ingegneria, medicina, biologia, elettronica.
Quando si raccolgono, ordinano, riassumono, presentano e analizzano dati, relativi a
una popolazione o a un campione parliamo di Statistica descrittiva. Strumenti che
permettono di sintetizare una grande mole di dati per renderli leggibili sono fondamen-
tali. Ci limitiamo a un esempio che nasce dalla fotografia presentando l'istogramma
di un'immagine digitale, utile per sintetizzare i dati dell'esposizione, uno degli elementi
che maggiormente influisce sulla qualità dello scatto. Per semplicità prendiamo a una
2 CAPITOLO 1. STATISTICA DESCRITTIVA
fotografia in bianco e nero, come se il sensore della nostra fotocamera digitale potesse
registrare solo le intensità luminose del soggetto e non i colori. Abbiamo semplificato
ulteriormente simulando con una griglia di 1200 caselline un sensore da 1200 pixel (oggi,
anche il sensore di un telefonino, ha almeno 2 milioni di pixel).
, 2 ~ • s e t e , 10 11 ,2 ,~ 1• 1~ 10 11 ,e 19 20 21 22 ~ 2, z~ 20 2r 2& 29 :,o ,, J2 ~ 3" :l:i :,o ,r :,a :,e -o

1 , ... 1 Ol1 '" ,,, 129 ,.., ! 1lf '" ,.,. "" 10 1 141 1)1 m ,2, I< ,.., '" 14\ ,,,. ,U '"' , .. 144 11'1 ,zs ,,e "' 111 121 ,.., 1)1 '~ 1'l ial ·~ ,,.. , ..
2 ,..-.1,,,
mm,,., m n "" llO ••• "", ,,.. 110 ,,.. "" ,a1 10 ,., ,,. ,,. ,,.. , .. ,,, "'12, 1J1 ,,,. ,,, ,,. m "'' ,.,, " m "" 121 1.n ,,a""
J 1~1mmm,2- , 11 ,2_,,.,2,,.a ,., ,i1,zo11~,:<21111><m1:ll1:ll121,.J1~,.1,~mmmm,a112'lU<11f H •><51JE112<,.1
• 1:l!ll 1:,s "' ,., ,a, ""'" ,., ,,. ,~ ,43 1 u 1M ,., 13-1 ,;,o 1)1 Ull m 1:i., ,~ , 11t m 121 1l.l 1S01 1SS1111 ,.,. m ,,., ,; 1lll 12• Cli I"" 112 ne
s ,«11m mm 1:is , , rn m 15-1 ,,.. , i , "o 1:-8 , .. , , ,,. ,it ,,. ,.n ,, ,., m 121 , .. ,i2 ,.~.im ,., m ,,,. 1'11\1134 131 ,:o,; ,:1 "'
s ,., ,... ,.,no,,. ,., 11 ,~ "' ,,. ,,5, , "' ,,, "' ,., , no"' uo "'" ,,. 110 ,., ,,.. ,05 ,5, ,.,,.,,, ,,. ,., ,., , ,., ,., ••• ,,, w,""
1 1 1' 4 , .. Ili ,:,3 I \l4 1'0 m 141 1>< 1>1 ,S 111 Hlf '"1 I 1 UO ,O U, 1:IO '1 12< 13" 131 1<3 , .. ,., 1" m \20 '"" "2 117 H1 130 , .. 1'1 1<0
a 1'"' ,,, 111 120 "'" ,,., , , .. ,:u 1>2 m" ,,.. m 1<0 ,., ""', , .. mm,,.,,,. 120 m ,., 1-0 ,,. ,,. ,~ m ,,. 1:13 "" ,., ,,. 100 ,,. ,,, "'
9, 1:lll mm 110 , .. , ,,7 ,., ,:,e 1zo ,2 , "' '"' 131 13',. ,., ,., w ,., , "" '"' 111 w ,2, ,,ei,~ m "' m u, ,n ,:,e 12, ,:,s, ,,e
10 1 ,~,:,,:,,.,:,o>37, ,ie ,,,. ,., m 1 , m 131 , 3,, "141 ••• a, 1a, ,io,., ,i,,,. ,..,.,-11 >:18 1:,, 1111.:, ,., ,1, ,,:i., coi, ,.,
11,
12,
••• "' m,.. "',
1>2 ,.. 100 ,,. ,,.,i
"''""''°
,.,,,.. ,., m
1:1;11• m"'
,., 1• 1, ,.,
,., , .,,
110 12,,
.. "'
m ,.,
, .. n., u, mm
t211< w 1e,:,o,<.>1,,. 1,012< ,. ,
,,.. 11> ,:a",.., .. m u:, ,.., ,,.,..,x m 110 ,..
,,..,.
, ,,.
,,.
,.,
Mo1:>11
,., ,... ,
,,.
,,.
13 , ,,e 131: 1i1 1:JJ ,.., , ,., 134 12) •Ji! " 11 ,ii ,~ 121 , " 'lii ,i, ,., ,02 , 1 1:,,, 1., ® ,,. ,.._. m 1)1 1<J ,2, ,,~ 121 ,~ ,~ 1a, 1•1 "J 112
1• 1 121 ,1• m ,:i,. , 3, 111 12 m 11! ,21111 , 1111s. ,sa,:,:,'" 11i m 1311 311 1 ,:,:, m ,:i. 151 ,13 ,.,,,., ,11 ,51 ,:!!i 11 ,:,e , :i.o 13l '"' ,,o •l-1
1s" ,.., m n, .., "' , ,.., 1" ,,s , .. " ' , .. , .. "' ,,. ,. " "' ,:,o"' ,~, , . 111 m '"' 14', ,,oi m '"' ,,. 1"", m "' '" ,:n , , ..
,a, ,,. 110 m ,,. ,., 11 12• uo ,,, ,,. "" "' ,,. "'' ,_ 101 •><mm,.,, .. " " 1" '" ,,. 122" ,., "" m 1211, , ,. "" ,,. m ,., 1,.
11 , ,,. m 1,0 ,:i,, •• ,., ""' uo ,,. ,,o 1 , "' ,so ,,. ,,. " ne ,.o ,21 131 ,,. '" ,., ,,. ,:sa ,,. ,1, m m ,a 100 m ,., m ,a ,., •l• m
1a ,., m ,x ,:io ,., 111 "''* ,
"' ,., , , " 9 12, ,, , ,32 ., '" •l• '"' ,.. "' u; , ,, ,. . 15, ,.,. ,._.i,,. '" 1<) 1• ,i, 1:ii "' ,,, 115>1 ,i, ,,.,
1~ 11l' IX 136 13' \50 l2S 1' 1:12 ,., 1<) ,:111 I I> "' 11t 1H , 1'' 100 >li 130 \!IO 1 IX ISO 130 13" t"2 1' 1'10 156 130 1"1' '1 1>7 1'! "'1 ,:,o I 1:>!
201 1<01:12 130 12' l<af ! ,,-m 1"° 1" I>"' m 1' 1100, I m l>I Ml 1 , 1:>!1 .. 110 ,,,t:>>>>O ,s,:, 111 1" 1,Cl11 ,111 ,., "' m ,., 11• 11 ,x u, m ,., ,. ,,,
Z.! ! 13':' 1'i Hl !~ 141 I 116 1ll 131 1:,i 1 , .. \O 131 131 1'1 114 11• 1111 ,.;o 13;1 1 UO 1~ 11• 146 1211 !l8111C UJ 131 1Jil 1" ,~ 111 13-1 1;,, 111 11()
Zl, 12, ,se m l<l 102 , 1!1' mm,., 11 " 1'1 ,., ,:w, , 12• n, 140 , .. '31 n• mm m 1.-.! 1:IOlut m 1:1< 122 112 ,,, , :i.o m ,:n 133 12•
2,1, t><>l1'11/'0,.. 131!11 1 1211i,1 .. 1 11•1J111, , .,,:;o,,,,,,,.,1Y1
:is, u•m130m 1Trt ,,,,,,,>11,n , ,.,,,.m,n" 11•mm1•• oo
2,l I 0:1< 14G Il' I!\< "50 t 11< 1J1 150 ,., 1) 1 " 1,0 '4$ 1'1 '11 1lJ tS1 "' 1... 00
v, ,nm,i,,.,,:,s, 1:if13ol"'l"' '"''"" '1i, ,,s,.7,. ,:.,~,.,
,:,o.,,
29101
30 ,_...,.,,
,,,, ..
,,.
1..
"',,:, ,...i,,u, '"'°'
I> 11
,.o a,'"°,
1.. 1.. ,
, ,u
,,. "''
,i,
" ',
,v '"'"
I 1,a
,,.
,., l>'I
,io,... io
Se la tecnica di registrazione è a 8 bit (quella più diffusa)), significa che a ogni pixel è
associata una stringa di 8 bit, ciascuno dei quali può essere O oppure 1. Quindi, andando
da [00000000] in notazione binaria (O in notazione decimale, che corrisponde al nero
puro), a [11111111] (che corrisponde a 255, bianco puro), si dispone di 256 sfumature di
grigi per riprodurre la realtà. Nella nostra figura, in ogni casellina (pixel) abbiamo messo
un numero compreso tra O e 255. Riportiamo qui la griglia indicando anche l'istogramma
che indica la distribuzione delle frequenze di ciascuno dei 256 numeri.
È facile convincersi che, anche in questo caso dove i pixel sono solo 1200, farsi un'idea
dell'esposizione della fotografia corrispondente davanti a un elenco di 1200 numeri sarebbe
impossibile (con un sensore da 2 megapixel l'elenco sarebbe di 2 miloni di numeri!).
L'istogramma evidenzia subito quali sono in numeri più frequenti. Dalla figura si vede che
l'istogramma è più alto sui numeri intono a 140. I bianchi o i quasi bianchi (parte destra
dell'istogramma) e i neri o i quasi neri (parte sinistra dell'istogramma) sono praticamente
assenti (la loro frequenza è sostanzialmente O).
U 0 ··· ~ <• ffi" "'"'"' V<nll ... Q

cc::::JI ....... "'"" » o c,""•
.:.- ;-.r .. •
3
Da una fotografia vera abbiamo ricavato quest'altra figura. Dalla forma dell'istogram-
ma generato da Photoshop e disassato a sinistra, si intuisce che la fotografia è un po'
sottoesposta.
Ma torniamo alla statistica descrittiva e alla necessità di conoscere una popolazione (di
dati) da un suo sottoinsieme, un campione. Se un campione è estratto secondo deter-
minate regole allora viene considerato rappresentativo della popolazione. In questi casi,
dall'analisi dei dati da esso ricavati, si possono indurre o inferire dati relativi all'intera
popolazione. Quando lo scopo del nostro lavoro è quello di determinare la probabilità che
un'inferenza sia valida per l'intera popolazione stiamo facendo Statistica inferenziale
(vedi capitoli 13 e 14).
La Probabilità è lo strumento (preciso e quantitativo) utilizzato dalla Statistica inferen-
ziale per rendere rigorose le sue conclusioni.
In questo primo capitolo introdurremo brevemente la Statistica descrittiva. Prenderemo
confidenza con alcuni concetti che verranno poi usati, in senso più generale, nei capitoli
success1v1.
popolazio ne esempi
caratteri
obiettivo
professione
..
peso
~• ------- qualità osservate q I qr·• qN '-...._
•,--. -
~ ........._
rlL
•• • ~
~ /
[ll_J_J]
distribuzione
delle frequenze
uuità statistiche osservate
(campione) quantità osservatex 1 x 1 ..., x,; delle osservazioni
Definizione 1.0.1 Si definisce popolazione (obiettivo) un insieme di unità o indi-

vidui {in generale non si tratta di persone) di cui ci interessa studiare un carattere.
Una popolazione può essere finita o infinita. Se il nostro studio si limita a esaminare
un sottoinsieme della popolazione, estratto dalla popolazione stessa secondo certe regole,
si dice che si analizza un campione della popolazione. Si parla di popolazione cam-
pionata se il campione non è estratto dall'intera popolazione obiettivo ma da un suo
sottoinsieme. Lo scopo finale è quello di capire la distribuzione di tale carattere nella
popolazione.
In un'indagine statistica perciò l'oggetto è la distribuzione di un carattere relativo alle

"unità statistiche" (o "individui") di una certa popolazione. Esempi di caratteri sono i
pesi (o le altezze) delle "unità statistiche" appartenenti alla popolazione degli studenti
del Politecnico di Milano. Si può pensare anche a un modello "numerico" di questa
popolazione: gli studenti spariscono sostituiti da numeri (espressi in una opportuna
unità di misura) che rappresentano i loro pesi (o altezze): abbiamo così una popolazione
di numeri. Altri esempi di caratteri possono essere le durate di ciascuna unità della
popolazione di lampadine prodotte da uno stabilimento, l'opinione favorevole o contraria
al candidato Tizio della popolazione degli italiani aventi diritto al voto, il colore dei
fiori (giallo, rosso o bianco) che germoglieranno dai semi contenuti in un certo silos. Gli
"individui" o le "unità" delle popolazioni citate sono entità concrete: studenti, semi,
lampadine. Una popolazione può essere però costituita anche da unità astratte. Ne sono
un esempio le infinite misure, potenzialmente rilevabili, dello spazio che separa la Terra da
una certa stella al fine di stabilirne la sua distanza da noi, o le infinite stringhe di risultati
di lanci ripetuti di una moneta truccata al fine di valutare mediamente il numero di lanci
che precedono l'uscita della prima "testa". Esempi di distribuzione possono essere:
a) 10% degli studenti con altezza inferiore a 1.5 metri (incluso); 55% tra 1.5 e 1.7
metri (incluso); 30% tra 1.7 e 1.8 metri (incluso); 5% oltre 1.8 metri;
b) ~ dei fiori sono bianchi; ~ dei fiori sono rossi; O fiori sono gialli.
Oss. 1 Importante. In tutto il resto del capitolo ci dimenticheremo della popolazione

da cui provengono i dati. Avremo davanti a noi solo una serie di numeri o di quali-
tà. Il nostro scopo sarà quello di rendere "leggibili e significativi" questi dati attraver-
so alcuni strumenti come il riordino, la divisione in classi, il calcolo delle frequenze,
l'individuazione di indici di posizione e di dipersione.
1.1 Variabili, mutabili, classi, frequenze

Definizione 1.1.1 Una variabile è uno strumento per quantificare le nostre osserva-
zioni. Una mutabile è uno strumento per qualificarle. Useremo le lettere maiuscole
X, Y, W, B per indicare una variabile o una mutabile.
Le variabili sono quantitative o numeriche (il numero dei votanti favorevoli a Tizio, la
durata di una lampadina, il numero di lanci che precedono l'uscita della prima "testa").
Le mutabili sono qualitative o categoriche (il colore di un fiore, l'opinione di un
votante). È a volte pratico codificare le mutabili con numeri ponendo, per esempio, 1
per indicare un'opinione favorevole e O per quella contraria, oppure, nel caso dei semi, 1
per il colore giallo, 2 per il rosso, 3 per il bianco.
Definizione 1.1.2 Una variabile numerica è discreta quando la cardinalità dell'insieme

dei valori che essa può assumere "a priori" è finita (numero dei votanti favorevoli) o
numerabile (numero di lanci che precedono l'uscita della prima "testa", cardinalità
~ 0 ). Una variabile numerica è continua quando la cardinalità dell'insieme dei valori
che può assumere "a priori" è c, la stessa di quella di JR (ne sono esempi la durata di
una lampadina, il peso degli studenti, eccetera).
Quando i dati rilevati sono numerici e molto numerosi è opportuno distribuirli in un certo
numero di classi, in base ai loro valori. Ogni singolo valore categorico di una mutabile
è già di per sé una classe.
Nell'ambito della Statistica descrittiva ci troviamo sempre di fronte a un numero finito
di dati. Anche nel caso di una variabile numerica continua come quella che rappresenta
5
la durata di una lampadina c'è differenza tra l'insieme numerico dei valori che essa può
assumere a priori (che non è limitato superiormente) e l'insieme numerico delle durate
di N lampadine osservate. In ambito descrittivo i valori osservati ammettono sempre un
. .
mm1mo e un massimo.
.
Definizione 1.1.3 Nel caso di mutabile una classe è una qualunque categoria tra quelle
osservate. Nel caso di variabile ci sono due possibilità. La variabile è discreta: in que-
sto caso le classi possono coincidere con i valori osservati. La variabile è continua: in
questo caso si prende un intervallo dell'asse reale che contiene tutti i valori osservati, ge-
neralmente l'intervallo che ha come estremo sinistro il valore minimo (m) come estremo
destro il massimo (M). Si divide tale intervallo in un certo numero K di sottointer-
valli disgiunti che chiameremo classi. Il numero delle classi dipende dagli obiettivi dello
studio. Esse non devono essere troppo numerose (altrimenti viene meno l'opportunità
di raggruppare i dati) né troppo poche (altrimenti c'è una perdita eccessiva di informa-
zione). Faremo uso solo di classi aventi tutte la medesima ampiezza. Cionondimeno
ricordiamo che ci sono casi in cui può essere opportuno scegliere classi di ampiezze di-
verse. Tale tema esula però dagli interessi di questo testo. La regola di Sturges suggerisce
M-m
K = l + 1N
~2 dove N è il numero delle osservazioni. Posto a = K gli intervalli
saranno: [m, m+a]; (m+a, m+2a]; ... (m+(K - l)a, m+Ka = M]. Tutti i valori osser-
vati appartengono allora ad almeno una classe e ogni dato appartiene a una sola e una
sola classe.
Definizione 1.1.4 Il punto medio di una classe si dice valore centrale. I valori centrali
sono spesso utilizzati come rappresentanti di tutte le osservazioni che stanno nella classe.
Definizione 1.1.5 Il numero di dati che appartengono a ciascuna classe è detto fre-
quenza assoluta (J A) della classe.
L'aspetto che ci interessa della popolazione sarà "spiegato" dalla distribuzione delle fre-
quenze nelle varie classi. Si può anche tabellare la frequenza relativa (frequenza asso-
luta diviso numero totale dei dati osservati} di una classe che indicheremo con la lettera
latina minuscola f e chiameremo frequenza tout court.
Parleremo poi di frequenza assoluta cumulata {FAc) e di frequenza relativa cu-
mulata (che indicheremo con la lettera latina maiuscola F e chiameremo semplicemente
frequenza cumulata).
Nel caso di mutabili non ha senso parlare di frequenza cumulata perché non ha senso
pensare a un ordine (crescente) nei valori assunti da esse (che sono qualità}.
Per una variabile (numerica) i cui valori osservati siano stati divisi in classi ( ciascuna
di centro xJ) converremo di indicare la frequenza assoluta e relativa della classe j rispet-
tivamente con f A(xj) e f(xj). Analogamente frequenze cumulate nella classe j saranno
indicate con FA 0 (x'.;) e F(x'.D· Nel centro della classe j riterremo valida l'uguaglianza:
j
F(x'.;) = L f(x't:) (1.1)

k=l
dove gli x);, con k ::; j sono i centri delle classi che precedono la classe j.
Oss. 2 Si osservi che, a meno di eventuali errori di arrotondamento, la somma di tutte

le frequenze relative osservate dà l.
Esempio 1.1.6 Analisi delle uscite di 150 lanci di un dado a 6 facce. La variabile
associa a ogni giocata il numero che esce ed è numerica, discreta e .finita. Le classi sono
ridotte a punti. In questo caso sono 6.
classi (uscite del dado) 1 2 3 4 5 6 totale

fA 25 28 23 24 24 26 150
f 0.167 0.187 0.153 0.16 0.16 0.173 1
FAc 25 53 76 100 124 150
F 0.167 0.353 0.507 0.667 0.827 1
0.107
30 o 167 28 0.173 0.2 1
25 I 0,153 0,16 0,16 26 150
25 23
'
24
,,
24 0.16 150
0,827
0.667 124
~ ~3 100
100 0.507
15 0,1 0.353 76
53
10 0,06
50
5 am
0+---+----+-----<~-+---+----+----+0 o
o 2 3 4 5 6 o 2 3 4 5 6
frequenze assolute e relative frequenze assolute e relative cumulate
Il grafico delle F (e quindi anche delle F Ac) è quello di una funzione a scala costante a
tratti. La figura indica il modo più appropriato di trattare graficamente osservazioni su
una popolazione discreta nel caso che le classi si riducano a punti.
Diagramma a barre e istogramma

Esempio 1.1.7 Supponiamo di avere 40 misure di altezze di piante di sequoie rilevate
in una foresta e di volerli sintetizzare per rendere immediatamente visibile l'andamento
della "altezza" della foresta. La variabile "altezza" è una variabile numerica continua.
I dati sono stati raccolti arrotondando al metro più prossimo (ma la popolazione delle
altezze è fatta di numeri reali, perciò che i valori siano interi è solo apparente):
35 53 38 64 50 32 44 25 49 57 46 58 40 47
56 45 44 68 26 38 78 52 63 40 18 61 45 54 (1.2)
47 36 48 46 35 73 28 50 42 42 35 65
Poiché il valore maggiore dell'altezza è 78 m e il minore 18 m, come insieme che contiene

le misure si può pensare a C =
{18::; x::; 78}. Il campo di variazione dei dati è allora
78 - 18 = 60 m. Invece di indicare sul grafico ogni singolo valore osservato, sintetiz-
ziamo ulteriormente, suddividendo i dati osservati in 15 classi uguali di ampiezza 4 m,
ciascuna di centro xi. Se optiamo per questa soluzione le classi saranno { 18 ::; x ::;22}
7
e {18 + 4n < x::; 22 + 4n} per l ::; n::; 14 come mostrato in tabella:
classi ampiezza xc fA f FAc F

18 ::; X ::; 22 '
20 1 0.025 1 0.025
4
22 < X ::; 26 4 24 2 0.05 3 0.015
26 <X::; 30 4 28 1 0.0 25 4 0.1
30 <X::; 34 4 32 1 0.0 25 5 0.1 25
34 <X::; 38 4 36 6 0.15 11 0. 2 15
38 <X::; 42 4 40 4 0.1 15 0.315
42 <X::; 46 4 44 6 0.15 21 0.5 25
46 <X::; 50 4 48 6 0.15 21 0.615 (1.3)
50 <X::; 54 4 52 3 0.015 30 O.15
54 <X::; 58 4 56 3 0.015 33 0.8 25
58 < X ::; 62 4 60 1 0.0 25 34 0.85
62 <X::; 66 4 64 3 0.015 31 0.9 25
66 <X::; 70 4 68 1 0.025 38 0.95
70 <X::; 74 4 12 1 0.025 39 0.915
74 < X ::; 78 4 76 1 0.025 40 1
totale 40 1
Un diagramma a barre è un grafico che si può utilizzare con variabili numeriche o ca-
tegoriche, in cui l'altezza delle colonne corrisponde, secondo un'unità di misura indicata
sull'asse delle ordinate, alle frequenze (assolute o relative, a seconda delle necessità} rile-
vate per le categorie {in questo caso le classi} o i valori numerici osservati nel campione
prelevato dalla popolazione. Eccone un esempio.
0.15
O.I
0.075
0.025
Un istogramma si utilizza con variabili numeriche ed è costituito da re.ttangoli come

nel diagramma a barre, ma i re.ttangoli sono adiacenti e l'aerea A(j) dello j - esimo
rettangolo che sovrasta la classe j deve essere proporzionale alla frequenza della classe
che indichiamo con la frequenza del suo valore centrale f (x'j). Deve cioè valere:
A(j) = oJ(x'j) = h(j) · td 1

essendo al solito xJ il centro della classe j, D1x'j la sua ampiezza, mentre h(j) è l'altezza
della colonna che sovrasta la classe j. a deve essere la stessa per ogni j. Si può procedere
assegnando a e ricavando le altezze di ogni classe, oppure fissando l'altezza di una classe,
ricavando a e infine ricavando tutte le altre altezze. Le classi sono in ascissa.L'istogramma
che mostra la distribuzione delle frequenze dei dati osservati nelle varie classi è in
figura.
Ji'equenzeasso/meI relative
0.18
0.15 0.15 0.15
6 0,16
0,14
0,12
O.I
0,08
0,06
0,04
0,02
(18,22/ /22,26/ /26,30/ (30,34/ (34,38/ (38,42/ (42,46/ (46,50/ (50,54/ (54,58/ (58,62/ (62,66/ (66, 70/ (70,74/ (74,78/
classi
Osservazione: Ci capiterà, impropriamente, di utilizzare la definizione di istogramma

anche nel caso di un grafico in cui viene più semplicemente indicato un diagramma a
barre. Il lettore lo tenga presente.
1.2 Indici di posizione

( misure della intensità)
Con indice di posizione si intende un valore in qualche senso rappresentativo dei dati
numerici osservati nel loro complesso. In questo paragrafo e nel successivo pensiamo a
una variabile X che ha osservato N valori X;.
Definizione 1.2.1 Definiamo media di X il numero:
X = X1 + X2 + ...+ X N l N
= - Lx; = mx = E[X] (1.4)
N N i=l
Esempio Supponiamo che a un certo punto della sua carriera scolastica uno studente
del secondo anno del Corso di Studio in Ingegneria Matematica, abbia riportato in dieci
materie i seguenti voti (espressi in trentesimi):
MATERIA VOTO MATERIA VOTO

Informatica A 22 Analisi Mat. (A) e Geometria 19
Chimica A 24 Analisi Mat. (B) 27
Fisica Sperirnentale A 27 Statistica Mat. 24
Elettronica 19 Economia e org. aziendale 22
Calcolo delle Probabilità 21 Analisi Mat. (C) 20
9
La media (aritmetica) dei suoi voti è pari a:
(22 + 24 + 27 + 19 + 21 + 19 + 27 + 24 + 22 + 20) = 22.5

10
Supponiamo ora che i dati osservati da X siano ordinati in modo crescente:
Definizione 1.2.2 Indicando con [a] la parte intera di a, definiamo mediana di X e

scriviamo:
X[N/2]+1 (cioè è l'elemento centrale dei valori osservati) N dispari

med[X] = medx = { X[N/2] + x[N/2]+1 N
------- 2 (cioè è la media dei due valori centrali) pari
(1.5)
Nel caso dei voti, i dati ordinati in modo crescente sono 19, 19, 20, 21, 22, 22, 24, 24, 27, 27
emedx = 22
Osservazioni
1) Ci sono almeno [:] (parte intera di : ) osservazioni x; che soddisfazione la relazione
x;::; medx.
X[N/2] + X[N/2]+1
Infatti se N pari e se ---'--'--'----'------'-- non è una delle osservazioni X; allora ce ne sono
2
N
esattamente 2 .
Esempio: si dispone di 50 dati x; (i= 1, 2, ... , 50) qui riportati in ordine crescente:
Tabella A Tabella B
X1,X2, ... ,XIO 0, 0, 0, 0, 1, 1, 1, 1, 1, 1 XI, X2, ... , X10 0, 0, 0, 0, 1, 1, 1, 1, 1, 1
X11,X12,,,, ,X20 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 X11,X12,,,,,X20 1, 1, 1, 1, 1, 2, 2, 2, 2, 2
X21,X22,,,, ,X30 2, 2, 2, 2, 2, 3, 3, 3, 3, 3 X21, X22,,,,, X30 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
X31,X32,,,, ,X40 3, 3, 3, 4, 4, 4, 4, 4, 4, 4 X31, X32,,,,, X40 3, 3, 3, 3, 3, 4, 4, 4, 4, 4
X41,X42,,,, ,X50 4, 4, 5, 5, 5, 5, 6, 6, 7, 7 X41, X42, , , , , X50 4, 4, 5, 5, 5, 5, 6, 6, 7, 7
xlli.l + xlli.]+1 2+3

Per i dati della Tabella A si ha med = 2
2
2 = - 2- = 2.5. Allora esattamente
xlli.l
2
+ xlli.]+1
2
3+3
25 dati x; ::; 2.5. Per i dati della Tabella B med = 2 = - 2- = 3 e ci sono
35 dati X; ::; 3.
2) La mediana non è influenzata dalle osservazioni estreme: perciò si dice che è un indice
robusto.
3) La mediana non ha senso per le variabili categoriche.
Definizione 1.2.3 La moda di un insieme di dati osservati è il numero che si è pre-
sentato con la f A (o la f) più alta. La moda esiste per definizione solo se esiste almeno
un dato con f A almeno uguale a 2. La moda può non essere unica.
Esempio L'insieme di dati: 20, 23, 33, 15, 17 non ha moda (caso A della figura qui sotto).
L'insieme: 19, 15, 17, 17, 17 ha moda 17 e si dice unimodale (caso C).
L'insieme: 19, 19, 33, 15, 33 ha due mode, 19 e 33 e si dice bimodale (caso B).
Distribuzioni senza moda, unimodali, bimodali si presentano graficamente in questo mo-
do:
u ~---------
ù.l .. t----tt------<1--1
,.,
u
,., .. t----tt------<1--1
u
u
ù.2 - t----- -< t---1
,.,Il I Il Il
u
Il I Il Il
" " " " " " " " "
A B e
La maggior parte degli indici introdotti in questa sezione si ottengono in Excel® con il
menu "strumenti/ analisi dati/ statistica descrittiva".
1.3 Quantili e percentili

Definizione 1.3.1 Se O < q < l e x 1 ::; x 2 ::; ... ::; XN sono i dati osservati da una
variabile numerica X, il q-esimo quantile è de.finito nel modo seguente:
X[Nq]+l seNqnonèintero
çq = { X[Nq] + X[Nq]+l
se N q è intero
2
Se q invece di essere espresso da un numero compreso tra O e l è espresso da una
percentuale si parla di percentili. /:,qè il lOOq- esimo percentile.
l/ q-esimo quantile
, , , , , , x[Nq]' x[Nq] + 1 ,,,, ,x Nqnonin1ero

ci sono almeno [Nq] ossenrazioni [Nq]<Nq
a sinsi1ra del q-esimo quantile
Nq intero
[Nq]= Nq
Dati.non
raggruppati.
Ix i E:x i+ l ,x i non tutti,in generale, distinti. x[Nq] + x[Nq] + 1

------ q-esimo quantile
2
Figura 1-1:
Osservazione: come indicato nella figura 1-1 ci sono almeno [N q] osservazioni Xi ::; çq.
Infatti facendo ancora riferimento alle tabelle A e B della sezione precedente per q = O.7
si ha N q = 35 e ç0 _7 = x 35 ; x 36 . Per i dati della tabella A ç0 _7 = 4 ; 4 = 4 = ç0 _7 e
11
ci sono 42 osservazioni tali che Xi ::; 4. Per i dati della tabella B ç0 _7 = 3 ; 4 = 3.5 e ci
sono esattamente 35 osservazioni Xi ::; 3.5 = ç0 _7
Osservazione: medx = ç1 ; 2 = ç0 _5 = Q2, detto anche secondo quartile (50° per-
centile). Altri due quantili notevoli sono ç1 ; 4 = ç0 _25 = Q1 detto primo quartile (25°
percentile) e ç3 ; 4 = ç0 _75 = Q3 terzo quartile (75° percentile).
Esempio 1.3.2 Nel caso delle misure delle sequoie della tabella 1.2 troviamo il primo
X10 + X11
. . . .,
quartile (0.25 quantile): Nq = 40-0.25 = 10 intero percio ç0 _25 = 2 = 38 +
2
38
=
38. Invece ç0 63 (cioè lo 0.63-quantile} poiché N q = 40-0.63 = 25.2 è X[Nq]+I = X26 = 50.
Osservazione
La nostra definizione non è l'unica possibile. In altri libri si può provare chi, per esempio,
prende sempre come quantile X[N q], o chi prende sempre X[N q]+l senza distinguere N q
intero oppure no. Scelta però una definizione (noi ovviamente opteremo per la nostra)
occorre fare attenzione per non confondersi le idee con alcuni risultati. Qui sotto ne
facciamo alcuni esempi. Comunque occorre ricordare queste idea di base:
•) il quantile çqpuò essere oppure no una delle osservazioni;
.. ) alla sua sinistra ci sono [N q] osservazioni cioè CIRCA il 100 · q per cento delle
osservaz10n1.
Vediamo gli esempi:
1 °) Supponiamo di avere 10 osservazioni tutte distinte e di averle riordinate: cerchia-
mo lo 0.5 quantile (cioè la mediana). 10 · 0.5 = 5, intero, ç0 _5 = x5 ; x6 = 5.5. In questo
caso non ci sono ambiguità e il quantile non appartiene alle osservazioni.
X5 ç0,5 X6 X7 Xs Xg X10
5 5.5 6 7 8 9 10
Alla sinistra di ç0 _5 ci sono [N q] = 5 osservazioni cioè 100 · q = 50 per cento delle

osservaz10n1.
2°) Supponiamo di avere 11 osservazioni tutte distinte e di averle riordinate: cerchia-
mo ancora lo 0.5 quantile. 11 · 0.5 = 5.5, non intero, [N q] = [5.5] = 5 da cui, in base alla
definizione, ç0 _5 = x 5 +1 = 6. Anche in questo caso non si sono ambiguità e il quantile
appartiene alle osservazioni.
X7 Xs Xg X10 X11
7 8 9 10 11
Alla sinistra di ç0 _5 ci sono [N q] = 5 osservazioni. Le osservazioni totali sono 11,

quindi 5 sono un po' meno del 50% di 11 che è 5.5.
3°) Supponiamo di avere 7 osservazioni non tutte distinte e di averle riordinate:
cerchiamo lo 0.3 quantile. 7-0.3 = 2.1, non intero, [N q] = [2.1] = 2 da cui ç0 _3 = x2+1 = 2.
In questo caso il quantile appartiene alle osservazioni.
Alla sinistra di ç0 _3 , cioè dell'osservzaione di posto [Nq] + 1 = 3, ci sono [Nq] = 2

osservazioni, un po' meno di 2.1 che è il 100 · q = 30 per cento di 7.
4°) Supponiamo di avere le stesse 7 osservazioni di prima: cerchiamo lo 0.4 quantile.
7 · 0.4 = 2.8, non intero, [N q] = [2.8] = 2 da cui ç0 _4 = x2+ 1 = 2. In questo caso il
quantile appartiene alle osservazioni.
Alla sinistra di ç0 _4 ci sono [N q] = 2 osservaz10m. La differenza con 2.8 che è il

100 · q = 40 per cento di 7 è più grande che nel caso precedente.
5°) Se le osservazioni sono 10 e cerchiamo ancora lo 0.4 quantile. N · q = 10 · 0.4 = 4,
" _ = X4 + X5 = 2 . I n questo caso 1·1 quanti ·1e appartiene
•mtero, .., . a 11e osservaz10m.
. .
0 4 2
X5 X6 X7 Xs Xg XlQ
2 2 8 8 9 11
Di osservazioni uguali a 2 ce ne sono tante: dobbiamo immaginarci il quantile a

metà tra X4 e X5. Alla sua sinistra ci sono 4 osservazioni, cioè [N q] = 4 esattamente il
100 · q = 40% delle osservazioni.
Importante Le ambiguità qui osservate sono dovute alla presenza di numeri ripetuti
e al fatto che le N osservazioni sono "poche". Quando N è grande le differenze tendono
a scomparire anche in presenza di dati ripetuti.
1.4 Scarti ( misure della dispersione)

Sapere che la media del P.I.L. (prodotto interno lordo) pro capite dei Paesi meno avanzati
è di 898 dollari USA contro i 15136 dei Paesi industrializzati è già di per sè un dato
allarmante. Se poi questi 898 dollari sono frutto della presenza di una grande variabilità
dei dati con, diciamo, pochi Paesi oltre i 2000 dollari e molti sotto i 200 la cosa sarebbe
ovviamente ancora più allarmante. È perciò evidente l'importanza di conoscere come i
dati si distribuiscono intorno a un indice di posizione scelto per rappresentare i dati stessi
(media dei P.I.L. pro capite in questo caso). Pensiamo ancora a una variabile numerica
X che ha osservato N valori X;.
Definizione 1.4.1 Si dice scarto dalla media del valore i-esimo la quantità
v; = (x; - X) (1.6)
Oss. 3 È facile provare che
N N
LV;=I:(x;-X)=O
i=l i=l
Definizione 1.4.2 Si dice varianza dei dati osservati (o media dei quadrati degli
scarti) il valore
N N N N
2 1 ~ - 2 1 ~ 1 ~ 2 1 ~ 2 -2
ax = N L.,(x; - X) = N L.,(x; - N L., x;) = N L., X; - X (1.7)
i=l i=l i=l i=l
13
e deviazione standard o scarto quadratico medio (SQM) dei dati osservati il valore
l N
CJx = N 2)xi - X) 2 (1.8)
i=l
Osservazione importante
Definizione 1.4.3 Si dice varianza campionaria di N dati osservati da X il valore
2
sx=
1 N
N-l~(xi-X)
- 2
= N-l
1 [ N
~xi-NX
2 -2
l (1.9)
In altri testi viene de.finita come varianza campionaria il valore 1. 'l. La definizione con
la quantità (N -1) al denominatore è giustificata dall'utilizzo della varianza campionaria
come stimatore della varianza di una popolazione in statistica inferenziale (vedi capitolo
12). In tale caso l'utilizzo della espressione con N - l al denominatore costituisce uno
stimatore migliore (corretto) della varianza ignota che si vuole stimare. Si osservi che
già per N > 30 la differenza tra le due definizioni è dell'ordine del millesimo.
Il risultato fornito da Excel® con la funzione VAR su N dati è calcolato con la formula 1.9
mentre la funzione DEV.ST fornisce la radice quadrata sx della varianza campionaria.
Per ottenere i valori delle formule 1. 7 e 1.8 occorre rispettivamente usare i comandi
VAR.POP e DEV.ST.POP di Excel®. Ciò è vero per i risultati ottenuti non solo da
Excel® ma anche dalla maggior parte delle calcolatrici tascabili.
Oss. 4 Dal punto di vista dimensionale, se l'unità di misura dei dati è in centimetri Xi
anche l'unità di misura della media, mediana, moda e deviazione standard è in centimetri
mentre quella della varianza è in cm 2 .
1.5 Asimmetria di una distribuzione

Definizione 1.5.1 Il numero (3 dato dalla seguente formula:
3
/3x _- -1 ~
L,
(Xi-X)
-- (1.10)
N i=l CJx
rappresenta l'indice di simmetria della distribuzione dei dati rispetto alla media. (31 si
dice indice di asimmetria o di skewness.
Se (3 è prossimo a zero la distribuzione è approssimativamente simmetrica; se è positivo

ha una coda a destra; se negativo ha una coda a sinistra.
Vediamo graficamente il significato di asimmetria nella figura alla pagina seguente.
1Ancora una volta segnaliamo che c'è una leggera diversità tra la formula 1.10 e quella utilizzata da
Excel® che è la seguente: f3x = (N-l)(N- 2) _'t(x'.s~x)3.

i=l
In questo caso (3 si indice di asimmetria campionaria.
14 14
12 media
10
coda
1
p= 4.88; positvo: coda a destra P= -4.88; negativo: coda ,l sinistrn

14
media
Variazione della forma

della distribuzione
in dipendenza dell'indice
di asimmetria
p =-0.04; prossimo a zero: simmetria rispetto alla media
1.6 Box Plot

Un modo di sintetizzare la distribuzione dei dati utilizzando la mediana (secondo quartile
Q2), il primo quartile Q1, il terzo Q3, l'osservazione più piccola e quella più grande, è
rappresentato dal box plot o box-and-whisker plot (whisker=baffi).
Ne parliamo solo brevemente facendo riferimento alla seguenta figura, dove con Q1 ab-
biamo indicato il primo quartile, con Q2 il secondo quartile o mediana, con Q3 il terzo
quartile e con IQR = Q3 - Q1, intervallo interquartile.
min/X/ Li = Q1 • 1.5/QR Q1 Q1 =med/X/ max/X/ Q, + 1.5 IQR = ls
baffi, /QR baffi,
Nella figura i baffi finiscono, a sinistra, in Li = Q 1 - 1.5 x IQR (limite inferiore) e a

destra in Ls = Q3 + 1.5 x IQR (limite superiore). Per coloro che utilizzano il software
statistico R, la definizione di box-plot, è la seguente:
Li= min(oss); Ls = max(oss)

dove min(oss) è la più piccola osservazione tale che Q1 - 1.5 x IQR::; min(oss)::; Q1 e
max(oss) è la più grande osservazione tale che Q3 ::; max(oss) ::; Q3 + 1.5 x IQR. :Ma
15
sono possibili anche altre opzioni: per esempio Li coincidente con il minimo dei valori
osservati e Ls con il massimo. Oppure invece della mediana si può usare la media e
invece dei quartili lo scarto, come mostra la figura seguente, e IQR = 2a.
min/X/ li =E/X/ - 2o E/X/ - o E/X/ E/X/+ u mux/X/ E/X/+ 2o =Ls

D---------
..._,__... ---~i-----,f:--<J
I ~i
..._,__... I
baffo JQR baffo
Vengono poi definiti i dati outlier. Sono osservazioni che finiscono fuori dall'intervallo
(med[X] - k · IQR; med[X] + k · IQR) oppure (E[X] - k · IQR; E[X] + k · IQR), dove k
viende deciso in base al problema. Per R gli outlier sono le osservazioni fuori dai baffi,
cioè minori di Li o maggiori di Ls.
Esempio 1.6.1 Realtà virtuale è il nome assegnato alle capacità di un sistema di simu-
lare situazioni reali. I simulatori di volo sono stati tra i primi programmi realizzati di
realtà virtuale. Per valutare la rapidità di reazione dei piloti a un certo inconveniente
che si presenta su un modello di aereo sono stati sottoposti a prova 42 piloti. Ecco i loro
tempi di risposta in secondi all'emergenza simulata:
11 12 12 13 15 15 15 16 17 20 21 21 21 22
22 22 23 24 26 27 27 27 28 29 29 30 31 32
34 35 37 41 41 42 45 47 50 52 53 56 60 62
Per disegnare il box-plot dei dati si vede che med[X] = 27, Q1 = 21, Q3 = 41,
IQR = Q 3 -Q 1 = 20, Li= Q 1 - l,5-IQR = -9, Ls = Q 3 + 1, 5-IQR = 71. Si conclude
che il box-plot è quello indicato in figura.
21 27 41
-9 71
• I I •
-20 -lii (/ }(/ 211 30 40 50 60 711 8// 9// IO//
I box-plot sono di norma realizzati con un apposito software.
1.7 Indici per dati raggruppati
Come già visto (esempio 1.1. 7), ha significato una distribuzione in classi di frequenze dei
dati osservati, nel caso provengano da una variabile continua.
Oss. 5 Le frequenze ottenute possono essere confrontate con le frequenze teoriche rica-
vate da un modello probabilistico che descrive, a priori, la distribuzione di tale variabile.
Tale confronto avviene attraverso tecniche di cui parleremo nel capitolo 14.
Non ci occuperemo degli indici di posizione delle classi rispetto alla loro frequenza.
Illustriamo invece il concetto di media "pesata" o "ponderata" quando la variabile os-
servata è discreta e le classi si riducono a un punto. Indichiamo con x\,i = 1, ... , N i
dati osservati, con x1, j = 1, ... , k i valori osservati tra gli x\ tutti distinti tra loro e con
.fA(x 1) la frequenza assoluta del valore x 1.
Definizione 1.7.1 Si dice media per dati raggruppati la seguente espressione:
Nell'esempio dei voti presi da uno studente del Corso di Studio in Ingegneria Matematica
possiamo considerare 19, 20, 21, 22, 24, 27 come valori possibili di una variabile numerica
discreta X. Delle 10 osservazioni solo 6 sono distinte tra loro e queste hanno frequenze
relative .f rispettivamente pari a 2/10, 1/10, 1/10, 2/10, 2/10, 2/10. La media si può cal-
colare come somma dei valori distinti x 1 ciascuno moltiplicato per la frequenza relativa
corrispondente .f(x 1)
2 1 1 2 2 2
19- + 20- + 21- + 22- + 24- + 27- = 22.5
10 10 10 10 10 10
Si tratta di una media pesata con pesi pari alla frequenza di ciascuno dei valori.
Definizione 1.7.2 Si dice varianza per dati raggruppati 11 il valore
(1.12)
e deviazione standard o scarto quadratico medio il valore
(1.13)
k k
Esercizio 1.7.1 Dimostrare che la.funzione V(a) = I: (x 1-a) 2 f(x 1) dove I: f(x 1) = l
j=l j=l
ammette un unico minimo in a = X.
1.8 Trasformazione lineare dei dati

Se una variabile numerica X, di media X e varianza a3c,
ha osservato N valori Xi sulla
popolazione in esame può essere utile pensare a una nuova variabile numerica
IIsi dice varianza campionaria di X (per dati raggruppati) il valore
17
Y = bX +a
che si conviene aver osservato gli N valori Yi = bxi + a. La variabile Y è una trasformata
lineare della variabile X. È evidente che se Xi ha frequenza fi anche Yi ha la stessa
frequenza.
Come varia la media Se i dati subiscono una trasformazione lineare la media dei dati
trasformati diventa:
l N l N b N
my = - ~ Yi = - ~ (bxi +a)= - ~ xi+ a= bmx +a
N L..,i=I N L..,i=I N L..,i=I
Esempio Sia X una lunghezza misurata in km. In un rilevamento si sono osservate

le lunghezze di 4 tratte stradali, ottenendo: 3.1, 3.3, 2.9, 3.4; La lunghezza media di tali
tratte è perciò mx = 3.175 km. Se esprimiamo la lunghezza in metri, i dati osservati
diventano: 3.1-1000, 3.3-1000, 2.9-1000, 3.4-1000 metri e la loro media my = 3.175-1000
metri.
Come varia la varianza Se i dati subiscono una trasformazione lineare la varianza

dei dati trasformati diventa:
N N
2
ay = N
1~
=-r(Yi - my) 2
= N =-rb (xi -
1~2
mx)
2 22
= b ax
Se b = l (cioè i dati vengono solo traslati) allora la varianza non cambia.
Come varia l'indice di asimmetria È immediato verificare che
(3y = Yi - my = bxi + a - bmx - a = s1gn

. (b) Xi - mx . (b)(3
= s1gn x
ay lblax ax
dove al solito sign(b) = ±1 a seconda che b sia positivo o negativo.
1 -
Definizione 1.8.1 Data una variabile numerica X la variabile Z - X) si dice = -(X
ax
standardizzata di X. Z misura la deviazione di X dalla sua media X in termini di
scarto quadratico medio a x. Vale a dire quando X dista ka da X, Z vale k.
Esercizio 1.8.1 Mostrare che Z= O e a~ = l.
1.9 Osservazione congiunta di due variabili
Supponiamo che la nostra indagine disponga, per ciascuna unità statistica osservata, di
valori assunti da due diversi caratteri, che indicheremo come X e Y (e.g. peso e altezza
degli abitanti di un comune, o diametro e peso di una partita di pillole prodotte in
un certo giorno da una casa farmaceutica). A ogni unità viene associata una coppia
di valori, la variabile che indaghiamo è doppia ( ;) , e a questa possiamo estendere le
classificazioni che abbiamo già fatto per variabili semplici: X e Y possono essere variabili
(numeriche, discrete o continue), o mutabili (categoriche).
Supponiamo perciò di disporre di N osservazioni:{ (xi, Y1),(x2, Y2),... , (xN, YN )}. Come
nel caso univariato ci proponiamo di dare un'occhiata ai dati osservati rappresentandoli
su un grafico.
Esempio 1.9.1 Indagine in un campione di N = 10 persone scelte da una popolazione.

Siamo interessati a peso e altezza.
peso (kg} 52 52 54 57 60 65 67 72 80 91
altezza/ml 1.72 1.63 1.57 1.68 1.62 1.76 1.72 1.81 1.85 1.87
1.87
1.85
• •
1,81
•
1.76
•
1.72
• •
1.68
•
1.63
1.62 • •
1.57
•
52 54 57 60 65 67 72 80 91
Per ottenere con Excel® un grafico simile a questo usare "autocomposizione grafico",
tipo di grafico "Dispers. (XY)".
1.10 Indici di una distribuzione doppia

La media di una distribuzione ha due componenti:
l N l N
x =mx= N Li=Ix; y = my = N Li=IYi
quindi è un vettore [::]. Per le due componenti del vettore valgono le proprietà già
enunciate nel caso unidimensionale.
Possiamo definire anche le due varianze relative a ciascuno dei due caratteri osservati:
ax 2 l"""
= N~(x;-x),
N
-2 2
ay= l""" N
N~(y;-y) -2
i=l
Nel caso bivariato siamo in grado di definire anche due indici che descrivono la relazione
eventuale esistente tra i due caratteri osservati: si tratta della covarianza dei dati
osservati III:
111Si definisce invece covarianza campionaria l'espressione:

19
N N
1 ~ _) ( _ 1 ~ _ Sxy
covxy= NL.,(x;-x y;-y)= NL.,x;y;-xy=N (1.14)
i=l i=l
e del coefficiente di correlazione
(1.15)
Possiamo infine definire la matrice delle covarianze:

2
eXY -- ( Clx
covxy
covxy )
Cl}
Sulla diagonale principale troviamo le varianze dei dati osservati e, nelle due coppie fuori
diagonal® la covarianza.
In Excel con la funzione COVARIANZA si può calcolare la covarianza definita in 1.14.
Con riferimento ai dati dell'esempio 1.9.1 e si ottiene covxy = 1.012. Il coefficiente di
correlazione definito in 1.15 si calcola con la funzione CORRELAZIONE e si ottiene:
Pxy = 0.865.
1.11 Regressione lineare univariata

Ogni giorno, sia a livello professionale che a livello privato, si prendono decisioni che
consistono nella predizione di eventi futuri. Per fare queste "predizioni" ci si basa su
relazioni (intuite o calcolate) tra qualcosa che si può conoscere con certezza, che viene
codificato da una o più variabili (numeriche) indipendenti (nel senso funzionale dell' A-
nalisi l\Iatematica), e qualcosa che deve essere stimato, una quantità soggetta a "alea".
Vedremo che, una volta trovata, questa relazione ci permette di ipotizzare l'andamento
di un legame tra le variabili e di prevedere i risultati di nuove osservazioni.
Come esempi di relazione possiamo pensare al legame tra il numero di bombolette spray
vendute ogni anno e la quantità di CFC (cluorofluorocarburi) presenti nell'atmosfera. Se
troviamo questo legame, potremmo utilizzarlo per stimare l'aumento o la diminuzione
di CFC nell'atmosfera basandoci sui dati di vendita delle bombolette. Un altro esempio
riguarda le previsioni che gli economisti fanno sull'aumento o la diminuzione del PIL
(prodotto interno lordo) annuale di un Paese, esaminando l'ammontare della spesa dei
consumatori. In questo caso la variabile indipendente nota, osservabile con certezza, è
la spesa, la variabile dipendente da prevedere è il PIL. l\Ia si può ancora pensare a un
legame tra la durata di un componente elettronico e la temperatura dell'ambiente in cui
lavora, tra i costi annuali di gestione di un magazzino e la giacenza media dell'anno, tra
l'età di un automezzo e i suoi costi di gestione.
Osservazione: Spesso, quando troviamo una relazione fra variabili, attribuiamo a que-
sta relazione un signifìcato di "causalità". Questo può essere corretto nel caso ad esempio
1 N 1 N N
sxy = --L(xi-x)(Yi-y) = --LXiYi- --xy
N - 1 i=l N - 1 i=l N - 1
delle bombolette spray e del CFC nell'atmosfera. Ma potremmo anche trovare una rela-
zione tra vendita di Ferrari e vendita di diamanti e quindi fare una previsione sui secondi
basandoci sulla vendita delle prime. È difficile però sostenere che un aumento di vendita
di Ferrari "sia la causa" di un aumento di vandita dei diamanti. Invece è facile che sia
l'aumento di vendita di Ferrari che quello di diamanti è "causato" a monte da un aumento
di reddito negli strati alti della popolazione.
Un altro esempio, ancora più evidente, di errata assegnazione di relazione causale tra
due variabili può essere il seguente. Nei primi 20 anni di vita di un essere umano c'è
sicuramente una relazione tra l'età e l'altezza e una relazione fra l'età e il QI ( quoziente
d'intelligenza). Quindi, se esaminiamo la popolazione umana sotto i 20 anni e osserviamo
solo l'altezza e il Q.I., troviamo che c'è una relazione fra le due, perchè al crescere dell'una
cresce anche l'altro. Non possiamo certo però concludere che sia l'aumento dell'altezza
a "provocare" l'aumento del QI.
Il primo passo è quello di intuire la relazione tra X e Y osservando su un grafico l'anda-
mento dei punti (x;, y;), che rappresentano le coppie osservate. Chiameremo Y responso
e X predittore.
IO
9 a 14
12
b 8
e
8 6
7 IO
6 4
8
5
6 2
4
4
3 o
l l o 5 ,• 10
I -1
o
00 2 4 6 8 IO -2 o 5 10 -4
60
d 20
e
50 10
a: nessuna relazione 40 o
30 o IO
b: lineare diretta -IO
10
-20
e: lineare inversa IO
-30
d: curvilineare diretta o
o 5 10 -40
e: curvilineare inversa
Poiché siamo interessati alla regressione lineare la nostra attenzione sarà riservata a
una relazione tra i dati che descrive un andamento "lineare" della nuvola di punti (cioè
punti affollati intorno a una retta, come nei casi b e e della figura) .
Siamo dunque alla ricerca di una relazione f; = bo+ b1x (retta di regressione), che
meglio approssimi la nuvola (x;, y;).
Metodo dei minimi quadrati

Per trovare i valori bo e b1 si può utilizzare il metodo dei minimi quadrati (che precisa
anche il senso dell'avverbio meglio usato in precedenza). A questo scopo, date le n
osservazioni (x;, y;), si opera in modo da minimizzare i quadrati degli errori e; = Yi -f;; =
21
Yi - bo - b1 x;, differenza tra il valore osservato Yi e il suo valore stimato attraverso la
retta di regressione i) = b0 + b1 x. Il risultato dell'operazione si chiama interpolazione
della nuvola di punti (x;, y;) con una retta i)= bo+ b1 x. Vediamo perché viene scelto di
minimizzare la somma dei quadrati degli errori e;.
IO
6
~o
o
} errore= 2
re=2
]
errore= 6
o
:l
4
errore= -41 errore= -4
2
o r.,(Y, -y,) = O
o
o 2 4 6 8 IO 12 14 o 2 4 6 8 IO 12 14
1) Se scegliamo di minimizzare la somma degli scarti I:(Yi - i);), vediamo che le rette
dei casi a sinistra e a destra della figura vanno entrambe bene allo scopo, nel senso che
entrambe rendono nulla la somma. Ma una retta, quella di sinistra, interpola meglio i
punti dell'altra. Ciò è dovuto al fatto che, nella somma I:(Yi - i);) errori positivi si
compensano con errori negativi.
:i
errore = -1
4
L;ly,-y ,I= s
o +----.-----,--....---r----. O+--~---.--~-----,
10 IO
2) Si può allora pensare di minimizzare I: I Yi -i); I (figura sopra). In questo caso, la retta
di destra darebbe un'approssimazione migliore dell'altra; tuttavia è ancora intuitivamente
chiaro che la retta di sinistra interpola meglio. L'anomalia è dovuta al fatto che I: I
Yi - i); I tratta con lo stesso peso errori piccoli ed errori grandi (scostamenti piccoli e
scostamenti grandi).
3) Passiamo infine a (sum of squared errors) SSE = I:(Yi -i);) 2 = I:(Yi - bo - b1x;) 2 da
(y; - i);) = (y; - bo - b1 x;) che prendono il nome di errori o residui. SSE ha i seguenti
vantaggi:
a) come in I: I Yi - i); I gli errori non si compensano in segno;
b) l'elevamento al quadrato amplifica gli errori grandi e smorza quelli piccoli;
c) questa quantità, come vedremo, è più maneggevole di I: I Yi - i); I perché è derivabile.
Si noti che SSE è la somma dei quadrati degli scarti dei valori misurati Yi per Y dai
valori previsti dal modello i);.
Ricerca del minimo
Per minimizzare I:(Yi - bo - b1x;) 2 = SSE(bo, b1) occorre trovare bo e b1 soluzioni di
(1.16)
!
8 1 SSE(bo, b1) =O{::} L x;(Y; - bo - b1x;) =O{=} L x;y; = bo Lx;+ b1 L xl
Posto x = I: x;, 'iJ= I: Yi abbiamo
n n
Sxx = L(x; -x')2 = L xl - (I::;) 2 = L xl - nx 2 = L(x; -x)x;
Sxy = ""'(
L.., X; -
_)(
x Yi - _)
y = ""'
L.., x;y; - (I: x;)(I: y;) = L..,
""' x;y; - nxy
_ = L..,
""' Yi (X; -
_)
x
n
e infine:
b _ Sxy, (1.17)
1--,
Sxx
che rappresentano il minimo cercato. La coppia (bo, b1 ) trovata è l'unico estremante rela-
tivo libero per il polinomio SSE(bo, b1) ~ O. Poiché tale polinomio diventa infinitamente
grande per bo e b1 grandi non esiste massimo (finito) e l'unico estremante trovato è un
mm1mo.
La retta interpolatrice è perciò:
, - Sxy_+Sxy
y=y--x -X (1.18)
Sxx Sxx
Oss. 6 Si osservi che la retta di regressione passa sempre per (x, y).
Esempi
Esempio 1.11.1 Siano assegnate le seguenti coppie (x;, y;) : (100, 40); (200, 45); (300, 50);
(400, 65); (500, 70); (600, 70); (700, 80). Si verifica facilmente che (figura qui sotto lato
a)
'f) = 32.857 + 0.0679 · X
y p
90 70
80 a) 60
70
$0
60
50
,o
40 30
30 ; = 0.0679X+ 32.857
20
p = 0.5 r +30
20
10
10
o X o r
o zoo 400 600 800 o IO 20 .10 ,o $0 60
23
Esempio 1.11.2 Quattro imprese hanno i profitti al netto di tasse e le spese per la
ricerca come da tabella:
R=spese per la ricerca in milioni/anno P=profitti in milioni/anno

1 40 50
2 40 60
3 30 40
4 50 50
Trovare la retta di regressione di P su R.
r1 = 40 PI = 50
. { r2 = 40
P2 = 60 p = L/i = 50
Soluzione.: _ 30 _ 40 { _ L.!:i In questo esempio gli ri non sono
r3 - p3 - r = 4 ' = 40
r4 = 50 p4 = 50
tutti distinti tra loro perché r 1 = r 2 . Si procede comunque nelle stesso modo.
, _ , _, I:(r;-r)(pi-P) (-10)(-10) 1 .
bo = p - b1r; b1 = I:h _ r) 2 = (l0) 2 + (l0) 2 = 2 . La retta di regressione
è p = 30 + ½r
(figura della pagina precedente, lato, b) e dice che c'è una correlazione
positiva tra ricerca e profitti.
Esempio 1.11.3 Una Spa esegue frequentemente controlli tra i dati che risultano dal-
l'inventario reale del magazzino e i dati che risultano a computer. Se il magazzino è ben
gestito il controllore si aspetterà che ci sia una forte correlazione tra le due serie di dati.
Si scelgono 1O articoli e i dati sono i seguenti:
articolo magazzino fisico (Yi) dato da computer (xi)
1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 67
Sxy
Per ricavare il modello Y= bo + b1x che si accorda ai dati occorrono b1
Sxx
I:xy-nxy , ,
I: ' 2 ' _2 = 0.991, bo= y- bi'x = 0.7198. La retta di regressione è quella del grafico
xi -nx
in figura 1-2 che indica una buona correlazione tra i dati.
Esercizio 1.11.1 Un autotrasportatore possiede quattro camion e rileva la seguente
tabella età/costo di manutenzione:
camion I X =età {in anni) Y =spese/anno

1 5 7
2 3 7
3 3 6
4 1 4
250
238
200
150
100
y- 0,9914.r + 0,7198
50
Figura 1-2:
Mostrare che la retta di regressione delle spese sull'età è: y = ~5 + ¾x

Si osservi che il risultato ci permette di fare una previsione sulle spese da sostenere per
un camion di sette anni: nella retta di regressione si mette x = 7 e si ottiene la spesa
Y = 15 + lx = 36
4 4 4
Esempio 1.11.4 Il termine regressione fu usato per la prima volta da Francis Gatton
il quale riteneva che nella trasmissione di un tratto ereditario i valori estremi che lo
caratterizzano, eventualmente presenti nella popolazione, "regrediscono" di generazione
in generazione, verso la media. Per testare questa affermazione lo statistico inglese Karl
Pearson, prese dalla popolazione un campione casuale di 10 padri con rispettivi figli. I
dati risultanti dal campione (in pollici) furono i seguenti:
altezza del padre 60 62 64 65 66 67 68 70 72 74
altezza del figlio 63.6 65.2 66 65.5 66.9 67.1 67,4 68.3 70.1 70
71.00
70.00
y - 0.4646 X + ]5.977
• •
69.00
68.00
67.00 •
66.00 •
• •
65,00
64.00
63.00
60 62 64 66 68 70 72 74
Figura 1-3:
Si vede a occhio che padri piccoli sembrano avere figli un po' più grandi e padri grandi
figli un po' più piccoli. Se fosse vera l'ipotesi di Gatton il responso Y dovrebbe essere
25
tendenzialmente più grande dell'input x quando x è piccolo, mentre dovrebbe accadere il
contrario quando l'input è grande. Cioè la pendenza della retta che interpola i predittori
(altezze dei padri} e i responsi (altezze dei figli) (e che passa per x,y) dovrebbe avere
coefficiente angolare b1 < 1.
Calcolarla per esercizio.
1.12 Frequenze nel caso bivariato
Come nel caso univariato e sempre in ipotesi di continuità delle variabili X e Y che
descrivono i due caratteri delle unità statistiche sotto studio, possiamo dividere le N
osservazioni (xh, Yh) in classi di frequenza. Si procede pensando ai valori della X divisi
in n classi e a quelli della Y divisi in m classi con n =f.m in generale. Le classi (della
X o della Y) saranno individuate dai loro valori centrali, x'f o y'j. La classe (bivariata)
(i, j) sarà quella che contiene le coppie osservate Xh, Yh tali che, contemporaneamente,
xh appartiene alla classe i (della X) e alla classe j (della Y).
Osservazione importante. In tutto il resto del capitolo indicheremo, per una maggior
semplicità di scrittura, i valori centrali delle classi invece che con x'f,y'j semplicemente
con Xi, y 1. È però evidente che i valori centrali (xi, y 1) non appariranno, in generale, tra
le coppie osservate (xh,Yh)-
La frequenza assoluta della classe (i,j) di valori centrali (xi,Yj) prenderà il simbolo
.fA xy(Xi,Yj) e quella relativa fxy(xi,Yj) mettendo in evidenza la dipendenza di tali
frequenze sia dalle due componenti della variabile osservata che dalla coppia dei valori
centrali di ogni classe.
Le componenti della variabile doppia potrebbero anche essere una continua e l'altra
discreta: nel seguito ci limiteremo però al caso di componenti della stessa natura.
Esempio 1.12.1 Riordiniamo i dati del precedente esempio 1. 9.1 suddividendoli in classi
di 1O kg di peso e di 1O cm. di altezza. Tale suddivisione procede separatamente per le due
componenti X e Y della variabile doppia ( ;) che sono di per sé variabili univariate.
Il risultato è rappresentato da una tabella a doppia entrata, dove ogni casella ospita la
frequenza ( assoluta o relativa) della coppia di classi corrispondente.
frequenze assolute
pesi\ altezze [1.50,1.60) [1.60,1. 70) [1.70,1.80) [1.80,1.90}

/50,60) 1 2 1 o
/60, 70) o 1 2 o
/70,80) o o o 1
/80,90) o o o 1
{90,100} o o o 1
frequenze relative
pesi\altezze [1.50, 1.60) [1.60, 1.70) [1.70, 1.8 0) [1.80,1.9 0}

/50,60) 0.10 0. 20 0.10 0.00
/60, 70) 0.00 0.10 0.20 0.00
(1.19)
/70,80) 0.00 0.00 0.00 0.10
/80,90) 0.00 0.00 0.00 0.10
(90,100} 0.00 0.00 0.00 0.10
Figura 1-4:
I dati della prima delle tue tabelle (ma per la seconda cambierebbe solo la scala sull'asse
delle frequenze) si possono rappresentare con il seguente grafico (a canne d'organo, a
sinistra nella figura 1-4):
Nel caso che i dati si vogliano rappresentati in un istogramma non ci devono essere
spazi tra le colonne e deve valere il fatto, come nel caso delle variabili univariate, il
volume V(i,j) del parallelepipedo che sovrasta la classe (i,j) deve essere proporzionale
alla sua frequenza relativa fxy(xi,Yj) (oppure assoluta f A_xy(xi,Yj)). Deve cioè valere
la relazione:
V(i,j) = afxy(xi,Yj) = h(i,j) · b.x; · b.yj
dove h(i, j) dà l'altezza delle canne stesse come mostra il disegno a destra nella figura
1-4.
Come si vede dall'esempio 1.12.1, nella casella che corrisponde alla classe (i,j) ab-
biamo scritto nel primo caso f A xy(xi,Yj) = numero di elementi osservati (xh,Yh)
che appartengono alla classe individuata da Xi,Yj e nel secondo caso fxy(xi,Yj) =
f A xy(xi,Yj)/N = numero di elementi osservati (xh,Yh) che appartengono alla classe
individuata da x;, Yj diviso il numero totale N delle coppie osservate.
Ovviamente la frequenza assoluta congiunta è un numero intero positivo, e vale la
relazione
n m
LLfA_xy(x;,Yj) =N
i=l j=l
27
mentre la frequenza relativa congiunta fxy(xi,Yj) f A xy(xi,Yi)/N è un numero
razionale positivo compreso tra O e 1 e tale che
n m
LLfxy(xi,Yi) = l
i=l j=l
Le frequenze marginali
Dalle frequenze congiunte si ricavano le frequenze marginali.
La frequenza assoluta della marginale i-esima della componente X è:
m n n m
!A_x(x;) = LfA_xy(xi,Yi)
j=l i=l i=lj=l
(1.20)
mentre la frequenza relativa della marginale i-esima della componente X è:
m n n m
fx(x;) = Lfxy(xi,Yi) dove Lfx(xi) = LLfxy(xi,Yj) = l (1.21)
j=l i=l i=l j=l
Per la variabile Y valgono le seguenti analoghe formule:
n m m n
!A_Y(Yi) = LfA_xy(xi,Yi)
i=l j=l j=l i=l
n m m n
fy(yj) = L fxy(xi, Yi)
i=l j=l j=l i=l
Lasciamo alla successiva figura una spiegazione grafica delle operazioni effettuate.
y, .Vi )'111
XJ f,,T(X1,J'1) f~/1:,,yiJ f.~/x,,y) f.~/x,,y,,,)
fx/x 1,Y 1) f,,/x ,, y,J fn(x,,yi) f ~.,(x;,.V,,,)
XJ
X; fx/x;,.V,) f ,.,(x;,.V1) f~(x;,Y) f~/x;,Y.,) tJx) I
Xn fx/xn ,Y 1) fx/x,,, Yz) f x/ x., .V) f x/x,,,y ,,,)

f / .v)
Esempio 1.12.2 Con i dati dell'esempio 1.9.1 si ottengono le distribuzioni marginali di

frequenza esposte qui di seguito
11.50, 1.60) 11.60, 1.70) I 1.70, I.BO) 11.80, 1.901 l!.50 , 1.60) l!.60 , L.70) l!.70 , 1.80] l!.80 ,1.901
(50,60) I 2 I o J (50,60) 0,10 0,20 0,10 0,00 0,4
(60,70) o I 2 o 1 (60,70) 0,00 0,10 0,20 0,00 0,3
(70,80) o o o I I I (70,80) 0,00 0,00 0,00 0,10 0,1 I
(80,90) o o o I I (80,90) 0,00 0,00 0,00 0,10 0,1
(90,1001 o o o I I (90,100 1 0,00 0,00 0,00 0,10 0,1
I 3 ___!__ 3 10 0,1 0,3 ___.!!L_ 0,3 I
Oss. 7 Dalla distribuzione congiunta delle frequenze si ricavano in modo univoco le di-
stribuzioni marginali delle frequenze. Viceversa assegnate due marginali non esiste un'u-
nica congiunta che loro corrisponde. Qui sotto due esempi di distribuzioni di frequenze
relative con le stesse marginali e diverse congiunte
Y1 Y2 Y1 Y2
XI 1/6 - a 1/6 + a 1/3 XI 1/6 + a 1/6 - a 1/3
X2 3/6 + a 1/6 - a 2/3 X2 3/6 - a 1/6 + a 2/3
2/3 1/3 2/3 1/3
La frequenza cumulata
Definizione 1.12.3 La frequenza assoluta cumulata della classe (k, h) , è data da
k h
FAc_xy(xk,Yh) = LL)A_xy(Xi,Yj)
i=l j=l
mentre la frequenza relativa cumulata della classe (k, h), è data da

k h
Fxy(xk,Yh) = LLfxy(x;,Yi)
i=l j=l
Si sommano cioè nella classe (k, h) le frequenze contenute nel cono retrogado che ha
vertice nella classe stessa. La figura 1-5 chiarisce il significato di questa somma.
y., f,,,fx1,Ym) J,./x, ,y.,) f,,.,f.'<.,y.,) f., /x ,,y.,) fx/x.,y.,)
Y• fxfx,,yJ fx,{x,,y.) fx/x,,y,) l__,

(x,,y ,) fx/x . ,y,)
YJ fx,fx,,y;J fx/Xz,Y1) /x,fx,,y 1) I_Jx1,Y1) fx/x.,y/)
YI fx/x,,y,) fx/x,,y,) fx/x,,y,) f x/x,,y,) J,..jx.,y,)

y, l_,/x,,y,) fx/x,,y,) 1_,,{x,,y,) f,,./x,,y,) J,..jx.,y ,)
I ylx x, Xz X! x, x.
Figura 1-5:
29
La frequenza relativa condizionata
Definizione 1.12.4 Si definisce frequenza relativa condizionata fxw(xi) della com-
ponente X al valore Y = y 1 l'espressione:
f ( ·) _ fxy(xi, Y1)
XIY=Yj x, - fy(yj)
Vediamo il significato di questo rapporto nel caso della tabella a doppia entrate dei pesi
e delle altezze 1.19
Supponiamo di essere interessati a sapere con che frequenza (relativa) coloro che hanno
peso appartenente alla classe (univariata) Xi si presentano nella classe (univariata) y 1 .
Sia, per esempio, y 1 = y3 = 1.75 e Xi= x2 = 65.
·
La nspos t , f ( ) _ fxy(65,l.75) _ 0.2 _ 2
a e XIY=l.75 65 - Jy(1. 75) - o.3 - 3
pesi\altezze classi Y [150,160) [1 60,1.70) [170,180) (1 80,1 90[

c l ass i X ,a[ cen tc Yl = 1. 55 Y2= 1.65 y3 = 1.75 y4= 1.85
(50,60
) X1= 55 0.10 0.20 f xy(55 ,l.75) = 0.10 0 .00 fx(55) = 0.4
(60,70
) X2= e5 0 .00 0.10 f xy(65 ,l.75) = 0.20 0 .00
[70,80
) X3= ,5 0 .00 0.00 0.00 0.10
(80,90
) X4= 85 0.00 0.00 0.00 0.10
(90,100) X5= g5 0.00 0.00 0.00 0.10
fy(l.7 5)=0. 3
Se fossimo invece interessati alla frequenza con cui quelli che hanno altezza identificata
dal valore y3 = 1. 75 si presentano tra quelli che hanno peso individuato dal valore X2 = 55
avremmo:
N(x = 55, y = 1.75)
fxy(55, 1.75) 0.1 1
fYIX=x, (y3) = fYIX=55(1.7 5 ) = --N~(x-=-~'--55~)-- -
fx (55) 0.4 4
N

Esercizio 1.13.1 Siamo interessati alla frequenza delle uscite di pari o dispari a una
roulette con 36 numeri più lo zero. Analizziamo 50 giocate. Supponiamo che lo "O"
sia uscito 1 volta e che il "pari" sia uscito 21 volte. Indicare quale tipo di variabile è
associabile a queste osservazioni e tracciarne il grafico delle frequenze assolute e relative.
Esercizio 1.13.2 Si definisce quoziente di intelligenza QI il rapporto 1 espres- et::r;:;/::~ca
so in percentuale. Se per esempio uno studente di 21 anni del corso di Probabilità e Sta-
tistica, a causa di particolari procedimenti educativi, mostra un'intelligenza equivalente a
quella di un giovane di 27 avrebbe un QI = 27 /21 = 1.29 = 129% o semplicemente 12g
(si sottintende il simbolo %) . Se invece lo stesso studente mostrasse l'intelligenza di un
ragazzo di 15 anni avrebbe un QI = 15/21 = 0.71 = 71.
Supponiamo che sui 480 iscritti al corso si siano stati rilevati questi dati:
fA 1 O 2 4 8 62 72 118 112 38 27 18 11 5 2
QI 70 14 78 82 86 90 94 98 102 106 110 114 118 122 126
Determinare l'istogramma delle frequenze relative fj, il grafico delle frequenze relative
cumulate F, la media X, la mediana medx, la moda, la varianza 0'3(-,Scrivere per Z,
la standardizzata di X,la tabella equivalenta a quella assegnata e ricavarne l'istogramma
delle frequenze relative. Ricavare il box-plot.
Esercizio 1.13.3 R~fare la tabella con dati dell'esempio 1.1. 7, con 2g classi di ampiezza
2 metri.
Esercizio 1.13.4 Disegnare un istogramma per la seguente serie di dati.
fA 8 10 16 15 10 8 3 70
classi (50,60] (60,70] (70,80] (80,90] (90,100] (100,120] (120,180] totale
Esercizio 1.13.5 Da una certa popolazione viene estratto un campione di dimensione

100. Supponiamo che la seguente tabella:
osservazione 2 3 4 5 6 8 10 13
freq. assolute 3 43 1 38 4 2 6 3
descriva le frequenze assolute delle osservazioni del campione.

Siano M la moda (posizione del massimo delle frequenze) e med la mediana di queste
osservazioni. Indicare l'unica affermazione vera.
M cambierebbe se la tabella delle osservazioni fosse
D osservazione 2 3 4 5 6 8 10 13
freq.assolute 3 43 38 1 4 2 6 3
med cambierebbe se la tabella delle osservazioni fosse
O osservazione 1 3 4 5 6 8 10 17
freq.assolute 3 43 1 38 4 2 6 3
D gli individui della popolazione sono numeri interi
Capitolo 2
Nessuno sa dove sei, se sei vicino o lontano
continua a brillare pazzo diamante
ammucchia molti più strati e io ti raggiungerò là
continua a splendere pazzo diamante
e ci crogioleremo all'ombra dei trion.fì di ieri.
E navigheremo nella brezza metallica
vieni, ragazzino, tu vincitore e perdente
vieni cercatore di verità e di illusione e splendi.
Pink Floyd - Shine on you crazy diamond - 1975
Introduzione all'algebra dell'incerto
2.1 Definizioni di probabilità

Il problema è quello di definire un numero "p" da associare a un evento che rappresenti
la probabilità che quell'evento si verifichi.
La definizione nel caso discreto finito

Il modo più naturale di definire la probabilità quando si esegue un esperimento che
prevede al più N risultati tutti egualmente possibili è il seguente (dovuto a Laplace).
Definizione 2.1.1 {classica) Se un esperimento (casuale) può dar luogo a N esiti ele-
mentari non ulteriormente scomponibili in condizioni di simmetria (cioè non abbia-
mo motivo per pensare che si verifichi un esito piuttosto che un altro) e se N A tra
questi hanno l'attributo A allora si definisce probabilità di A il rapporto N A/N, cioè
P(A) = NA/N.
Osservazione Notiamo che con questa definizione O ::; P(A) = N A/N ::; 1, cioè la
probabilità è un numero non negativo che non supera 1. Inoltre se tutti N gli esiti
osservabili hanno l'attributo A allora P(A) = N / N = l (probabilità dell'evento certo
che in seguito denoteremo con O). Infine se N A esiti presentano l'attributo A e N B
presentano l'attributo B e se A e B sono incompatibili allora la probabilità di osservare
A o B è data da NA/N + Ns/N.
32 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
Esempio 2.1.2 Probabilità che appaia la faccia di un dado. Le facce si escludono a
vicenda e, se il dado è non truccato, sono tutte egualmente possibili.
{Probabilità che esca la faccia "5"}= P(5) = 1/6
{Probabilità che sulla faccia esca un numero> 2}= 2/3
Non sempre si può applicare la definizione precedente.
• Ricerca della probabilità che un numero estratto a caso dagli interi positivi sia pari.
La risposta intuitiva è 1/2. In questo caso la definizione classica cade perché gli
esiti possibili sono infiniti (tutti i numeri interi).
• Ma la definizione classica non si può usare anche quando gli esiti non sono ugual-
mente possibili, come nel caso di una moneta truccata.
La definizione frequentista
Ai problemi esposti negli esempi precedenti risponde la definizione frequentista di pro-
babilità dovuta a Von Mises.
Definizione Si fa un'osservazione di un esperimento casuale; 2) si ripete molte volte
l'esperimento in condizioni analoghe; 3) in molti casi le osservazioni sono raggruppabili
per classi di frequenza; 4) questo ci porta a postulare l'esistenza di un numero "p" definito
come la probabilità dell'evento e ad approssimare "p" con la frequenza relativa con la
quale le osservazioni ripetute soddisfano l'evento stesso.
Esempio Risultati di n estrazioni casuali dagli interi positivi per n = 100, 1000, 10000
(a ogni osservazione si assegna una probabilità pari alla sua frequenza).
n estratto frequenza frequenza relativa probabilità a priori

100 pan 50 0.5 0.5
100 dispari 50 0.5 0.5
1000 pan 470 0.47 0.5
1000 dispari 530 0.53 0.5
10000 pari 5015 0.5015 0.5
10000 dispari 4985 0.4985 0.5
La definizione soggettiva
La definizione frequentista contiene la definizione classica. Esistono però situazioni che
non rientrano neppure nella casistica frequentista: per esempio la valutazione della pro-
babilità che la mia fidanzata mi ami o che scoppi la terza guerra mondiale. L'assegnazione
della probabilità a un dato evento in questi casi ubbidisce alla "regola di coerenza" del-
l'aneddoto cinese: se due contendenti devono separarsi un'eredità, tale regola stabilisce
che uno divida l'eredità in due parti e l'altro scelga per primo quale parte vuole.
Vediamo allora la definizione di "p" nella concezione soggettiva della probabilità, dovuta
all'italiano Bruno de Finetti, nella quale viene appunto posto l'accento sulla "coerenza"
che deve avere un individuo che prende decisioni su fatti che dipendono da eventi aleatori.
Questa "coerenza" è un attributo indispensabile alla sua valutazione.
Definizione La probabilità di un evento, secondo l'opinione di un dato individuo, è
l'importo di denaro p che egli stima equo (o coerente) scomettere per ricevere 1 se si
verifica l'evento stesso. L'equità (o la coerenza) implica che l'individuo sia anche disposto
a fare da banco alle stesse condizioni, cioè ricevere p per pagare 1 se si verifica l'evento.
33
La definizione assiomatica
Kolmogorov, un matematico russo, nel 1930, utilizzando il linguaggio della teoria degli
insiemi (e della teoria della misura), dà una definizione assiomatica della probabilità co-
me funzione definita su un certo spazio, che deve avere certe proprietà. Tale definizione
prescinde dal significato che bisogna dare alla probabilità di un evento. Le diverse proba-
bilità definite nei casi precedenti seguono l'algebra stabilita dalla definizione assiomatica.
Questa sarà la definizione che utilizzeremo nelle pagine a seguire.
Un breve profilo su Laplace, Von 1Iises, de Finetti e Kolmogorov nella nota storica in
fondo al capitolo.
2.2 Calcolo combinatorio

Nell'applicazione della definizione classica di probabilità che si utilizza quando gli esiti
elementari sono in numero finito e sono ugualmente possibili, i problemi di conteggio
giocano un ruolo decisivo. Infatti in questi casi la probabilità di un evento è rappresentata
dal rapporto tra il numero di casi favorevoli all'evento stesso divisa per quello dei casi
possibili. Bisogna perciò saper contare questi casi. Vediamo alcune classiche tecniche di
conteggio.
Definizione 2.2.1 Principio fondamentale del calcolo combinatorio. Se si ese-

guono k scelte successive e si hanno n 1 possibilità per la prima scelta, n 2 possibilità per la
seconda, . .. , nk possibilità per la k-esima, il risultato finale può produrre n 1 · n 2 • ••• • nk
risultati diversi.
Esempio 2.2.2 Un tizio possiede 4 giacche, 7 camicie, 1O cravatte, 4 paia di calzoni,

12 paia di calze, 6 paia di scarpe. In quanti modi può vestirsi (ammesso che si vesta a
caso senza tener conto di gradevoli accostamenti di colore)?
Soluzione: se sceglie nell'ordine giacca, camicia, cravatta, calzoni, calze e scarpe i modi
possibili sono: 4 · 7 · 10 · 4 · 12 · 6 = 80640
•
• •
• •
• •
• • •
• • •
• • •
• • •
• •
•
•
giacche camice crava/le calzoni calze scarpe
Nella figura il percorso indica una delle possibili scelte.
Esempio 2.2.3 Gioco del poker Consideriamo una mano di poker con quattro gioca-
tori e un mazzo di 52 carte (poker all'americana). Definiamo rango il numero su una
carta (A, 2, ... , 10, J, Q, K ). In un mazzo ci sono 13 ranghi e 4 semi, fiori, picche, quadri
e cuori. In quanti modi posso pescare 5 carte dal mazzo se voglio che tra le carte pescate
i ranghi siano tutti diversi? (Attenzione: si tiene conto dell'ordine con cui le carte sono
pescate).
Soluzione. Le carte sono 52 perciò la prima carta può essere scelta in 52 modi. Nella
seconda scelta le carte disponibili sono diventate 48, perché il rango della prima carta
esclude le altre tre carte dello stesso rango. Nella terza scelta, per gli stessi motivi, le
carte possibili sono 44. Nella quarta le possibilità sono 40 e nella quinta 36. Totale:
52 · 48 · 44 · 40 · 36 = 158146560
Disposizioni senza ripetizione

Supponiamo di avere li1 elementi diversi fra di loro e di voler estrarre n elementi o, come
si dice, un campione di dimensione 1 ::; n ::; M da questi: in quanti modi, o quanti
campioni, di n elementi ciascuno, posso formare se i campioni possono differire sia per
gli elementi contenuti che per l'ordine con cui appaiono?
Riconduciamo questo problema a quello delle urne: abbiamo M elementi (palline) con-
tenuti in un'urna. Quante n-uple diverse posso fare?
Facciamo estrazioni senza reimmissione (senza ripetizione). Posso scegliere la prima palla
in M modi, poi la seconda in (Ji1 - 1), quindi la terza in (M - 2), eccetera. Il numero
delle n-uple è perciò il seguente:
DM,n = M(M - l)(M - 2) .... (M - n + l) = (M)n (2.1)

n fattori
Permutazioni
Riferendoci allo stesso caso, se facciamo li1 -uple di M elementi senza ripetizione, ab-
biamo le permutazioni:
_,.._
___
DM,M = M(M - l) .... 1 =Ml= (M)M (2.2)
M fattori
Disposizioni con ripetizione

Si abbia la stessa situazione del caso precedente, ma ora ogni palla estratta è reimmessa
nell'urna. In questo caso la dimensione n del campione può essere più grande di M
(numero di palle nell'urna). Ogni volta sono disponibili tutte le M palle per cui con n
estrazioni abbiamo che il numero delle n-uple possibili è:
DM',n =Mn (2.3)

Facciamo l'esempio della schedina del totocalcio: la sua compilazione equivale all'estra-
zione di una palla con reimmissione da un'urna contenente tre palle numerate 1, 2, 3 (3
sta per x). Il campione ha dimensione tredici. La prima scelta può avvenire in tre modi,
poi si reimmette la palla e la seconda scelta può avvenire ancora in tre modi.
Il numero di 13 - uple possibili è perciò:
...__,_..,
3·3·3 · ·3 = 3 13 = 1594323
13 volte
35
Se ora voglio valutare ad esempio qual è la probabilità di una schedina senza pareggi, devo
contare le 13-uple senza 3 (cioè senza pareggi): è come estrarre da un'urna contenente
due sole palle, perciò 2 13. Quindi la risposta è:
213 = (~) 13
313 3
Combinazioni
Supponiamo di avere un totale di M elementi e di voler contare quanti sottoinsiemi di n
elementi si possono formare dagli M. Due sottoinsiemi sono distinti solo se contengono
elementi distinti e non conta l'ordine in cui gli elementi compaiono. Siamo perciò in una
situazione diversa dalla precedente. Tenendo conto dell'ordine i gruppi erano (disposizioni
senza ripetizione):
M!
(M)n = (
M-n.
)' = M(M - 1) ... (M - n + 1).
In questo caso, non interessando l'ordine, abbiamo che, ad esempio, (1, 2, 3, .... , n) non
è distinguibile da (2, 1, 3, ... , n). Quindi tutte le permutazioni diverse di n elementi che
compongono un singolo gruppo non producono nuovi gruppi. Le permutazioni sono n!
perciò per "pulire" il numero delle disposizioni senza ripetizione dalle permutazioni di n
elementi divido (l\1)n per n! e ottengo:
CM n = (M)n = M(M - 1) ... (M - n + 1) = M! = (M) ( 2 .4)

' n! n! n!(M-n)! n
L'ultimo termine prende il nome di coefficiente binomiale per il fatto che la potenza
M
M-esima del binomio (a+ b) è data da (a+ b)M = I: (~)anbM-n_
n=O
Costruendo le disposizioni si prendeva un elemento per volta. Costruendo le combinazio-
ni, poiché nelle n scelte non si tiene conto dell'ordine, è come se l'estrazione non avvenisse
per scelte successive ma prendendo n palline tutte insieme. Si parla in questo caso di
estrazione in blocco.
Oss. 1 ( ~) = n!(/:~n)! rappresenta anche il numero di permutazioni di M oggetti di

cui n uguali tra loro e (1\1 - n) uguali tra loro. È facile poi convincersi che il numero di
permutazioni di M oggetti di cui n 1 uguali tra loro, n 2 uguali tra loro, ... , nk uguali tra
M!
loro (n1 + n2 + ... + nk = M) è •
n1.n2, · · · nk,1
1 1
Ecco alcune proprietà dei coefficienti binomiali:
(!) (M~n)
(!) = ( ! : 11)+ ( M:l)

(n:1)= e:)
:;;
Esempio 2.2.4 Quanti diversi insiemi di iniziali si possono formare con cognomi e nomi
di persone che hanno esattamente un cognome e due nomi (lettere dell'alfabeto inglese)?
Risposta: disposizioni con ripetizione di 26 lettere, prese tre a tre: D~6 3 = 263 = 17.576
E quanti con persone che hanno un cognome e uno o due nomi (cioè ~l più due nomi)?
Risposta:
3 2
D26,3 + D 26 , 2 = 26 + 26 = 18.252
I I
Per le combinazioni con ripetizione si veda l'Appendice 1.

Tabella di conteggio per l'estrazione di N oggetti da li1.
re 1mnu ss 10ne no renn 1n1Ss10ne

M !
ordine MN (M) N = M(M - 1) · · · (M - N + 1) =
(M - N)!
di sordine
(M+:- 1) (M) N M! (M)
1·e d i appendice ~ = N!(M - N)! = N
(2.5)
Esempi di calcolo di probabilità con tecniche di conteggio del

calcolo combinatorio.
Questi esempi si basano sul conteggio dei casi possibili dell'esperimento e dei casi favo-
revoli a un evento. La probabilità dell'evento sarà allora il rapporto
casi favorevoli
casi possibili
Esempio 2.2.5 Trovare la probabilità che 1 e 2 siano vicini se si dispongono casualmente

n numeri l, 2, ... , n.
Casi possibili: n! permutazione di n elementi distinti;
12 • ..• = (n - 2)!
"-v-"
gli altri (n-2)
~12~!··· = (n - 2)!
Casi favorevoli: 1 n-3 ·(n-1).
~
•• 12•"-v-"..• = (n - 2)!
2 n-4
• ..• 12 = (n - 2)!
"-v-"
n-2
(n-l)(n-2)! 2
Risposta: 2 =-.
n.1 n
Esempio 2.2.6 Gioco del lotto: go numeri estraibili; una cinquina consiste di 5 numeri
non ordinati e distinti scelti tra l e 90. Il numero delle cinquine è:
90) = 90! = 43.949.268

(
5 5!85!
Quante sono le cinquine possibili quando sono .fissati due elementi della cinquina stessa
(ambo)?
Sono (838 ). Allora la probabilità di fare ambo è: (838 ) / ( 95°) ~ 0.0025.
37
Esempio 2.2. 7 Come applicazione della definizione 2. 2.1 vediamo questo problema. In
una scatola ci sono 7 lampadine di cui 3 di tipo A, 2 di tipo B e 2 di tipo C. Ne vengono
estratte (senza reimmissione) n a caso (ovviamente n::; 7). Calcolare la probabilità che
tra le lampadine estratte ce ne siano x di tipo A e y di tipo B.
Tra tutte le (:) estrazioni possibili, senza reimmissione di n lampadine da 7, ci sono
(!)modi di estrarne x di tipo A (x = O,l, 2, 3). Per ognuno di questi ci sono (:) modi
di estrarne y di tipo B (y = O, l, 2) e, di nuovo, per ognuno coppia di questi due modi
precedenti ci sono ( 2 ) modi di estrarne n - x - y di tipo C (evidentemente deve
n-x-y
essere O::;n - x - y ::; 2). La probabilità cercata è:
Esempio 2.2.8 Coincidenza di compleanni Vogliamo valutare qual è la probabilità

che almeno 2 studenti, degli n che si trovano in un'aula, abbiano il compleanno nello
stesso giorno. Due innocue semplificazioni:
a) non esistono anni bisestili (solo anni di 365 giorni); b) i giorni hanno tutti la medesima
probabilità di essere compleanno.
Sia O l'insieme di tutti gli eventi possibili, che modellizzo con stringhe di n numeri
compresi tra l e 365, cioè delle disposizioni con ripetizione (attenzione: si tiene conto
dell'ordine) di 365 elementi a n. Il numero degli elementi di O, cioè la sua cardinalità,
si indica con #(O):
365 · 365 · · · · · 365 = 365n.

n volte
Eventi favorevoli:
A= {n° compleanni uguali~ 2} = {n° = 2} U {n° = 3} U ··· U {n° = n}
#(A) = #( { n° = 2}) + #( { n° = 3}) + · · · #( { n° = n})
Questo è un conto complicato. È più semplice procedere così. Detto Ac = {nessun
compleanno uguale} cerchiamo #(A 0 ). Tenendo conto che
#(A)+ #(Ac) =#(O):::;, #(A)+ #(Ac) = 1

#(O)
e quindi:
#(A) + #(Ac) = P[A] + P[A 0 ] = 1:::;, P[A] = 1- P[A 0 ]

#(O) #(O)
Il numero #(A 0 ) di eventi favorevoli ad A 0 è pari a: 365 · 364 · · · · · (365 - (n - 1)) =
(365)n = D365,n· Quindi:
P[Ac] _ 365 · 364 · · · · · (365 - (n - 1)) _ (365)n

365n 365n
Pertanto:
P[A] = l __ 36_5_·_36_4_· _-_(n_-_l )_)
·_·_··_(3_6_5
(2.6)
365n
Ecco alcuni valori di 2. 6, di cui due sorprendenti:
n 10 20 22 23 40 50 60 70
P[A] .117 .422 .476 .507 .891 .970 .994 .999
Già con 23 persone è più probabile trovare due individui con lo stesso compleanno piut-
tosto che compleanni tutti diversi, mentre con 10 siamo sicuri 999 volte su 1000.
ATTENZIONE! P[A] = l (cioè certezza) solo con n = 366 persone.
Osservazione: se non si vuole tenere conto dell'ordine si ha:
#(fJ) #(A G) P [AG]
_(_365Jn
ordin e 365n (365)n ?"" n
( 36 5) = (365)n (365) n
disordine ( 36 5 :n - l)
n n! (364 + n) n
Già con 30 persone c'è una probabilità pari a 0.9 di avere almeno 2 compleanni uguali.
Esempio 2.2.9 Gioco del poker. Facendo riferimento all'esempio 2.2.3 verificare che
la probabilità di avere le seguenti mani servite al gioco del poker all'americana è quella
indicata. Osserviamo che i casi 1), ... , 'l) sono da considerarsi a due a due disgiunti.
1J coppia (2 carte delllo stesso rangoJ: (1t)(~)(1l)(1)(i) (i)/ (552 ) = 0.4226
2J tris (3 carte dello stesso rangoJ: (1/)(!) en
(1)(1)/ (552) = 0.0211
3) poker (4 carte dello steso rango): (1/)(!) (\2) (1)/(552) = 0.002
4) doppia coppia (2 carte di un rango e 2 carte di una altro): (1 3
2 )(~)(~) (1/)(1)/ (552 ) =
0.0475
5) scala (5 ranghi in ordine successivo, non tutti dello stesso seme): [lO(i)5 -10(1)]/ (552) =
0.0039
6) colore in scala (casi 5) e 8) insieme): [10(1)- (i)l/( 552 ) = 0.000014
'l} scala reale (casi 5) e 8) insieme con l'ultima carta un A): (1)/(552 ) = 1.539 x 10-6
8) colore (5 carte dello stesso seme non in scala): [(1)(1 5 ) - 10(1)l/(5 ) = 0.002
3 52
5 2
Soluzione. Intanto le mani possibili sono ( 5 ); evidentemente non conta l'ordine.
1) Si tratta di calcolare quante sono le mani di 5 carte dove ci sia una coppia. Abbiamo
già detto che nel mazzo ci sono 13 ranghi e 4 semi. Scegliamo prima i ranghi poi i semi
e calcoliamo in quanti modi possiamo fare una coppia: (1/)(~).Infatti (1t)sono le scelte
del rango per la coppia, (~) sono le scelte dei semi. Per ogni coppia rimangono tre posti
liberi. I restanti 12 ranghi possono essere scelti in (\ 2 ) modi e, in ogni posto, ci sono (1)
m
modi di mettere il seme. Conclusione: (1t) (1n(i) (i) (1).
2), 3) e 4) Ragionando come in 1) per il caso 2) si hanno (\3)(!) (1n(i) (i) mani. Per
il 3) le mani sono en(!) (1i2)
(1)e per il 4) (1/)(~)(~)(1/)(1).
5), 6) e 'l). In 5) i ranghi possibili sono 10 (la carta più bassa può essere A, 2, ... , 10)
e per ogni carta il seme può essere scelto in (1) modi: mani totali: 10(1) 5
• Tra queste
10(1)hanno lo stesso seme (cioè sono scale colore) e ancora tra queste ultime (1) sono
scale reali. Le scale non colore sono 10(1)
5
- 10(1)
8) Scegliamo prima il seme in (i) modi e poi i ranghi in (1 3

5 ) modi: totale (i) (153). A
questi dobbiamo sottrare il numero delle scale colore 10(1).
Esempio 2.2.10 Dal paradosso di De Merè, già citato nella introduzione: mostrare che
è più probabile ottenere almeno un asso lanciando contemporaneamente 4 dadi (caso '1,),
che non almeno una coppia di assi lanciando 24 volte due dadi ( caso +).
39
Caso -": almeno un asso nel lancio di quattro dadi.
Casi possibili: 64 •
Casi favorevoli
lDDD DlDD DDlD DDDl.
"-v--' '--v-"" "-v--' '--v-""
63 63 63 63
I casi favorevoli però non sono 6 3 • 4 perchè tali casi non sono mutuamente esclusivi.
Perciò la probabilità cercata non è
3
y.
La probabilità si calcola così:
P[almeno un asso]= 1- P[nessun asso],
dove i casi favorevoli a "non escono assi" sono 54 (5 possibilità per il 1°, 5 per il 2° ... ) .
P[almeno un asso]= 1- P[nessun asso]=
= 1 _ n. casi favorevoli a nessun asso = 1 _ (5/ 6 )4 = 0 _5177 _

n. casi possibili
Caso +:almeno due assi con 24 lanci di due dadi.
Le coppie possibili sono 36; se escludo di ottenere una coppia di assi ne rimangono 35.
In conclusione
#(nessuna coppia d'assi in 24 lanci)= 3524 .
P[almeno una coppia] = 1 _ P[nessuna coppia] = 1 _ n. casi favorevoli a nessuna coppia
n. casi possibili
1 - (35/36) 24 = 0.491
2.3 Spazio dei casi possibili ( o campionario)

e spazio degli eventi
Per applicare i metodi della probabilità è necessario definire in modo rigoroso e a priori
tutti i risultati possibili di un esperimento per valutare le chance del verificarsi di ciascuno
di essi quando l'esito di tale esperimento non si può predire con certezza.
Definizione 2.3.1 Pensiamo di associare a ogni possibile risultato di un esperimento

un punto. Chiameremo la collezione di questi punti (che rappresentano tutti i possibili
risultati dell'esperimento) spazio dei casi possibili (sulla maggior parte dei testi si
parla di spazio campionario) O. Ciascun punto viene detto evento elementare. Lo
spazio dei casi possibili si dice finito se #(O) < +oo, infinito altrimenti.
Esempio 2.3.2 L'esperimento consiste nel lancio di un dado a 6 facce. Ogni possibile
risultato è il numero che appare sulla faccia che si presenta verso l'alto quando il dado
si ferma. Allora O = {l, 2, 3, 4, 5, 6} è lo spazio dei casi possibili o campionario e ha
cardinalità 6.
Esempio 2.3.3 L'esperimento consiste nella conta del numero di T in n lanci di una
moneta. Lo spazio dei casi possibili O è fatto da stringhe w = {D1, D2, 03, ., Dn-1, Dn}
lunghe n dove Di= {T} oppure {C} a seconda del risultato dell'i-esimo lancio. Vedremo
che la sua cardinalità è 2n.
Esempio 2.3.4 L'esperimento consiste nella conta dei lanci a vuoto di una moneta bi-
lanciata ( cioè di una moneta il cui centro geometrico coincide con il centro di massa)
per ottenere la prima testa {T}. Se esce {T} al primo lancio il risultato è O. Se esce al
secondo, il risultato è l. Se esce all 'n - esimo lancio il risultato è n - l.
O è fatto da stringhe infinite w = {D1 ,D2,D3,.,Dn-i,Dn,······} dove D; = {T} op-
pure {C} a seconda del risultato dell'i-esimo lancio. Si può vedere che n ha la stessa
cardinalità dell'insieme dei numeri reali, cioe e (Appendice 1}.
Esempio 2.3.5 L'esperimento consiste nel valutare la durata di una lampadina a partire
dall'istante in cui viene accesa. Se la lampadina brucia subito il risultato è O. Altrimenti
è un numero reale maggiore di O. Allora n = JR+ U {O}.
Definizione 2.3.6 Un evento è una congettura riguardante l'esperimento. Sarà perciò

il risultato di una qualche aggregazione insiemistica di eventi elementari. Un evento è
dunque un sottoinsieme dello spazio n.
Esempio 2.3. 7 Lancio del dado: A = {esce pari} {2} U { 4} U {6} è un evento in
quanto sottoinsieme di O;
Esempio 2.3.8 Scelta di una carta da un mazzo di 52. n = {l, 2, 3, .. , 52} pensando ad
esempio che da 1 a 13 siano cuori, da 14 a 26 quadri, da 27 a 3g fiori e da 40 a 52
picche. Lo spazio campionario ha cardinalità 52. A = {esce una carta di picche} è un
evento in quanto sottoinsieme di n.
Esempio 2.3.9 Durata X di una lampadina, X misurata in ore. A = {1000 < X <
2000} è un evento.
Oss. 2 L'utilizzo dei simboli della teoria degli insiemi è molto potente per la "visualiz-
zazione" degli eventi. Indicato con A un evento, il suo complementare insiemistico Ac
sarà la sua negazione logica, cioè l'evento che si verifica quando non si verifica A. Ana-
logamente dati due eventi A e B, l'unione insiemistica A U B rappresenta l'evento che
si verifica quando si veri.fica A oppure B, oppure entrambi; mentre l'intersezione insie-
mistica AB l'evento che si verifica solo quando si verificano entrambi. Utilizzando le
operazioni insiemistiche interpretate logicamente si riescono a descrivere tutti gli eventi.
A questo punto non è ancora definito con precisione il concetto di evento. Possiamo però
definire con precisione cosa è ragionevole chiedere a una collezione A di eventi. Vengono
richieste le seguenti proprietà.
1) n E A (ci sia l'evento certo)
2) A E A ::::}Ac E A (se può verificarsi A si deve poter verificare anche Ac)
n
3) A1, ... , An E A::::}UA; E A (se gli A; sono eventi possibili allora può verificarsi anche
1
l'evento che è implicato da uno qualunque degli A;).
Oss. 3 Indicheremo la negazione di A con A e oppure con A indifferentemente.
Definizione 2.3.10 Una collezione A con le proprietà 1), 2) e 3) si dice algebra.
Esercizio 2.3.1 Verificare che, se sono soddisfatte le proprietà 1), 2), 3), sono soddi-
sfatte anche le due seguenti:
4) 0 E A;
n
5) A1, ... , An E A::::}nA; E A
1
41
Nota: nè l'evento implicato da ogni risultato mentre 0 è l'evento impossibile che nessun
risultato implica.
Definizione 2.3.11 Si dice spazio degli eventi A una collezione di sottoinsiemi di n

che goda della seguente proprietà: presa una in.fmità numerabile di sottoinsiemi di n che
stiano in A la loro unione {che è ancora un sottinsieme di O) sta ancora in A cioè:
(X)
A1,A2,·· E A=} UA; E A (2.7)
1
Una collezione A di sottoinsiemi che goda della proprietà 2. 7 si chiama CJ-algebra (vedere
anche l'Appendice 1).
Esempio 2.3.12 Supponiamo che due persone lancino alternativamente una moneta.
Vince il gioco chi fa testa per primo. L'evento A = {vince chi ha lanciato per primo} è
l'unione di infiniti eventi A; = { la prima testa esce al lancio 2i + 1};i = O,1, 2, ....
Esempi di Cl-algebre
Esempio 2.3.13 L'insieme delle parti di un insieme n, cioè l'insieme formato da
tutti i sottoinsiemi di n, è una CJ-algebra.
Esempio 2.3.14 Sia A e n. L'insieme A i cui punti corrispondono ad A, A e, n, 0 è
una CJ-algebra1 e quindi è uno spazio degli eventi. È questo il caso che può presentarsi
se, nel lancio di un dado a 6 facce (O = {1, 2, 3, 4, 5, 6}) fossimo interessati solo all'uscita
di un numero pari oppure dispari. Preso A = {2, 4, 6} lo spazio degli eventi A è quello
dell'esempio.
Oss.: da questo semplice esempio si vede che gli eventi elementari w; non devono
necessariamente appartenere ad A.
Esempio 2.3.15 Nel lancio di un dado a quattro facce, n = ({l},{2},{3},{4}) sup-
poniamo di essere interessati all'uscita dei due numeri più bassi A = {l, 2} oppure del
numero più alto B = {4}. La minima CJ-algebra che contiene A e B si ottiene aggiun-
gendo ad A e B i loro complementari Ae = {3, 4} e Be = {l, 2, 3} e quindi l'unione
di tutti, prima a coppie cioè A U B = {l, 2, 4}, A U Be = {l, 2, 3}, Ae U B = {3, 4},
AuAe = B uBe = Ae uBe = n, poi a terne, AuAe UB, AuAe uBe, AUB uBe
e A e U B U Be, ma questi sono tutti uguali a n. Poi l'intersezione prima a coppie, ma
l'unico elemento nuovo, oltre a 0, è A e Be = {3}, poi a terne, ma questi sono tutti
vuoti. Alla fine si trova:
{1, 2}; {4}; {3, 4}; {1, 2, 3}; {1, 2, 4}; n; 0, {3}.
Questi elementi costituiscono lo spazio degli eventi A relativo al risultato dell'esperimento
che ci interessa. La cardinalità di A è pari a 8, la metà della cardinalità dell'insieme
P(O) delle parti di n che è 24 = 16, e che è la massima CJ-algebra che contiene A e B.
Esempio 2.3.16 Supponiamo che gli eventi elementari siano i numeri reali r, tale che
-oo < r < +oo. Consideriamo i sottoinsiemi di JR costituiti dagli intervalli semiaperti
a destra, cioè della forma (-oo, r] (r eventualmente uguale a +oo). Sia B la CJ-algebra
generata da questi. Essa contiene insiemi del tipo
+(X) 1 +(X)
(r,+oo) = (-oo,rl°; (-oo,r) = LJ(-oo,r
n=l
- -];
n
{a}= n (a-¼,a];
n=l
1Se !l è finito o--algebra e algebra sono la stessa cosa.

(-oo,b]n(a,+oo)=(a,b]; [a,b); (a,b); [a,b]
eccetera.
La CJ-algebra B prende il nome di CJ-algebra dei borelliani di JR (vedi Appendice 1).
Cardinalità dello spazio degli eventi A =P(O), insieme delle parti di O, quando
#(O)< +oo
Quanti sono gli elementi di P(O) se #(O) < +oo? In altre parole: se la cardinalità di O
è n, qual è la cardinalità di P(O)? P(O) è, per definizione, l'insieme formato da tutti i
sottoinsiemi dell'insieme O. Ricordiamo che tra i sottoinsiemi di O ci sono 0 e O stesso.
Poi ci sono gli insiemi formati da un solo elemento: sono (7) = n modi in cui si può
scegliere un elemento tra n.
Gli insiemi formati da 2 elementi sono: (;). Quelli formati da tre elementi sono: (;)
eccetera. Il numero totale è I:~=o(~). Ricordando che (a+ br = I:~=o
(~)an-kbk, per
a = b = I abbiamo 2n = I:~=O G).
Nota: Si può ragionare anche in questo modo ( #(O) < +oo). I sottoinsiemi di O sono:
0={} ...__,._.,o}=O
{o} {oooo
n
In ogni sottoinsieme un elemento w; E O è presente oppure no. Perciò possiamo pensare

a un sottoinsieme codifìcato da una stringa di O e 1 nel modo seguente:
I ~1 I ~21 °I
~31 1 I I ~, I I I ~n I
Si ritiene che l'elemento w; appartiene al sottoinsieme se nella colonna di w; c'è 1 mentre
non gli appartiene se c'è O. I sottoinsiemi sono allora tante quante sono le stringhe di n
elementi uguali a O e 1 cioè 2n = D~ n = disposizioni con ripetizione di 2 elementi a n.
Per altre osservazioni su questo esercizio vedere l'Appendice 1.
Esempio 2.3.17 Studiamo un sistema termodinamico (isolato) molto semplice, costitui-

to da un numero N piccolo di molecole di un gas sufficientemente rarefatto (a pressione
atmosferica la distanza media fra le molecole di un gas è circa 2 · 10- 7 metri, valore circa
mille volte maggiore della lunghezza d'onda di de Broglie}. In questo caso le interazioni
fra le molecole sono trascurabili, e il gas è assimilabile a un gas perfetto.
@
A B A B
(j)
(]) (])
(J)
Q) Q)
©
© @
Q) Q)
Supponiamo di disporre di un contenitore per il gas diviso in due parti. Un possibile

macrostato M consiste in questo caso di una coppia di numeri che indicano il numero
N A di molecole che occupano lo spazio A e il numero N - N A di molecole che occupano
lo spazio B, A e B di ugual volume. I macrostati possibili con N = 6 molecole, sono 7:
43
A un dato istante il sistema può essere nello stato N A, N - N A.
I microstati m corrispondenti al macrostato (N A, N - N A) descrivono quali (non solo
quante) particelle stanno in A e B. Per ogni ma crostato (N A, N B) ci sono tanti microstati
quanti sono i modi di disporre N molecole in modo che N A siano in A e N B in B, cioè:
N!
6!
Se NA = 4 e N - NA = 2 i microstati sono 4121= 15
È facile constatare che con N molecole i microstati possibili sono 2N mentre i macrostati
sono N + 1.
N!
Indichiamo con C(NA) = '( )' il numero di configurazioni del sistema in base
NA,N-NA,
alle quali ci sono NA molecole in A (e N - NA in B). Le molecole sono sempre in
movimento, quindi il sistema cambia costantemente configurazione. Per procedere nella
nostra esposizione considereremo i microstati equivalenti o equiprobabili, nel senso che il
sistema ( quando è in equilibrio) passa lo stesso tempo in uno qualunque dei microstati.
Applicando la de.fmizione classica di probabilità si ha:
N!
N! N
Se N è pari, N A!(N _ N A)! è massima se N A = 2 mentre se N è dispari il massimo
· t o per N A = -N -- l e N A = -N +
e' raggiun l È evi'den t e ch e i·1 sis
. t ema t en de a d.isporsi.
2 2-.
nelle configurazioni più probabili e quindi a passare la maggior parte del tempo nelle
configurazioni in cui ci sono circa metà delle molecole da una parte e metà dall'altra.
Chiameremo disordinati i macrostati cui corrispondono un elevato numero di microstati:
è evidente che i macrostati più disordinati sono quelli in cui le molecole sono distribuite
circa metà per parte.
Si osservi che con un numero piccolo di molecole (6 nel nostro caso) la probabilità di
trovare tutte le molecole nel settore A è ancora pari a ~~1

= 0.0156, cioè non trascurabile.
Come già anticipato nell'introduzione, in una mole di una qualunque sostanza chimica
l'ordine di grandezza del numero di molecole presenti è pari a 1023 molecole. In questo
1
caso la probabilità di avere una configurazione N A = 1023 e N B = O è pari a 21023 , un
numero ultra infinitesimo e l'evento { tutte le molecole nello spazio A} è da considerarsi
impossibile.
L'entropia S introdotta da Clausius rappresenta il conteggio logaritmico del numero dei
microstati corrispondenti alla presenza di n molecole nel settore A. Precisamente il legame
è il seguente:
S = klnC(n) (2.8)
dove k è la costante di Boltzman (1.38 · 10- 23 joule}.
La scelta del conteggio logaritmico è motivata dal fatto che l'entropia è additiva e che i
numeri C(n) sono in generale molto grandi, quindi i loro logaritmi sono più maneggiabili.
Dalla 2.8 si capisce che quando il sistema evolve verso le configurazioni più probabili
C( n) cresce, il disordine cresce e l'entropia cresce. Il macrostato al quale è associato il
maggior numero di microstati viene detto "di equilibrio". Per quanto come già osservato
un sistema (isolato) evolve spontaneamente verso l'equilibrio, cioè verso le situazioni di
massima probabilità, di massimo numero di configurazioni microscopiche, e di massima
entropia (come asserisce il Secondo Principio della Termodinamica).
Come vedremo nel capitolo 10 sapere che un sistema si trova in uno stato molto probabile
non fornisce molta informazione mentre sapere che si trova in uno stato molto improbabile
è sorprendente: è naturale interpretare questa sorpresa come una quantità elevata di
informazione.
2.4 Probabilità
Definizione 2.4.1 Funzione di probabilità è una funzione a- additiva e positiva (cioè
una misura) P[·l, avente come dominio A (spazio degli eventi) e come codominio l'in-
tervallo [O,l]. Trattandosi di una misura P[·] soddisfa le seguenti proprietà:
1) P[A] ~ O,VA E A;
2) P[O] = l;
3) (a-additività} Se A 1 , A 2 , .. è una successione di eventi di A a due a due disgiunti
(X) (X)
(cioè Vi,j; i =f.j; AiAj = 0) allora P[y Ai]= I: P[Ai]

1
n n
Se la cardinalità di supera ~o (cioè gli elementi di sono una infinità non numerabile)
per ragioni riguardanti la funzione di probabilità definita su A, non è più garantito
che tutti i sottoinsiemi di n
possano stare in A. Le motivazioni di questo fatto, che
dipendono dall'impossibilità di definire, in certi casi, una funzione di probabilità su ogni
sottoinsieme di n, esulano dalle finalità di questo corso.
Proprietà di P[·]
Teoremino 2.4.2 (:•)
P[0] = O.
00 00 00 00
Dim.: Vi, Ai = 0 ::::}0 = UAi ::::}P[0] = P[UA;] = I::P[Ai] = I::P[0]
1 1 ,...~l 1
(per la 3)
che è vera sse P[0] = O •
Oss. 4 Se #(O)= +oo possono esistere eventi possibili con probabilità O (e, dualmente,
eventi con probabilità 1 diversi dall'evento certo O) come vedremo più avanti.
Teoremino 2.4.3 (:•) Dati gli Ai, i= 1, ... , n, con AiAj = 0 se i =f.j allora:
n
P[yA;J = LP[Ai]
1
Dim.: Si può pensare che Ak = 0 se k > n

-
+I e che quindi UAi = UAi •
1 1
45
A E A::::}P[A] = 1- P[A].
Dim.: n= A u A, A n A= 0::::}P[O] = P[A u A] = P[A] + P[A] •
VA, B E A, P[A U B] = P[A] + P[B] - P[AB].

Dim.: AUB = AuAB,AnAB = 0; P[AUB] = P[A] +P[AB]; ma AB= B-A,
B = (B -A) U AB da cui P[B] = P[B -A]+ P[AB].
Quindi: P[A U B] = P[A] + P[B] - P[AB] •
Graficamente vedi fig. 2-3.
Teoremino 2.4.6 {:•) A,B E A/\A e B =} P[A]::; P[B].

Dim.: B = AB u AB/\AB =A=} P[B] = P[AB] + P[AB] = P[A] + P[AB] ~ P[A] •
Valgono le seguenti relazioni(:•):
P[AB] ::; VP[A]P[B] I (2.9)
Infatti: AB e A=} P[AB] ::; P[A]/\AB e B =} P[AB] ::; P[B] da cui P[AB] 2 ::; ...
I ii) P[AB] = P[A] + P[B] - P[A u B] I (2.10)
I iii) VP[A]P[B] ~ P[A] + P[B] - 1 I (2.11)

Segue infatti da 2.9 e 2.10.
1 iv) (2.12)
Teoremino 2.4.7 (disuguaglianza di Boole):
A1, ... , An E A::::}P[A1 U ... U An]::; P[Ai] + ..+ P[An] (2.13)

Dim.:P[A 1 U A 2 ] = P[Ai] + P[A 2 ] - P[A 1 n A2 ] ::; P[Ai] + P[A 2 ]. Poi si procede per
induzione.•
Definizione 2.4.8 Spazio di probabilità Uno spazio di probabilità è la terna (O, A, P[·]),
dove n è lo spazio campionario e P[·] è la funzione di probabilità assegnata sulla a- algebra
A.
In molti problemi, lo spazio campionario n contiene un numero finito di punti N. Se

è ragionevole ritenere che i punti Wi di n siano equiprobabili, cioè se Vi,P[{wi}] =
~, allora la probabilità di un evento A si calcola con tecniche di conteggio già viste
precedentemente:
P[A] = #(A) = #(A) (2.14)

#(O) N
dove #(A) è il numero di Wi che stanno in A.
Definizione 2.4.9 Funzione di probabilità uniforme Una P[·] che soddisfa la 2.14
è detta funzione di probabilità uniforme (nel caso di spazio campionario finito).
Esempio 2.4.10 Consideriamo l'esperimento: lancio di una moneta. 00 = {T, C};

#(0 0) = 2. In condizione di moneta bilanciata abbiamo P[{T}] = P[{C}] = ½-
Esempio 2.4.11 Lancio di 2 dadi Lo spazio dei casi possibili Oj = 01 x 01 {dove
0 1 = {l, 2, 3, 4, 5, 6} è dato dalle coppie {i, j}, con 1 ::; i, j ::; 6, cioè da 36 punti (6 · 6).
In ipotesi di dadi bilanciati ogni punto ha probabilità 1/36.
Detto A1 = { totale delle due facce =7} = { (1, 6) U (2, 5) U (3, 4) U (4, 3) U (5, 2) U (6, l)};
P[A1] = #(A)/#(0) = 6/36 = 1/6.
Esempio 2.4.12 La nutella Per aiutare l'intuizione potete pensare a O come a una
fetta di pane su cui viene spalmata una certa quantità di nutella, il cui peso complessivo
sia pari a l {kg}. Su quei sottoinsiemi di O che sono eventi rimane così depositato un
certo peso di quella crema squisita. Il caso in cui la nutella è spalmata in modo che
su parti uguali di O ci sia la stessa quantità "modelizza" una distribuzione un~forme di
probabilità. I sottoinsiemi di O con uno strato più spesso di nutella saranno gli eventi
più probabili ( quelli più interessanti per il goloso).
Esempio 2.4.13 Siano A, B, C tre eventi; vediamo come possiamo ottenere da questi,
utilizzando le operazioni insiemistiche, altri eventi:
si verificano A e B se ne verifica almeno uno

si verifica solo A
Esercizio 2.4.1 Descrivere, utilizzando i simboli della teoria degli insiemi, gli eventi
indicati in ,figura.
se ne verifica uno e non altri

se ne verificano almeno due insieme
se ne verificano due e non altri
©~5
si verificano A, B, C
®
Esempio 2.4.14 Consideriamo il seguente modello. Un'urna contiene li1 palle (nume-
rate da l a M e quindi distinguibili}; le prime N sono difettose. Estraiamo un campione
di k palle. O= {(x 1, ..,xk): x; = numero palla estratta alla i-esima estrazione}. Sia
47
Ah l'evento {h palle nel campione sono difettose (O ::; h ::; k)}, cioè Ah è quel sot-
toinsieme di O per il quale esattamente h delle k palle sono numerate da l a N. Sarà
P[Ah] = ~(~/ .Consideriamo due tipi di estrazione.
Con reimmissione In questo caso #(O) = Mk. Considerato che ci sono (~) modi di
scegliere h posizioni su k e che, per ognuno di questi, ci sono Nh(M - N)k-h differenti
k-uple, #(Ah)= (~)Nh(M - Nl-h. Allora:
( k)Nh(M - N)k-h
P[Ah]= h Mk (~)C~)h(l-~)k-h (2.15)
Senza reimmissione #(O)= (M)k e #(Ah)= (~)(N)h(M - Nh-h- Allora 11:
P[A ] = (~)(N)h(M - N)k-h (~) (~:/:)

(2.16)
h (M)k (~)
Oss.: converremo che, per esempio, (.M)o = 1.
Esempio 2.4.15 Vorremmo sapere la probabilità dell'evento A= {una mano di bridge

(13 carte) contiene esattamente 6 picche}.
Estrazione senza reimmissione:
M = palle (carte) totali= 52 N = palle difettose = carte di picche= 13
k = campione = 13 h = n° palle difettose = n° picche in una mano = 6
( 13) (52-13)
P[A] = 6
(rn13 - 5
.
= O 042
Esempio 2.4.16 Pesci in un lago Alcuni ecologi vogliono stimare il numero M di

pesci in un lago. Procedono così: catturano 50 pesci, li "marcano", li ributtano nel lago.
Passa qualche tempo (sufficiente perché i pesci si rimescolino, ma non troppo lungo,
altrimenti qualche pesce potrebbe morire, variando M) e gli ecologi catturano altri 50
pesci. Ne trovano 3 marcati. Qual è la probabilità che ciò avvenga? Qual è l' M che
massimizza questa probabilità?
Il modello è quello dell'urna con M palle, di cui 50 difettose (i pesci marcati). Si deve
valutare la probabilità che, estraendo 50 palle se ne trovino 3 difettose (marcate) senza
ributtare ogni volta il pesce nel lago (senza reimmissione):
(2.17)
dove: ( 53°) è il numero di modi in cui si possono scegliere 3 difettose su 50, ( ~ 0-::_53°)è il
numero di modi in cui si possono scegliere (50-3) palle senza difetti su (M - 50) senza
IIOsserviamo che:
( k)- k!, _ N!, _ (M-N)! , _M!
h - h!(k-h)!, (N)h - (N-h)!, (M - N)k-h - (M-N-(k-h))!, (M)k - k!
Allora:
(hk)(N)h(M-N)k_h _ k!
N! (M-N)!
~ (M-N-(k-h))!
(M)k - h!(k-h)!
N! (M-N)!
"iiT(iv=-ii)T(k-h)!(M-N-(k-h))!
Ml
k!(M-k)!
difetti, (~) è il numero di modi in cui si possono scegliere 50 palle su M. È evidente
che i sostantivi "pesci" e "palle" possono essere scambiati. Consideriamo alcuni valori
di 2.16 per vari M:
M PM [3] M PM[3] M PM [3]

100 3.91- 10-,l 831 0.238290 835 0.238289
450 0.1012 832 0.2382914 840 0. 238262
800 0.2376 11 833 11 0.2382918 11 1900 0.1020
830 0.238287 1 834 1 0.2382910 1
1.000.000 2.3 · 10-"
Il valore che massimizza PM [3] è i1 = 833.

Se si stabilisce che la stima sia il valore di li1 che realizza nel lago la stessa proporzione
2
tra pesci totali e pesci marcati del campione si ottiene \ 0 = ~ da cui li1 = 5 ~ = 833.33.
In generale se si hanno M pesci nel lago, se ne marcano N, se ne catturano k e di questi
h sono marcati andiamo a cercare la stima di massima verosimiglianza, cioè il valore che
. p [h] (~) (~:!:)
ren d e massimo M = ('i;)
PM-dh]
A questo scopo vediamo quando: PM[h] > 1
(~)(Mk!hN) ('i;)
(M,;--1)
(M - 1- N)!k!(M - 1- k)! M!(k - h)!(M - N - (k - h))!
(M - l)!(k - h)!(M - 1- N - (k - h))! (M - N)!k!(M - k)!
_ M(M-N-(k-h)) > l
- (M-N)(M-k)
Perché sia soddisfatta deve essere:
M(M - N - (k- h)) > (M - N)(M - k)
da cui
M k
Mh > Nk e quindi N > ,;·
Conclusione: si vede che PM è massima (più o meno) per quel valore di !v1 che realizza
tra numero di pesci totali presenti nel lago e numero di pesci marcati la stessa proporzione
che c'è tra numero di pesci del campione e pesci marcati presenti nel campione. Questo
non è sorprendente. Se il campione scelto è veramente casuale (vedi capitolo 11), cioè è
un buon campione, allora riproduce in piccolo ciò che la popolazione presenta in grande.
Quindi se il campione è buono la cosa che "deve" capitare con maggiore probabilità è la
riproduzione nel campione della proporzione presente nella popolazione.
Esempio 2.4.17 Piene dei fiumi Presso la chiusa di Calamazza, sul .fiume Magra,
sono state registrate, per 34 anni, le situazioni di inondazione, cioè i momenti in cui è
stato misurato un passaggio superiore ai 300 m 3 / sec.
I risultati sono riassunti nella seguente tabella:
(*)
x = n. possibile di inondazioni per anno o 1 2 3 4 5 6 7 8 g
numero di anni con x inondazioni o 2 6 7 g 4 1 4 1 o
frequenze relative di N = x o 2
34
6
34
7
34
9
34
4
34
1
34
4
34
1
34 o
49
Da questi dati ricavare la probabilità che in un anno ci sia almeno una inondazione.
La tabella (*) rappresenta 34 osservazioni da N, il numero di inondazioni in un generico
anno. Da queste osservazioni induciamo una distribuzione di frequenze dei valori di N
che, in mancanza di meglio identifichiamo con la sua distribuzione di probabilità. Questa
distribuzione di probabilità non sarà quella vera ma, con i dati che abbiamo, è tutto quello
che possiamo permetterci.
n ={O::; N::; S;N intero};A = {N = O};A0 = {N ~ l}. L'evento che ci interessa è
Ac.
P[A] = O quindi P[A 0 ] = 1.
Se i dati fossero invece quelli misurati presso una stazione idrogeologica su .fiume Bisagno
dal 1931 al 1995 inclusi, che hanno registrato una sola inondazione nel 1945, 1953, 1979,
1992 , due inondazioni nel 1951, e nessuna inondazione negli altri anni, quale sarebbe la
probabilità di almeno una inondazione per anno?
La tavola delle frequenze è la seguente:
x = n. possibile di inondazioni per anno o 1 2

numero di anni con x inondazioni 60 4 1
60 4 1
frequenze relative di N = x 65 65 65
n= {N = O} U {N = l} U {N = 2};A = {N = O};A0 = {N > O}. L'evento che ci

interessa è ancora A e.
4 1 5
P[A 0 ] = P[{N = l} u {N = 2}] = P[{N = l}] +P[{N = 2}] = 65 + 65 = 65 = 0.0769.
Osservazione Come esempio abbiamo preso una serie storica di rilevazioni dei mo-
menti di piena di un fiume ma il modello funziona, per esempio, anche se alla borsa
di New York fossero state registrate per 34 anni il numero di cadute superiori al 10%
dell'indice Dow Jones. Allora la prima riga della tabella(*) conterrebbe il numero po-
tenziale per anno di cadute superiori al 10%, la seconda riga il numero di anni con cadute
superiori al 10% e la terza riga le frequenze relative. Si sarebbe allora trattato di trovare
la probabilità che in un anno ci fosse almeno una caduta del 10%.
Esempio 2.4.18 Pensiamo al lancio, ripetuto n volte di una moneta (non sappiamo
se bilanciata, cioè se P[{T}] = P[{C}]). I punti di n0 sono n-uple o stringhe di n
elementi w = {D1, D2, 03, ., Dn-1, Dn} dove Di = {T} oppure {C} a seconda del risultato
del lancio. La cardinalità di n0 è 2n. Ipotizziamo di distribuire la probabilità in modo
un~forme su n0. Allora ogni evento elementare w ( cioè per ogni stringa di n tra T e C)
è P[ { w}] = 2~ . Ovviamente n0 = f1no.
n
Osservazione importante: supponiamo n = 100. L'evento {TT . .. T} che si verifica
quando T esce 100 volte di seguito ha la stessa probabilità dell'evento {TCTC ... TG} che
si verifica quando T e C si alternano a ogni lancio e anche dell'evento {T ... TG ... C}
che si verifica quando T esce nei primi 50 lanci e C esce nei secondi 50. Apparentemente
ciò contrasta con l'intuizione la quale ci suggerisce di aspettarci, in 100 lanci, un numero
di T circa uguale al numero di C. Ma, attenzione, l'evento {in 100 lanci di una moneta
bilanciata il numero di teste è più o meno uguale al numero di code} non coincide con
l'evento {TCTCT ... CTC} ma con la riunione di tutti i risultati in cui il numero delle
T è più o meno uguale a quello delle C.
Esempio 2.4.19 Pensiamo al lancio, ripetuto n volte di una moneta non bilanciata.
I punti di n0 sono n-uple o stringhe di n elementi w = {D1, D2, 03, ., Dn-1, Dn} dove
Di = {T} oppure {C} a seconda del risultato del lancio. La cardinalità di n0 è 2n.
Ma non siamo in condizioni di equiprobabilità degli eventi elementari e P[ { w}] =/- 2~.
Calcolare P[ { w}] in questo caso è più delicato.
Si consideri la seguente ,figura:
Nel cerchioci sono 1000 palle, x teste 0

e 1000 - x code©. A ogni estrazione
si reimbussola:le probabilità di © e di©
rimangonosemprele stesse, cioè:
X
p=- =PI@/
1000
1000-x
q= 1000 =Pf©I
Figura 2-1:
X
Si potrebbe immaginare di procedere in questo modo. Supponiamo che p = 1000 con
1000- X
O ::; x ::; 1000 sia la probabilita che esca T a ogni lancio ( e q = 1000 la probabilità
che esca C). Allora lanciare la moneta equivale a scegliere una palla da un serbatoio di
1000 palle di cui x marcate T e 1000 - x marcate C. III Prima del successivo lancio si
reimbussola. Contiamo in quanti modi, lanciando n volte, si può realizzare una sequenza
di {T, C, T, ... , T} supponendo che in questo risultato le teste siano k e le code n - k.
In ogni casella in cui c'è una T abbiamo x casi favorevoli a ogni lancio. In ogni casella
dove c'è una C abbiamo 1000 - x casi favorevoli a ogni lancio. In totale i casi favorevoli
a un risultato con k Te n-k C sono xk (1000- x )n-k. I casi possibili sono 1000n. Quindi
xk(lO00 - x)n-k xk (1000 - x)n-k
P[{T,C,T, ... ,T}] = 1000n = l000k 10oon-k =pkqn-k
k teste. n-k code
Tutto questo funziona se p = P[{T}] è razionale. Vedremo nel prossimo capitolo, dopo
aver introdotto l'indipendenza tra eventi, che anche per p irrazionale l'espressione di
questa probabilità è la stessa.
Esempio 2.4.20 Consideriamo un nuovo esperimento che consiste nel lancio, ripetuto
(X)
infinite volte, di una moneta bilanciata. Lo spazio dei casi possibili adeguato è n = f1no.
Un evento elementare sarà una stringa in.finita {T, T, C, C, T, .. }.
# (n) = e (vedi Appendice 1), cioè n non è numerabile. Poichè nel passaggio da un
evento di n0 a un evento di n0 (n < m) la probabilità di un evento elementare diminuisce
passando da 2~ a 2~. Si capisce allora che ogni evento elementare di n ha probabilità
nulla. Ciononostante, ogni evento elementare è possibile (infatti una almeno delle infinite
stringhe deve realizzarsi nell'esperimento). Abbiamo così un esempio di evento possibile
con probabilità nulla.
Oss.: Un evento A=/- 0 possibile ma con probabilità P[A] =Osi chiama quasi impossibile
mentre se A=/- n e P[A] = 1 l'evento si chiama quasi certo.
III Per ora, per applicare le formule dell'esempio 2.4.14 riterremo che le palle contrassegnate con T siano
numerate e riconoscibili, esattamente come quelle contrassegnate con C. Nel capitolo 3 rinunceremo a
questa riconoscibilità, senza che il risultato finale cambi.
51
Esempio 2.4.21 Il problema delle chiavi: caso A Il signor Negroni torna a casa
una sera ubriaco. In tasca han chiavi di cui una sola apre la porta d'ingresso. I fumi
dell'alcool non gli permettono di riconoscere quella giusta e procede per tentativi estraendo
ogni volta una chiave senza reimmetterla in tasca. Sia Ek = {la chiave giusta viene
estratta al k-esimo tentativo}, 1 ::; k ::; n. Qual è la probabilità di Ek?
Le possibili estrazioni di n chiavi sono in numero .finito, quindi #(O) è un numero intero.
Ci sono due modi di procedere.
Primo modo (in cui non si ipotizza ancora che la chiave giusta sia in posizione k).
Si contano tutte le possibili estrazioni, cioè tutti i modi in cui Negroni può estrarre (senza
reimbussolo) tutte le n chiavi dalla tasca. Le estrazioni sono n!.
Poi si contano le estrazioni favorevoli, cioè quelle in cui la chiave giusta è in posizione
k; queste sono (n - l)!. Allora:
casi favorevoli (n - l)! 1

P[Ek] = ---- (2.18)
casi possibili n! n
Secondo modo (in cui si ipotizza che la chiave giusta sia in posizione k).
- - -1- - - - - - -
I
I I
__ j ___ j ___ ~~-~~
n n- I n-2 n. (k. I)
kposti
Figura 2-2:
Dare per scontato che la chiave giusta è in posizione k signi.fica sostanzialmente dire che
si possono riempire solo le prime k celle (vedi figura). Quindi i casi possibili diventano
n · (n - l) · · · · · (n - (k - l)). I casi favorevoli sono quelli che hanno chiavi sbagliate (che
sono n- l) nelle prime k- l posizioni, cioè (n -1) · (n- 2) · · · · · (n- 1- (k - 2)). Allora:
p [E k] = -'-(
n_------'l
)_·--'-( 1
)_·_··_·_·("'-n_-_k_+-----'-l)
n_-----'2 (2.19)
n · (n - 1) · · · · · (n - k + l) n
Il problema delle chiavi: caso B Supponiamo che Negroni sia tanto, tanto ubriaco.
Se estrae una chiave che non funziona, la rimette in tasca e ne sceglie un'altra. Qual è
in questo caso la probabilità di Ek?
La situazione è totalmente diversa da quella precedente. I casi possibili infatti (se
non si ipotizza che la chiave giusta sia in posizione k) sono una infinità non numerabile,
perché sono tanti quanti le stringhe infinite di O e l. Quindi possiamo applicare solo la
tecnica del secondo modo del caso A ( quello in cui si ipotizza la presenza della chiave
giusta in posizione k}. Precisamente, essendoci reimbussolo, abbiamo k- l celle, ognuna
delle quali si può riempire in (n - 1) modi. Quindi abbiamo esattamente (n - 1t- 1
stringhe. Estraendo le chiavi k volte, sempre a causa del reimbussolo, le stringhe sono
n k. In conclusione:
(n- l)k-l -- (n-n l)k-1 ;;:l

Pk = P[Ek] = nk (2.20)
1 n-1
dove - è la possibilità di estrarre la chiave giusta a ogni tentativo mentre -- è quella
n n
di estrarre la chiave sbagliata. Rivedremo una seconda strada per affrontare il caso B
dopo aver introdotto il concetto di indipendenza.
Qual è la probabilità che, in questo caso, occorrano più di k tentativi per arrivare alla
chiave giusta?
+oo 1 + 00 n - l
Dalla 2.17 si ha con facilità: I: Pk = - I: (--t- 1 = 1.
k=I n k=I n
k l + 00 n - l . n - l 1 +oo n - l . 1
Allora qk = l - I: p; = - I: (--)'-
i=I n i=k+I n
1 = (--)k-
n
I:(--)'
n i=O n
= (1 -
n
-t
è la
probabilità che occorrano più di k tentativi per trovare la chiave giusta.
2.5 Principio di inclusione esclusione

Vediamo ora un importante teorema che facciamo precedere da una osservazione. Già
sappiamo che P(A U B) = P(A) + P(B) - P(AB).
Figura 2-3:
Infatti per la probabilità dell'unione di due insiemi se sommiamo P(A) a P(B) aggiungia-
mo due volte il peso 1 della parte comune AB; questa va perciò tolta una volta perché il
conto sia corretto. Se vogliamo invece la probabilità dell'unione di tre insiemi sommando
P(A), P(B) e P(C) aggiungiamo due volte la parte 1, due volte la parte 2, due volte la
parte 3, tre volte la parte 4. Perchè il calcolo sia corretto dovrà quindi essere:
P(A U B U C) = P(A) + P(B) + P( C) - P(AB) - P(AC) - P(BC) + P(ABC)
Q)
Figura 2-4:
53
Esempio 2.5.1 Siano dati i due circuiti elettrici in figura dove sono indicati con i, (i=
1, .. , 5) cinque interruttori posti in ciascuno dei due circuiti. Tutti gli interruttori fun-
zionano in modo indipendente. Per entrambi i circuiti sia Ri = {I 'i-esimo interruttore
è chiuso (e quindi passa corrente)} e Pi = P[Ri]; A= {passa corrente tra XA e YA} nel
circuito CA e B = {passa corrente tra x B e y B} nel circuito C B.
circuito CB
Figura 2-5:
Con la notazione insiemistica indicare in termini di eventi Ri gli eventi A e B.

A= R 1R 2R 5 U R 3R 4R 5 = M UN avendo posto M = R 1R 2R 5; N = R 3R 4R 5
B = R 1R 4 U R 1R3R 5 U R2R 5 U R2R3R4 = W U Q UH U K avendo posto W = R 1R4;
Q = R1R3R5; H = R2R5; K = R2R3R4
Calcolare P[A] e P[B] in termini di Pi·
P[A] = P[M UN] = P[M] + P[N] - P[M N] = P[R1R2R5] + P[R3R4R5]-
-P[R1R2R3R4R5] = P1P2P5 + p3p4p5 - P1P2p3p4p5.
Per calcolare P[B] osserviamo innanzitutto che:
WQ = R1R3R4R5; WH = R1R2R4R5; WK = R1R2R3R4; QH = R1R2R3R5;
QK = R1R2R3R4R5; H K = R2R3R4R5;
W Q H = R1 R2R3R4R5; W H K = R1 R2R3R4R5;
QHK = R1R2R3R4R5; WQHK = R1R2R3R4R5.
Allora:
P[B] = P[WUQUHUK] = P[W]+P[Q]+P[H]+P[K]-P[WQ]-P[WH]-P[WK]-
-P[QH]-P[QK]-P[H K] +P[WQH] +P[WQK] +P[W H K] +P[QH K]-P[WQH K].
Concludiamo che
P[B] = PIP4 + P1P3P5 + P2P5 + P2P3P4- P1P3P4P5- P1P2P4P5- P1P2P3P4- P1P2p3p5-
-p1p2p3p4p5 - p2p3p4p5 + 4p1p2p3p4p5 - P1P2p3p4p5.
Più in generale vale il seguente:
Teorema 2.5.2 Dati n eventi A1, A2, .. , An E A si ha:

P[A1 U A2 U .. U An] = I:~ P[Aj] - I: I:P[AiAi] + I: I: I: P[AiAjAk] - .. +
i<j i<j<k
Esempio 2.5.3 La guardarobiera di un teatro ha in consegna n cappelli ma smarrisce
gli scontrini che le permetterebbero di riconoscere i proprietari. Alla fine della rappresen-
tazione decide di restituire i cappelli a caso. Qual è la probabilità che almeno un cappello
venga reso al legittimo proprietario? Cresce o decresce se n aumenta?
La risposta non è intuitiva. Sia Ai = {alla persona i viene reso il suo cappello}. Si tratta
allora di calcolare P[A 1 U A2 U A3 U .. U An]- Gli eventi Ai non sono disgiunti, per cui
occorre applicare il teorema appena annunciato. Alla somma dei P[Ai] occorre sottrarre
la somma dei P[AiAj], aggiungere la somma dei P[AiAjAk], eccetera.
Cosa è l'evento AiAjAk? È l'evento che rappresenta il fatto che su n individui tre (i, j, k)
rianno il loro cappello. Qual è la probabilità che ciò avvenga? I cappelli possono esse-
re resi in n! modi, mentre i modi in cui possono essere resi se tre vanno ai legittimi
proprietari sono (n - 3)! Quindi Vi,j, k, distinti, P[AiAjAk] = (n~?.
Quante sono le terne di numeri (i,j, k) estratti da n se i < j < k ? Tante quante le
terne disordinate (i,j, k)IY, cioè (;). Quindi~~ ~P[AiAjAk] = (;) (n~?-
i<j<k
In generale P[Ai, Ai 2 Ai 3 Aim] = (n~~)! e le m-uple di numeri (i1, i2, i3, .. im) estratti da
n se i1 < i2 < i3 < .. < Ìm sono tante quante le m-uple disordinate (i1, i2, i3, ..Ìm) cioè
(;;J.
Concludendo:
= P[A LJ A U A U U A ] = (n) (n-1)! _ (n) (n-2)! + (n) (n-3)!+
Pn l 2 3 ··· n l n! 2 n! 3 n!
... + (-lt+l(~) (n~!n)!= 1- + 'fr 'fr
+ ... + (-l)n+l;h.
D all 'A na 1·zsz. e' no t o c h e e °'Ia=-l -

- "'+oo
L.,o a n Ia=-l
---;;:r- -- 1 - 3T
2f 1+ .. + ( - l)n -;;:I+
1 ... ,. all ora
p* = P[A1 u A2 u A3 u .. u An u ... ] = 1 - ~ = 0.632121..
e
Ecco l'andamento di Pn (somma parziale n - esima di una serie numerica convergente,
a termini di segno alterno) per i primi n.
cappelli 2 3 4 5 6 7 8
valori di Pn 0.50 0.666667 0.6250 0.633333 0.631944 0.632143 0.632118
2.6 Nota storica
Pierre-Simon Laplace (Francia) 23 marzo 1749 - 5 marzo 1827
Nasce in un'agiata famiglia borghese della provincia

francese. I suoi genitori desiderano che si dedichi
alla carriera ecclesiastica. Ma Laplace scopre
a 16 anni i suoi interessi matematici. Si reca allora a Parigi
dove d'Alambert lo aiuta a trovare lavoro
e a entrare all'università. Per vivere dà lezioni
di geometria, trigonometria e analisi
ai rampolli delle ricche famiglie parigine.
IV Infatti prendiamo le terne ( i, j, k) ordinate. Di queste una sola soddisfa la relazione i < j < k. Val
quanto dire che tutte le ordinate contenenti gli elementi i,j, k contano per una sola esattamente come
succede nel caso senza ordine.
55
Nel 1771 fa il suo primo tentativo di essere ammesso all'Académie des Sciences ma gli viene
preferito Vandermonde. Un secondo tentativo fallisce l'anno dopo. Ciò indispettisce Laplace
che si rivolge a Lagrange, direttore dell'Istituto di Matematica di Berlino, in cerca di un posto.
Nel 1773 però, prima che l'ipotesi Berlino si concretizzi, Laplace è ammesso all'Académie des
Sciences.
A 24 anni Laplace ha già pubblicato lavori fondamentali nel campo delle equazioni alle differenze
finite e differenziali, dell'astronomia e della probabilità.
Gli anni Ottanta del 1700 sono molto fecondi per lui ma le sue relazioni umane con i colleghi
sono pessime, per il suo atteggiamento presuntuoso. Guasta anche i suoi rapporti con il suo
protettore d'Alambert. Nel 1784, come membro di una commissione gli capita di esaminare e
di promuovere il sedicenne Napoleone Bonaparte in un esame di artiglieria. Nel 1790 Lagrange
lascia Berlino e raggiunge Laplace a Parigi. Nonostante la loro rivalità i due matematici traggono
vicendevole vantaggio dalla reciproca vicinanza. Laplace lascia Parigi nel 1793, prima del Regno
del Terrore. Torna nella capitale nel 1794.
Nel 1795 viene riaperta l'Académie des Sciences e viene creato il Bureau des Longitudes con
Lagrange e Laplace tra i membri fondatori. Nel 1796 Laplace pubblica la sua famosa Exposition
du systeme du monde in cinque volumi, dove presenta l'ipotesi che il sistema solare si sia formato
dal raffreddamento e dalla contrazione di una nube di gas incandescente di polveri stellari in
lenta rotazione. L' Exposition du systeme du monde è solo il preludio alla pubblicazione del suo
più importante lavoro, il Traité du Mécanique Celeste, il cui primo volume appare nel 1799.
Nel 1812 pubblica la Théorie Analytique des Probabilités che avrà varie edizioni. Vi sono trattati
temi come il teorema di Bayes, la definizione classica di probabilità, il problema dell'ago di
Buffon, il metodo dei minimi quadrati, osservazioni sulla media, problemi legati alla aspettazione
di vita. Edizioni successive tratterranno delle applicazioni della probabilità a problemi concreti:
la teoria degli errori nelle osservazioni , la determinazione della massa di Giove, Saturno e Urano,
la geodesia. L'ultima edizione de la Théorie, quella del 1825, è presentata quando Laplace ha
76 anni.
Nel 1814 Laplace pubblica il suo Essai philosophique sur les probabilités.
Laplace ha spesso cambiato orientamento politico a seconda di chi deteneva il potere e ciò ha
allontanato da lui la simpatia di molti colleghi. Quando si rifiuta di firmare il documento della
Académie Française per la libertà di stampa perde anche gli ultimi amici che gli rimangono nel
mondo politico.
Richard von Mises (Austria) 19 aprile 1883 -14 luglio 1953
Suo padre è un tecnico delle ferrovie asburgiche.

Suo fratello Ludwig, di diciotto mesi più anziano di lui,
diventerà un famoso economista.
Richard studia matematica, fisica e ingegneria presso
la Technische Hochschule di Vienna.
È professore di matematica applicata a Strasburgo,
dal 1909 al 1918 anche se questo periodo è interrotto
dalla Prima Guerra Mondiale durante la quale Von Mises è pilota nell 'aviazione austriaca e al
contempo è a capo di una equipe di tecnici che costruisce aerei per l'Impero.
Dopo la guerra copre la cattedra di aerodinamica e idrodinamica presso la Technische Hochschule
a Dresda ma nel 1919 si sposta a Berlino per dirigere il nuovo istituto per la matematica applicata
che diviene rapidamente un punto di riferimento per lo studio in campi quali la probabilità, la
statistica, la soluzione numerica delle equazioni differenziali, l'elasticità e l'idrodinamica.
Il 30 gennaio del 1933 Hitler va al potere e, a causa delle leggi razziali, anche se non può essere
considerato ebreo, Von Mises è costretto a lasciare la Germania e si rifugia in Turchia da dove,
nel 1939, dopo la morte di Kemal Atattirk, fugge negli Stati Uniti.
Diventa professore a Harvard nel 1944.
I lavori di Von Mises riguardano, tra l'altro, la fluidodinamica e l'analisi numerica. I suoi lavori
più famosi e controversi sono però dedicati alla statistica e alla probabilità. In questo campo
sviluppa l'approccio frequentista impostato da Venn. Nonostante l'impostazione assiomatica
alla probabilità di Kolmogorov sia la più largamente accettata dai matematici, Kolmogorov
stesso dichiara nel 1963 che "la base dell'applicabilità dei risultati assiomatici della teoria della
probabilità al mondo reale dei fenomeni casuali deve dipendere in qualche forma dal signifìcato
frequentista di probabilità, sviluppato in modo geniale da von Ivlises".
Altri importanti interessi di von Mises sono la filosofia (pubblica nel 1951 il volume Positivism:
A Study in Human Understanding) e la poesia (è uno dei più riconosciuti esperti dell'opera del
poeta austriaco Rainer Maria Rilke (1875-1926)).
Bruno De Finetti (Italia) 13 giugno 1906 - 20 luglio 1985
Si iscrive al Politecnico di Milano nel 1923 e passa nel

1925 all'appena costituito Corso di laurea in Matematica
applicata di Milano. Si laurea nel 1927 e subito dopo
lavora all'Ufficio matematico dell'Istituto Centrale
di Statistica. Nel 1931 entra nell'Ufficio
attuariale delle Assicurazioni Generali
a Trieste e vi rimane fino al 1946. Dal '46 si dedica
esclusivamente al lavoro universitario, ma prima
di questa data, nonostante riservi alla ricerca solo una parte del suo tempo, pubblica un terzo dei
suoi 290 scritti scientifici, raggiunge fama internazionale e dà avvio all'impostazione soggettiva
del calcolo delle probabilità che più di ogni altra cosa lo ha reso famoso nel mondo.
Nel 1951, De Finetti collabora al progetto di installazione di uno dei primi calcolatori elettronici
in Italia presso l'Istituto Nazionale per le Applicazioni del Calcolo (Inac). Da questa esperienza
scaturì la nota Ivlacchine che pensano e che fanno pensare, ricca di notizie, suggerimenti e
riflessioni, ove sottolinea il suo interesse nei confronti dell'impiego di metodi statistici (Metodi
Monte Carlo) per la risoluzione numerica di diversi problemi matematici.
Non si può naturalmente dimenticare l'impegno di De Finetti nella didattica della matematica,
testimoniato dalla pubblicazione di trattati, manuali e articoli divulgativi.
57
Andrei Nikolaevich Kolmogorov (Russia ) 25 aprile 1903 - 20 ottobre 1987
Kolmogorov è cresciuto dalla zia Vera Yakovlevna.

Sua madre muore dandolo alla luce e suo padre
in combattimenti rivoluzionari nel 1919.
Dopo aver finito il liceo Kolmogorov lavora alle ferrovie
come macchinista e, nel tempo libero, scrive
un breve trattato sulle leggi della meccanica newtoniana.
Nel 1920 entra all'università di Mosca
dove studia storia, metallurgia e matematica.
Già prima della laurea che ottiene nel 1925, pubblica importanti articoli che lo fanno conoscere
nel mondo. Nello stesso anno con un altro scienziato russo, Aleksandr Khinchin, scrive il primo
fondamentale lavoro di probabilità contenente il teorema delle tre serie che rappresenta la base
della teoria delle martingale e del calcolo stocastico.
Nel 1929 Kolmogorov completa il suo dottorato. Ha già 18 lavori pubblicati e, in uno di questi,
è esposta la legge forte dei grandi numeri.
Fondamentale si rivela l'amicizia con Pavel Alexandrov che comincia nell'estate del 1929.
In un viaggio sul Volga, mentre Alexandrov scrive un libro di topologia, Kolmogorov lavora sui
processi di Markov. Due anni più tardi Alexandrof e Kolmogorov fanno un altro lungo viaggio
insieme in Europa visitando Berlino, Gottinga, Monaco e Parigi, per incontrare i matematici
che lavorano lì.
Dopo essere diventato professore all'università di Mosca, nel 1933 Kolmogorov pubblica la sua
monografia Grundbegriffe der Wahrscheinlichkeitsrechnung sulla probabilità dove le sue proprie-
tà vengono derivate da pochi fondamentali assiomi iniziali, come nel trattato di Euclide sulla
geometria.
Nel 1935 Aleksandrov e Kolmogorov si trasferiscono a Komarovka, un piccolo villaggio fuori

Mosca. Molti matematici famosi sono loro ospiti: Hadamard, Fréchet, Banach, Hopf, Kurato-
wski, e altri. La casa diventa un luogo mitico per molti studenti che dopo una visita ai due
matematici tornano a Mosca pieni di nuove idee. Durante le passeggiate domenicali si discute
di matematica ma anche di progresso, pittura, letteratura e architettura.
I successivi lavori di Kolmogorov sulla turbolenza dei gas e sul moto dei pianeti mostrano il
ruolo fondamentale della probabilità nel campo della fisica.
Per molti anni Kolmogorov dedica gran parte delle sue energie alla creazione e alla gestione di
una scuola per bambini particolarmente dotati: scrive testi e fa lezione su vari argomenti, incluse
musica e letteratura. Condivide con i ragazzi anche il tempo libero, convinto dell'importanza di
tutti gli aspetti della loro formazione.
Membro delle più importanti istituzioni scientifiche a livello mondiale, Kolmogorov ha interessi
professionali anche al di fuori della matematica, in particolare per la poesia.
Esercizio
va;lare ld~r~~?u)~~:i
F
2.7.1 Sapendo che P(A)
P(A-B) =O
aff,mw,ioni
= O e qualunque sia l'evento B apporre il corretto
F P(B -A)= O
Esercizio 2.7.2 Una stanza è illuminata per mezzo di due lampadine, L 1 e L 2 . Consi-
deriamo gli eventi:
A = {la lampada L 1 è spenta}
B = {la lampada L 2 è spenta}
C = {la stanza non è al buio}
Apporre i corretti valori di verità alle seguenti affermazioni v:
C=AUB
C= Ac nBC
C= AcuBC
C = (AUB)c
Esercizio 2. 7 .3 Con 5 simboli (A, B, C, D, E), si vogliono formare stringhe di 25 po-

sizioni dove ogni simbolo può apparire da O a 25 volte. Calcolare la probabilità che la
stringa contenga 5 simboli di ogni tipoVI.
Esercizio 2.7.4 Sono disponibili 50 palle numerate da l a 50. Qualcuno sceglie casual-
mente un po' di queste palle (eventualmente tutte) e le mette in un'urna. Sia A l'evento
{la palla 3 è presente nell'urna}, B l'evento {la palla 31 è presente nell'urna}, e C
l'evento {tutte le palle sono presenti nell'urna). Indicare l'unica risposta corretta:
§ AnB e e
CcAnB
cce Be
v La stanza non è al buio ( C) solo se è accesa L 1 , cioè A e, oppure è acccesa L 2 , cioè se. Ovviamente
la stanza non è al buio anche quando entrambe le lampade sono accese accese ma questa eventualità è
compresa in Ae use.
VI Abbiamo 25 posizioni: ogni posizione si può riempire in 5 modi diversi. Si possono così ottenere 5 25
stringhe diverse.
Contiamo ora le stringhe che hanno esattamente 5 A, 5 S, 5 C, 5 De 5 E. Per far questo chiediamoci:
quante sarebbero le stringhe se si potessero riempire le 25 posizioni di ogni stringa con caratteri tutti
diversi? Risposta: 25!. Se invece si disponesse di soli 5 caratteri diversi (A, S, C, D, E), è chiaro che ogni
stringa conterrebbe esattamente 5 A, 5 S, 5 C, 5 D e 5 E. Quante sono queste stringhe?
25!
5!5!5!5!5!
Il conteggio si potrebbe effettuare anche in un altro modo. Il carattere A può essere sistemato in una
stringa in (2 5
5 ) modi. Fatto questo rimangono 20 posizioni libere; allora la S può essere sistemata in
(25°). E così via: la C in (155) modi; la D in (15°) modi; la E in (~) = 1 modo. Totale: (255) (25°) (155 ) (15°).
L a pro b a bT 25
11tà cercata è 5 !5 !5 !5! !5 ! · 525
l .
59
Esercizio 2.7.5 Siano A, e B due eventi tali che A e B. Allora:
V F P(AUB) = P(B)
V F P(A) ::; P(B)
V F P(A) > P(B)
V F non si può stabilire una relazione fra P(A) e P(B)
V F P(AB) = P(B)
Esercizio 2.7.6 Sia A l'evento "fare del bene" e B l'evento "essere ricompensati con
del bene". Apporre il corretto valore di verità alle seguenti affermazioni nell'ipotesi che
valga il proverbio: "Chi fa del bene è ricompensato con del bene e chi fa del male è
ricompensato con del male", e che ci sia almeno una persona che fa del bene.
V F A,B: AB-/- 0 e A= B
V F A:::>BVII
V F A:::>B, A-/-B
V F AcB, A-/-B
V F AcB
V F AB=0
Esercizio 2. 7. 7 Indicare con una crocetta quale delle seguenti frasi illustra nel modo, se-
condo voi, più corretto la seguente affermazione: "Dalle indicazioni del barometro deduco
che ci sia l'80% di probabilità che, nella nostra regione, oggi piova".
§ oggi pioverà l'80% del tempo

oggi pioverà solo sull'80% del territorio della nostra regione
l'80% delle volte che nel passato il barometro riportava queste indicazioni é piovuto
Esercizio 2.7.8 Siano A e B due eventi con P[A] = 0.3 e P[B] = 0.9. Allora può
esserevm_.
V F P[AB] = 0.1
V F P[AB] = 0.5
V F P[AB] = 0.3
V F P[AB] =0
V F P[AUB] = 1
;!
Esercizio 2.7.9 Su tutti gli A, B che veri_ficano P(A) = P(B) = p; indicare quale delle
seguenti risposte è sempre vera, nell'ipotesi (OP[B]
Non è possibile dire se P[A] > P[B] oppure P[A] ::; P[B]
P[AB] =P[A]
VIIRicordo che la relazione A =i B non significa che B è contenuto strettamente
A f= B) ma significa che o B è contenuto strettamente in A oppure che A = B.
in A (cioè A =i B e
vmse P[B] = 0.9 in Be è condensata al più una probabilità pari a 0.1. Quindi la parte di A che non
sta in B può avere al più probabilità 0.1. Dacio segue .
Esercizio 2.7.11 Siano A,B,C tre eventi. Utilizzando la notazione della teoria degli
insiemi scrivere:
a) si verifica uno solo degli eventi
b) si verificano al più 2 degli eventi:
c) non si verifica nessuno degli eventi
d} si verifica solo A
e) si verificano tutti e tre
f) se ne verificano esattamente due
Esercizio 2.7.12 «Una classe è composta da n studenti, tra cui Valeria e Simona. Un
certo giorno dell'anno scolastico siamo interessati a vedere chi è presente in aula e chi
no. Sia A l'evento "Valeria è presente", B l'evento "Simona è presente" e C l'evento
"tutti gli studenti sono presenti". Indicare i corretti valori di verità».
I
(AnB) ce (AnB) ce
F e c (A nB) e c (AnB)
che ha soluzione
F CcB CcB
F Ace Ace
La soluzione ha una semplice spiegazione logica. Se ci si convince del fatto che, dal punto
di vista dello spazio degli eventi, un evento è contenuto in un altro se e solo se lo implica
logicamente, allora è evidente che "tutti gli studenti sono presenti" implica che "Valeria
e Simona sono presenti" ma non il contrario, quindi e C (A n B).
Capitolo 3
Oh me, oh vita! Domande come questa mi perseguitano,
d 'in.finiti cortei di infedeli, di città gremite di stolti.
Io che sempre rimprovero me stesso, (perché chi piu stolto di me chi piu infedele?)
D'occhi che invano anelano la luce, di scopi meschini, di lotta rinnovata ognora,
degli infelici risultati di tutto, delle sordide folle anfananti che in giro mi vedo,
degli anni inutili e vacui degli altri, e di me che mi intreccio con gli altri.
La domanda, oh me, che cosi triste mi perseguita: cosa c'è di buono in tutto questo,
oh me, oh vita?
Risposta.
Che tu sei qui, che esiste la vita e l'individuo,
che il potente spettacolo continua e che tu puoi contribuire con un verso
Walt Whitman {1819-92} - Foglie d'erba
Probabilità condizionata
Spesso, nei ragionamenti probabilistici, capita che si debba valutare una probabilità
avendo già delle informazioni su quanto è accaduto in precedenza o supponendo di averle.
Per esempio, giocando a poker, e avendo già ricevuto tre carte dello stesso colore (C?)
possiamo chiederci qual è la probabilità di fare colore, cioè che anche le altre due carte
siano (C?). Oppure, nel caso che siano state lanciate tre monete, ipotizzando che siano
uscite meno di due teste, ci possiamo chiedere qual è la probabilità che non esca nemmeno
una testa. Ecco come si definisce la probabilità di un evento A ipotizzando che si verifichi
con certezza l'evento B.
Definizione 3.0.1 Supponiamo di avere uno spazio di probabilità (O, A, P[·]). Siano
dati A, B E A. Indichiamo con P[AIBF la probabilità che si verifichi A nell'ipotesi che
si è già verificato B cioè la probabilità di A condizionata ipotizzando l'essersi verificato
di B:
P[AB]
{ P[AIB] = P[B] ; se P[B] =I=O (3.1)
non è de.finita se P[B] = O
1Indichiamo come nella maggior parte dei testi la probabilità dell'evento A condizionata dall'essersi
verificato l'evento B con P[AIB]. Sarebbe preferibile la notazione P 8 [A] meno usata, per sottolineare il
fatto che P[AIB] è un nuovo peso di probabilità Psi·] e non il vecchio peso P[·] calcolato su AIB. P[·]
non è definito su AIB perché AIE non è un evento.
62 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Oss. 1 Se P[A]-/- O e P[B]-/- O, si ha: P[AB] = P[AIB]P[B] = P[BIA]P[A].
Oss. 2 Per quanto riguarda il vecchio peso P[·] si può scrivere: P[A] = P[AIO]
P[AO]
P[O] .
Ipotizzare che si sia verificato B toglie importanza allo spazio degli eventi possibili e n
rende B di fatto il nuovo spazio degli eventi possibili. A quindi non va pesato rispetto a
n ma rispetto a B.
Esempio 3.0.2 Consideriamo il lancio di tre monete bilanciate. Lo spazio campionario

è indicato in fig.3-1; gli eventi elementari sono 8 equiprobabili con p = l/8; l'evento
B = {sono uscite meno di 2T} è tratteggiato in figura 3-1; l'evento A = {sono uscite
OT} = { CCC} è tale che P[A] = 1/8.
ITTTITcTITTclcTTlcTclTcclccTlcccl
Figura 3-1:
La probabilità di A nell'ipotesi che si sia verificato B cioè la probabilità dell'evento {non

esce nessuna testa) sapendo che si è veri.ficato l'evento {sono uscite meno di 2 teste) si
calcola pesando A non su tutto n ma su B, cioè:
P[AIB] = != P[AB] = 1/8.

4 P[B] 1/2
Se si ipotizza che si sia verificato B, gli eventi elementari possibili sono tutti e soli quelli
di B e gli eventi favorevoli sono quelli di A che appartengono anche a B.
Proprietà di P[· IB], P[B] > O.

Valgono le seguenti proprietà che garantiscono che P[·IB] è una (nuova) funzione di
probabilità:
P[AIB] = P[AB]/P[B]:::: O,\iA E A (3.2)
P[OIB] = P[OB]/ P[B] = 1 (3.3)
(3.4)
. . P[A1B] P[A2B]
Infatti A 1 e A2 ::::}A 1B
e A 2 B, per cm P[A1IB] = P[B] ::; P[B] = P[A2IB].
Se A1, A2 E A, A1 n A2 = 0, allora:
Generalizzando a una infinità numerabile di eventi si ha:

63
se A1, ., An, ..è una successione di eventi tali che i =/-j, A; n Ai = 0, e LJ;='7A; E A,
allora:
Possiamo concludere che dato (O, A, P[·]), e assegnato B E A : P[B] > O,allora anche
(n, A, P[·IB])
è uno spazio di probabilità.
Valgono queste relazioni (nell'ipotesi P[B] > O):
P[0IB] = O (3.7)
A, B E A=> P[AIB] + P[AIB] = 1 (3.8)
n
A1, ... , An,B E A=> P[LJ A;IB]::; I:;=l P[A;IB]. (3.11)
i=l
Per alternative o partizione (finita) dell'evento certo n si intende una collezione di un
numero finito di eventi {B;} che:
n
1) B; n Bj = 0,i=/-j; 2) LJ B; = n; 3) \ii, P[B;] > o. (3.12)
i=l
Teorema 3.0.3 (:•) delle probabilità totali. Dati (O, A, P[-]); sia A E A; e.{B;}
una partizione di n. Allora:
P[A] = L;=P[AIB;]P[B;].
1
(3.13)
Dim.: A= LJ7=
1AB;, P[A] = P[LJ7=1AB;] = I:7= 1P[AB;] = I:7= 1P[Bi]P[AIB;] •
Corollario 3.0.4 P[A] = P[AIB]P[B] + P[AI.B]P[.B].
Il teorema 3.0.3 si chiama anche legge delle alternative e porta al seguente importante
risultato.
Teorema 3.0.5 (:•) legge di Bayes 11• Dato (O, A, P[·]), sia {B;} una partizionem di
O e A E A. Allora:
(3.14)
Esempio 3.0.6 Secondo recenti dati Istat la popolazione italiana tra i 25 e i 34 anni, dal
punto di vista del livello di istruzione, è così suddivisa: il 38. 7% non ha titolo di studio
o ha solo la licenza elementare, il 7% ha titolo di qualifica professionale, il 41.6% il
diploma di maturità, il 12.7% il diploma di laurea. Di quelli solo con licenza elementare,
il 24. 7% sono disoccupati; tra quelli con qualifica professionale i disoccupati sono 13.4%;
tra quelli con diploma di maturità i disoccupati salgono al 24.8%; tra i laureati si ha
solo un 15.2% di disoccupati (www.istat.it/servizi/studenti/unilav /UniLav2004-05. pdf).
Si sceglie a caso un lavoratore disoccupato. Trovare la probababilità che possegga la licenza
elementare.
Indichiamo con E 1 ={lavoratori con licenza media inferiore), E 2 ={qual~fica professio-
nale}, E 3 = { diploma maturità}, E 4 = { diploma di laurea}. È chiaro che un lavoratore
con diploma di maturità ha anche la licenza media, ma per noi E 1E3 = 0, cioè E 1 rappre-
senta lavoratori che hanno al più la licenza media inferiore. Analogamente E;Ej = 0 se
j i- j. Indichiamo con D ={lavoratore disoccupato). Allora P[E 1 ID] = P{il lavoratore
ha la licenza media inferiore, sapendo che è disoccupato).
Per rispondere al quesito, bisogna trovare la probabilità di questo evento. Possiamo
rappresentare graficamente la situazione nel modo seguente (figura 3-2):
P[D] = ~:= 1P[DEi] = ~:= 1P[DIE;]P[E;] = 0.247-0.387 +0.134-0.07 +0.248-0.416+
0.152 · 0.127 = 0.22744
Per il teorema di Bayes:
P[E1 ID] = [[DIE1]P[E1] = 0.247 · 0.387 = 0.42

~i=l P[DIEi]P[Ei] 0.22744
Allo stesso modo sarebbe: P[E 2 ID] = 0.041242, P[E 3ID] = 0.45361 e P[E 4 ID]
0.08487 5
DATO DEDOTTO
probabilità della causa E;} P Ei
P[E i lD] { probabilità della causa
Ei dato l'effetto D
probabilità dell'effetto }
P[DIE ;]
D data la causa Ei
La legge (o formula) di Bayes si dice anche legge di probabilità delle cause. Siamo
nella seguente situazione: abbiamo un insieme di alternative B1, B2, ... , Bn che chiamere-
mo "cause" e un evento A che chiameremo "effetto". Vogliamo determinare la probabilità
Ilvedi nota storica in fondo al capitolo
msia il teorema delle probabilità totali che la legge di Bayes valgono anche con una partizione {Bi}
infinita. Le formule cambiano di conseguenza e diventano rispettivamente
P[A] = L:1 P[AIBi]P[Bi]

e
P[BklA] = ~[AIBk]P[Bk]
I:i=l P[AIBi]P[Bi]
65
24. 7% senza lavoro popolazione totale
-----
'-7
75.3% con lavoro
~
popolazione con
licenza media inferiore
13.4% senza lavoro
'-
86.6% con lavoro
24.8% senza lavoro

--_,,, popolazione con
qualificazione professionale
.... .....
00
:...
o~
~
" ~
0
" = oo ~o
0
:!:
o,
E4
-:...
....
";;· " "= o"

,Q
~
" e: ;;"
popolazione con
diploma di maturità ..
" ::,==
" " 'E.
o =
75.2% con lavoro 3
"
Q.
;.·
"-
~ o
""
..e: "
3
;;i
15.2% senza lavoro

=· ""
a 3
!!
11, popolazione con
~
:l. [
... =·
o
=
..
~,
"- -"' laurea
" = ~
84.8% con lavoro
Figura 3-2:
che sia stata una certa causa Bi a far verificare l'effetto A, cioè P[BilA]. Supponiamo di
conoscere le probabilità P[B;] e P[AIBi] (queste rappresentano le ipotesi sperimentali).
La legge di Bayes ci dice come cambia la probabilità delle alternative con l'osservazione
di A.
Esempio 3.0.7 Ci sono 5 urne; ogni urna contiene 10 palle; l'urna i ha i palle nere e
(10 - i) palle bianche. Consideriamo l'esperimento: si sceglie un'urna a caso, poi una
palla dall'urna. Ci domandiamo:
a) Qual è la probabilità di scegliere una palla nera?
b) Se abbiamo estratto una palla nera, qual è la probabilità che venga dall'urna 5?
Alla a) risponde la legge delle alternative. Le alternative sono:
Bi = {scelta dell'urna i} =} P[B;] = 1/5;
Inoltre A = {scelta di una palla nera} =} P[AIBi] = i/10. Abbiamo:
5
P[A] = L.
5
i=l
P[AIBi]P[Bi] = L -10i .-51 = -.103
i=l
Alla b) risponde la legge di Bayes:

1 1
3> 5
Esempio 3.0.8 Uno studente sta svolgendo un test; per ogni domanda, o lo studente
conosce la risposta e risponde correttamente, o non la conosce e allora cerca di indovinare
scegliendo a caso (equiprobabilità} tra 5 alternative. Sapendo che lo studente ha risposto
correttamente alla domanda, qual è la probabilità che conoscesse realmente la risposta?
Sia p la probabilità che lo studente conosca la risposta: osserviamo che la equiprobabilità
nella scelta delle risposte a caso potrebbe non essere realistica, in quanto lo studente
potrebbe conoscere quel tanto che basta per essere più orientato a sceglierne una piuttosto
che un'altra. Siano
A = { risponde correttamente} e B = { conosce la risposta}
P[AIB]P[B] l ·p . . 5p
P[BIA] = P[AIB]P[B] + P[AIBc]P[Bc] 1 ; si noti che : ( ) > p.
l·p+5(l-p) 5p+ l-p
Esempio 3.0.9 Il signor Rossi vorrebbe che Bianchi, da Roma, andasse a Milano a
trovarlo in treno. Dopo le molte insistenze di Rossi, un certo giorno Bianchi decide di
affidare la sua andata a Milano all'esito del lancio di una moneta bilanciata. Se viene T
va a prendere il treno scegliendo a caso tra i sei possibili che collegano giornalmente Roma
al capoluogo lombardo. Se viene C non va a Milano. Ora, se Rossi aspetta in stazione
osserva che Bianchi non è su nessuno dei primi 5 treni arrivati, qual è la probabilità che
Bianchi arrivi con il sesto e ultimo treno?
SOLUZIONE. Siano
Bi= "Bianchi parte con l'i-esimo treno",
M = "Bianchi parte per Milano",
N = "Bianchi non prende nessuno dei primi 5 treni"
Allora
Bi= Bi(MuM 0 )::::} P[Bi] = P[BiM]+P[BiM 0 ] = P[BilM]P[M]+P[BilM 0 ]P[M 0 ] =
11 - ...l..
6 2 - 12
e 1 1 7
P[N] = P[M ] + P[B6] = 2+ 12 = 12
P[B I N] = P[N I B6]P[B6] = 1 · A = ~
6 P[N] 7/12 7·
Teorema 3.0.10 {del prodotto) Dati (D, A, P[·]); A1 , ... , An E A P[A 1 n ... n
An- 1] > O. Allora:
(3.15)
Dim.: Per induzione •
Come applicazione del teorema appena enunciato consideriamo il seguente esempio.
Esempio 3.0.11 Un'urna contiene 3 palline bianche e 3 palline nere. Si estraggono

le palline una dopo l'altra senza reimmissione in attesa di trovare una pallina nera.
Calcolare la probabilità che la pallina nera sia estratta al 1° tentativo, al 2°, al 3° o al
40.
Indichiamo con kB = {k - esima palla estratta è bianca} e analogamente con hN =
{ h - esima palla estratta è nera}. Allora:
Estrazione al 1° tentativo.
P(lN) = ~
P(lB n 2N) = P(2NIIB). P(IB) = ~. ~
P(1Bn2Bn3N) = P(3Nl1Bn2B)·P(1Bn2B) = P(3Nl1Bn2B)·P(2Bl1B)·P(lB) =
3 2 1 3
4 5 2
67
P(lB n 2B n 3B n 4N) = P(4NllB n 2B n 3B) · P(lB n 2B n 3B) =
= P(4NllBn2B n3B) · P(3BllBn2B) ·P(lB n2B) = P(4NIIB n2B n3B) · P(3BIIB n
2B) · P(2BIIB) · P(lB) =
1 2 1 1
=l·-·-·-=-
4 5 2 20
Il percorso seguito nel calcolo di queste probabilità può essere individuato nel seguente
diagramma ad albero:
1°lenJatlvo/probabllltd""112
2'-tettlatiw;probabililà= 112:ii:J/5
probabililà• J/2x 115x 11,
1° lenJatlvo;
,, /entat/,,v; = 111x VJ x IN
prohah/1/lil
~-~ 6pullel
······~ ~ -
Spalle I
11
l 3/j 315 115
A A 4pull,I
i
31, 2/4 2/4 ]/4 IN 3/4 114
I
A
//3 2/J
A
1/3 2/J
A
2/J 1/J
A
//J ]/J 2/J
A 1/J 2/J
A 1/J
r§
I o
J po/lei
0f'Q,©O
m
~©O ©'O~
m
®"Q©'O ®"o0[Q çifQ 01 2pailel
o I 111 o I 111 111 1t1 o I o I 111 111 111 111I o 111 1t1 I o
@'j@i
I! I I n
iiiiii@i@i
O I I O OI I I!
©i©icto©O
o n
I! I
@icto
o i I I O i I O
I pallal
Esempio 3.0.12 Un'altra applicazione viene dalla giustificazione della nota III dell'e-
sempio 2.4.19. Supponiamo che le palline corrispondenti a T siano bianche e siano in
numero di b, mentre quelle corrispondenti a C siano rosse e siano in numero di r. Se
b
p è la probabilità che nel lancio della moneta esca T allora p = -b-. Sia E; l'evento
+r
{ all 'i-esima estrazione ho estratto una pallina bianca} = {all 'i- esimo lancio esce T}.
In k lanci l'evento corrispondente a un risultato con h teste T e k - h code C è perciò
l'evento:
E~ n E~ n E~ n ... n E~
dove
estratta palla bianca oppure esce T
estratta palla rossa oppure esce C
e, evidentemente, ci saranno h E) = E; e k - h E) = Ef.
Per la 3.15 si ha:
P[E~nE~nE~n .. .nE~] = P[E~]-P[E~IE~]-P[E~IE~nE~]·· · ··P[E~IE~nE~nE~n .. .nE~-1]
Poiché, a causa del reimbussolo:
Vi·P[E-] = _b_ =p/\P[Ec] = _r_ = l-p

' ' b+r ' b+r
P[EilE~ n E~ n ... n E;_1] = P[E1] /\ P[EflE~ n E~ n ... n E;_1] = P[Ef]
In.fine poiché di eventi in cui ci sono h h E) = Ei e k - h E) = Ef ce ne sono (~)

concludiamo che la probabilità di fare h T in k lanci, o di estrarre h palline bianche in
k estrazioni è pari a
che avevamo trovato nel capitolo 2 facendo uso della formula ricavata con palle ricono-
scibili {numerate). La stessa formula si può ottenere anche via indipendenza di eventi,
come vedremo nel prossimo paragrafo.
Oss:. Con una tecnica analoga, si potrebbe dimostrare che la formula 2.16 per estra-
zione senza reimbussolo di palle riconoscibili (numerate), vale anche nel caso di palle
irriconoscibili.
3.1 Eventi indipendenti

Definizione 3.1.1 Eventi indipendenti (stocasticamente). Dati (O, A, P[.]) e A, B E
A con P[A]P[B] > O: si dice che A e B sono indipendenti (stocasticamente) se vale una
qualunque delle condizioni equivalenti:
P[AB] = P[A]P[B] P[AIB] = P[A] P[BIA] = P[B]

P[AB] = P[A]P[B] ~ P[AIB] = P[A]

"" (3) l (2)
P[BIA] = P[B]
cioè le tre relazioni sono equivalenti.
Dim:
( 1) P[AIB] - P[AB] P[A]P[B] - P[A]
per de/. P[B] P[B] -
P[AB]=P[A]P[B]
( 2) P[BIA] = P[AB] P[AIB]P[B] = P[B]

per def. P[A] P[A] P[AIB]=P[A]
{3} P[AB] = . P[BIA]P[A] = P[A]P[B]•
per de/. P[BIA]=P[B]
Importante C'è indipendenza (stocastica 1v) se il peso concentrato su AB rispetto a

quello concentrato su B è uguale a quello concentrato su A rispetto a quello unitario
IV Il concetto di indipendenza (stocastica) è diverso dal concetto di indipendenza di due eventi del
linguaggio comune. Nel linguaggio comune siamo abituati a pensare che un evento A "non dipende" da
un altro evento B se il suo valore di verità (ossia il suo verificarsi o meno) non è noto anche se è noto il
valore di verità di B, cioè se non è vero che B =} A e neppure che B =} Ac. Per contro pensiamo che A
"dipende" da B se B =} A oppure B =} Ac. Questa "dipendenza" ipotizzata nel linguaggio comune ha
a che fare con i concetti di intersezione, unione e inclusione insiemistici e la chiameremo per chiarezza
69
concentrato su O. Cioè il concetto di indipendenza stocastica è strettamente collegato
alla distribuzione di probabilità sugli eventi.
Esempio 3.1.3 Supponiamo che l'esperimento consista nella scelta all'interno di un

quadrato di lato unitario di un punto a caso (ciò significa che la probabilità che il punto
appartenga a un sottoinsieme del quadrato è uguale all'area del sottoinsieme). Dette
(x,y) le coordinate del punto (ovviamente O::;x::; l;O::; y::; l} Si considerino gli eventi
1 1
F = { x > 2}; E = {y > 2}; H = { x > v}.
Allora F è indipendente da E ma F non è indipendente da H come si capisce immedia-
tamente dalla ,figura punti (i}, (ii) e (iii}.
Teoremino 3.1.4 Dati A, B E A da (O, A, P[·]).Se A e B sono indipendenti, sono

indipendenti anche:
Ae.B
AeB
AefJ
La dimostrazione è elementare: per esempio P[AB] = P[A] - P[AB] da cui se A e B
sono indipendenti segue l'indipendenza di A e B.
Indipendenza e incompatibilità sono due proprietà distinte benché correlate.Vale

infatti il seguente:
Lemma 3.1.5 ~ /\ {P[AB] = P[A]P[B]}::::} P[A] = OV P[B] = O

incompatibili indipendenti
Non c'è esattamente un'implicazione inversa ma vale:
P[A] -/=OI\ P[B] -/=O::::}AB -/=0 V P[AB] -/=P[A]P[B]

'--v--'
compatibili dipendenti
che si può esprimere dicendo che se ho due eventi A, B, entrambi con probabilità maggiore
di zero, allora o sono compatibili oppure, se non sono compatibili, sono dipendenti. O
anche: se due eventi A e B sono incompatibili e indipendenti, allora almeno uno dei due
ha probabilità nulla (e viceversa). Riassumendo:
"dipendenza logica". La dipendenza stocastica ha invece a che fare con la distribuzione del peso di
probabilità sugli eventi.
Nell'esempio 3.1.3 F e H sono dipendenti stocasticamente ma non sono dipendenti logicamente perché
non è vero che F ===> H e neppure che F ===> H0 .
a ) A , B compat1 'b'l'1 1 (AB 1.../..©), possono essere: { . dipendenti

d' d t'
A,B,P[A]P[B] >O::::} m 1pen en 1
b) A, B incompatibili ( AB = 0), devono essere: {dipendenti.
(3.16)
Oss. 3 (importante) La relazione di indipendenza stocastica non è una relazione di

equivalenza: per essa infatti non valgono, ad esempio la proprietà riflessiva (P[AIA] =I=
P[A]) e transitiva {è falso che da P[AIB] = P[A]/\P[BIC] = P[B] segue P[AIC] = P[A]).
Definizione 3.1.6 Dati A 1 , A 2, A 3 E A, sono indipendenti se valgono tutte le seguenti

condizioni:
P[A1A2A3] = P[A1]P[A2]P[A3]
P[A1A2] = P[A1]P[A2] P[A2A3] = P[A2]P[A3] P[A1A3] = P[A1]P[A3]
(3.17)
Osservazione. Gli eventi possono essere a due a due indipendenti ma non indipen-
denti. Come si capisce dalla figura A è indipendente da B, A è indipendente da C,
B è indipendente da C, ma A, B, C non sono complessivamente indipendenti: infatti
ABC=0.
.O , Ji
:t------t l: 1--
//Z
r--..,
Figura 3-3:
Definizione 3.1.7 Dati A 1 ,A 2 ,A 3 ,A 4 E A, sono indipendenti se valgono tutte le se-

guenti condizioni:
P[A1A2A3A4] = P[A1]P[A2]P[A3]P[A4]
P[A1A2A3] = P[A1]P[A2]P[A3], P[A1A3A4] = ... (3.18)
P[A1A2] = P[A1]P[A2l, P[A1A3] = ...
Generalizzando ad n eventi, possiamo dire:
Definizione 3.1.8 Dati A1, ... , An E A, sono indipendenti se valgono tutte le seguenti
condizioni:
i=/=j, P[A;Aj] = P[A;]P[Aj]

i=/=j =/=k, P[A;AjAk] = P[Ai]P[Aj]P[Ak]
(3.19)
71
Oss. 4
Per verificare occorre soddisfare k condizioni
3.17 k = ( ~) + ( ~) = 2 3 - 3 - 1 = 4
3.18 k = ( !) !)
+ ( + (~ ) = 24 - 4 - 1 = 11
3.19 k = ( ~) + ( n~ 1) + ... + (;) = 2n - n - l
Ora, dati tre eventi A, B, C si può dimostrare che se vale
P[A'B'C'] = P[A']P[B']P[C'] (3.20)

con A' = A oppure A' = A e (idem per B e C) allora A, B, C sono indipendenti. Le
relazioni in 3.20 sono evidentemente 23 • Quindi di più di quelle standard che nel caso di
3 eventi sono solo 4. Ma se il numero n degli eventi è grande abbiamo 2n relazioni contro
le 2n - n - l standard. Una differenza minima che giustifica l'utilizzo di questa formula
per la verifica della indipendenza. Il vantaggio sta nei conti che risultano sempli.ficati.
Esempio 3.1.9 Se A e B sono indipendenti in (O, A, P[·]), allora, preso C: P[C] > O,
lo sono anche nello spazio di probabilità (O, A, P[·IC]), cioè P[AB I C] = P[AIC]P[BIC]?
Soluzione. No. Infatti consideriamo, per esempio, gli eventi A, B, C e lo spazio O della
figura 3-3: per i nostri scopi basta che AB sia incompatibile con C.
Esempio 3.1.10 Lancio di tre monete bilanciate. Gli esiti possibili sono: {T, T, T},
{T,C,T}, {T,T,C} {C,T,T}, {C,T,C}, {T,C,C}, {C,C,T}, {C,C,C}. Dai conti del-
l'esempio 3.0.2 concludiamo che A ={non esce nessuna T}= {C,C,C} e B = {sono
uscite meno di 2 T} = {C, T, C} U {T, C, C} U { C, C, T} U { C, C, C} sono dipendenti e
AB = { C, C, C}. Sono invece indipendenti, per esempio, H = { sono usciti tre risultati
uguali} e l'evento B di prima.
1
Oss. 5 Avevamo visto che, nel caso di moneta bilanciata, cioè P[{T}] = P[{C}] = 2
1
la probabilità dell'evento A = {CCC} è 8 . Questo risultato è stato ottenuto nello spazio
campionario i cui eventi elementari sono le terne di risultati possibili ( ed equiprobabi-
li} che descrivono l'esperimento "lancio di 3 monete". D'altra parte tale esperimento
è equivalente al lancio ripetuto 3 volte nelle medesime condizioni di una sola moneta
bilanciata. Diciamo Ri l'evento che descrive il risultato del lancio i- esimo (l::; i::; 3).
Per l'indipendenza dei lanci si può mostrare che l'evento R 1 R 2 R 3 che descrive il corri-
spondente risultato nello spazio campionario 06ha probabilità (per l'indipendenza v degli
1
Ri) pari a P[R 1 ]P[R 2 ]P[R 3 ]. Nel nostro caso, per esempio, P[A] = P[{C}] 3 = 8 .
v Nel lancio delle monete cosa significa esattamente indipendenza di un lancio dall'altro? Lo spazio
campionario è fatto da stringhe lunghe n di Te C, perciò dire che l'h-esimo lancio è indipendente dal
k-esimo significa dire che sono indipendenti gli eventi:
w = {D1,D2, ... ,.h,···,···,Dn-1,Dn}
w = {D1,D2, ... , ... ,.k,···,Dn-1,Dn}
dove l'evento w = {D1,D2, ... ,.h,···,·",Dn-1,Dn} è la riunione di tutti gli eventi elementari che
hanno fissato il risultato, T o C, al posto h.
Quindi l'ambiente corretto per fare considerazioni probabilistiche sui risultati degli n lanci è n~ = TIno
n
dove no= {T,C}; #(no)= 2 (vedi capitolo 2).
Per brevità di scrittura si descrive w = {D 1, D2, ... , • h, . .. , ... , Dn-1, Dn }, il risultato al lancio h, come
{•h} risultato di un singolo lancio di una moneta.
Quindi, per esempio, la probabilità di una testa al posto h, cioè P[{D1, D2, ... , Th, ... , ... , Dn-1, Dn}]
la scriviamo P[{Th}] = P[{T}].
Oss. 6 Conoscere la probabilità p che a ogni lancio si verifichi l'evento {T} (e di con-
seguenza la probabilità q = l - p che si veri.fichi l'evento {C}) equivale a essere nella
situazione descritta in figura:
(0,0, 1)
- --------------~- -~
__..___ ______ _ o,1,1r-----
- - - - r
'
1-p 1-p:
1· ' 1-p
\@ief (0,0,0)
I vertici del cubo rappresentano i possibili risultati del lancio di tre monete indipendenti.
Per esempio l'origine corrisponde a tre code, il vertice più lontano dall'origine corri-
sponde a tre teste. Se c'è indipendenza su ogni vertice c'è il prodotto delle probabilità
depositate sulle sue proiezioni sugli assi. In (O,O,O) ci sarà (l - p ) 3 in (O,O, 1) ci sarà
(1- p)2p, in (1, 1, 1) ci sarà p 3 , eccetera.
Esempio 3.1.11 A livello intuitivo, non è incredibile il fatto che, nell'esperimento di

lanci successivi di una moneta, ci possano essere eventi che sono indipendenti se la
moneta è bilanciata mentre non lo sono se la moneta ha un trucco. Infatti sia P(T) = p
e P( C) = 1 - p. Consideriamo lo spazio campionario relativo a 3 lanci e gli eventi:
A = { esce sempre lo stesso segno} = {TTT} U {CCC}
B = {T esce al più una volta}= {CCC} U {TCC} U {CTC} U {CCT}
AB= {CCC}
Per l'indipendenza dei lanci:
P[A] = p 3 + (1 - p) 3 ; P[B] = (1 - p) 3 + 3p(l - p)2; P[AB] = (1 - p) 3 .
Perciò A è indipendente da B sse:
[p3 + (1 - p) 3 ], [(l - p) 3 + 3p(l - p)2] = (1- p) 3 che ha soluzione p = 1/2.
Esempio 3.1.12 Supponiamo di lanciare n volte una moneta di trucco p {P[T] = p).
Per l'indipendenza dei lanci tutte le stringhe che contengono esattamente k Teste e (n- k)
Code hanno la stessa probabilità, cioè pk(l - p)n-k_ Sia N il numero delle T in una
stringa. Qual è la probabilità di N = k cioè la probabilità di ottenere k T lanciando una
moneta n volte?
Osserviamo che esistono (~) stringhe con esattamente k T (e n - k C). Queste stringhe
differiscono tra loro per la posizione delle T (e delle C) nell'allineamento e di conse-
guenza rappresentano eventi incompatibili. Perciò la probabilità cercata è la somma delle
probabilità sulle stringhe stesse ed è pari a
P[N = k] = G)Pk(l - p)n-k (3.21)

La 3.21 prende il nome di distribuzione binomiale di probabilità.
73
Esempio 3.1.13 Sia data un'urna con r palle rosse e b palle bianche. Consideriamo l'e-
vento D ={la R} = {la estratta una palla rossa} e E= {2a R} = {2a palla estratta rossa}.
1) Calcoliamo P[ E] Per il teorema delle probabilità totali si ha:
P[2a R] = P[2a RI 1aR]P[l aR] + P[2a RI 1aB]P[l aB] =
= _r_ r- l + _b_ r = _r_ = PW R]

r+br+b-l r+br+b-l r+b
cioè alla seconda estrazione abbiamo la stessa probabilità che abbiamo alla prima di avere
una palla rossa. Questo è banalmente vero in caso di reimmissione.
a) b) e) d) j)
Il disegno in figura dà una visualizzazione di cosa succede nel caso di 5 estrazioni in cui:
a) la estratta: rossa, b) 2a estratta: rossa, c) 3a estratta: rossa, d} 4a estratta: rossa, f)
5a estratta: rossa.
Come si vede, all'evento ka palla estratta rossa corrisponde un albero variamente rami-
ficato di casi favorevoli; qualunque sia k il numero di casi favorevoli rimane invaria-
to. Infatti, generalizzando, la probabilità dell'evento {ia R} = {ia palla estratta rossa}
è uguale alla probabilità di { 1aR} = {1a palla estratta rossa} . Dimostriamolo pensando
alle palle distinguibili del capitolo 2 formula 2.16 (che, come abbiamo già osservato vale
anche quando le pazze si considerano indistinguibili}. Estraendo k palle dall'urna ci sono
(r + b)k risultati possibili. I risultati favorevoli all'avere una palla rossa alla ia estrazione
sono tutte le stringhe che hanno in posizione i una palla rossa (che può essere scelta in r
modi} e palle di qualunque colore nelle k - l posizioni diverse da i. Quante sono queste
stringhe?
r·(r+b-lh-1
La probabilità cercata è perciò:
casi favorevoli= r · (r + b- lh-1 = _r_ = PW R]

casi possibili (r+b)k r+b
2) Calcoliamo la probabilità di DE = {estratte 2 palle rosse}.

2a} Con reimmissione. Lo spazio campionario O equivale a tutte le coppie possibili
{D 1 , D 2 } dove D 1 può essere riempita da una una {B} o da una {R} in r + b modi;
lo stesso dicasi per D 2 per cui la cardinalità di O è #(O) = (r + b) 2 . Si ha:
2
P[DE] = r = _r_ · _r_ = P[D]P[E]
(r+b) 2 r+b r+b
dove si hanno nr modi di estrarre sia la 1a palla {R} che la f!" { R}.
2b) Senza reimmissione. Lo spazio campionario n equivale a tutte le coppie possibili
{D 1 , D 2 } dove D 1 può essere riempita da una una {B} o da una {R} in r + b modi,
mentre D2 può essere riempita da una una {B} o da una {R} in r + b - l modi per cui
la cardinalità di n è #(D) = (r + b)(r + b- 1). Si ha:
p DE _ r(r - 1) { = P[D]P[EID]
[ ]-(r+b)(r+b-l) #P[D]P[E]
dove si hanno r modi di estrarre la 1a palla {R} e r - l modi di estrarre la f!" palla {R}.
Quindi D e E sono indipendenti se si estrae con reimmissione mentre non lo sono se si
estrae senza reimmettere.
Esempio 3.1.14 Disastro su una diga in zona sismica

Consideriamo un generico anno e questi 3 eventi.
A ={nell'anno una inondazione distrugge una diga}; B ={nell'anno un terremoto di-
strugge la diga}; D = {nell'anno si veri.fica il disastro}
D = A U B; P[D] = P[A U B] = P[A] + P[B] - P[AB]
P[A U B] ::; P[A] + P[B]
Da un punto di vista ingegneristico si può considerare molto improbabile che A e B si veri-
fichino contemporaneamente, quindi P[AB] ~ O. Più ragionevolmente si può considerare
che A e B siano indipendenti, quindi P[AB] = P[A]P[B]
Supponiamo di sapere che nel generico anno e in una certa zona sismica sia: P[A] =
0.002 e P[B] = 0.001 (questo equivale a dire che ci si aspetta, mediamente, che in 1000
anni due volte una inondazione distrugga la diga; mentre ci si aspetta che solo una volta
in mille anni il terremoto la distrugga). Allora
P[A U B] = 0.002 + 0.001 - 0.002 · 0.001 = 0.002998
L'evento che indica la sopravvivenza della diga è AcBc = (AUB)c. Quindi:
P[Ac Be] = 1 - P[A U B] = 0.9977
Questo vale per un anno. Volendo sapere qual è la probabilità che la diga sopravviva
per 50 anni (e che gli anni siano indipendenti) indicando con (Ac Bc)i l'evento la diga
sopravvive nell'anno i il valore cercato è:
50 50
P[ n (Ac Bc)i]
i=l
= f1 P[(Ac
i=l
Bc)i] = 0.9977 50 = 0.89125
Esempio 3.1.15 L'acquedotto di una città costiera con un retroterra di tipo appennini-
co è alimentato da acque super,ficiali e da acque sotterranee. Le acque super,ficiali possono
provenire da un fiume o da un paio di bacini di raccolta {da N.Kottegoda, R.Rosso; Ap-
plied Statistics for Civil and Environmental Engineers; Blackwell-Wiley; 2007).
75
roa o 1 IJadno I Fiumi: Pouo :? 13:«:
ino:!
Il regime è influenzato da periodi scarse precipitazioni ( evento D ), che si verificano con

probabilità del 20%, P[D] = 0.2.
Il razionamento dell'acqua (evento S) può avvenire solo ce ci sono scarse precipitazioni,
cioè S n Dc = 0.
Quando ci sono scarse precipitazioni il fiume può essere in magra (evento L} con proba-
bilità del 40%, cioè P[LID] = 0.4.
Supponiamo di avere le seguenti informazioni:
1} se ci sono scarse precipitazioni e il fiume è in magra, la probabilità che avvenga il
razionamento è pari al 30%, cioè P[SIDL] = 0.3
2} se ci sono scarse precipitazioni e il fiume non è in magra la probabilità che avvenga il
razionamento è pari al 25%, cioè P[SIDL 0 ] = 0.25
a) Trovare P[S].
Una partizione dell'evento certo è D = DL U DL 0 U Dc LU Dc Le si ha:
P[S] = P[SIDL]P[DL] + P[SIDL 0 ]P[DL 0 ] + P[SID 0 L]P[D 0 L] + P[SID 0 L 0 ]P[D 0 L 0 ]
Poiché il razionamento può avvenire solo se ci sono scarse precipitazioni P[SIDc L] =
O;P[SIDc L 0 ] = O.
P[DL] = P[LID]P[D] = 0.4 · 0.2 = 0.08
P[DL 0 ] = P[L 0 1D]P[D] = (1- 0.4) · 0.2 = 0.12
Quindi:
P[S] = 0.3 · 0.08 + 0.25 · 0.12 = 0.054
b) Oltre a quanto già esposto, volendo entrare più nel dettaglio sulle cause del razio-
namento, supponiamo di sapere che se il fiume non è in magra (cioè se è Le) il livello
della falda acquifera rimane alto e i pozzi non possono insalinarsi. Ci può essere raziona-
mento solo se ci sono scarse precipitazioni. Quando il fiume è in magra si può razionare
sia quando i pozzi sono insalinati sia quando i pozzi non lo sono, quando il fiume non è
in magra si può razionare solo quando manca acqua nei bacini. Formalizzando possiamo
cioè dire che possono verificarsi solo i seguenti eventi:
{scarse precipitazioni}n {fiume in magra }n { razionamento }n {pozzi non insalinati} che
chiameremo A
{ scarse precipitazioni }n {fiume in magra }n { razionamento }n {pozzi insalinati} che chia-
meremo B
{scarse precipitazioni}n{fiume non in magra}n{razionamento}n{manca acqua nei baci-
ni} che chiameremo C
Ovviamente S = A U B U C.
Sappiamo ora di sapere che:
1} la probabilità che si veri.fichi A quando si verifica DL è del 30% cioè P[AIDL] = 0.3.
2) la probabilità che si verifichi B quando si veri.fica DL ma non A è pari al 25%, cioè
P[BIDLAc] = 0.25 = P[SIDLAc].
3) la probabilità che si veri.fichi C quando si verifica DLc è pari al 10%, cioè P[CIDLc] =
0.1 = P[SIDLc].
Come prima, si tratta di trovare P[S].
P[S] = P[SIDL]P[DL]+P[SIDLc]P[DLc]+P[SIDc L]P[Dc L]+P[SIDc Lc]P[Dc Le].
Per ragioni già esposte prima è:
P[S] = P[SIDL]P[DL] + P[SIDLC]P[DLC]
Cominciamo a trovare i pezzi della somma:

P[DL] = P[LID]P[D] = 0.4 · 0.2 = 0.08
P[DLC] = P[LC / D]P[D] = (1- 0.4) · 0.2 = 0.12
Manca solo P[SIDL]
P[SIDL] = P[S(A U Ac)IDL] = P[SAIDL] + P[SAclDL] = P[AIDL] + P[!f ;iL] =
= P[AIDL] + P[SAc DL] P[Ac DL] = P[AIDL] + P[SIDLAc]P[AclDL] = 0.3 + 0.25 ·

P[Ac DL] P[DL]
(1 - 0.3) = 0.475
In conclusione:
P[S] = 0.475 · 0.08 + 0.1 · 0.12 = 0.05
Esempio 3.1.16 Si sa che una sigaretta fumata può provocare una modificazione del
DNA di una cellula polmonare che provoca un cancro al polmone. Un gruppo di medici
inglesi ha condotto per 10 anni una ricerca utilizzando un campione di 2738 volontari
scelti su tutto il territorio nazionale. Obiettivo della ricerca era l'analisi della correlazio-
ne tra numero di sigarette fumate per giorno e cancro al polmone. I volontari erano stati
suddivisi tra coloro che fumavano O sigarette/giorno, 5 sigarette/giorno, ... , 80 sigaret-
te/giorno. Il numero di coloro che si sono ammalati o che sono rimasti sani nel corso
dei 10 anni all'interno di questa suddivisione è riassunto nella tabella seguente:
sigarette/giorno o 5 10 20 40 50 60 80 totali
malati 4 21 203 235 152 13 11 10 649
(3.22)
sani 64 163 856 671 295 19 13 8 2089
totali 68 184 1059 906 447 32 24 18 2738
Il significato della tabella è chiaro. Per esempio la frequenza osservata dei malati che
fumano 40 sigarette/giorno è data dal rapporto tra il numero di coloro che fumano 40
sigarette/giorno e sono malati e il numero di coloro che fumano 40 sigarette/giorno, cioè
!!~ = 0.340
Indichiamo con Fx = { un volontario scelto a caso fuma x sigarette}; Mx = { un volontario
scelto a caso tra coloro che fumano x sigarette ha il cancro} e Sx = {un volontario scelto
a caso tra coloro che fumano x sigarette non ha preso il cancro}; F = {un volontario
scelto a caso fuma}; M = { un volontario scelto a caso ha il cancro}; S = { un volontario
scelto a caso non ha preso il cancro}.
a) Si calcoli la probabiltà che un volontario scelto a caso nel campione fumi 40 sigaret-
te/giorno.
77
P[F 4 o] = # favorevoli a F40) = 447 = 0 _16326
# (dimensione del campione 2738
b) Si calcoli la probabiltà che un volontario scelto a caso nel campione sia malato sapendo
che non fuma.
P[MIR] = P[Fo n M] = #(favorevoli a FonM) = _±_ = 0.059
O P[Fo] # (favorevoli a Fo) 68
b) Si calcoli la probabiltà che un volontario scelto a caso nel campione sia malato sapendo
che fuma 50 sigarette al giorno.
P[MIR l = P[Ao n M] = # favorevoli a F5onM) = 13 = 0.406
50 P[F 5 o] # (favorevoli a F 5 o 32
e) Si calcoli P[M]
Per il teorema delle probabilità totali si ha:
P[M] = P[MIFo]P[Fo]+P[MIA]P[A]+P[MIF10]P[Fio]+ ... +P[MIFso]P[Fso] = 0.237
Proponiamoci ora di affrontare un problema la cui soluzione verrà utile parlando di
regressione nel capitolo 15 . È ragionevole pensare che esista un legame funzionale
P[x] = P[MIFx] tra il numero x di sigarette fumate al giorno e la probabilità di es-
sere malati di cancro. Cerchiamo di scrivere la funzione P[x]. Per calcolare P[MIFx] in
funzione dix calcoliamo P[_MclFx]e ragioniamo così: 1i1c = {le x sigarette non hanno
fatto ammalare di cancro il volontario} n {le altre cause non hanno fatto ammalare di
cancro il volontario} = Q n T. Posto S k = { è stata la k- esima sigaretta fumata a causare
la modificazione del DNA di una cellula (e quindi un cancro)} è ragionevole pensare che:
1) Q e T sono indipendenti;
2) P[T] = t indipendente da x e quindi costante;
3) Vk, P[Sk] = p è la probabilità che una qualunque sigaretta alteri il DNA, da cui
P[Sk] = 1- p;
4) Q = (uskt = nsk;
5) gli Sk sono indipendenti (e quindi anche gli Sk) per cui P[Q] = P[nSk] = (1 - p)k
6) k = 365 · 10 · x numero di sigarette fumate in 10 anni da un volontario che ne fuma
X al dì.
Allora: P[x] = P[MIFx] = l - P[MclFx] = 1- P[Q], P[T] = 1- t. (l - p) 365 lOx
1 - t · [(l - p) 365 10]x = 1 - t · qx dove q = (l - p) 365 10. Conclusione:
1 - P[x] = t · qx (3.23)
Nel capitolo 15 vedremo cosa signi.fica verificare se la 3. 23 si adatta ai dati osservati.
3.2 Affidabilità
Definizione 3.2.1 Si definisce affidabilità di un sistema la probabilità che esso
"funzioni".
Penseremo a sistemi formati da più componenti: Si, S2, eccetera. È questo il caso,
per esempio, di circuiti elettrici, linee di produzione, apparecchi di controllo. Il "fun-
zionamento" del sistema dipende dal funzionamento delle singole componenti e la sua
affidabilità dipende dalla affidabilità di S1, S2, ....
Supporremo che il funzionamento di una singola componente non influenzi il funzio-
namento delle altre, cioè le singole componenti sono indipendenti. Esamineremo due
semplici casi. Nel primo si suppone che un sistema S sia costituito da n componenti
SI, S2, S3, ... , Sn montate in parallelo (a sinistra nella figura), nel secondo che le stesse
componenti siano montate in serie (a destra nella figura). Si conviene che nel primo caso
il sistema funzioni quando una almeno delle componenti Si funziona, mentre nel secondo
caso S funziona solo se tutte le Si funzionano. In entrambi questi casi l'affidabilità di S
si può facilmente calcolare dalle P[Si], cioè dalla affidabilità delle singole componenti.
s,
Si
s,
.
•
•
-
I S,,
Teoremino 3.2.2 Siano Pi, i = 1, ... , n, le affidabilità delle singole componenti Si,
Allora l'affidabilità p del sistema è:
P = PI · P2 · ... · Pn se le componenti sono in serie
p = l - (1- PI)· (1- P2) · ... · (1- Pn) se le componenti sono in parallelo.
Dim: Sia R l'evento {il sistema funziona}. Allora detto Ri l'evento {la componente
Si funziona}, nel caso di collegamento in serie è R = RIR 2 ... Rn mentre nel caso di
collegamento in parallelo è R = RI U R2 U ... U Rn, Inoltre Pi= P[Ri]. Concludendo, se
il collegamento è in serie si ha
P[R] = P[RIR2 ... Rn] = P[RI]P[R2] ... P[Rn] = PI · P2 · , , , · Pn
per l'indipendenza degli eventi Ri.
Se il collegamento è in parallelo, P[R] = P[RI U R 2 U ... U Rn]- Ma poiché gli eventi Ri
non sono incompatibili tra di loro il conto si fa cosi:
P[R] = 1 - P[R 0 ] = 1 - P[{RI U R2 U ... U Rn} 0 ] = 1- P[Rf Rf ... R~] =
= 1 - P[Rf]P[Rf] ... P[R~] = 1- (1- PI)· (1 - P2) · ... · (1 - Pn)
e anche in questo caso il risultato finale dipende dall'indipendenza degli eventi Rf •
Esempio 3.2.3 Abbiamo un sistema idraulico fatto da due condotte che portano acqua
da A a B. Caso a): supponiamo che la condotta 1 non sia interrotta con probabilità PI,
e la condotta 2 con probabilità p2. Qual è la probabilità che l'acqua possa arrivare da A
a B ? (ossia che il sistema di condotte funzioni?)
0--1-·--:z P2-®
P1
b)
Soluzione. Sia RI ={la condotta l non è interrotta}; R 2 ={la condotta 2 non è interrotta}.
Se RI e R 2 fossero incompatibili, P[RIR 2] = O. Ma non è ragionevole che lo siano. È
però ragionevole pensare che siano indipendenti, cioè: P[RIR 2] = P[RI]P[R 2].
Caso a) A e B collegate in parallelo: si va da A a B se RI U R 2 .
79
Si ha: P[RI U R2l = P[Ril + P[R2l - P[RIR2l-
Allora:
P[RI U R2l = 1 - P[Rf Rfl = 1 - (1 - P[Rf])(l - P[Rf]) = 1 - (1 - PI)· (1 - P2)
Caso b) se le condotte fossero disposte in serie allora la probabilità che l'acqua possa
arrivare da A a B (ancora in ipotesi di indipendenza) sarebbe:
Poichè RI U R 2 :::>RIR 2 ::::}P[RI U R 2 l ~ P[RIR 2l la probabilità che l'acqua arrivi è

maggiore se le condotte sono in parallelo invece che in serie.
Lo si poteva capire anche da considerazioni algebriche: se O ::; PI, p 2 ::; 1 allora
PI+ P2 - PIP2 ~ PIP2 (infatti O::; PI,P2::; 1::::}PI(l - P2) + P2(l - PI)~ O)
e avremmo avuto:
P[RI U R2l = P[Ril + P[R2l - P[RIR2l = PI + P2 - PIP2 ~ PIP2 = P[RilP[R2l =
P[RIR2l-
Esempio 3.2.4 Si calcoli l'affidabilità del seguente sistema
0.2
che si può visualizzare anche nel modo seguente:
[[Hi 10,1 [0.8]]
L'affidabilità dei singoli sottosistemi è data in figura e le singole componenti sono consi-
derate indipendenti.
Soluzione: i dati del problema indicano che le probabilità che le singole componenti del
sistema Ci funzionino ( cioè le affidabilità delle singole componenti} sono:
P[Cil = 0.2, P[C2l = 0.6, P[C3l = 0.3, P[C4l = 0.4, P[C5l = 0.8
Il sistema funziona se:
{funziona CI} U [({funziona C 2} U {funziona C 3}) n ({funziona C4} n {funziona C5})l.
L'affidabilità di [ ~:; ] è
P[( {funziona C2} U {funziona C3})l = 1 - P[( {funziona C2} U {funziona C3}fl =
= l-P[{funziona C 2}cn{funziona C 3}cl= l-P[{funziona C2}clP[{funziona C 3}cl=
1 - (0.4)(0. 7) = o.72.
In modo analogo si vede che l'affidabilità di [[0.72l [0.4l [0.8]] è (0.72)(0.4)(0.8) = 0.2304
e, infine che l'affidabilità totale è quella di [ 0 _~204 ] cioè 1 - (0.8)(0.7696) = 0.38432.
3
3.3 L'illusione di sapere
Ragionate senza fretta sui due quesiti proposti. Poi confrontate la risposta esatta nella
Appendice 1, al paragrafo "L'illusione di sapere (soluzioni)".
Legge di Bayes
Dallo straordinario libretto [MPP] di cui consiglio caldamente la lettura, riporto il
seguente problema riguardante la legge di Bayes.
Generalmente si pensa che un test clinico sia affidabile se è in grado di segnalare, con
una elevata probabilità, la presenza di una malattia in una persona malata.
Applicando questa definizione supponiamo che un certo test abbia una affidabilità del
99%, cioè che il test risulti positivo nel 99% dei casi in cui un malato viene esaminato.
Ora un certo paziente è risultato positivo a questo test. Noi sappiamo che:
1) la affidabilità del test (nel senso prima precisato) è del 99%;
2) La frequenza media della malattia, nella popolazione da cui proviene il paziente è
dell'l %.
Tenuto conto di queste informazioni, scegliete quella che vi sembra più sensata tra le
seguenti diverse conclusioni riguardanti la probabilità che quel paziente sia effettivamente
la malato: la probabilità
a) è pari al 99% c) non si può calcolare per mancanza di dati
b) supera il 50% d) è almeno pari al 20%
Paradosso delle 3 scatole

Da un quesito di uno studente viene il seguente problema (anch'esso trattato in [MPP]).
In una di 3 scatole identiche c'è una banconota da 500 euro mentre le altre 2 sono
vuote. B sceglie a caso una scatola poi A (che sa esattamente in quale scatola si trova la
banconota) ne apre una vuota delle 2 rimaste. A questo punto viene offerto a B di fare
di nuovo una scelta: tenere la sua scatola o prendere l'altra. Cosa deve fare B perché sia
massima la probabilità di prendere la banconota?
3.4 Nota storica
Thomas Bayes (In ghilterra) 1702 - 17 aprile 1761
Figlio di un pastore nonconformista e pastore egli stesso,

è educato privatamente e sembra che abbia De Moivre
tra i suoi tutori. I risultati di Bayes sulla probabilità sono
pubblicati dopo la sua morte in un saggio (Essay
Towards Solving a Problem in the Doctrine of Chances)
apparso nel 1764 nei Philosophical Transactions
of the Royal Society di Londra. I risultati di Bayes
sono riconosciuti da Laplace nel 1781.
81
Esercizio 3.5.1 Dato P[A] = 0.5 e P[A U B] = 0.6 calcolare P[B] quando
a) A e B si escludono a vicenda
b) A e B sono indipendenti
c) P[AIB] = 0.4.
Esercizio 3.5.2 Siano Vi i- j; i, j = l, 2, 3

(j = 1, 2, 3) quanto vale P[A]?
Esercizio 3.5.3 Siano A, B, C tre eventi qualsiasi con probabilità diversa da zero. Ap-
I
porre i corretti valori di verità alle seguenti affermazioni:
F
F
F
P[AIBC] = P[ABIC]P[BIC]
P[ABC] = P[AIBC]P[BIC]P[C]
P[AB] = P[A]P[B]
P[A] = P[AB] + P[AB]
Esercizio 3.5.4 Dati due eventi A e B qualunque tali che P[A] > O,P[B] > O e AB = 0
~
A e B sono sempre dipendenti
F A e B sono talvolta dipendenti
F A e B sono sempre indipendenti
;I
Esercizio 3.5.5 Siano A e B due eventi tali che P[A]P[B] > O. Indicare tra queste
affermazioni, l'unica veraVI:
P[AIB]=P[AIB 0 ]
F P[AIB] + P[A 0 1B0 ] = l
F P[AIB] + P[AIB 0 ] = l
F P[AIB] +P[A 0 1B]= l
Esercizio 3.5.6 Abbiamo tre scatole contrassegnate con 1) 2) e 3). La scatola i} contiene
i palle bianche e 5 - i palle rosse. Sia Si l'evento:{ è stata scelta la scatola contrassegnata
con i)}. Sia Ab l'evento: {è stata scelta una palla bianca} e Ar l'evento: {è stata scelta
una palla rossa} indicare la formula che dà la probabilità dell'evento Ar e calcolarla
Esercizio 3.5.7 Una macchina ha prodotto 100 pezzi di cui il 5% è difettoso. Trovare la
probabilità che in un campione di 10 pezzi nessuno sia difettoso (indicare solo la formula
senza eseguire i conti).
Esercizio 3.5.8 Un laboratorio ha un test che individua il 99% delle volte un virus
quando questo è presente e ne segnala la presenza l 'l % delle volte quando il virus non
c'è. Se il 5% della popolazione ha questo virus qual è la probabilità che Tizio risultato
positivo al test abbia davvero il virus?
Indicare con D = { Tizio ha il virus}, E= { Tizio risulta positiva al test}
. P[A]
Y 1La prima è falsa: per esempio se A e B P[AIB] = P[B] ma P[AIB 0 ] = O
P[A 0 B 0 ]
La seconda è falsa: per esempio se Be A P[AIB] = 1 e P[A 0 1B0 ] = P[BC] = O sse A 0 B 0 = 0
e questo in generale è falso.
La terza è falsa per esempio per lo stesso motivo per cui è falsa la prima.
La quarta è vera perché P[·IB] è una funzione di probabilità su n.
Esercizio 3.5.9 Supponiamo che un candidato, dovendo rispondere a un quesito di un
test che comporta la scelta tra 10 alternative, sappia la risposta con probabilità p o cerchi
di indovinare con probabilità (1-p). Assumiamo uguale a 1 la probabilità che un candida-
to risponda esattamente a una domanda se conosce la risposta, e uguale a 1/10, se cerca
di indovinare. a) Indicando con A ={il candidato conosce la risposta)e B ={il candidato
risponde esattamente}, scrivere la formula che permette di calcolare la probabilità condi-
zionale che un candidato che ha risposto esattamente ad un quesito non l'abbia fatto a
caso.
Esercizio 3.5.10 Dati tre eventi A, B, C di probabilità diversa da zero apporre i corretti
valori di verità alle seguenti affermazioni:
O__[TI A è indipendente da A
[}] D se A è indipendente da B, B è indipendente da A
D rpl
L..:_J
{ se A è indipendente da B, B indipendente da C,
allora A è indipendente da C
[}JF D se A e B sono indipendenti anche A e B lo sono
01J:'.] se A e B sono dipendenti allora Ae B sono indipendenti
Esercizio 3.5.11 Siano A, B e C tre eventi qualsiasi con probabilità non nulla. Indicare
quali delle seguenti relazioni sono sempre vere:
~
P[AB] ::::P[A]P[B]
P[AB] = P[A]P[BIA]
P(AIBC) = P(ABIC)P(BIC)
P(A) = P(AB) + P(ABC)
I
Esercizio
F
F
F
3.5.12
Ae
A e
AB
AB
Siano A e B eventi qualunque, indipendenti.
B sono dipendenti
B sono indipendenti
e ~~ sono indipendenti
e BA sono dipendenti
Esercizio 3.5.13 Sia P[AIB] = P[B]. Allora:

A e B sono indipendenti
A e B sono indipendenti se vale anche P[BIA] = P[A]
A e B possono essere indipendenti ma non è detto che lo siano
Esercizio 3.5.14 Dato lo spazio di probabilità (O, A,P[·]), apporre i corretti valori di
verità alle seguenti affermazioni:
D [TI P[AIB] = P[A] e P[BIC] = P[B]:::;, P[AIC] = P[A]
1171 D { P[ABIC] = P[AIC] · P[BIC]:::;, A e B sono
L'.'.....J indipendenti nello spazio (O, A,P[· IC])
D rpl
L..:_J
se A è indipendente da B e B è indipendente da C
allora A è indipendente da C
D Il?!
~
{ se P[AC] = P[A]P[C] e P[AB] = P[A]P[B]
e P[BC] = P[B]P[C] allora A,B,C sono indipendenti
'Vl D { se A, B, C sono indipendenti a coppie e se P[AIBC] > P[AIB]
L'.'.....J allora P[AIBC] > P[AIC]
Esercizio 3.5.15 Siano A e B due eventi tali che P[A]P[B] > O. Apporre i corretti
83
P[AIB] = P[AIBC]
P[AIB] + P[ACIB] = 1
se A e B sono indipendenti Ac e Be sono indipendenti
P[AIB] + P[AIBC] = 1
Esercizio 3.5.16 Una certa popolazione maschile possiede le tre caratteristiche A =

{ essere sposato}, B = { essere laureato}, C = { abitare nel Nord Italia} distribuite secondo
il diagramma di Venn della figura.
--~
B=laureati
15%
abitanti nel
{
C= Nord Italia
A=sposati
Come si evince da tale diagramma solo il 5% dei maschi di tale popolazione possiede tutte
e tre le caratteristiche mentre il 25% sono laureati ma non sono sposati né abitano nel
Nord Italia.
Un individuo è scelto a caso in tale popolazione; indicare, utilizzando le notazioni insie-
mistiche con riferimento ad A, B, e C, i seguenti eventi e calcolarne le probabilità:
E = {l'uomo è sposato ma non laureato}
M = {l'uomo vive nel Nord Italia}
W = {l'uomo non è sposato né laureato}
H = {l'uomo vive nel Nord Italia ed è laureto}
Calcolare la probabilità di: Ac U BclC
Esercizio 3.5.17 Nello spazio di probabilità (O, A, Po) siano A e B due eventi indi-
pendenti di A tali che P0 [A] > O e P0 [B] > O. Sia (O, A, Pi) un secondo spazio di
probabilità che ha gli stessi eventi del primo ma con distribuzione di probabilità diversa,
cioè Po =I-Pi. Nel nuovo spazio A e B:
V F sono necessariamente indipendenti
V F sono necessariamente dipendenti
V F sono necessariamente incompatibili
V F possono essere indipendenti
V F possono essere dipendenti
V F possono essere incompatibili
Esercizio 3.5.18 Un'azienda ritiene che lo 0.1 % dei pezzi di una certa fornitura sia
costituito da pezzi difettosi. Al fine di individuarli l'azienda dispone di un test con le
proprietà seguenti:
a) se un pezzo è difettoso il test lo rivelerà con una probabilità pari a 0.999.
b) se non lo è, verrà erroneamente segnalato tale con una probabilità pari a O.002.
Si scelga a caso un pezzo. Se il test segnala la presenza del difetto, qual è la probabilità
che il pezzo lo sia effetivamente? (Si indichi con A= {il pezzo risulta difettoso al test}
e con B = {il pezzo è effettivamente difettoso})
Esercizio 3.5.19 Sia O= {l, 2, 3, 4, 5} e sia P una misura di probabilità de.finita sullo
spazio A degli eventi generato da O, tale che Vw E O, P[{w}] = 1/5. Si considerino
A= {l, 2, 3}, B = {3, 4, 5} e C = { 4, 5}. Apporre i corretti valori di verità alle seguenti
affermazioni:
r:FA'B
I v~v I A e C ,ona compatibili
sono indipendenti
la famiglia {A,B} costituisce una partizione di O
A e B sono dipendenti
Esercizio 3.5.20 In una regione piove il 40% del tempo e fa bello nel tempo restante. Un
fabbricante di barometri, nel fare test sui suoi prodotti, si accorge che non sono affidabili
al 100%. In particolare un barometro in giorni piovosi ha previsto bel tempo il 10% delle
volte, mentre ha previsto pioggia, nei giorni di bel tempo, il 30% delle volte.
a) Nel prevedere il tempo di domani prima di guardare il barometro la probabilità "a
priori" che piova è 0.4; dopo aver guardato il barometro e avere visto che predice pioggia,
qual è la probabilità "a posteriori" che domani piova effettivamente?
b) Qual è la probabilità "a posteriori" se le previsioni vengono fatte con un barometro
migliore del precedente (errori rispettivamente del 10% e del 20%)?
c) Qual è la probabilità "a posteriori" che domani ci sia bel tempo, se il barometro migliore
predice pioggia?
(Suggerimento: porre B ={fa bel tempo}; A ={il barometro segna bello} e lavorare con
B, Be, A, Ac).
Esercizio 3.5.21 Sia data una moneta bilanciata, cioè tale che P[{T}] = P[{C}] = ½-
Consideriamo i seguenti eventi relativi a 100 lanci:
A = {T, T, T, T, T, T ........ T} = { esce {T} lO0volte di seguito}
100
B = {T, C, T, C, .......T, C} = {esce una volta {T}e una volta { C}alternativamente}
100
C = {T, T, ....... TC, C, ........

'---,-A,-.,--'
50 50
c} = {escono prima 50 {T}poi 50 {C}}
; I~
I~1~1
Apporre i corretti valori di verità alle seguenti affermazioni:
~ ~1~1
F P[B] = P[C] e P[B] > P[A]
F P[B] =P[A]
Capitolo 4
Il dissenso non bisogna ammetterlo, bisogna esigerlo
Robert Kennedy (1925-68}
Agli studenti di Berkeley in rivolta - 22 ottobre 1966
To make a dream you need a team

letto in un ufficio della NASA
Variabili e vettori aleatori
4.1 Eventi e sottoinsiemi di Ill

Abbiamo definito nelle pagine precedenti (O, A, P[·]). P[·] è una particolare funzione
definita su punti (eventi) di A, a valori in [O,l] C JR. Pensiamo ora a una funzione
X : O f--+ JR che associa a ogni evento elementare w E O un numero reale x E JR.
Definizione 4.1.1 Una funzione X : O f--+ JR è una variabile aleatoria (va) o variabile
Figura 4-1:
86 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
casuale (ve) se (fig. 4-1):
Vr E JR,Ar = {w : X (w) ::; r} E A
che garantisce che ogni semiretta (-oo, r] dell'asse reale ha per controimmagine un evento
di A. Grazie a questa condizione si potrà trasferire la probabilità da A a JR.
Questa condizione è legata a proprietà di "misurabilità" richiesta alla funzione di pro-

babilità su cui non ci soffermeremo. Tutte le funzioni X : f----+ n
JR che incontreremo
nel nostro corso soddisfano questa proprietà. Per un esempio di funzione non misurabile
vedere Appendice 1.
Definizione 4.1.2 Determinazione di una va X è il valore X(w) = x che la X

assume in corrispondenza di un evento elementare w. Si dice che X codifica eventi
(elementari) w con numeri x.
Oss. 1 Importante: le determinazioni (insieme dei valori x) di X in JR si possono

pensare come gli eventi elementari possibili di un nuovo spazio campionario, lo spa-
zio campionario della variabile aleatoria. Sarà chiaro in seguito che il modo con
cui X associa eventi elementari di n a punti di JR dipende da cosa interessa studiare
dell'esperimento in esame.
Lo spazio degli eventi è lo spazio i cui elementi (punti) sono i sottoinsiemi borelliani di
JR, cioè tutti quelli che si possono generare con (-oo, r] (vedi esempio 2. 3.16}.
Oss. 2 Mostriamo che non tutte le funzioni da n a JR sono misurabili. Sottolineiamo

che la misurabilità dipende dalla a-algebra su n. Prendiamo A dell'esempio 2.3.14. Sia
w E n e X(w) tale che
X(l) = X(2) = O,X(3) = 1, X(4) = 2.
X è misurabile rispetto a A perché Vr : x- 1 (-oo, r] E A. Infatti
r < O; x- 1(-00,r] = 0
O::; r < l; x- 1 (-oo,r] = {1,2}
1::; r < 2; x- 1 (-oo,r] = {1,2,3}
2::; r < oo; x- 1(-00,r] = n.
Sia ora Y(w) tale che
Y(l) = O,Y(2) = Y(3) = Y(4) = 1.
Y è la funzione indicatrice dell'insieme {2, 3, 4} ét,A e quindi Y non può essere misura-
bile. Per esempio, se O::; r < l;Y- 1 (-oo,r] = {l} che non sta in A.
Esempio 4.1.3 Lancio di 1 dado. X è la va che indica il numero che appare sulla faccia
verso l'alto del dado.
n dominio di X(·) {l} {2} {3} {4} {5} {6}

immagine in JR 1 2 3 4 5 6
1 1 1 1 1 1
probabilità 6 6 6 6 6 6
87
Esempio 4.1.4 Lancio di 2 dadi. X è la va che somma i numeri che appaiono sulle
facce verso l'alto dei 2 dadi.
n dominio di X(·) immagine in JR probabilità

(1,1} 2
326
(1,2};(2,1} 3
336
(1,3};(2,2};(3,1} 4
3/
(1,4);(2,3};(3,2};(4,
1} 5
356
(1,5};(2,4};(3,3};(4,2};(5,1} 6
3l
(1,6};(2,5};(3,4};(4,3};(5,2};(6,1} 7 356
(2,6};(3,5};(4,4);(5,3};(6,2} 8
3/
(3,6);(4,5);(5,4};(6,3} 9
336
(4,6);(5,5};(6,4} 10
326
(5,6);(6,5} 11
316
(6,6) 12 36
Si può pensare a eventi equivalenti in n e in JR rispetto a una X. Supponiamo che X

rappresenti la somma risultante dal lancio di due dadi a 6 facce. Presi A E A e B C JR,
diciamo che A è equivalente a B se A si verifica tutte le volte che si verifica B e viceversa,
cioè se A= {w E n: X(w) E B}, A è l'evento di tutti gli w per cui X(w) E B. L'evento
A = { (1, 5) U (2, 4) U (3, 3) U (4, 2) U (5, 1)} è equivalente all'evento B = {X = 6}.
Il termine "variabile aleatoria o casuale" può trarre in inganno. Infatti sarebbe più
corretto dire "variabile, o meglio, funzione dipendente da un evento casuale". La cor-
rispondenza tra gli w E n e gli x E JR è definita infatti con certezza ma X prende la
determinazione x se si verifica casualmente uno degli w tali che x = X (w).
Utilità del passaggio da na JR

L'obiettivo che ci si propone con l'introduzionedelle va è quello di creare un nuovo am-
biente in cui fare considerazioni probabilistiche, diverso dallo spazio campionario n e dal
vecchio spazio degli eventi A, che mal si prestano a far di conto. Con il trasferimento
n
di su JR attraverso una va gli eventi di A vengono descritti in termini di sottoinsiemi
(borelliani) di JR, cioè ogni A E A diventa {X E B}, dove B è un sottoinsieme (borel-
liano) di R Sarà ovviamente necessario definire anche uno strumento che sostituisca la
funzione di probabilità P, e che ci permetta di calcolare "analiticamente" la probabili-
tà di {X E B}. Vedremo che il calcolo si potrà effettuare attraverso somme o integrali.
La definizione di tale strumento ci porta a dividere l'esposizione in due parti, la prima
dedicata alle va discrete e la seconda alle va continue.
Funzione di ripartizione
Definizione 4.1.5 Data una va X(·), la sua funzione di ripartizione (fdr} è una
funzione Fx(·) con dominio JR e codominio [O,l], così definita:
"ix E JR Fx(x) = P[X::; x] = P[w: X(w)::; x] (4.1)
Fx (·) è dunque un accumulatore di massa, Fx cioè cumula la massa concentrata sugli

w tali che X(w) ::; x.
Osservazione 1: è evidente che per ogni x E JRl'insieme {w: X(w)::; x} deve essere un
evento.
Osservazione 2: Se sup[X(w)] =a allora Vx,x ~a: Fx(x) = 1
wE!ì
4.2 Variabili aleatorie discrete

Le va X : n ---+ JR il cui codominio abbia cardinalità finita si dicono discrete e finite,
quelle il cui codominio abbia cardinalità numerabile si dicono discrete. In questo caso
l'immagine di n è fatta da punti isolati che hanno al più cardinalità ~o.
Per trasferire la probabilità dallo spazio degli eventi A su JRbasta trasferire su ogni x E JR
il peso della sua controimmagine: per esempio se x- 1 (x) = A E A allora P[X = x] =
P[A]. La probabilità risulta così trasferita.
Definizione 4.2.1 Se X è una va discreta con determinazioni Xi, la funzione:
P[X
( )= { O = xi] X= Xi
=P[X=x] (4.2)
Px x X=/, Xi
si dice legge di probabilità di X {ldp 1).

Con P[X = xi] si intende P[w E n: X(w) = xi].
I valori Xi vengono detti punti massa, mentre Px (xi) è la massa su Xi,

Per le va discrete la funzione di ripartizione è costante a tratti e ha al più una infinità
numerabile di salti, cioè di punti di discontinuità, come vedremo negli esempi delle pagine
successive.
4.3 Variabili aleatorie continue

Definizione 4.3.1 Una va si dice continua se la sua fdr Fx(x) P[X < x] è
continua.
Definizione 4.3.2 Una va si dice assolutamente continua se esiste una funzione

fx(·) tale che la sua fdr Fx(·) è data da:
'vxEJR,Fx(x)= fx=fx(u)du (4.3)
La fdr di una va assolutamente continua è assolutamente continua.

La funzione fx (x) che definisce la sua fdr si dice funzione di densità di probabilità
{fd) di X.
Ovviamente se X è una va continua allora la sua fdr Fx può essere ricavata dalla sua
fd fx e viceversa, cioè fx(x) = d!Fx(x).
1Nelprosieguo del testo legge di probabilità (ldp) Px(xi) = P[X = xi] e funzione di densità
discreta (fdd) fx(xi) = P[X = xi] saranno sinonimi. Molti testi usano definire P[X = xi] come
una funzione di densità discreta e quindi la chiamano fdd. Noi invece ci teniamo a sottolineare che
P[X = xi], probabilità che una va X prenda una determinazione Xi, non è una densità anche se è
invalso l'uso di chiamarla tale. Per questo preferiamo ldp ma usiamo anche fdd.
89
Importante. Tutte le va non discrete che incontriamo nel corso sono assolutamente
continue. Per semplicità ci limiteremo a chiamarle continue.
Data Fx di una va continua X la sua fd non è univocamente definita.
0 @ ©
I I '
Se per esempio Fx(x) = x/10,l)(x) + 111 ,+oo)(x) (a della figura) è la fdr di fx(u) =
I(o,l)(u) (b della figura) allora è anche la fdr della fx(u) del caso e che è uguale alla
precedente ovunque salvo che in punto. Perciò, nel caso di una va continua, se f x (u)
cambia il suo valore solo in "pochi" punti il suo integrale Fx (x) rimane inalterato. Si
conclude che la fd f x è definita univocamente a meno di un numero "piccolo" di punti.
Sarebbe perciò corretto parlare di "una" densità di X e non "della" densità di X. Questo
fatto sarà per noi trasparente e parleremo di densità tout-court.
Oss. 3 Le va discrete e le va continue non esauriscono tutti i tipi di va possibili. Un

esempio di va che non rientra in queste due categorie si trova a pagina 239.
4.4 Esempi
Discrete
Esempio 4.4.1 La ldp della va di Bernoulli 11 (o indicatore) è la seguente:
P[X =O]= 1- p se x = O
Px(·)= { ~[X=l]=p se x = l
altrove
Mostriamo che Vr E IR,Ar = {w: X(w)::; r} E A.

Se r < O Ar = 0; se O ::; r < l Ar = {C}; se r ~ l Ar = O.
Se P[T] = p e P[C] = 1- psi ha P[X(T) = l] = p e P[X(C) =O]= 1 - p.
q=l-p{
O 1
0 X< 0
La sua fdr è la seguente: Fx(x) { 1- p O::; x < l e il grafico è in figura.
1 1::;x
Esempio 4.4.2 Consideriamo l'esperimento "lancio di un dado"; n ={{i}: 1::; i::; 6}.
La funzione X(w) = i, con w = {i} che può assumere i valori 1,2,3,4,5,6, è una va:
infatti Ar = {w: X(w)::; r} = {esce una faccia con punteggio:=; r} E A. La va codifica
il valore della faccia in alto di un dado e la fdr
5 .
Fx(x) = L i-I[i,i+l)(x) + 1[6,+oo)(x)

i=l
Esempio 4.4.3 Un esperimento consiste in k lanci di moneta. n è formato da k-uple:

TC ... T. La va X ( {TCC .. . CT}) = numero di teste in {TT ... CT} o "numero di suc-
"-v-' "-v--'
k w
cessi in k lanci" (P[{successo}] = P[{T}] = p) prende il nome di va binomiale e si
indica con Bin(k, p) dove k è il numero di tentativi o lanci e p la probabilità di {T} o
di successo in ogni singolo lancio. X prende anche il nome di frequenza ( assoluta) dei
successi.
"
L
TCT,.TC•• TT
} lrteste --1--------~ X
TTTuTCu TC
1111_11_11
Ovviamente X è intera e O ::; X ( ·) ::; k. La sua ldp è data da:
Px(·) = { P[X = h] = (~) ph(l -pt-h se h intero ;O::; h::; n

O altrove
Sia p la probabilità che in un lancio esca {T}. Dalla(~) (:)h (1- :)k-h di pag. 47
interpretando p = : come la probabilità di pescare una palla difettosa ( o l'uscita di {T})
da un'urna dove la proporzione di difettose ( {T}) rispetto al totale è p = : , si ha:
91
Ora, ricordando che Fx (x) = P[X ::; xl, si ha:
• Vx: x <O=} Fx(x) = O;
• Vx: O::;x < l::::}Fx(x) = P[X =O]= (1- p)k; infatti X può assumere solo il valore
O·
'
• Vx: 1 ::; x < 2::::}Fx (x) = P[X =O]+ P[X = l] = (1 - p)k + kp(l - p)k-l; infatti X
può assumere solo i valori O e l;
• Vx: h::; x < h + l::::}Fx (x) = P[X =O]+ ... + P[X = h] = (1- Pt + kp(l - Pt- 1 +
. + (~) ph(l - p)k-h, infatti X può assumere solo i valori O, l, .. , h.
P k (O)+P k (l)+P k (2)
P k (O)+Pk (1)
P,JO)
3 k-1 k
In definitiva:
Fx(x) = I:~P[X iJJii,i+l)(x) + I[k+l,+oo)(x)
I[k+l,+oo)(x)
Esempio 4.4.4 Consideriamo di nuovo l'esperimento che consiste nel lancio, ripetuto
infinite volte, di una moneta visto nel capitolo 2. Un evento elementare di tale esperi-
mento è una stringa in.finita {T, T, C, C, T, ..}. Consideriamo la va X geometrica (tempo
d'attesa del primo successo) che conta quanti lanci devo fare perché appaia la prima T :
X può assumere i valori l, 2, 3, .... Calcoliamo P[w : X(w) = m]. Gli eventi elemen-
tari che corrispondono a X(w) = m sono tutte le stringhe infinite che hanno ai primi
...__,_.,
m - 1 posti una C, cioè {C,C, ..... ,C,T, ... }. Se P[T] = p e P[C] = 1 - p = q
m-1
a ogni singolo lancio, per l'indipendenza ipotizzata dei lanci successivi delle monete
...__,_.,
Px(m) = P[X = m] = P[{C, C, ..... , C, T, ..}] = qm- 1p .
m-1
Per la fdr si ha:
o x<l
Fx(x)-{ p=P[X=l];
p + qp = P[X = l] + P[X = 2];
l~x<2
2~x<3
p +. + qm- 1p = P[X = l] +. + P[X = m]; m~x<m+l
Il grafico è quello di una funzione a scala che cresce indefinitamente senza superare la
retta y = l.
p + pq + pq' .•.•.... •........ •...•... ,-.-

p + pq
p
················~
... .. . . I i I i I !
: : :
l l l
o 2 3 m~J 111 111+/
La somma di tutti i salti infatti è p + qp + q2p + ... = p I:!: 1 qm-l = p l~q = l.
Utilizzando la funzione indicatrice si può scrivere:
Fx (x) = I:!:1 pqm- l I[m,+oo)(x) = p/[1,+00)(x) + pq/[2,+00)(x) + pq 31[3,+oo)(x) + ... +
pqk-l I[k,+oo)(x) + ...
Continue
Esempio 4.4.5 Sia f(x) = 2/(-l/ 2,oi(x). È una fd perché l'area sottesa è uguale al.
La sua f dr è data da:
1
X<- 2
--
Fx(x) - J:00 2Ic-,;,,,,(t)dt -{ :x 1
+ 1 -- <X< 0 = (2x+l)I(-½,oi (x)+l10,oo)(x)
2- -
x~O
1
Esempio 4.4.6Si consideri la seguente fd f(x) = 2 e-lxl; x E R. Per mostrare che è
una funzione di densità basta calcolare:
1
JR fx (x) dx= 2 JR e-lxl dx= J/ 00 e-xdx = l.
La f dr è data da:
1 Jx t l t Ix ex
- 1 x - t -
{ 2 -oo e dt = 2 e -oo = 2 x::; O
Fx(x)--J_ 00 elldt- 1 1 2 _e-x
2 2tooetdt+2J;e-tdt= 2 x>O
=~[ex I[-oo,o](x) + (1- e-x)I(o, 001(x)]
Esempio 4.4.7 Riprendiamo l'esempio 2.4.12 della nutella. La fd fx(x) può essere
pensata come il profilo della nutella spalmata su tutta la retta reale.
Proprietà della funzione di ripartizione di una va

1) Fx(-oo) =
lim Fx(x) = O;Fx(+oo) = lim Fx(x) = 1
x--~ x-+~
2) se a< b =} Fx(a)::; Fx(b) (monotona non decrescente);
3) lim Fx(x + h) = Fx(x) (continuità da destram).
h-o+
Senza citare le va, una Fx(·) che abbia le proprietà 1), 2), 3) verrà chiamata funzione di
ripartizione (fdr) (o cumulatore di massa o di probabilità).
Esercizio 4.4.1 Provare che
P[a <X::;~]= F(~) - F(a).
Soluzione.
Consideriamo gli eventi A, B, C:
A= {w: X(w)::; a}
{ B = {w: X(w)::; ~}
C = {w: a< X(w)::; ~}
III Nota: Se invece di Fx(x) = P[X :CC::x] definissimo Fx(x) = P[X < x] come si fa in altri testi, al
posto di 3) avremmo 3') Fx (x) = lim Fx (x + h) = Fx (x) ( continuità da sinistra).
h-o-
93
AC=0 eB=AUC=}P[B]=P[A]+P[C]. Ora: P[B]=Fx(,6),P[A]=Fx(a).
Conclusione: P[C] = P{w: a< X(w)::; ,6} = Fx(,6) - Fx(a).
Caso discreto
Come si può notare dagli esempi precedenti, la fdr non è lo strumento più idoneo per
descrivere la distribuzione di probabilità su JR nel caso di va discrete. Si preferisce in
questo caso utilizzare legge di probabilità o funzione di densità discreta.
Teoremino 4.4.8 Sia X una va discreta; allora la sua fdr Fx ( ·) si può ricavare dalla
sua ldp p x ( ·) e viceversa.
Dim.: Data Px (·),se xi, x2, .. sono i punti massa di X(·) allora: Fx (x) = I: Px (xi)-
(i:x;::;x)
Viceversa, data Fx(·), allora: Px(xi) = Fx(xi) - lim Fx(xi - h) •
h-o+
L'ultima formula della dimostrazione del teorema precedente perciò si può scrivere:
Px(xi) = Fx(xi) - lim Fx(xi - h) = lim {Fx(xi) - Fx(xi - h)} = P[w: X(w) = xi].
h-o+ h-o+
Per va discrete la Fx (.) è una funzione discontinua nei punti massa x j. In tali punti il
salto di discontinuità è pari a Px(xj),
Esempio 4.4.9 Lancio di un dado bilanciato.

1 5 i
Px(x) = 6 l{l}u{2}u u{6}(x), Fx(x) = I::i=l 6 /[i,i+l)(x) + 1[6,+oo)(x)
Per il teorema 4.4.8,per ogni x da Px(.) si trova Fx(.),
Sex= 2.5::::} Fx(2.5) = I: Px(xi) = Px(l) + Px(2) = ~- Viceversa, da Fx(.) si
i:x;::;2.5
trova Px(.) "ix. Sex= 5::::} Px(5) = Fx(5) - lim Fx(5- h) = ~- ± = ~

h-o+ 6 6 6
Ricordiamo che per supporto di una funzione si intende l'insieme dei punti del suo
dominio di definizione dove la funzione assume valori diversi da zero.
Mostriamo che, per va discrete, l'immagine dello spazio campionario attraverso una va
X è il supporto della sua legge di probabilità Px.
valoridiPx(x/ 1-p p p pq pq2 pq"
nuovospaziodeglieventipossibili
Ll I
~ '------------
---------,
________., supporto
diPx(x)
vecchio
spaziodeglleventipossibili
~ 11r..J/CT..} {CCT..} {CC... CCT..J
--:- :
:
,a/oridiPf,f ~ ======:::::=============
._IP
__ pq_'--p,'--l' _____ p_q_"_ --~~---.----~-;
ifliii·IM va tempod'attesadel 1° successo
Caso continuo.
Sia X una va continua. Allora:
P[X::; b] = 1b -oo fx(u)du,P[X > b] = 1-

jb fx(u)du
-oo =
r~ fx(u)du.
Jb
a::; b =} P[a <X::; b] = 1b fx(u)du.
Per ragioni di continuità da ciò segue che:
P[X =a]= 1a fx(u)du = O i- f(a) (4.4)
Allora P[X::; a]= P[X < a] e di conseguenza
Va, b;a::; b;P[a <X::; b] = P[a::; X::; b] = P[a <X< b] = P[a::; X< b] (4.5)
Per le va discrete vale px(x) = fx(x) = P[X = x]. Questo non è più vero per le va
continue. Per queste ultime vale (box> O):
x+il.x/2
J
x-il.x/2
f X (t)dt = box· f X(();
box
x--<(<x+-
2
box
2
(4.6)
cioè la probabilità che una va continua appartenga a un intervallo di ampiezza box è

uguale al valore della fd calcolata in un punto opportuno dell'intervallo per l'ampiezza
dell'intervallo stesso. Perciò (box~ O):
P[x - I I ::;X
~x ::; x + I Il
~x
(4.7)
fx(x) '.::::'. lboxl
e la approssimazione è tanto migliore quanto più piccolo è box. Quindi, nel caso continuo,
f x è effettivamente una densità di probabilità.
Importante. Valgono le due relazioni:
{
X va discreta O::; px(x) = fx(x)::; 1
X va continua O::;fx(x)
4.5 Vettori aleatori
n e X : n ---+ IRn sia n a valori in IRn. Perciò attraverso
i::::
Siano w E una funzione definita in
::::~::
0
,:: :n~e::::
u:a("IIf)~:::·:~
:.::::~:~ Xn(w)
X= (X1,X2, .,Xn)' = (X1,X2, .,Xnf come risulterà più comodo.
95
R3
Anche in questo caso il trasporto del peso di probabilità dallo spazio A degli eventi a IRn
può avvenire seguendo due strade a seconda della cardinalità di n, con la stessa logica
con cui il problema è stato affrontato nel caso unidimensionale.
Se #(O) ::; ~o le determinazioni del vettore sono al più ~o e a ciascuna di esse si può
assegnare il peso di probabilità presente sulla sua controimmagine, che è fatta al più da
una infinità numerabile di punti di n. Se n ha la potenza del continuo su ogni Wi E n
c'è, in generale, peso uguale a O, quindi si utilizza la fdr n-dimensionale per portare
in IRn la probabilità. Nel caso multivariato utilizzeremo la seconda strada anche per la
cardinalità di n al più numerabile. Partiamo perciò dalla seguente:
Definizione 4.5.1 Dicesi variabile aleatoria n-dimensionale (van) o vettore alea-

torio n-dimensionale (vtan o semplicemente vta se non è in discussione la dimen-
sione n) una funzione X : n ---+ IRn tale che ogni sua componente Xh sia una va, cioè
tale che siano eventi i coni retrogadi Xh ::; rh
(4.8)
Di conseguenza, per un vtan, sono eventi anche gli insiemi del tipo
Infatti questi insiemi sono intersezioni di eventi del tipo 4.8:
Vrj 0 1::; j 1 < J2 < .. < ]k::; n, n(

1::;i::;k
Arji = {w: Xj.(w)::; rj;} ) EA
Si noti che la 4.8 è un caso particolare di (0) dove k = n, Tji = oo per gli ]i =f.h.
In JR2 , per esempio le contro immagini delle superfici evidenziate in figura devono essere
eventi.
--B,
Le va costituenti il vtan possono essere tutte discrete, tutte continue, un po' discrete e
un po' continue. Noi ci atterremo a situazioni di omogeneità: va tutte discrete o tutte
continue.
Siano X 1 e X2 due va discrete. La vta2 (X 1 , X2)' è allora discreta nel senso che il suo
codominio contiene al più un'infinità numerabile di coppie.
1,1,l
0,1,0
1,1,0
Esempio 4.5.2 Lancio di tre monete. Codifichiamo con 1 l'uscita di T e con O l'uscita
di C in ogni singolo lancio. La funzione X : n ---+ JR3 rappresenta un vettore aleatorio
tridimensionale vta3 dove X= (X 1 (w),X 2 (w),X 3 (w))T e Xi(w) è uguale a O oppure a
1.
Oss.: Naturalmente ogni evento elementare w di n dovrà essere abbastanza "ricco" da
descrivere almeno quello che interessa. Nel nostro caso ogni evento elementare dovrà
descrivere almeno il risultato del lancio di tre monete. Il valore che Xj prenderà su un
evento elementare w corrisponderà al risultato della moneta j in quel lancio. n potrà
essere pensato come prodotto cartesiano di tre spazi identici 0 0 composti ciascuno da
due eventi elementari T e C (figura precedente)
Esempio 4.5.3 Gli italiani da i 15 anni in su, secondo l'abitudine al fumo, come stimati
da un'indagine Doxa-ISS 2008 vengono suddivisi nel modo seguente:
Totale Maschi m Femmin e f

fumatori FM 11.2 6.5 4.1
% 22% 26.4% 17.g %
non fumatori e N F
39.6 17.9 21.7
ex fumatori
% 78% 73.6% 82.1 %
Indichiamo con N F la qualità di non fumatore, con F M quella di fumatore, con m il

genere maschio e con f il genere femmina.
Allora i dati della tabella si possono scrivere anche così.
#(popolazione italiana da 15 anni in su) = 11.2 + 39.6 = 50.8

#(m) = 6.5 + 17.9 = 24.4 #(!) = 4.7 + 21.7 = 26.4
P[m] = 24 .4 = 0.48 P[f] = 26.4 = 0.52 (4.9)

50.8 50.8
P[FM n m] = P[FMlm]P[m] = 0.264 · 0.48 = 0.1268
(4.10)
P[FM n f] = P[FMlf]P[f] = 0.179. 0.52 = 0.0932
La popolazione è dunque classificata secondo i caratteri genere e tabagismo. La va X 1

codifica il tabagismo prendendo il valore O sui F M e 1 sui N F; mentre la va X 2 codifica
il genere prendendo il valore O su m e il valore l su f. Gli eventi elementari w sono i
cittadini. La va X 1 su un evento elementare prende il valore O o 1 in dipendenza del fatto
che il cittadino fumi oppure no, mentre sarà X 2 (w) = O oppure X 2 (w) = l a seconda del
97
fatto che il cittadino sia maschio o femmina, e i due caratteri sono descritti dal vta2
X= (X1, X2)'.
N F = non fumatore
F li1 = fumatore
f = femmina
m = maschio
FMnm
FMnf
Come mostra la figura siamo in grado di scrivere la distribuzione congiunta e le margi-
nali.
X2
sesso
0.52 1 0.0932 •0.4268
0.48 O 0.1268 0.3532

o 1 X1
0.22 0.78 fumo
Da 4.9 ricaviamo la marginale di X 1 :
P[X2 = O]= 0.48 P[X2 = l] = 0.52 (4.11)
Da 4.10 ricaviamo parte della congiunta:
P[FM n m] = P[X1 = o,X2 =O]= 0.1268 P[FM n f] = P[X1 = o,X2 = l] = 0.0932

(4.12)
Da 4.11 e 4.12 ricaviamo l'altra parte della congiunta:
P[NFnf] = P[X1 = l,X2 = l] = P[X2 = l]-P[X1 = O,X2 = l] = 0.52-0.0932 = 0.4268
P[NFnm] = P[X 1 = l,X 2 =O]= P[X 2 = O]-P[X 1 = O,X 2 = l] = 0.48-0.1268 = 0.3532

E infine l'altra marginale:
P[X 1 =O]= 0.22 P[X1 = l] = 0.78
Se n contiene tutti i tipi possibili di cittadini (come nel nostro c aso) allora, detta
P[{i,j}] = P[X 1 = i,X2 = j]; (i,j = O, 1) deve valere la relazione: l = P[O,O] +
P[l, O]+ P[O, l] + P[l, l].
Esempio 4.5.4 La qualità di una piccola pompa è verificata attraverso 4 sue componenti.
Ciascuna componente può appartenere a tre diverse categorie di qualità: buona, difetto
trascurabile (non ne compromette il funzionamento), difetto importante (funzionamento
compromesso).
Sia X 1 la va che conta il numero dei difetti trascurabili e X 2 quella che conta i difetti
importanti. È O::; X 1 ::; 4; O::; X 2 ::; 4- X 1 . Lo spazio delle coppie possibili è indicato
in figura, con una distribuzione di pesi di probabilità ipotizzata da noi.
1130 3130
•
1130 e 1110 • 3/JO
1110 e 1130 e 3/30 e 3/30
l/30 J/30 2130 4/30 l/3 0
x,
4.6 Funzione di ripartizione di un vtan

Limitiamoci per il momento al caso di vta2 definiti sullo stesso spazio (O, A, P[·]).
Definizione 4.6.1 Date due va X 1, X2 definite sullo stesso spazio di probabilità (O,
A, P[·]) si dice funzione di ripartizione congiunta del vta2 (X 1 , X 2 )' (o, meglio,
funzione di ripartizione bidimensionale congiunta), la funzione:
Consideriamo l'evento {X 1 ::; x 1} n {X 2 ::; x 2}, dove (x 1,x 2) E IR2. La probabilità

di questo evento, Fx(x 1,x2), varia al variare di x 1 e x2, quindi è funzione di x 1 e x2.
Quando saranno chiare le variabili in gioco, scriveremo semplicemente F(x 1 , x2).
Caso discreto
Nel caso discreto, in IR2, è: Fx(x1,x2) = I:I: P[X1 = x,X2 = y], cioè Fx(x1,x2)
x~x1,y~x2
conta la massa contenuta nel cono retrogrado {X 1 ::; x 1,X2::; x2}.
QJ X2 X1
•
. Qz Wz
Xi
•
Q3 X2
•
X1
99
In IR.3,Fx(x1,x2,x3) conta la massa contenuta nel cono: {X1::; X1, X::; x2, X3::; x3}.
Nel caso IR. 2 se il cono con vertice in Q 1 esclude punti massa, Fx(Q 1 ) = O. Per il caso
IR.3 vale lo stesso discorso: se il cono con vertice in W3 esclude punti massa Fx(H'3) = O.
In ogni caso Fx(Qi) oppure Fx(W;) sommano le masse concentrate nei coni di vertice,
rispettivamente, Qi oppure TVicome mostra la figura precedente.
Quindi è facile intuire che anche nel caso n-dimensionale la fdr è un accumulatore di
massa.
Esempio 4.6.2 La fdr Fx(x 1, x 2) del vta2 dei d~fetti trascurabili e importanti della
pompa di un esempio precedente è indicata nella tabella:
4 ::; X2 o 7/30 14/30 22/3 0 29/3 0 30/30

3 ::; X2 < 4 o 4/30 11/30 9/16 26/30 27/30
2 ::; X2 < 3 o 3/30 7/30 15/3 0 22/30 23/30
1 ::; X2 < 2 o 2/30 5/30 9/30 16/30 17/3 0
0::; X2 < 1 o 1/3 0 2/30 4/30 8/30 9/30
X2 < 0 o o o o o o
//lii XI < 0 0 ::; X 1 < 1 1 ::; X 1 < 2 2::; X1 <3 3 ::; X1 < 4 X1 2: 4
Proprietà della fdr congiunta
Fx(-oo,x2) = lim
xi--oo
Fx(x1,x2)=0
Fx(x1, -oo) = lim Fx(x1,x2)=0
x2---+-oo
Fx(+oo,+oo) = lim Fx(x 1,x2) = 1 (4.13)
x1,x2-+oo
Fx(x1, +oo) = lim Fx(x1, x2) = Fx, (x1)
x2-+oo
Fx(+oo,x2) = lim Fx(x1,x2) = Fx 2 (x2)
xi-+oo
Se una delle due coordinate Xi va a -oo, il contatore non somma nulla. Se entrambe le
coordinate vanno a +oo il contatore somma tutta la massa disponibile che è 1 (probabilità
dell'evento certo {X1 < +oo,X2 < +oo, .. ,,Xn < +oo});
(4.14)
cioè F(x 1, x2) è continua a destra in ciascuna variabile;
a< b, c < d =}O::; P[a < X 1 ::; b, c < X2 ::; d] = F(b, d) - F(b, c) - F(a, d) + F(a, c)
(4.15)
Una spiegazione grafica di questa formula è nella seguente figura:

------ F(a, d)
0,0 nord
Ct.ql
-------s e
t
o,o
---+----+---+- T
Cs.pJ
I
F(b ,d)-F(b ,r )-F(a,d)+F(a ,c)
F(b,r) F(a,r)
La 4.15 esprime una "specie" di monotonia (in termini probabilistici, non dell'Analisi
matematica), ma non è caratterizzante delle fdr congiunte nel senso che esistono delle
funzioni che soddisfano la 4.15 ma non sono fdr.
Anche la proprietà D =
{p::; q, s ::; t::::} F(q, t) ~ F(p, s)} non è caratterizzante di una
fdr. Infatti per una fdr quest'ultima è vera perché muovendosi da un punto a un altro
sistemato in un cono rettangolo con vertice nel punto di partenza, a nord ed est rispetto
a esso, si aggiunge massa. Ma esistono funzioni che soddisfano la D ma non la 4.15: come
esempio prendiamo la funzione H(x, y) = (1- s)I[{[O:ox::;I] x [l:oy)}u{[1::; x] x [O:oy:o1)}] (x, Y) +
I[{[l:ox]x[l:oy)}](x,y) disegnata in figura.
H(x,y) 1 -E X
J+ E
X
''e•~
!,------
1- E X •A
D • .B
H (A) - H ( B )-H ( C) • H ( D) =(I-e) - (I - e)- (I - e)• O= 3e -1 < O
Una Fx(·, ·) che soddisfi le proprietà 4.13, 4.14, 4.15 si chiama funzione di ripartizione
congiunta bidimensionale ed esiste una vta2 distribuita secondo Fx(·, ·).
Diamo la definizione di legge di probabilità congiunta (o funzione di densità discre-
ta congiunta) fx(·, ·) = fx,,x 2 (·, ·) nel caso bidimensionale discreto per la vta2 X =
(X1,X2)'.
Definizione 4.6.3 Si dice legge di probabilità ldp (o funzione di densità discreta fdd}
di una vta2 X discreta una funzione di due variabili così definita:
fx(a, b) = fx,,x 2 (a, b) = P[X1 = a, X2 = b]
La relazione che lega la ldp di una vta2 alla sua fdr è la seguente:
101
La scrittura LL sta a indicare che posso sommare prima rispetto a x 1 e poi a x2 o

X1~a
x2~b
viceversa, indifferentemente.
I:I:fx,,x 2 (x 1,x2) = 1, perché la sommatoria è estesa a tutti i valori (x 1,x2) possibili
x1,x2
Definizione 4.6.4 Date due va X 1 e X 2 e detta Fx(·, ·) la loro fdr congiunta, si dice
fdr marginale di X 1 la Fx, (·) così definita:
Fx,(a) = P[{w: X 1(w)::; a}]= P[{w: X 1(w)::; a} n {w: X2(w) < +oo}] =
= Fx(a, +oo) = I:x l_<a I:x 2 f(x1, x2)
Analogamente Fx 2 (b) = Fx(+oo,b) si dice fdr marginale di X2.
Data la funzione di densità discreta congiunta di una va bidimensionale (X 1,X2)', s1

possono ricavare le due ldp marginali:
fx, (a)= L fx(a, x2); (4.16)
La funzione I:x 2 fx(a, x2) = f x, (a) è la legge di probabilità (funzione di densità discreta)
di X1 perché Va dà P[X1 = a], dove: {X1 =a}= {X1 = a} n {X2 < +oo} = LJj(X1 =
a) n (X2 = x2 1 ).
Quindi P[X 1 = a] = P [y(X 1 = a) n (X2 = x21 )] = 2rP[X 1 a,X2 x2 1 ]
I:fx(a,x2 1) = fx,(a) che è la ldp marginale di X 1 calcolata in a.

j
Xz
* *
*
* *
J / x,x,(x,,,h)
-------
b ·~
/ ;t,f x,x,(a,.x,)
{/ x,
* *
* *
Ricordiamo che x 1 appartiene a un insieme di cardinalità al più infinito-numerabile. Lo

stesso discorso vale per X2. Sarebbe perciò più "espressivo" indicare i valori del dominio
di Px con x 1k, x2 1 ( k, j = O, 1, 2, ... ) anziché (x 1, x2). Con questa osservazione, le 4.16 si
possono scrivere:
Vj = O, 1, ... , fx, (a)= I:1~ fx(a, x2 1 )
Esempio 4.6.5 Popolazione fumatori/non fumatori. Nell'esempio 4.5.3 abbiamo visto
che si poteva dedurre la conoscenza delle ldp marginali: infatti f x 1 (O) = 0.22 (percentuale
dei fumatori) e fx,(l) = 0.78 (percentuale dei non fumatori} mentre fx 2 (0) = 0.48
(percentuale dei maschi} e fx 2 (l) = 0.52 (percentuale delle femmine). La ldp congiunta
non è comunque univocamente determinata. Supponiamo che sia:
P[X 1 = O,X 2 = O] = 0.1268 = P[{FM} n {m}] P[X 1 O, X 2 l] 0.0932
P[{FM} n {.f}]
P[X 1 = l,X 2 = O] = 0.3532 = P[{NF} n {m}] P[X 1 l,X 2 l] 0.4268
P[{N F} n {.f}]
Per cui F(x 1,x2) = O se x 1 < O oppure x2 < O, F(x 1,x2) = 0.1268 se O::; x 1 < 1,0::;
X2 < 1, F(x1, X2) = 0.1268 + 0.0932 se O ::; X1 < 1, 1 ::; X2, F(x1, X2) = 0.1268 + 0.3532
se l ::; x 1 ,0 ::; x 2 < 1, e infine F(x 1,x 2) = 0.1268 + 0.0932 + 0.4268 + 0.3532 se
1 ::; x 1 , 1 ::; x 2 , come è evidenziato nella figura seguente.
f
x 1x 1
(0,I)=0.0932 I x x O,I)=0.4268
1 1
f
X2
(l)=0.52
~-~ o
f
x 1x1
ro,0;=0.1268 Ix x (],0)=0.3532 0.1268 0. 1268 + 0.3532
1 2
f (0J=0.48
~ ~
X1
o o
f (0)=0.22 f (1)=0.78
X1 X[
Caso continuo
Definizione 4.6.6 Una vtan (n-dimensionale} X= (X 1, X2, ., Xn)' : n --+ IRn si dice
continua se e solo se esiste una funzione fx (·, ·, .. , ·) ~ O tale che la probabilità dell'evento
{X1::; x1; X2::; x2;,.;Xn::; Xn} è data da:
(4.17)
La Fx(·, ·, .. , ·) è detta funzione di ripartizione congiunta, mentre la fx(·, ·, .. , ·)

funzione di densità congiunta.
Valgono per Fx(·, ·, .. , ·) le proprietà già enunciate per le funzioni di ripartizione
congiunte discrete (formule 4.13, 4.14, 4.15).
103
In particolare (vedi figura):
P[a < X 1 < b, c < X2 < d] = P[a::; X 1 ::; b, c::; X2::; d] =

=P[a < X 1 ::; b,c < X2::; d] = P[a::; X 1 < b,c::; X2 < d] =
=Fx,x 2 (b, d) - Fx,x 2 (a, d) - Fx,x 2 (b, c) + Fx,x 2 (a, c) = fx,x 2 (u1, u2)du1du2.J:t
Tutto quanto esposto per le vtan discrete si trascrive per le vtan continue scambiando
il segno di I: con quello di J.
In particolare:
+oo +oo
fx, (x1) = j fx(x1, x2 1 )dx2 fx 2 (x2) = j fx(x1,x2 1 )dx1

-oo -oo
rappresentano le fd marginali della densità congiunta fx(x 1,x2 1 ).

Osservazione: si osservino le analogie tra le distribuzioni congiunte ( "frequenze biva-
riate" a priori) e le frequenze bivariate osservate descritte nel capitolo 1
Osservazione: si osservi che, la densità congiunta e la cumulativa congiunta sono legate
da:
Esempio 4.6. 7 Importante. Le due distribuzioni bivariate in figura hanno le stesse

marginali ma diverse distribuzioni congiunte.
f/y) f/y)
0.25 0.25 0.25-e 0.25 + ~
0.5
• 0.5
•
fx,( x;,J) fx,{x;,J)
0.25 0.25 0.25 + & 0.25 -E

0.5 0.5
I fx(x;) 0.5 0,51 I fx(x;) 0.5 os I
Oss. 4 Importante. Poiché dalla congiunta si ricavano in modo univoco le marginali,

mentre non è in generale vero il viceversa, concludiamo che la congiunta contiene più
informazione delle due marginali. Il caso in cui la quantità di informazione è la stessa,
viene affrontato nella sezione seguente.
4.7 Variabili e vettori aleatori indipendenti

Definizione 4.7.1 n va congiunte X 1,X2, .. ,,Xn; X= (X 1 ,X2, .. ,,Xnf si dicono
(stocasticamente) indipendenti se gli n eventi {X;::; x;} sono indipendenti (vedi il
capitolo 3).
Teoremino 4.7.2 Detta Fxi la fdr marginale della generica va Xi e Fx la fdr con-
giunta, le va X 1 , X 2 , ... , Xn sono indipendenti sse
(4.18)
cioè se la loro funzione di ripartizione congiunta è il prodotto delle funzioni di ripartizione

marginali.
Ce se ne può rendere conto facilmente.
Vediamolo nel caso n = 3. {X 1 ::; x 1}, {X2 ::; x2}, {X3::; x3} sono indipendenti per
definizione se:
P[{X1::; X1} n {X2::; x2}] = P[{X1::; X1}]P[{X2::; x2}]
P[{X1::; x1} n {X3::; x3}] = P[{X1::; x1}]P[{X3::; x3}]
P[{X2::; x2} n {X3::; X3}]= P[{X2::; x2}]P[{X3::; X3}]
P[{X1::; X1} n {X2::; x2} n {X3::; X3}] = P[{X1::; X1}]P[{X2::; x2}]P[{X3::; x3}]
L'ultima è esattamente la 4.18. Una a scelta delle altre 3, per esempio la prima, segue
ancora da 4.18. Infatti
P[{X1::; X1} n {X2::; x2}] = P[{X1::; X1} n {X2::; x2} n {X3::; oo}] =
= Fx(x1, x2, oo) = Fx, (x1)Fx 2 (x2) · Fx 3 (oo) = P[{X1::; x1}]P[{X2::; x2}]
Oss. 5 La 4.18 è equivalente, in tutti i casi di questo testo, a:
(4.19)
Oss. 6 importante: Sia n lo spazio campionario costituito da 9 terne. Sei sono le

permutazioni di 1, 2, 3; le altre tre sono (1, 1, 1), (2, 2, 2) e (3, 3, 3). Mettiamo la distribu-
zione uniforme su n. Consideriamo poi tre va X 1, X 2 e X 3. Su una qualunque terna, Xi
prende il valore dell'elemento che nella terna occupa il posto i. Allora:
1 1
lfi,j, k, h = l, 2, 3; P[Xk = j] = 3 /\ P[Xk = i, Xh = j] = 9.
Quindi le va sono a due a due indipendenti. Ma non sono mutuamente indipendenti 1v.
Oss. 7 Se le va che formano il vettore X = (X1, X2, ... , Xnf sono indipendenti e
hanno la stessa distribuzione si dicono iid (indipendenti, identicamente distribuite).
Esempio 4.7.3 Supponiamo di avere un'urna contenente nb palle bianche e nr palle

rosse (vedi esempio 3.1.3, pag. 73}. Indicando con {b} (oppure {r}) l'estrazione di una
palla bianca ( oppure rossa) consideriamo le va:
1a estrazione X 1 ={ ~ in corrispondenza degli eventi { gi
2a estrazione X 2 ={~ in corrispondenza degli eventi { gi
Procediamo in due differenti modi.
a) Estrazione con reintroduzione (eventi indipendenti):
1
rvinfatti, per esempio, P[X1 = l,X2 = l,X3 = 1] = - mentre P[X1 = 1] · P[X2 = 1] · P[X3 = 1] =
g
Gr-
105
Densit à congiunta :
1a estrazione 2°" estrazione
P[X 1 =O]= P[{b}] = ~
nr nb P[X2 = l] = P[{r}] = nr~nb
P[X 1 =O]= P[{b}] = ~
nr nb P[X2 =O]= P[{b}] = nr"-:-nb
P[X1 = l ] = P[{r}] = nr~nb P[X2 =O]= P[{b}] = nr"-:-nb
P[ X1 = l ] = P[{r}] = n-~n, P[X2 = l] = P[{r}] = n-~·n
n~ nbnr
fx(x1,x2) = fx 1 (x1)fx 2 (x2) = (
+ )2I(o,o)(x1,x2) + ( + )2 I(l,o)(x1,x2)+
nb nr nb nr
nbnr n;
+( + )2I(o,1)(x1,x2)+ ( + )2J(l,1)(x1,x2)
nb nr nb nr
Densità marginali:
fx, (x1) = nb I(o)(x1)+ nr J(l)(x1); fx 2 (x2) = nb I(o)(x2)+ nr I(l)(x2)
nb + nr nr + nb nr + nb nr + nb
b} Estr az-ione s enza refrdrod ·uz-ione
1a estrazione 2°' estrazione
P[X
l
=O]=
P[{b}] = __!!J,_
nr+nb
P[X2 = llX1 =O]= nr +n, _
nb 1
P[X
1
=O]=
P[{b}] = __!!J,_
nr+nb P[X2 = OIX1=O]= nr n_;_ -~ l
nb
P[X
l
= l] =
P[{r}] = __!2r_
nr+nb P[X2 = OIX1 = l ] = ~<b - 1
nb n1,
P[X
1
= l] =
P[{r}] = __!2r_
nr+n,, P[X 2 = llX1 = l] = n.+n•
nr-l - l
Ora· { P[X1 =O]= nr '+nb e { P[X2 =O]= P[{2 ab, l ab} oppure {2 ab, l ar}]
· P[X1 = l] = ____!l,:_+
nr nb
P[X2 = l] = P[{2ar, lab} oppure {2ar, lar}]
P[X2 =O]= P[2ab, lab] + P[2ab, lar] = P[2abWb]P[lab] + P[2abllar]P[lar] =
nb - 1 nb + nb nr = nb = P[Xl = O]
nr + nb - 1 nr + nb nr + nb - 1 nr + nb nr + nb
P[X2 = l] = P[2ar, lab] + P[2ar, lar] = P[2arllab]P[lab] + P[2arllar]PWr] =
nr
------- nb nr - 1
+ ------- nr -_ ---nr -_ P[X 1 -_ 1]
nr + nb - 1 nr + nb nr + nb - 1 nr + nb nr + nb
nb(nb - 1) nbnr
fx(x1,x2)=( nb + nr )( nr + nb -l)I(o,o)(x1,x2)+( nb + nr )( nr + nb -l)J(l,o)(x1,x2)+
nbnr ( nr(nr - 1)
+( nb + nr )( nr + nb -l)I(o,1JX1,x2)+( nb nr )( nr + nb -l)J(l,l)(x1,x2)
+
Densità marginali:
fx, (x1) = nb I(o)(x1)+ nr J(l)(x1); fx 2 (x2) = nb I(o)(x2)+ nr I(l)(x2)
nb + nr nr + nb nr + nb nr + nb
Anche nel caso della non reintroduzione le probabilità dei risultati della seconda estrazione
sono uguali alle probabilità dei risultati della prima (vedi capitolo 3), Ciò non significa
che le probabilità dei risultati della seconda non sono influenzati dalla conoscenza del
risultato della prima estrazione: infatti c'è dipendenza stocastica,
Questi due esperimenti hanno diverse densità congiunte ma uguali densità marginali,
Osservazione: Pensiamo a una va Z = X 1 + X 2 somma delle due va che codificano la

prima e la seconda estrazione senza reimmissione, Per come sono state definite le cose
Z conta le palle rosse in una doppia estrazione da un'urna che contiene M = nb + nr di
cui N = nr "difettose" (cioè rosse), Si hanno ovviamente le seguenti situazioni:
Z=O {::} {X1 = O,X2 = O}

Z=l {::} {X1 = O,X2 = l} U {X1 = l,X2 = O}
Z=2 {::} {X1 = l,X2 = l}
come
Esempio 4.7.4 Un esempio di legge di probabilità discreta nel caso m-dimensionale di

m va indipendenti è quello della distribuzione multinomiale, che presenta una gene-
ralizzazione della situazione binomiale. Nel caso binomiale le cose possono essere viste
nel modo seguente. Si hanno 2 possibili esiti, S1 e S 2 (nel caso precedente S1 = T e
S 2 = C) che costituiscono una partizione dell'evento certo. La variabile che conta quan-
te volte si presenta S1 ripetendo l'esperimento n volte, in condizioni di indipendenza,
è
X1 = Bin(n,p)
dove p = P[S 1 ], a cui può essere collegata
La legge di X 1 è già stata vista ed è:
px, (x1) = P[X1 = k] = P[X 1 = k; X2 = n - k] =

= P[X1 = k] · P[X2 = n - k] = G)Pk(l - p)n-k
Generalizziamo e invece di 2 soli esiti prevediamone m + 1, distinti e incompatibili

S1 , S2, ... , Sm+l ciascuno di probabilita 7r; = P[S;] non nulla (gli S; costituiscono cioè
m+l
una partizione dell'evento certo). Ovviamente I: 7r; = 1 (nel caso binomiale m = 1,
i=l
1r1 = p, 1r2= 1 - p). Supponiamo di ripetere n volte l'esperimento e sia X; la va che
m
conta il numero di volte che si ottiene il risultato S;. Ovviamente Xm+I = n- I: X; e
i=l
quindi, se le prove vengono ripetute in condizioni di indipendenza, possiamo scrivere la
fdd congiunta delle m va X 1 , X 2 , ... , Xm nel modo seguente:
(4.20)
Infatti la 4.20 rappresenta P[X1 = x1; X2 = x2; ... ; Xm = Xm; Xm+l = Xm+1l cioè
la probabilità di aver ottenuto x 1 volte il risultato S1 , Xm volte il risultato Sm e, di
n!
conseguenza, Xm+I volte il risultato Sm+I · Ci sono 1 1 1 1 allineamenti di n
X1.X2.... Xm,Xm+l,
oggetti (i risultati} di cui x 1 uguali tra loro, x2 uguali tra loro, ... , Xm+I uguali tra loro.
Per l'indipendenza ciascuno di questi allineamenti ha probabilità 1r?1r~ 2 ••• 1r;';,m1r:+V.
Oss.: Una marginale .fxk (xk) rappresenta la probabilità che l'esito Sk si sia verificato
xk volte ( e n - xk volte non si è verificato) Si tratta perciò di una binomiale di parametri
n e 7rk.
107
Esempio 4.7.5 Supponiamo che Rossi e Verdi si accordino di incontrarsi a un istante
non precisato tra le 17:00 e le 18:00. Ciascuno arriva indipendentemente dall'altro e,
dividendo l'ora in 60 intervallini di 1 minuto l'uno, l'arrivo può avvenire in uno qualunque
di questi con la stessa probabilità. Ciascuno inoltre aspetta 10 minuti: se non vede l'altro
se ne va. Trovare la probabilità che i due si incontrino.
Sia X 1 il tempo di arrivo di Rossi e X 2 quello di Verdi.
1 1
X1 ha densità fx, (x1) = 6a1{(o,6on(x1) mentre X2 ha densità fx 2 (x2) = 6a1{(o,6on(x2).
I due arrivi X; sono distribuiti uniformemente sull'intervallo [O,60]. La densità uniforme
è stata vista nei capitoli precedenti.
Gli arrivi sono indipendenti, perciò:
1
f X1X2 (x1,X2) = f X1 (x1)f X2 (x2) = 36Oa1{(0,60)x(0,60)}(x1, X2).
Consideriamo la regione tratteggiata in figura. Se il punto (x 1 , x 2) giace al suo interno

l'incontro avverrà. Per convincersi di questo verifichiamolo per esempio su X 1 = 20 che
significa che Rossi arriva alle 17:20. Se Verdi arriva tra le 17:10 e le 17:30 c'è incontro.
La regione è descritta dalla disuguaglianza IX 1 - X 2 1 10. Il valore assoluto significa
::;
che non importa se arriva prima Rossi o Verdi. Si ha:

?[incontro] = P[IX 1 - X 2 1 10] = volume del parallelepipedo nel grafico a destra in
::;
figura. Detta T la zona tratteggiata utilizzando gli integrali doppi si ha:

P[IX1 - X2I::; 10] = ffr fx,x 2 (x1,x2)dx1dx2 = Jt J:t}
dxi 1
36OOdx2 =
rI0
= Jo dxi Jo
rx1+10 1 150 x,
3600 dx2 + io dxi
Jx' +10 1 r60
-10 3600 dx2 + J50 dxi
160
x, 1 11
-10 3600 dx2 = 36.
In questo caso anche senza l'utilizzo dell'integrale doppio lo stesso risultato si può ottenere
calcolando il volume direttamente come somma dei volumi di A 1 , A 2, A 3 utilizzando le
regole della geometria elementare.
Oss. 8 Nel caso di indipendenza la conoscenza delle fdr (o fd o ldp) marginali permette
di determinare in modo univoco la fdr (o fd o ldp) congiunta. Basta infatti fare il
prodotto. Ciò significa che il comportamento congiunto è univocamente noto se è noto
il comportamento "disgiunto". Se c'è dipendenza questo non è vero. Si pensi a due
dadi dipendenti. Il risultato sulla faccia di uno dei due dadi è influenzato dal risultato
sulla faccia dell'altro dado. Per aiutare l'intuizione si potrebbe immaginare una forza
magnetica che lega i due dadi. È evidente che non basta conoscere come si comporta
un dado per determinare il comportamento congiunto. Osservare un dado da solo infatti
non può dire nulla su come, lanciandoli insieme, i dadi si influenzano.
Definizione 4.7.6 Consideriamo gli n vtan X 1 , X2, ... , Xn definiti sullo stesso spazio
di probabilità (O, A, P) di dimensioni rispettivamente m 1 , ... , mn cioè Vi; X; : n ---+
JRmi. Questi vettori si dicono (stocasticamente) indipendenti se per ogni scelta di n
borelliani Bi e JRmi risulta:
cioè se sono indipendenti gli eventi {X; E B;}.

Esempio 4.7.7 Consideriamo due vtan Q = (Q1 , ... , Qn)' e T =
(T1 , ... , Tm)'. Se
le va Q1 , ... , Qn, T1 , ... , Tm sono indipendenti allora Q e T sono indipendenti. Può
capitare che Q 1 , ... , Qn, T1 , ... , Tm non siano indipendenti ma lo siano invece Q e T.
Teorema 4.7.8 Siano X1,X2, ... ,Xn indipendenti nel senso della definizione 4.7.6 e
siano g; : JRmi ----+ JRki misurabili. Allora i vta g 1 (X 1 ), ... , gn (Xn) sono indipendenti.
Esempio 4. 7 .9 Siano Q 1 , ... , Qn, T1 , ... , T m indipendenti. Allora per il teorema prece-
dente sono indipendenti anche le due va:
4.8 Nota storica
J akob ( J ames) Bernoulli - (Svizzera) 27 dicembre 1654 - 16 agosto 1705
Nasce da una famiglia di origini belghe fuggita prima

in Olanda poi in Svizzera per motivi di persecuzione
religiosa da parte della Spagna cattolica. Suo padre
è commerciante di spezie a Basilea e magistrato.
All'università studia matematica e astronomia
contro la volontà dei genitori. Si laurea
in filosofia nel 1671 e in teologia nel 1676. Gira l'Europa
incontrando scienziati come Boyle e Hooke.
Torna a Basilea dove comincia a insegnare matematica nel 1683.

Come Jakob, i suoi fratelli Johann e Nikolaus studiano matematica contro il desiderio dei ge-
nitori. Nel 1689 Jakob pubblica i suoi importanti lavori sulle serie ed enuncia la legge (debole)
dei grandi numeri. In un suo lavoro del 1690 appare per la prima volta il concetto di integrale
in forma moderna.
Dal 1697 Jakob diviene irriducibile rivale del fratello Johann che sente come pericoloso compe-
titore scientifico.La sua opera più importante rimane Ars Conjectandi pubblicata a Basilea nel
1713, otto anni dopo la sua morte.

Esercizio 4.9.1 Da un mazzo di 52 carte se ne estraggono 5. Sia X la va che conta gli
assi contenuti tra le 5 carte. Dire quali sono le determinazioni di X e indicare la sua
funzione di densità discreta.
109
Esercizio 4.9.2 Siano X 1 e X 2 due va con fdr rispettivamente F 1(x) e F 2(x). Sia
F(x) = c 1F 1(x) + c2F2(x), c1,c2 E JR.
F(x) è una fdr
F(x) è una fdr se e solo se c 1 e c2 soddisfano a una condizione particolare.
Esercizio 4.9.3 Sia F(x) una funzione di ripartizione. Indicare i corretti valori di
veritàv:
[!][TI lim F(x)
x-+oo
=O 'lfx1, x2, x1 < x2::::} F(x1) < F(x2)
[!][TI lim F(x) =1 'lfx 1, x2, F(x 1 + x2) = F(x 1) + F(x2)
x---++oo
'lix lim F(x + h) = F(x)
[!][TI lim F(x)
x---++oo
= +oo h-o+
O< l lim F(x) >
[!][TI lim F(x)
x---+-oo
= 1/2 \>'E: E:<
x-+oo
E:
[!][TI lim F(x) =O \>'E: O< E:< l lim F(x) > E:

x--oo
x--oo
Esercizio 4.9.4 Sia X una va continua e f(x) la sua fd:

f (X) è monotona non decrescente a E JR::::}P[X = a] = O
a E JR::::}P[X =a]= f(a) O::; J~;: f(x)dx::; ½
Esercizio 4.9.5 A possiede due monete e B una soltanto. I due giocano fino a quando
uno dei due possiede tutte e tre le monete. Sia p la probabilità che in una generica partita
(le partite sono indipendenti) A risulti vincitore. Sia infine X la va "numero" di partite
giocate prima che il giuoco finisca.La va X ha:
~
un numero finito di determinazioni
FF una infinità numerabile di determinazioni
una infinità non numerabile di determinazioni
Calcolare la probabilità che il giuoco abbia una durata di 5 partite.
Esercizio 4.9.6 Sia Fx(t) = {3t 2 - 2t 3 }/[o,i](t) + /(1,+oo)(t) (dove al solito IA(t) è la
funzione indicatrice dell'insieme A) la f dr di una va X.
a) calcolare f x (t)
b) Considerato che il grafico di Fx (t) è il seguente:
1/2
apporre i corretti valori di verità alle seguenti affermazioni:

DITI P[X:::: l] = 1 DITI P[X = 1/2] = 1/2
D::JD P[X::; O]= O D::JD P[-5::; X::; 8] = 1
v Attenzione:
\fx1,x2, xi< x2 =} F(x1) < F(x2) è falsa.
Sarebbe vera se fosse:
\fx1,x2, xi< x2 =} F(x1) F(x2)
:CC::
Esercizio 4.9.7 Siano Fx(x) e Fy(y) le funzioni di distribuzione marginali di F(x,y).
Indicare quali delle seguenti relazioni sono sempre vere.
lf(x,y) F(x,y)::; Fx(x)Fy(y)
lf(x,y), Fx,Y(x,y)::; Fx(x) + Fy(y) -1
lf(x,y),P({X::; x} U {Y::; y}) = Fx(x) + Fy(y) -Fx,Y(x,y)
lf(x,y) Fx,Y(x,y) = Fx(x)Fy(y)
nota Fx,Y(x,y) sono note in modo univoco Fx(x) e Fy(y)
note Fx(x) e Fy(y) è nota in modo univoco Fx,Y(x,y)
Esercizio 4.9.8 Siano fx(x) e fy(y) le funzioni di densità marginali di fx,y(x,y) di

due variabili aleatorie {discrete o continue). Apporre i corretti valori di verità.
lfx,y fx(x)fy(y) = fx,Y(x,y)
lfx,y fx,Y(x,y)::; 1
lfx, y; fx,Y(x, y) consente la definizione delle densità
{ marginali in modo univoco
lfx, y le densità marginali consentono la definizione
della f x ,Y (x, y) in modo univoco
Esercizio 4.9.9 Data una funzione di ripartizione Fx ,Y (x, y) di un vettore aleatorio

(X, Y) come in ,figura indicare la funzione di densità discreta f x ,Y (x, y) che la genera
segnando sul grafico i punti massa e il relativo peso.
FX,Y fx,y
(§ 0
01
@) (§
0
o
02
i valori cir<olettati,ono quelli di F:I;y
Per maggiore chiarezza la Fx,Y(x,y) è così de.finita:

Fx,y(x,y) = O sex< O oppure y < O
1
Fx,y(x,y)=} se0::;x<2/\0::;y<l
Fx,y(x,y) =2 se O::;x < 2 /\ 1::; y oppure O::;y < l /\ 2::; x

Fx,y(x,y) =1 se 2::; x e l::; y
Esercizio 4.9.10 Disegnare la funzione f (t) = P[t < k], k fissato.

Capitolo 5
Regola aurea
Non fare agli altri ciò che non vorresti venisse fatto a te
Alessandro Severo (208-235 d.C.) imperatore romano
Ma si trova lo stesso concetto anche in
Confucio (551-479 a.C)
nel Vangelo secondo Luca 6,31
nel Talmud 6, Shabbath, 31
nel Hadith di Al-Bukhari della religione islamica
nel M ahabharata 5: 1517 della religione indu
Indici per variabili aleatorie
5.1 La media
Definizione 5.1.1 Sia X una va {dotata di punti massa Xj e ldp px(x) se discreta, di
fd fx(x) se continua). La media E[X] (o µx) di X è data da:
µx = E[X] = LXjPx(xj) se X è discreta (5.1)

j
µx = E[X] = 1:= xfx(x)dx, se X è continua (5.2)
a patto che queste quantità esistano.
Nel caso di va discreta la somma L.j XjPX (xj) rappresenta la media E[X] solo se esiste
finita e ha lo stesso valore in qualunque ordine si sommino gli addendi XjPx(xj), cioè
la media E[X] esiste, per defìnizione, solo se la 5.1 è una serie incondizionatamente
convergente (o, per il teorema di Dirichlet, Appendice 1, se e solo se L.j lxjp(xj)I esiste
finita). Per ragioni che non possiamo affrontare in questo corso, anche nel caso di va
continua E[X] esiste se e solo se xfx(x) è assolutamente integrabile su JR, cioè se esiste
finitoJ~: lxfx(x)ldx.
Esempi di L.j XjPx(xj) non convergenti incondizionatamente o di xfx(x) integrabili su
JR ma non assolutamente integrabili esulano dalle finalità di questo corso.
Se X è una va discreta E[X] è il baricentro della massa unitaria distribuita dalla ldp
p x (.) sui punti massa x j. La posizione della media relativamente ai punti massa dipende
112 CAPITOLO 5. INDICI PER VARIABILI ALEATORIE
dalla distribuzione dei pesi di probabilità sui punti stessi. Quindi è un indice di posizione
delle masse. Altri indici di "posizione" verranno esaminati in seguito.
Esempio 5.1.2 va indicatore:

µx = E[X] = lp + 0(1- p) = p
Esempio 5.1.3 va uscita di {h}, (1::; h::; 6) nel lancio di un dado:

µx = E[X] = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = ¼6;} = 3.5
Esempio 5.1.4 va tempo d'attesa del primo successo (o va geometrica):

µx = E[X] = I:!':
1 m · P[X = m] = l · P[X = l] + 2 · P[X = 2] + ... = (-")
Abbiamo visto nel capitolo 4 che Vm ~ l; P[X = m] = pqm-l; quindi:
+oo +oo
(-") = L mpqm-l = P L mqm-l = (-"-")
m=l m=l
Ora questa è una serie a termini positivi. Per trovare il suo valore ragioniamo così.
Applicando il teorema di derivazione per serie alla serie I:!:Oqn = - 1- {che vale
l-q
l d
in ogni intervallo -l < -a ::; q ::; a < l; a > O) si ha: (l _ q)2 = dq I:!:Oqn =
I:!:O:qqn = I:!:i_nqn-l da cui(-"-")= (l ! q) 2 = t· Si può leggere questo risultato

dicendo che il tempo medio di attesa è inversamente proporzionale alla probabilità di un
successo in ogni singola prova.
Esercizio 5.1.1 va numero di lanci che precedono il primo successo, sempre nell'ipotesi
che a ogni lancio la probabilità di successo sia p. Si tratta di una va Y molto simile alla
precedente: descrivetela verificando che la sua ldp è py(m) = P[Y = m] = pqm; m ~ O
e che E[X] = 7·
Questa va si chiama geometrica traslata.
Esempio 5.1.5 Non sempre esiste la media. Consideriamo un esempio in cui le

masse sono simmetriche rispetto all'origine e l'origine stessa sembrerebbe il baricentro
naturale .
r,.
. . . . . . . . . 1 ......... •
.
-IO -9 -8 -7 -6 -5 -4 -3 -2 -I O 1 2 J 4 5 6 7 8 9 10
Sia X la va discreta che prende il valore n E Z- {O};n = ±l, ±2,, ±3, ... con probabilità
3 3
( 7m) 2 ,cioè Px (n) = P[X = n] = (7m) 2 , n i- O.
3 +oo 1 +oo 1 7r2 7r2

Px(n) = (7m) 2 è una densità di probabilità. Infatti 1: I: 2 = 2 I: 2 = 2-=-
n=-oo;n;.é0n n=l n 6 3
quindi
1Sia f(x) = x 2I[0,7r](x), funzione pari. Il suo sviluppo in serie di Fourier nell'intervallo [-11',71']porta
a una serie di soli coseni:
271'2
-ao + '°'+oo 2 f7T 2
L..m=l an cosnx dove an = - Jo x cosnxdx,
.
da cui ao = -
(
e an = -l
)n - 4
2
2 71' 3 n
La serie di Fourier converge a f(x) in ogni punto x E [-71', 11']e vale:
113
+oo +oo 3 3 +oo 1 3 +oo 1
I: Px(n) = I: --2 2 I: 2 = 2 2 I: 2 =l.
n=-oo;n;,éO n=-oo;n;,éO (1rn) 7r n=-oo;n;,éO n 1f n=l n
+oo +oo
E[X] I: nP[X = n]. Tale media non esiste perché I: lnP[X = n]I
n=-oo;n;,éO n=-oo;n;,éO
3 +oo lnl 3 +oo 1
2 I: 2 = 2 2 I: - = +oo (serie armonica) non converge.
7r n=- oo;n;,éO n 1f n=l n
Già da questi semplici esempi vediamo che:
a) E[X] può essere un valore non assunto da X;
b) E[X] può non esistere finita (ma per una va finita la media esiste sempre).
Esempio 5.1.6 Sia X una va continua con densità fx(x) = Àe-Àxf(o,+oo),À > O (va
esponenziale}. Allora: E[X] = J!';: xfx(x)dx = J 0+ 00
Àxe-Àxdx = ±-
Definizione 5.1.7 Sia X(·) una va e g(·) una funzione (misurabile}: JR---+JR,(X : n---+
JR). g(X) è una nuova va e il suo valore atteso è indicato con:
1} E[g(X)] = I:j g(xj)Px(xj), se X è discreta;
2) E[g(X)] = J!';: g(x)fx(x)dx, se X è continua
se le quantità in gioco esistono.
Teoremino 5.1.8 (:•) E[c] = c.

Dim.: Sia X continua: E[g(X)] = E[c] = J!';: cfx (x)dx = c J!';: fx (x)dx = c •
Teoremino 5.1.9 (:•) E[cg(X)] = cE[g(X)].

Dim.: Sia X continua:
E[cg(X)] = J!';: cg(x)fx(x)dx = cJ!';: g(x)fx(x)dx = cE[g(X)] •
Teoremino 5.1.10 {:•) E[c1g 1(X) + c2g2(X)] = c1E[g 1(X)] + c2E[g2(X)].

Dim.: Sia X continua: E[c 1g1(X) + c2g2(X)] = J!';:[c 1g1(x) + c2g2(x)]fx(x)dx =
= c1 J!';: g1(x)fx(x)dx + c2 J!';: g2(x)fx(x)dx = c1E[g1(X)] + c2E[g2(X)] •
Oss. 1 g(X) = [aX + b] ::::}E[aX + b] = aE[X] + b. Quindi la media è un operatore

lineare.
Teoremino 5.1.11 {:•) g1(•)::; g2(•)::::} E[g 1(X)]::; E[g2(X)].

Dim.: Sia X continua: O::; E[g 2(X)-g 1(X)] = E[g 2(X)]- E[g 1(X)] •
Definizione 5.1.12 Gioco equo. La media nulla caratterizza un gioco d'azzardo equo.
Facciamo un esempio con un gioco che prevede due soli esiti a ogni giocata: successo e
insuccesso. Tale è il caso del lancio della moneta, del Lotto, della roulette, del Totocalcio,
del Super Enalotto: a ogni giocata o vincete (successo) o perdete (insuccesso). Su un
evento che ha probabilità p (O < p < l) di verificarsi si scommette una certa somma
s per ricevere v dal banco se l'evento non si veri.fica (con probabilità l - p). Qual è la
x
2
= -7!'2
3
+ L+=
n=l
(-1)
n 4
-cosnx
n2
Ponendo x = 7T', cosn7T' = (-l)n si ha:
cifra v che il banco deve pagare perché il gioco sia equo? Sembra ragionevole che il banco
paghi v = s/p cioè una cifra inversamente proporzionale alla probabilità di vincere. La
probabilità è del 50%? Se giocate 1 dovete avere 2. La probabilità è del 20%? Se giocate 1
10 -
dovete avere 5. O è invece del 90%? Se giocate 1 dovete avere 9 = 1.1. In caso di vincita
perciò un banco «onesto» deve pagare un importo più grande della posta s scommessa
di un fattore pari all'inverso della probabilità p di vincere. Tra i giochi dello Stato in
Italia il Lotto è uno dei più iniqui (vedere la tabella in Appendice 16).Questa definizione
di gioco equo implica degli obblighi alla va guadagno G. G ha due determinazioni, v - s
(quello che paga il banco meno l'importo scommesso) che prende con probabilità p e -s
che prende con probabilità l - p, cioè
V - S con probabilità p
G= {
-s con probabilità l - p
Se calcoliamo il valor medio E[G] di G abbiamo: E[G] = (v- s)p- s(l - p). Se il gioco è
equo, cioè se v = s/p il valor medio risulta nullo. Per questo si dice che i giochi devono
avere valor medio nullo per essere equi.
5.2 La varianza
Mentre la media è un indice della "posizione" delle masse di probabilità di X rispetto alla
media stessa, la varianza di una va è un indice della "dispersione" di tali masse intorno
alla media.
Definizione 5.2.1 Sia X una va e µx la sua media. La varianza di X, indicata con

ai o var[X], è data da:
X discreta con punti massa x j; ai = I)xj - µx )2px(xj) (5.3)

j
X continua con densità fx(.); ai= J +oo

_ 00 (x-µx)2fx(x)dx (5.4)
se queste quantità esistono.
Come per la media anche qui la somma in 5.3 deve esistere ed essere la stessa qualun-
que sia l'ordine dei fattori. Essendo però qui gli addendi tutti positivi se 5.3 converge,
converge anche assolutamente. Discorso analogo per l'assoluta integrabilità in 5.4.
Oss. 2 La varianza è non negativa.
La varianza misura la "dispersione" della massa di probabilità intorno alla media. Nel
caso discreto, poiché la massa è concentrata nei punti massa x j, la varianza misura la
dispersione di tali punti intorno alla media.
Con il linguaggio della fisica elementare, se la media può essere interpretata come il
centro di gravità di una distribuzione di masse, la varianza ai può essere vista come il
momento d'inerzia delle masse Px (xj ), rispetto a un asse perpendicolare passante per
µx (baricentro della massa unitaria I:jPx(xj) = 1).
115
Px(x1) Px(x,) Px(x,) Px(x;) Px(x,,)
•
x1 •
x,
•
x, *µX •
X;
•
x,,
Definizione 5.2.2 Se X è una va e lT3( è la sua varianza, la sua deviazione standard

(o scarto quadratico medio) è definita da: +Jar = lTx.
Anche la deviazione standard è una misura della dispersione dei valori della va.
Esempio 5.2.3 Sia X la va somma delle facce che escono nel lancio di due dadi; l 'insie-
me dei valori possibili per X è: (2, 3, ... , 12). La seguente tabella dà la legge di probabilità
e indici di posizione e dispersione:
I ~ob. I l I ~ I ~ I ~ I ~ I ~ I l I ~ I ~ I ~ I :tI
La varianza è la media della va: (X -µx )2. Infatti se g(x) = (x-µx )2, per la definizione
5.1.7 E[g(X)] = E[(X - µx )2] = var[X].
Teoremino 5.2.4 (:•) Data la va X, lT3( = E[(X - E[X])2] = E[X 2 ] - E 2 [X], se

E[X 2 ] esiste.
Dim.: Sia g(x) = (x - µx )2; E[g(X)] = E[(X - E[X])2] = E[X 2 - 2X E[X] + E 2 [Xl] =
= E[X 2 ] - 2E[X]E[X] + E[E 2 [Xl] = E[X 2 ] - E 2 [X] •
Teoremino 5.2.5 (:•) var[cX] = c2 var[X].

Dim.: Sia X continua: var[X] = J~;:(x - µx )2fx(x)dx;
var[cX] = J~;:(cX- E[cX])2Jx(x)dx = J~;:(cX- cµx)2fx(x)dx = c2 var[X] •
Teoremino 5.2.6 {:•) var[c] = O.

Dim.: Sia X continua: var[c]=J~;:[c-E[c]] 2 Jx(x)dx=J~;:(c-c) 2 fx(x)dx=0 •
Teoremino 5.2.7 (:•) var[aX + b] = a 2 var[X].

Dim.: Sia X continua: var[aX + b] = J~: {(aX + b) - (aE[X] + b}2 fx(x)dx =
= J~;:(aX +b- aE[X] - b)2fx(x)dx = J~;:(aX - aE[X]) 2 fx(x)dx = a 2 var[X] •
Esempio 5.2.8 Data un va X si chiama standardizzata di X la va X - µx (vedi capito-

lTX
lo 1). Per quanto appena detto è immediato verificare che la standardizzata di una va do-
tata di media e varianza ha media O e varianza l, cioè E [ X ;xµx] = O;var [ X ;xµx]
1.
Esempio 5.2.9 Sia ancora X con fd fx (x) = Àe->-x /(o,+CXJ),À > O

2 _ J+(X) (
lTx- -(X) x-;;; 1) 2 f xxdx-Jo
( ) _ r+(X)(x-;;; 1) 2
Àe-.Xx dx-À_ 1
2•
Oss. 3 Nel caso continuo, se fx(x) è lafd di X, allora var[X] = J~;:(x-µ) 2 fx(x)dx =
J~;: x 2fx(x)dx - 2µJ~;: xfx(x)dx + µ 2 J~;: fx(x)dx = J~;: x 2fx(x)dx - µ 2.
Basta che J~;: x 2 f x (x )dx (momento secondo, come verrà definito più avanti) non esi-
sta finito perché non esista la varianza. Prendiamo una va V la cui fd sia f x (x) =
2
x 3 I(l,+oo)(x). Per questa fd ovviamente il momento secondo non esiste perché nel-
x2
l 'intomo di +oo non esiste finito l 'intergrale di x 3 • Si vede invece che X ha µ = 2
finita.
5.3 Mediana, quantili e percentili

Definizione 5.3.1 Data una fdr Fx di una va X, la mediana è il minimo valore m
tale che: Fx(m) = P[X::; m] ~ 1/2 = 0.5, cioè m = inf{ç: Fx(ç) ~ ½}.
I
--------------~ ]
Fxf'é,) 2/3
1/ 2
------------- - ~---------------
-- ---o 1/ 4
m lii
---v ---;::::::==:::~==:;--- - I; -- --;:=:::::::::'::====;- - ------,. I;
I caso discreto I I caso conti11uoI
Definizione 5.3.2 Si dice quantile q-esimo (O< q < l)II della fdr Fx di una va X
il minimo valore çq tale che Fx(çq) = P[X::; çq] ~ q cioè çq = inf{ç: Fx(ç) ~ q}.
Oss. 4 Quando Fx è invertibile çq = p- 1 (q).
Oss. 5 Se X è continua il quantile q-esimo çq è quel valore tale che l'area compresa tra
il gra,fico della fd e l'asse x fino a çq è pari a q.
Quantili notevoli hanno nomi particolari:
ç¼ = eo.25: 1° quartile ;ç½ = eo.5: mediana o 2° quartile;ç¾ = eo.75: 3° quartile

IIse q viene espresso da una percentuale invece che da un numero /;q viene definito l00q-esimo
percentile.
117
Esempio 5.3.3 Sia X la va tempo d'attesa del primo successo nei lanci di una moneta
bilanciata (P[ {T}] = ½).Cerchiamo il 3° quartile ç0 _75 . Deve essere:
fo 75 = min(x: P[X::; x] ~ 0.75).
P[X::; x]m = 1-(½)x+l quindi bisogna risolvere 1-(½r+l ~ 0.75 cioè 0.25 ~ (½)x+l::::}
log½ (0.25) ~X+ l ::::}2 ~X+ l ::::}ç0,75 = 1.
Definizione 5.3.4 Per moda di una distribuzione Fy (y) si intende il valore M oda[Y]
tale che:
Y discreta: P[Moda] = maxP[Y = y]
y
Y continua: fy(Moda) = maxfy(y)

y
5.4 Momenti
I momenti di una va sono i valori attesi delle potenze della va pensate distribuite come
la va data. Più precisamente:
Definizione 5.4.1 Data una va X, il suo momento di ordine k, µ~, è definito come
la media della sua potenza k-esima (se esiste):
1 _
µk - E X
[ k] -{
- +
L xjpx (xj) se X è discreta
(5.5)
f_;:xk fx(x)dx se X è continua
Definizione 5.4.2 Data una va, il suo momento centrale di ordine k, µk, è definito
come:
(5.6)
a) µ~ = E[X] = µx (media di X);

b) µ 1 = E[X - µx] = O;
c) µ 2 = E[(X - µx ) 2 ] = a~ (varianza di X).
X-µ
Definizione 5.4.3 Sia , la va X standardizzata. Si de.finiscono indici
(E[(x - µ) 2])2
di assimetria e curtosi rispettivamente i momenti terzo (31 della X standardizzata e
quarto h, cioè:
3 4
X_µ ) ] µ3 [( X_µ ) ] µ4
/31 = E [ ( (E[(x - µ)2])½ = a3 ;/32 = E (E[(x - µ)2])½ = a4 i'Y2 = /32 - 3
mentre 12 = (32 - 3 si definisce coefficiente di curtosi.

Osservazione importante. Se la funzione di densità di X è simmetrica rispetto a µ x,
tutti i momenti centrali di X di ordine dispari sono nulli. (dimostrarlo per esercizio).
1 _ qx+l
III P[X x] = p
:CC:: + pq + ... + pqx = p---
l- q
~ 'I, > O; leptocurtica
~ -- '/,= O; mesocurtica
asimmetria (skewness ) curiosi
Figura 5-1:
/31 =/-O garantisce perciò l'assenza di simmetria rispetto alla media (asimmetria o skew-
ness). Si può dimostrare che se /31 >Ola massa di probabilità a destra della media µx
è maggiore di quella alla sua sinistra, mentre se /31 < O succede il contrario.
Poiché per una va normale (vedi cap. 7) /32 = 3, , 2 =/-O indica assenza di normalità della
X (vedi fig. 5-1)
Definizione 5.4.4 Si dice funzione generatrice di momenti, (fgm e si indica con

mx(t) oppure con m(t)) di una va X con funzione di densità fx(.) (o ldp px(.)) il
valore atteso della va etx, se questo esiste per ogni valore di t in un intervallo -h < t <
h, h > O. Precisamente:
m(t) = E[etX] = 1:=etx fx (x)dx se X è continua. (5.7)
m(t) = E[etx] = L etxipx (x;) se X è discreta (5.8)
Si tratta quindi di calcolare la media della va g(X) = etx = Y: E[Y] = E[g(X)].
Esempio 5.4.5 Consideriamo una va di Bernoulli. Calcoliamo la media di g(X) = etx

cioè calcoliamo mx(t) = E(etx).
X_ { O P[X =O]= 1- p etx _ { 1 P[Y = l] = 1- p
- 1 P[X = l] = p - et P[Y =et]= p
mx(t) = E(etx) = eo t(l - p) + el tp = (1- p) + etp.
La funzione generatrice dei momenti è in grado di darci una rappresentazione di tutti

i momenti (ed è per questo che si chiama funzione generatrice di momenti). È facile
dimostrare che, se m(t) esiste, allora è derivabile con continuità in un intorno di t = O.
Nel caso discreto finito, per esempio, esiste la fgm e tutti i momenti che sono dati da:
Ponendo t = O, si ha:
119
Ma anche nel caso continuo 1v :
da cui:
dk m(t) )
( -k
dt t=0
= 1+
-oo
00
xk fx (x)dx = µ~
(Xt) 2 (Xt) 3
Ricordando che e1x = 1 + Xt + - 2-!- + - 3-!- + · · · abbiamo:
Oss. 6 Se esistono tutti i momenti la 5. 9 si può sempre scrivere ma non è detto che valga
l'uguaglianza. La distribuzione lognormale (vedi capitolo 8) rappresenta un esempio di
distribuzione che ha tutti i momenti ma non ha fgm.
Esercizio 5.4.1 Sia Y = o:X + (3. Mostrare che my(t) = ef31mx(at).
Esempio 5.4.6 Sia X una va dotata di funzione generatrice di momenti. Allora:
µ 2 = var[X] = E[X 2 ] - E 2 [X] = ( ! 2

2 m(t)) t=0- ( ! m(t)) :=O=µ~ - (µD 2
Teorema 5.4.7 Siano X 1 e X 2 due va con densità {discrete o continue) rispettivamente

fx, (·) e fx 2 (·). Supponiamo che mx, (t) e mx 2 (t) esistano e che :lh >O: 1ft, -h < t <
h I\ mx, (t) = mx 2 (t). Allora:
In altre parole, esiste una corrispondenza biunivoca tra funzioni generatrici di

momenti e funzioni di densità.
Esempio 5.4.8 Supponiamo di sapere che una va X abbia funzione generatrice di mo-
menti: mx(t) = (1 - p) + pe 1 (.). Allora siamo certi che la funzione di densità di
questa va è data da: p(x) = px (l - p) 1- x I {0,l} (x), cioè la densità di Bernoulli, in quanto
avevamo visto che la funzione generatrice di momenti di tale densità era esattamente
<•)-
Teoremino 5.4.9 Sia Y = o:X + (3 la trasformata lineare di una va X dotata di fgm
mx(t). Allora
my(t) = e131mx(at).
Dimostrare questo teoremino per esercizio.
IV Per il calcolo delle derivate di m(t) per una va continua fare riferimento alla osservazione sul teorema
di derivazione sotto il segno di integrale in Appendice 1.
La funzione di failure rate (tasso di guasto)
Sia T la durata di un componente (quindi T ~ O). La funzione di reliability (affida-
bilità) è la funzione di t:
l t<o
R(t) = P[T > t] = 1 - P[T::; t] = l _ Fr(t) t ~O
Se T ha media allora il tempo medio di rottura (mean time to failure, MTTF) è dato
da:
E[T] =
lo
r= tfr(t)dt =
(*) lo
r= (1 - Fr(t)dt = r=
lo
R(t)dt.
L'uguaglianza (*)è giustificata dalla relazione E[X] = 0+= (l-Fx (x) )dx- J
Fx (x )dx t=
dimostrata nel paragrafo 0.10 dell'Appendice dove Fr(t) = O in (-oo, O) essendo T ~ O.
Consideriamo la probabilità condizionata:
o sex< t
P[T s; xlT > t] - Fr(x[T > t) - { P[t < T::; x] Fr(x) - Fr(t)
P[T> t] 1 - Fr(t)
Dalla precedente si ha:
o X< t
fr(xlT > t) = d Fr(x) - Fr(t) fr(x)
dx l - Fr(t) 1 - Fr(t)
Il failure rate (tasso di guasto) è il valore di fr(xlT > t) calcolata per x = t, cioè
r(t) = fr(tlT > t) = fr(t\ ) = - R'((t)); t ~O (5.10)

l - Fr t R t
d
essendo R'(t) = dt (l - Fr(t)) = -fr(t) set~ O.
Esempio 5.4.10 Supponiamo che un componente abbia failure rate r(t) = À, costante.
L'equazione 5.10 diventa:
R'(t) = -,\· t>O

R(t) '
che è un'equazione differenziale del 1° ordine che ha integrale generale
R(t) = ke->-.\ t >O

dove il valore della costante k si ottiene assegnando la condizione iniziale R(O) = l il che
implica k = l.
In definitiva
e di conseguenza
121
5.5 Disuguaglianza di Markov
Teoremino 5.5.1 (:•) Se X è una va che assume solo valori non negativi, allora:
Va > O,P[X ~ a] ::; E[X] (5.11)

a
Dim.: a) X continua confd fx(x):
E[X] = ft:xo xf(x)dx = f 0a xf(x)dx + fa+= xf(x)dx ~ fa+= xf(x)dx ~afa+= f(x)dx =
= aP[X ~ a].
b} X discreta con ldp Px(x) (o fdd fx(x)):
E[X] = I:i Xip(xi) = I: Xip(xi) + I: Xip(xi) ~ I: Xip(xi) ~ a I: p(xi) =
i:xi<a i:xi~a i:xi~a i:xi~a
= aP[X ~ a] •
Se Xi sono le determinazioni di X (discreta) l'evento X ~ a è così definito:

LJ{X= xi}, Quindi P[X ~a]= I:
Xi)a
P[X = xi].
5.6 Disuguaglianza di Chebyscev

Teoremino 5.6.1 (:•) Se X è una va di media µ e varianza a 2 , allora
a2
Vk > 0 : P[I X - µ I~ k] ::; k2 (5.12)
Dim.: (X - µ) 2 è una va non negativa. Applicando la disuguaglianza di Markovv, con

E[(X-µ)2]
a= k 2, abbiamo: P[(X - µ) 2 ~ k 2] ::; k2 (-"). Ora: (X -µ) 2 ~ k 2 {:}I X-µ I~
E[X2] - µ2 a2
k. La(-") diventa: P[I X - µ I~ k]::; k2 = k2 •
a2 a2
Oss. 7 P[I X - µ I~ k] ::; k 2 si può scrivere anche P[X - µ::; -k U X - µ ~ k] ::; k 2 ,
quindi dà informazioni sul comportamento di Y = X - µ fuori da un intervallo simmetrico
rispetto all'origine. Siano a, b > O con a=/. b. Come posso valutare P[X-µ::; -aUX-µ ~
b]? Supponendo che a < b si osservi il seguente grafico:
Oss. 8 Sulla prima riga c'è tutta la massa; sulla seconda solo quella in (-oo, -b] U
[b, +oo) cioè P[IX - µI ~ b]; sulla terza quella in (-oo, -a] U [b, +oo) cioè P[X - µ ::;
-a U X - µ ~ b] e sulla quarta quella in (-oo, -a] U [a, +oo), cioè P[IX - µI ~ a].
È allora evidente che P[X - µ ::; -b U X - µ ~ b] ::; P[X - µ ::; -a U X - µ ~
a2
b] ::; P[X - µ ::; -a U X - µ ~ a] ::; 2 . Allora è evidente che, se si deve valutare
a
P[X - µ::; -a U X - µ ~ b] con a=/. b; a, b > O, occorre prendere il min(a, b). Poi sarà:
a2
P[X - µ::; -a U X - µ ~ b]::; P[IX - µI ~ min(a, b)] ::; (min(a, b)) 2
v vedi nota storica in fondo al capitolo

-b -a o a b
-b -a o a b
-b -a o a b
-b -a o a b
Figura 5-2:
Se invece si deve valutare la probabilità dell'evento { a < X < ,6} si passa a {a - µ <
X - µ < ,6 - µ} = {c < X - µ < d} e si procede come prima.
Oss. 9 La disuguaglianza di Chebyscevvr si può anche scrivere così (k = ta):

1
P[I X - µ I~ ta] ::; t 2 (5.13)
a2
Oss. 10 P[I X - µ I< k] = 1- P[I X - µ I~ k] > 1 - k 2 e quindi P[µ - k < X <
a2
µ + k] ~ 1- k 2 dove posto k = ta si ha:
1
P[µ - ta < X < µ + ta] ~ 1- t2 (5.14)
La 5.13 ci dice che la probabilità che una va cada al di fuori di un intervallo, centrato nella
sua media e di semiampiezza t volte lo scarto quadratico medio, è limitata dall'inverso
del quadrato di t. Fatti i conti per valori t = 2, 3, 4 si conclude che, come mostra la ,figura
5-3 per una va aleatoria dotatata di momento secondo finito:
P[ µ-a<2 X <µ+a_-2 l > 3
4 ::::}
1
almeno il 75% della massa è in un intervallo
di semiampiezza 2a centrato in µ
8 almeno 1'88.8% della massa è in un intervallo
P[µ - 3a < X < µ + 3a] ~ g ::::} di semiampiezza 3a centrato inµ
15 { almeno il 93. 75% della massa è in un intervallo
P[µ - 4a < X < µ + 4a] ~ 16 ::::} di semiampiezza 4a centrato inµ
Y 1vedi nota storica in fondo al capitolo

123
µ---4a µ;-la µ-1.a µ µ+2o µ;la µ-1-4<>
peso)75%
peso) 88.8%
...._________ --.v,,..------------'
peso) 93.75%
Figura 5-3:
Esempio 5.6.2 Supponiamo che il numero di pezzi prodotti da una fabbrica in una
settimana sia una va con media 50 (non conosco la sua legge di probabilità}.
a) Cosa posso dire sulla probabilità che questa settimana la produzione superi i 75 pezzi?
Per la disuguaglianza di Markov posso solo maggiorarla:
P[X > 75] = P[X > 76] < E[X] = 50 ~~

- - 76 76 3
b) Se la varianza della produzione settimanale è nota ed è 25, cosa possiamo dire a
proposito della probabilità che la produzione di questa settimana stia fra i 40 e i 60 pezzi
( estremi esclusi, cioè {40 < X < 60} ?
Soluzione. {40 <X< 60} = {40- 50 < X - 50 < 60- 50} ={IX - 50 I~ lO}c.
Applicando la disuguaglianza di Chebyscev, si ha:
a2 1
P[I X - 50 I~ 10]= P[X ::; 40, X~ 60] ::; 102 = 4. Si conclude che:
1 3
P[I X - 50 I< 10] = P[40 <X< 60] ~ 1- 4 = 4·
Esempio 5.6.3 Sia X una va con µx = 8 e a3c = 9: qual è P[-4 < X < 20]? Cosa
vale t?
1 1
P[µ - ta < X < µ + ta] ~ l - t 2 ; P[(8 - 3t) < X < (8 + 3t)] ~ 1 - t 2
1 15
Se t = 4; P[-4 < X < 20] ~ 1 - 16 = 16 .
Esempio 5.6.4 Sia X una va che indica il tempo di evasione di un ordine, con µx = 8
e ax = 1.5 giorni. Determinare un intervallo (a, /3) tale che P[a < X < /3] ~ ~
(= 1- tl2)
Set= 3 si ha: P[µ-ta <X< µ+ta] ~ ~;P[8-4.5 <X< 8+4.5] ~ ~- Quindi:
(a, /3) = (3.5, 12.5).
Esempio 5.6.5 Molto importante. Si consideri il seguente problema. Nell'arco di

un anno, in una stazione meteorologica posta a 2.000 metri sulle Alpi, viene registrata
giornalmente la temperatura massima osservata nell'arco delle 24 ore. Indichiamo con
t 1 , ... , t 365 queste temperature. Supponiamo che sia I: ti= 1441 e I: tf = 11647. Qual è
il numero minimo possibile di giorni nei quali la temperatura massima è rimasta compresa
tra -2 e 9 gradi?
Soluzione. Supponiamo che i valori ti siano numeri scritti su foglietti dentro un'urna
(se, per esempio, la temperatura tj si ripete m volte allora nell'urna ci saranno m biglietti
con scritto sopra tj) e supponiamo di estrarre a caso un biglietto. Ciò porta a una va T
che indica la temperatura estratta. Conosciamo solo la somma delle temperature e non
quanti biglietti con scritto sopra tj ci sono nell'urna (i.e. non conosciamo la distribuzione
di T)
1 1441 1
Ovviamente però E[T] = 365 I: ti = 365 = 3.94 79 mentre var[T] = 365 I: t; - E 2[T] =
11647
365 -3.9479 2 = 16.324 e indicando con N il numero dei giorni (o, se volete, il numero
dei foglietti) che hanno temperatura compresa tra -2 e 9 si ha {à faute de mieuvII ):
N
P[-2<T<9]= 365 .
Concentriamoci su P[-2 < T < 9] e utilizziamo la disuguaglianza di Chebyscev; si ha:

P[-2 < T < 9] = P[-2 - 3.9479 < T- 3.9479 < 9 - 3.9479] =
= P[-5.9479 < T- 3.9479 < 5.0521] ~ P[-5.0521 < T- 3.9479 < 5.0521] =
<J2 16.324
= 1- P[IT- 3.94791 ~ 5.0521] ~ 1- 5.05212 = 1- 25.524 = 0.36045.
N
Allora 0.36045 ::; P[-2 < T < 9] = 365 , quindi N ~ 365 · 0.36045 = 131.56. Segue
che il numero minimo dei giorni dell'anno in cui una temperatura massima soddisfa le
condizioni richieste è 131.56.
Osservazione 1 La disuguaglianza di Chebyscev è comunque uno strumento "debole".
Per esempio non funzionerebbe se la richiesta fosse quella di trovare il numero di giorni
che hanno una temperatura massima compresa tra O e 6 gradi. Infatti in questo caso si
avrebbe:
P[0 < T < 6] = P[0- 3.9479 < T- 3.9479 < 6 - 3.9479] =
= P[-3.9479 < T- 3.9479 < 2.0521] ~ P[-2.0521 < T- 3.9479 < 2.0521] =
<J2 16.324
= 1- P[IT- 3.94791 ~ 2.0521] ~ 1- 2.05212 = 1- 15.586 = -0.04735
che ci dice solo che la probabilità è maggiore di un numero negativo (il che equivale a
dire che N è non negativo).
Ma non funzionerebbe neppure in presenza di una varianza grande. Supponiamo infatti
che sia I: ti = 2115 e I: t; = 27629 e che ancora si cerchi il numero minimo di giorni
con temperatura massima compresa tra -2 e 9 gradi.
1 2115 1
In questo caso E[T] = 365 I: ti = 365 = 5. 7945 mentre var[T] = 365 I: tf - E 2[T] =
27629 2
365 - 5.7945 = 42.120
Utilizzando Chebyscev con questa varianza si avrebbe:
P[-2 < T < 9] = P[-2-5.7945 < T-5.7945 < 9-5.7945] = P[-7.7945 < T-5.7945 <
3.2055] ~
(J2
~ P[-3.2055 < T- 5.7945 < 3.2055] = 1- P[IT- 5.79451 ~ 3.2055] ~ 1- 3.20552
= 1 - 42 · 120 = -3.0993
10.275
VII A faute de mieu, cioè in mancanza di meglio, possiamo solo dire che P[T :CC:: t]
N dei giorni con T < t . b bT .
365 - , c10è pro a 1 1tà = frequenza re 1at1va.
125
che, come nel caso precedente, non ci dice nulla.
Quello di cui si ha bisogno perché Chebyscevfunzioni è che si debba valutare P[IT-µrl 2:
a] dove a= ka e k > l, cioè la probabilità che una IT- µrl disti da O per almeno k volte
lo scarto a dove k > l.
Osservazione 2 Inoltre la disuguaglianza serve a valutare la probabilità che una va
T - µT sia al di fuori di un intervallo intorno allo O e non da un intervallo che sta tutto
a destra o sinistra di O.
Osservazione 3 Noti I: t; e I: t7 lo stesso tipo di approccio potrebbe, per esempio,
essere applicato ai seguenti problemi:
1} I: t; numero totale dei pezzi d~fettosi da M lotti di produzione. Trovare il numero
minimo di lotti con pezzi difettosi compresi tra a e b;
2} I: t; numero totale degli avvistamenti di delfini in M giorni in una Riserva Marina.
Trovare il numero minimo di giorni con numero di delfini compresi tra a e b;
3) I: t; la somma dei valori dell'indice Dow Jones misurati giornalmente alla Borsa
di New York. Trovare il numero minimo di giorni nei quali il valore dell'indice era
compreso tra a e b.
5.7 Nota storica
Pafnuty Chebyscev (Russia) 16 maggio 1821 - 8 dicembre 1894
Insegna dal 184 7 all'università di San Pietroburgo

e diviene membro dell'Istituto di Francia e della
Royal Society inglese nel 187 4. I suoi lavori più famosi
riguardano i numeri primi. Dimostra, per esempio, che per
ogni n tra n e 2n c'è sempre almeno un numero primo.
Chebyscev si interessa anche di meccanica. Scrive
di molti argomenti di matematica: funzioni ortogonali,
forme quadratiche, teoria dell'integrazione e probabilità.
Andrei Markov (Russia) 14 giugno 1856 - 20 luglio 1922
Si laurea presso l'università di San Pietroburgo

nel 1878 dove diventa professore nel 1886.
I suoi lavori principali riguardano la teoria dei numeri,
le frazioni continue e le serie.
Allievo di Chebyscev, Markov dopo il 1900 inizia a studiare
probabilità. Sua è la dimostrazione del teorema centrale
sotto ipotesi molto ampie.
I lavori di Markov sono noti in particolare per gli studi per le catene che prendono nome da lui
e che costituiscono la base su cui si sviluppa la teoria dei processi stocastici.
Anche Markov, come Kolmogorov, ha interessi profondi nella poesia.
Una curiosità: il figlio di Markov nato nel 1903 porta il suo stesso nome e diventa un matematico
di fama come il padre.

Esercizio 5.8.1 Considerare la va finita X le cui determinazioni sono O, l, ... , n, di-
stribuita uniformemente. Calcolare a x.
Esercizio 5.8.2 Sia X una va finita. Apporre i corretti valori di verità alle seguenti
affermazioni:
V F E[X] esiste sempre
V F può esistere E[X] e nonvar[X]
V F può esisterevar[X] e non E[X]
V F var[2X] = 2var[X]
V F E[X] 2: O
V F var[a +X]= var[X]
Esercizio 5.8.3 Nell'ambito di funzioni g E c 0 (JR) indicare quale delle seguenti affer-
mazioni è (sempre) veravm:
~
var[g(X)] = g(var[X])
E[g(X)] = g(E[X])
se var[X] > O allora Vg(·): var[g(X)] >O
se 'ix, g1 (x) > g2 (x) allora E[g1 (X)] > E[g2(X)]
Esercizio 5.8.4 Data X va, g, gi : JR---+JR, g, gi E C 0 (JR),i= 1, 2; c E JR dire quali delle

seguenti affermazioni sono (sempre) vere1x:
~
var[c] = c
E[g(X)] = g(E[X])
'ix E JR g1(x)::; g2(x)::::} E[g1(X)]::; E[g2(X)]
E[c1g1(X) + c2g2(X)] = c1E[g1(X)] + c2E[g2(X)]
VIIIper la prima si pensi a g(X) = e costante

per la seconda si pensi a g(X) = X 2
per la terza si pensi ancora a g(X) = e costante
per la quarta:
E[g1(X)] > E[g2(X)] {e} E[g1(X) - g2(X)] > O
Se X è discreta E[g1(X)- g2(X)] = I:[g1(xi)- g2(xi)lfx(xi) > O
i
Se X è continua
E[g1(X) - g2(X)] = JR[91(x) - g2(x)lfx(x) >O.Ora \fx,g1(x) - g2(x) > O inoltre esiste almeno un
intervallo (a,b) dove fx(x) >O.Infine JR[g1(x)- g2(x)]fx(x) 2':J:[gi(x) - g2(x)lfx(x) > O
IX La prima è vera solo se e = O.
Per la seconda vedi esercizio precedente.
Pela terza: [g2(x)- 91(x)lfx(x) 2':O da cui.
La quarta è ovvia.
127
Esercizio 5.8.5 La disuguaglianza di Chebyscev può essere utilizzata per:
[!] CI] calcolare la media E(X) di una va X
llll lpl { calcolare il valore esatto della probabilità che una va
L'.:....JL...=_J appartenga a un intervallo assegnato centrato in µx
[!] CI] valutare la dispersione di X intorno alla sua media E(X)
Esercizio 5.8.6 Una drogheria vende buste di caffè da 100 gr. di peso. Per legge il
caffè effettivamente contenuto in ogni busta deve essere compreso tra 99 e 101 gr. La
drogheria si serve da due aziende [TI e [!] che forniscono buste il cui contenuto ha peso
rappresentato da due va X 1 e X 2 , di distribuzione imprecisata e di media rispettivamente
µ1 = 100;
µ 2 = 99.72 e scarti a 1 = 0.36; a2 = 0.22.
a) La drogheria ha qualche motivo per preferire un'azienda rispetto all'altra? I si no
b} Se avete risposto Si al punto a) dite qual è l'azienda da preferire indicandone il
motivox.
Esercizio 5.8.7 La disuguaglianza di Chebyscev
V F vale per ogni va
V F vale per ogni va dotata di media
vale per ogni va dotata di varianza ma non di media
vale per ogni va con momenti primo e secondo
vale per ogni va discreta
vale per ogni va continua
stabilisce un confine inferiore per le determinazioni di una va
stabilisce un intervallo all'esterno del quale non cadono valori della va
Esercizio 5.8.8 Data una va X dotata di media finita µ ma non di varianza apporre il
corretto valore di verità alle seguenti affermazioni:
~
per X non vale la disuguaglianza di Chebyscev
F posso utilizzare la disuguaglianza di Chebyscev per valutare P[I X - µ 12:
k]
F Vk > O;P[IX - µI ~ k] = o
X L'azienda da preferire è quella che fornisce buste con il peso che ha minor probabilità di uscire dai
limiti di legge. Se P[X1 :CC::99UX1 2': 101] 2': P[X2 :CC::99UX2 2': 101] è da preferire l'azienda [JJ, mentre
se P[X1 :CC::99 U X1 2': 101] :CC::P[X2 :CC::99 U X2 2': 101] è da preferire l'azienda [TI.
Non conoscendo la distribuzione di X1 e X2 cerchiamo di risolvere il problema con la disuguaglianza di
Chebyscev. Per far questo dobbiamo ottenere una disuguaglianza del tipo P[IXi - µil 2': t] dove i= 1, 2.
c,2
Dopodiché sarà P[I Xi - µi I 2': t] :CC:: t;·
Per l'azienda [TI si ha:
P[X1 :CC::99 U X1 2': 101] = P[X1 - µ 1 99-
:CC:: µ 1 U X1 - µ 1 2': 101- µ 1] =
0.36 2
= P[X1 - 100 :e:;-1 u X1 - 100 2': 1] = P[IX1 - 1001 2': 1] :e:;~ = 0.1296
Per l'azienda [JJ invece i conti presentano una piccola difficoltà "algebrica" in più. Infatti:
P[X2 :CC::99 U X2 2': 101] = P[X2 - µ 2 :CC::99 - µ 2 U X2 - µ 2 2': 101 - µ 2] =
= P[X2 - 99.72 :CC::-0.72 u X2 - 99.72 2': 1.28]
Quest'ultima non si presta ancora a essere scritta come P[IX2 - µ 2 1 2': t]. Dovremo scegliere tra P[IX2 -
99.721 2': 0.72] oppure P[IX2 - 99.721 2': 1.28]. Poiché 0.72 < 1.28 scegliamo P[IX2 - 99.721 2': 0.72] che
maggiora la probabilità che stiamo cercando.
Si ha:
0.22 2
P[IX2 - 99.721 2': 0.72] :CC::0.722 = 0.093364
Conclusioni.
P[X2 :CC::99UX2 2': 101] = P[X2-99.72 :CC::-0.72UX2-99.72 2': 1.28] P[IX2-99.72I
:CC:: 2': 0.72] 0.093364
:CC::
P[X1 :e:;99UX1 2': 101] = P[IX1 -10012': 1] :e:;0.1296.

L'azienda da scegliere è la [JJ.
Esercizio 5.8.9 Una variabile aleatoria discreta e finita ammette
V~ I F: I sempre mamenti di aniine qualsiasi
sempre momenti di ordine qualsiasi ma solo se i mom. sono centrali
momenti solo fino a un certo ordine
Esercizio 5.8.10 La funzione generatrice di momenti di una va X:
I VV11 FFI corrisponde in modo biunivoco alla funzione di densità di X
può essere utilizzata per trovare media e varianza di X
Esercizio 5.8.11 Data la fd fx(x) di una va X con un grafico come quello disegnato
in figurax 1:
a b

V F \ixEIR:P(X::;x)=P(X<x)
X è un va discreta
la fdr Fx (x) è costante a partire da un certo valore di x in poi
la mediana è un numero positivo
:3 la funzione generatrice di momenti
Esercizio 5.8.12 Indicare quali delle seguenti affermazioni possono essere vere nell'i-
§
potesi che X sia una qualunque va continua di media µ e varianza a 2 finite:
P(XE[µ-a,µ+a])=0.l
P(X ,f.[µ- a,µ+ al)= 0.1
P(X E[µ- 3a, µ + 3a]) = 0.1
Esercizio 5.8.13 Data una variabile aleatoria X che ha la funzione generatrice di mo-
menti
1 2 3
m(t) = -et + -e2t + -e3t
6 6 6 '
calcolarex 11:
E[X], var[X], fx(x) = P[X = x]
Esercizio 5.8.14 Sia X una va qualunque di cui non si conosce la distribuzione, dotata
di momento di f!' ordine finito.
V F E[X] esiste sempre finita
V F può darsi che esista finita E[X] ma non var[X]
V F E[X 2 ] < E 2 [X]
V F var[X] 2: E[X 2 ]
V F Se X è misurata in mm, E[X] è misurata in mm e var[X] in mm2
XILe risposte si ispirano al fatto che la fd f(x) è a supporto compatto quindi esiste la fgm: per
r~:
esempio, nel caso della figura il supporto è [a, b] e risulta etx fx (x)dx = J: etx fx (x)dx.
XII se una fgm è data da I:;pketxk allora la va che la genera è tale che ha al più una infinità numerabile
di determianzioni xk con Pk = P[X = xkl·
Capitolo 6
La non-violenza è la risposta ai cruciali problemi politici e morali del nostro tempo;
la necessità per l'uomo di aver la meglio sull'oppressione e la violenza senza ricorrere
all'oppressione e alla violenza.
L'uomo deve elaborare per ogni conflitto umano un metodo che rifiuti la vendetta,
l'aggressione, la rappresaglia. Il fondamento d'un tale metodo è l'amore.
- Discorso pronunciato nel ricevere il premio Nobel, 11 dicembre 1964
La cosa peggiore non è la violenza degli uomini malvagi

ma il silenzio degli uomini giusti
Martin Luther King {1ll29-68}
Distribuzioni discrete
6.1 Distribuzione uniforme discreta

Definizione 6.1.1 Si dice che una va ha una distribuzione uniforme discreta se la
sua legge di probabilità ldp ( o funzione di densità discreta fdd} è:
x = 1,2, ... ,N
p(x)=px(x;N)={ ~/N -- ]:__I
N {1,2, .. ,N} (X )
altrove
:I I 111
O 1 2 3 4 N-1
l
N
In questo caso, la va stessa si dice uniforme discreta. Un esempio è dato da una va che
indica l'uscita di una faccia di un dado regolare, ma parliamo di distribuzione uniforme
discreta di probabilità tutte le volte che siamo di fronte a N esiti equiprobabili di un
esperimento.
Teoremino 6.1.2 Se X è una va uniforme discreta, allora si ha:

130 CAPITOLO 6. DISTRIBUZIONI DISCRETE
N +1 N 2 -1
E[X] = - 2 -;var[X] = - 1-2 -;mx(t) = I>' N'l
N .
1
i=l
D •m· E[X] _ "N

0 • L..i=l -
.i.._ .1.."N
N - N L..i=l
,; _ .1..N(N+l)
" - N 2
_
-
(N+l).
2 '
ai= E[(X - E[X])2] = E[X 2 ] - E 2 [X] = I:: 1 ~- ( Nil)2 =
_ N(N+1)(2N+l) _ (N+1) 2 _ (N+l)(N-1) _ N 2 -1
- 6N 4 - 12 - 12
·t
mx(t) = E[e 1x] = I:f=l ~ •
O 88. 1 '\"n ·2 _ n(n+1)(2n+l)

L..i=l i - 6 .
6.2 Distribuzione di Bernoulli B(l,p)

Definizione 6.2.1 La variabile indicatore, già ampiamente illustrata in precedenza, si
dice avere distribuzione di Bernoulli e si indica con B(l,p). Ricordiamo la sua legge
di probabilità ldp (o funzione di densità discreta fdd}:
px(l-p)l-x x=0,l x 1-xl () O 1 1

Px (x;p ) = { O altrove = p q {0,1} x' con ::; p::; e - p = q.
Teoremino 6.2.2 (:•) Se X ha una distribuzione di Bernoulli, allora: E[X] = p; ai =

pq; mx (t) = pe 1 + q.
Dim.: E[X] = 0(1 - p) + lp = p; ai = E[X 2 ] - E 2 [X] = 02 (1 - p) + 12p - p2
p(l-p)=pq;
mx(t) = E[etx] = eto(l - p) + élp = etp + q •
6.3 Distribuzione binomiale B(n, p)

Definizione 6.3.1 Una va discreta si dice avere una distribuzione binomiale di pa-
rametri n e p, e si indica X rv B(n,p), se la sua legge di probabilità ldp (o funzione di
densità discreta fdd} è data da:
Px(x;n,p) = { ( nx ) p x(l - p )n-x x=O,l,.,n}=(n)x(l-)n-xl.X (x)

0 p p {0,1, ,n}
altrove
dove x rappresenta il generico valore che la va può assumere tra O e n, contando il

verificarsi dei "successi", per esempio l'uscita di {T}, in n prove ripetute e indipendenti
(lanci di una moneta) e p rappresenta la probabilità di "successo" in ciascuna prova. Per
n = l la binomiale diventa una Bernoulli.
131
Teoremino 6.3.2 (:•) Se X ha una distribuzione binomiale, allora:
E[X] = np = I::=ox ( : ) px(l - p)n-x; ai= npq; mx(t) = (q + pe 1)n.
Dim.: mx(t) = E[etX] = I::=oetx (:) pxqn-x =
= I::=0( : ) (petrqn-x = (pet + qt;

da cui: m'x(t) = npe 1 (pe1 + qt- 1
m'Jc(t) = n(n - l)(pet)2(pet + q)n-2 + npet(pet + q)n-1
Ora, per t = O:
E[X] = m'x (O)= np ;
ai= E[X 2 ] - E 2 [X] = m'Jc(O)- (np) 2 = n(n - l)p 2 + np- n 2p 2 = npq•
Il numero medio di successi in n prove, E[X] = np, è direttamente proporzionale alla

probabilità p di successo in ogni prova e al numero di prove.
Teoremino 6.3.3 (:•) Sia px(·;n,p) {discreta) la ldp di una distribuzione binomiale.
Allora:
Px(x-l;n,p)<px(x;n,p) se x<(n+l)p}
{ px(x-l;n,p)>px(x;n,p) se x>(n+l)p conxinteroel::;x::;n
Px(x-l;n,p)=px(x;n,p) se x=(n+l)p
( : ) pxqn-x
. Px(x;n,p)
D im.:--"----- n! (x - l)!(n - x + l)!. r_
Px (x - l;n,p) x!(n - x)! n! q
( x-ln ) px-lqn-x+l
(n-x+l)(p+xq-xq) (n+l)p-x
---------=l+-----
xq xq
> 1 se (n + l )p > x
L'ultimo fattore è: { < l
= 1
se
se
(n + l)p < x
(n + l )p = x
•
Grafici della ld p ( o fdd) di una B (n, p)
0,45
O 11- 10,p-0.J ~ 11= 10, p=0.5 011 - 10, p==0. 7
0,4
0,35
0,3
o D
0,25 r:),
o D
0,2 tJ, Cl
0,15
o r:), r:), D
O.I IQ]
0,05 r:), o r:),

D D
2 3 4 5 6 8 IO
Il grafico della ldp della B(n,p) in figura varia, fissato n, al variare di p. Se p < ½ il
grafico è disassato a sinistra; se p > ½il grafico è disassato a destra; se p = ½il grafico è
simmetrico rispetto a ? .
0,25 x = (n + l)p; no11intero
(J,20
x = (n + l}p; intero
0,15 o
0,10 o
o
0,05
o o
o
o o -
O I J J 4 5 6 7 8 9 IO li 11 JJ 14 15 16 17 /8 19 20
Nella figura qui sopra il significato geometrico del teororema 6.3.3: il caso in cui (n+ l)p
intero (è (n + l)p = 7 qui) i valori della ldp sono indicati da quadratini e ce ne sono due
alla medesima quota; il caso in cui (n + l)p non è intero (cerchietti) la ldp cresce fino a
[(n + l)p] (parte intera di (n + l)p) poi decresce.Nella figura qui sotto supponiamo invece
di fissare p e di fa crescere n. Il grafico delle ldp si sposta verso destra come un'onda.
Le linee sottili che uniscono i valori delle ldp servono solo a suggerire la distribuzione
limite continua.
0,35
0,3
0,25
0,2
0,15
0,1
0,05
O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
6.4 Distribuzione ipergeometrica

Definizione 6.4.1 Supponiamo che una va X abbia la seguente ldp:
(:)(~~:). _ (O ) } (k)(M-k)
PX (x·Mkn)=
, , , { (M)
n
, X- ,.,n = x n-x
(M) I [O,.,n] (x)
O altrimenti n
dove AJ è un intero positivo, k è un intero non negativo al massimo uguale a ~M, n è un
intero positivo al massimo uguale a ~M.
In questo caso diciamo che X ha una distribuzione ipergeometrica di parametri n e
- k
P- M'
La va X appena descritta è la stessa che abbiamo visto calcolando la probabilità di

estrarre senza reimmissione x pezzi difettosi su n da un'urna che contiene AJ pezzi di cui
k difettosi.
133
Teoremino 6.4.2 Se X è una va con distribuzione ipergeometrica, allora:
k k M-k M-n
E[X] =n· - evar[X] =n· - · -- · --.
M M M M-l
Dim.: E[X] = I: x · (:) p;;:).

x=O n
esaminiamo gli addendi di questa somma:
u l . (M) _ (M-1)! _ (M-1) h .

va e. n - nM (n-l)!(M-n)! -
M
n. n-1 e anc e.
X· (:) =X· x!(:~x)I = k (x_{;)~(~~x)! = k· (:=
D
abbiamo:
n (k-l)(M-k) n 1(k-l)(M-k)
E[X] = n · ~ - I: x-(11-i)x = n · ~ · I: Y(M~i;-Y
x=l n-1 y=O n-1
Dato che: Iom(m~;)

m
= (a!b)' ponendo:
{ : : :1--lk
i= y si ottiene: E[X] = n. ~
m=n-l
La dimostrazione del calcolo varianza viene tralasciata. •
Esempio 6.4.3 Nel reparto "controllo di qualità" di un'azienda in cui vengono prodotti
alberi a camme si esaminano le confezioni da 100 pezzi pronte per essere spedite ai clienti.
Viene decisa la seguente strategia di scelta.
Da ogni confezione vengono estratti senza reintroduzione 1O alberi a camme, cioè un
campione di dimensione n = 10. Si decide di "passare" la confezione da 100 alberi se i
pezzi difettosi sono al più uno.
Se X è la va che dà il numero dei pezzi difettosi all'interno del campione, X ha una
distribuzione ipergeometrica con i seguenti parametri:
M = 100; ~ = p quindi k = p · M = p · 100; n = 10 è il numero dei pezzi campionati.
Quindi:
( lOO·p) (100 (1-p))
X 10-x
(p si chiama qualità del lotto).

Qual è la probabilità che il lotto venga rifiutato (e quindi non spedito)?
P[rifiutare il lotto]= P[X > l] = P[X 2: 2] =
10 (100 P)(100 (1-p)) 1 (100 P)(100 (1-p))
= I: X (1UU)0- X l- I: X (1UU)0- X
x=2 10 x=O
10
( lOO·p) ( 100 (1-p )) + ( lOO·p) ( 100· (1-p ))
=1- o 10 (10) 1 9 =f(p)
Ovviamente la probabilità di rifiutare il lotto è funzione di p. Per esempio, se p = 0.05
(cioè se abbiamo il 5% dei pezzi difettosi), si ha:
P[rifiutare il lotto] = 1 - @(~1)r!SP
(995) = 1 - 0.923 = 0.077
Con il valore p della qualità del lotto ipotizzata l'evento X > 1 ha una probabilità bassa.
Posso perciò pensare che, se tale evento si è verificato, la p di quel lotto sia maggiore del
valore ipotizzato e che quindi sia ragionevole rifiutare. Se tale probabilità fosse elevata,
la decisione di rifiutare sarebbe meno significativa e l'azienda, per abbassare la probabi-
lità dell'evento "rifiuto", potrebbe decidere di modificare strategia (rifiutare se X > ?) o
cambiare la dimensione n del campione.
Oss. 2 Quando la numerosità M della popolazione è molto maggiore di quella n del
n
campione {basta M ::; 0.1) non c'è praticamente differenza nel calcolare la probabilità di
estrazione con o senza reimbussolamento, e possiamo trattare l'ipergeometrica come una
k
binomiale B (n, p) con p = M (proporzione tra il numero k degli oggetti difettosi e quello
totale M ). Infatti in questo caso:
P(X = x) =
(k)(M-k)_-· (nx)
x (~)x ·- [Mk]
x [l- Mk] n-x
Oss. 3 Si può vedere che l'approssimazione migliora al crescere di M. Siamo di fronte

a un primo esempio di un tipo speciale di convergenza che riguarda le va. Si pensi a
una successione {XM} di va ciascuna con distribuzione ipergeometrica data da PxM =
Px (x; M , k , n ) = (:)(~~:)
(~) . supponiamo
' ch e, come in' ques t o caso, la successione
' dell e
ldp{pxM}soddisfi: lim PxM = lim Px(x;M,k,n)=px(x)= (n)px(l-p)n-x {dove,

M-~ M-~ X
nel limite, il rapporto ~ è tenuto fisso uguale a p). Potremo allora affermare che, con
un linguaggio che preciseremo più avanti, la successione delle va ipergeometriche {X M}
converge, in legge e sotto opportune ipotesi, a una va binomiale X.
6.5 Distribuzione geometrica

Definizione 6.5.1 Una va che abbia ldp data da:
P[X=n]= (n)={ pqn-1 n=l,2, ...
Px O altrove
dove O< p < l, si dice avere distribuzione geometrica e a volte si indica X con G(p).
Un esempio è data dalla va X tempo d'attesa (in termini di tentativi, e quindi tempo
discreto) del primo successo in una serie di prove ripetute, dove, a ogni prova, sono
possibili solo due risultati, successo o insuccesso, e la probabilità di successo in ogni
prova è p: G(p) conta il numero di tentativi per avere il primo successo.
Esempio 6.5.2 Si lancia un dado finchè esce sei. Qual è la probabilità che il dado debba
essere lanciato più di cinque volte?
Soluzione: si deve eseguire ripetutamente un esperimento che ha due soli possibili risulta-
ti: {6} e {non 6}, con P[{6}] = (1/6) e P[{non 6}] = (5/6); i risultati degli esperimenti
sono indipendenti. Il modello segue la distribuzione geometrica. La probabilità che in n
esperimenti si verifichi per (n - 1) volte di fila l'evento Ac = {non esce 6} di probabi-
lità q = !e l'ennesima volta l'evento A = {esce 6} di probabilità p = ¼ è, come noto,
!
pqn- I = ¼· ( )n- 1 , perciò:
P[n° lanci > 5] = P[n° lanci = 6] + P[n° lanci = 7] + ... =
= ¼.(!)5 + ¼.rn)6+ ¼.(!)7 + .. = ¼.(!)5 [1 + ! + (!)2 + ..]
_- 6.1 (5)5'-'+oo (5)j _ 1 (5)5
6 ~j=O 6 - 6. 6
1 -_ (5)5
1-(5/6)
_ 5
6 - q
Si poteva seguire anche questa strada: P[n° lanci > 5] = 1 - P[n° lanci ::; 5].
135
Teoremino 6.5.3 Se X= G(p) allora:
1 2 q pet
E[X] = -;ax = 2 ;mx(t) = --t-
p p l-eq
Dim: Calcoliamo E[X] trovando prima la fgm.
+oo +oo +oo
mx(t) = E[etX] = I: etnqn-Ip = etp I: et(n-I)qn-1 = pet I: (etq)h (•)
n=l n=l h=O
pet
letql < 1 {::}t < - ln q ; per questi valori di t la (•) converge a: -1--t- = mx (t)
-eq
d pet et
m'.x-(t)= dt[l-etq]=p(-l+etq)2
m'.x-(O)= !p
Ricordare che var[X] = E[X 2] - E 2 [X] = m'Jc(O) - m'.x-(0) 2 per il calcolo della varian-
za'. •
Oss.: Si osservi che il tempo medio di attesa del primo successo è inversamente propor-
zionale alla probabilità di successo in ogni singola prova.
Teorema 6.5.4 Mancanza di memoria della geometrica (:•) Per una va con
distribuzione geometrica, vale l'importante uguaglianza:
P[X > k +n I X > k] = P[X > n] (6.1)
Dim.: Interpretiamola probabilisticamente modelizzando i tentativi ripetuti come i lanci
ripetuti di una moneta e interpretando l'uscita di T come un successo.
{X = m} è l'evento: ci sono stati esattamente m - 1 C nelle prime m - 1 prove e
l'm-esimo esito è T, cioè ho dovuto eseguire esattamente m lanci per avere T.
{X > m} è l'evento: { è uscita una sequenza di m C nei primi m tentativi}; non si dice
nulla sui risultati dall'{m+l)-esimo tentativo in poi. Calcolare P[{X > k+n I X> k}]
significa calcolare la probabilità dell'evento: {è uscita una sequenza di (k+n) C nei primi
(k + n) tentativi} nell'ipotesi che i primi k esiti siano C. Ora:
{X> m} ={X= m + l} U {X= m + 2} U {X= m + 3} U... (••)
dove {X= m + l} ={C .. -CT .. · }; {X= m + 2} ={C
...__,_., __.,
.... .. · CT .. · }; {X= m + 3} =
m m+l
...__,_.,
{ C .. · CT .. · }
m+2
'lfj{X = m + j} n {X = m + (j + l)} = 0. Infatti {X = m + j} ha una T al posto
m + j, mentre {X= m + (j + l)} ha una C al posto m + j.Quindi (••) è l'unione di
una infinità numerabile di eventi a due a due disgiunti.
+oo +oo +oo
Allora: P[X > m] = P[ LJ{X = m + j}] = I: P[X = m + j] = I: pq(m+j)-1
j=l j=l j=l
2 +oo . pqm
pqm[l + q+ q + ... ] = pqm I:j=O qJ = --.
l-q
Conclusione:
P[X > m] = qm. (6.2)
Torniamo ora alla 6.1. Ricordando che {X > k + n} e { X > k}, si ha:
P[X k n IX k] = P[{X > k + n} n {X> k}] = P[X > k + n] = qk+n = n =
> + > P[X > k] P[X > k] qk q
P[X >n]. •
La relazione appena dimostrata dice che la probabilità che ci siano almeno k + n in-
successi sapendo che non si è ottenuto nessun successo nei primi k tentativi è uguale
alla probabilità che ci siano almeno n insuccessi partendo dall'inizio. Con altre parole si
può dire che un esperimento geometrico, finalizzato a raggiungere il primo successo, si
comporta, dal punto di vista della durata, nello stesso modo da qualunque tentativo si
parta.
Oss. 4 Si può dimostrare che G(p) è l'unica va discreta che ha la proprietà 6.1.
Definizione 6.5.5 Geometrica traslata è la va GT(p) = G(p)-l che conta il numero

di tentativi che precedono il primo successo. È facile verificare che:
I Par(n) = P[GT(p) = n] = pqn; n = O,l, 2, ... I E[GT(p)] = ~ I var[GT(p)] = ? I

Esempio 6.5.6 Disastro nucleare. Al gennaio 2008 sono in funzione 439 centrali
nucleari che producono circa 370 GW (più o meno il 5% dell'energia globale, secondo
Jeremy Rifkin). Il WASH-1400, The reactor safety study del 1975 (noto come
Rasmussen Report, dal nome di Norman C. Rasmussen, direttore della squadra che lo
ha redatto) per una qualunque della n centrali in funzione al momento, valutava, pari
a 1 = 5 · 10- 5 la probabilità dell'evento Ai = {in un certo anno il nucleo del reattore
i; (i = 1, ... , n) fonde}. Di conseguenza P[Af] = 1 - 5 · 10- 5 = 0.99995. Sia A =
{ in un certo anno fonde il nocciolo di almeno un reattore} = UAi = (nAf )e. Allora
P[A] = 1- P[nAf] = 1- fJ;,:;
P[Af] = 1- 0.99995 439 = 1- 0.978289 = 0.0217 = p. Se
indichiamo al solito con G(p) la va tempo d'attesa {discreto, unità di misura: l'anno)
dell'evento A (fusione del nocciolo di almeno un reattore) allora p = 0.0217.
L'evento {G(p) ::; k} = {fonde almeno un nocciolo entro k anni} ha la seguente probabi-
lità: P[G(p)::; k] = 1- P[G(p) > k] = 1- (1- Pl-
. 1 1 1- p l - 0.0217
Sappiamo che E[G(p)] = p = 0 _0217 = 46.083 e var[G(p)] = y= 0 _02172 =
2077.6 cioè una deviazione standard a = 45.58 anni.
Ecco la tabella delle probabilità della fusione di almeno un nocciolo dei reattori attivi
entro k anni.
k = anni 1 2 5 10 20 25 30 50
probabilità 0.0217 0.04295 0.10394 0.197 0.35533 0.42234 0.4824 0.6663
Questa probabilità è evidentemente funzione del numero n di centrali nucleari attive e di

1 . Provate a costruire altre tabelle ipotizzando altri valori di n e di I tenuto conto che è:
P[G(p) ::; k] = 1 - [(1 - rtlk = 1 - [1 - (1 - rtlk
Esempio 6.5. 7 Il paradosso della scimmia. Supponiamo che a una scimmia siano con-
cessi infiniti tentativi di scrivere l'Amleto (una stringa particolare di 200.000 caratteri
dell'alfabeto) battendo a caso sui tasti di una macchina da scrivere dotata di 100 tasti.
137
La scimmia, per avere successo, deve eseguire un tentativo battendo per 200.000 volte
di seguito il tasto giusto. Durante ogni tentativo, appena la scimmia batte un carattere
sbagliato, il tentativo si considera fallito e la scimmia ricomincia, senza fermarsi, un
altro tentativo. Detto A = { la scimmia scrive l'Amleto} mostreremo che P[A] = l e
faremo alcune riflessioni sul risultato ottenuto. Vediamo allora come si può modellizzare
l'esperimento.
la scimmia es~ue un tentativo via l'altro di scrivere l'Amleto. A ogni tentativo

può non farcela (con probabilità I - p) e in tal caso metto "I" nella casella
corris11ondente a quel tentative, o farcela (con probabilità p,l e in tal cuo
mcttn 'S" nella casella corrispondente; la sltunlnnc è pcrc1ìi analoga a quella
del lancio di una moneta
la stringa è infinita
I = insuccesso S = successo
la scimmia batte la scimmia non
almeno un tasto batte tasti sbagliati
sba_gliato,non per 200.000 mila volte
scnvc l'Amleto e serive I'A mieto
e ini;,;iaun altro
tentativo
i
In ogni tentativo la probabilità di successo è p = ( 1 0 ) 200 ·000 = 10- 4 oo 000 (nessun tasto
sbagliato per 200. 000 volte di seguito). È da supporre che i tentativi siano indipendenti
perché la scimmia si comporta in modo del tutto casuale. Siamo allora di fronte a una
stringa di tentativi dove, a ogni tentativo si può avere successo con probabilità p, o un
insuccesso con probabilità q = (l - p). Siamo in una tipica situazione geometrica. Se
G(p) è la va che conta il numero di tentativi per ottenere il primo successo {la scrittura
dell'Amleto) allora l'evento A= {la scimmia scrive l'Amleto} equivale a {G(p) < +oo}.
+oo
Quindi P[ { la scimmia scrive l'Amleto}] = I: pqn- l = l.
n=l
Ciò sembra paradossale. Quello che ci permette di riconciliare il risultato matematico
con la nostra intuizione ( che ritiene impossibile che la scimmia ce la faccia) è il calcolo
1
di quanto tempo occorre per fare E[G(p)] = - = 10400 -000 tentativi. Questo valore
p
rappresenterà il tempo medio occorrente alla scimmia per riuscire nel suo intento.
Sia Y la va che conta i tasti battuti dalla scimmia prima del primo errore. La distri-
buzione di Y è complicata da definire, ma noi ci accontentiamo di poco, cioè di sapere
che ogni tentativo dura almeno una battuta. Supponendo che la scimmia si comporti
come una brava (e indefessa) dattilografa in grado di viaggiare a 400 battute al minuto,
ogni tentativo dura almeno 4 ioo minuti, cioè O,25 · 10- 2 minuti. Ragionando sempre
in minuti, indicando con T la quantità di tempo per eseguire E[ G(p)] tentativi, si ha
T 2: O,25. 10399 ·998 minuti (tempo necessario per eseguire E[G(p)] tentativi che durano
una sola battuta). Misurato in anni sarebbe T 2: O,25 . 6 3;;:;: l~
5 anni = 5 . 10
399 ·991
anni. Se si pensa che l'età dell'universo è circa 1, 5 x 10 10 anni, ora ci dovrebbe sembrare
più plausibile che, disponendo dell'eternità, la scimmia prima o poi scriva senza sbagliare
l'Amleto.
Esempio 6.5.8 Numeri ritardatari su una ruota del lotto. È convinzione comune che
se un numero non è uscito su una ruota per molte estrazioni la sua probabilità di uscire
a ogni estrazione successiva aumenti. Calcoliamo questa probabilità. A ogni estrazione
la probabilità che un numero venga estratto è ~:~~ = 0.0556 = p. Si può modellizzare il
tempo d'attesa di questo numero con una va geometrica G(p) di parametro p che aspetta
l'uscita della prima T nel lancio di una moneta di trucco p. Calcoliamo la probabilità che
T che non è uscita per k- l lanci, che corrisponde a {X> k- l}, esca al k-esimo, cioè
{X= k}:
P[x -_ klX > k _ l] _

-
P[{X>k-l}n{X=k}] _ P[X=k] _
P[X>k-1] - P[X>k-1] -
pqk-i
qk-1
_
- p
che è la probabilità che T esca alla prima estrazione. Il ragionamento, sbagliato e

inconsapevole, è invece il seguente:
...__,_., ...__,_.,
La probabilità di k Cdi fila cioè dell'evento {CCCC . .. CC ... } è P[ { CCCC ... CC ... }] =
k-1 k-1
qk (nel caso del numero del lotto 0.9444k che, per esempio, con k = 100 è 0.9444 100 =
0.0033). Allora si è portati a giocare contro questo evento, quindi per il suo complementa-
re che ha probabilità, sempre nel caso k = 100, pari a 0.9967. Ma questo complementare
non è {~T .. .}.
k-1
6.6 Distribuzione binomiale negativa

L'esperimento consiste ancora in una sequenza di tentativi indipendenti, dove il risultato
di ogni tentativo può essere un successo (T) o un insuccesso ( C) e la probabilità di
successo a ogni tentativo è pari a p. Siano
A= {nei primi k - l tentativi si sono avuti esattamente r - l insuccessi}

B = {il risultato del k - esimo tentativo è un successo}
con r 2: 2; r ::; k
Sia X la va che conta il numero di tentativi per avere r successi. È evidente che ci
interesssa il caso del tempo d'attesa dal secondo successo in avanti.
P[X = k] = P[A n B] = P[A] · P[B]
È facile convincersi che
I P[B]=p I
P[A] =O se k < r
dove (r-t",N~r ! rappresenta i modi in cui si possono disporre (k-1) oggetti di cui (r-1)
uguali a Te (k - r) uguali a C, e non conta l'ordine in cui gli oggetti sono disposti.
Definizione 6.6.1 Sia X una va con la seguente ldp:

x(k) = x(k;r ) = { ( k-1)
r-1 Pr qk- r -- ek-1,r-IP r ( -q )k- r k -- r,r + l ,r + 2 , ... }
P P ,P O altrove
dove i parametri r e p sono tali che: r = l, 2, 3, ... ; O < p < l; (q = l - p). Si
dice che X segue la distribuzione binomiale negativa che talvolta viene indicata con
N egBin(r, p)
139
Se r = l, la ldp della binomiale negativa si riduce alla ldp della geometrica.
Consideriamo r va geometriche G;(p) indipendenti. La va X appena illustrata rappre-
senta la somma I::=l G;(p) dir va geometriche indipendenti e identicamente distribuite,
cioè X rappresenta il tempo d'attesa, in termini di tentativi, dell'r-esimo successo.
Teoremino 6.6.2 Se X ha una distribuzione binomiale negativa, allora (q = 1 - p):
r rq [ pet ] r
E[X] = -;var[X] = -;mx(t) = --
p p2 1- etq
Dim.: mx(t) = I:t~ etk(~=Dprqk-r =

= prq-r I:t~ e=D(etq)k
,-..._,_
= prq-r(etqy I:;~ c~~~1)(etq)i =
k=j+r
= llpr(ety I:t'o
J-0
(r+j-I)(etq)l
J
= Illpr(etY(l - etq)-r = (___E!!_)
1 - etq
r = pr(e-t _ q)-r
Naturalmente letql < l {::}t < - lnq.

Ora: m'x(t) = :tpr(e-t _ q)-r = rpre-t (e-t _ q)-r-1
m'Jc(t) = !!:_rpre-t (e-t - q)-r-1 = rpre-2t (e-t - q)-r-1 [(r + 1) (e-t - q)-1 - et]
dt
(O) = rpr (l - q)-r-1
m'.:fc [(r + 1) (1 - qr 1 - l] = :: r +l - p
p p
r 2 rq
da cui: E[X] = m'x(0) = - var[X] = m'.:fc(0)- E [X]= 2 •
p p
Oss. 5 Con quanto verrà esposto nel capitolo 8 si potrebbe ricavare immediatamente
che la fgm di una somma I:;=l G;(p) di va geometriche indipendenti e identicamente
distribuite è pari a m~(t) = ( 1~:',q)
r , cioè al prodotto delle fgm delle singole variabili.
(r-l)(l-q)+rp
Oss. 6 Si osservi che p x (k) = px (k; r, p) ha moda pari a l...;._---'-----'---J (l•J sta
p
per parte intera di •) e che il suo andamento cresce fino alla moda e poi decresce con un
tipico andamento a campana che è spiegato dal teorema centrale del limite.
Esempio 6.6.3 Un venditore porta-a-porta di enciclopedie visita diverse abitazioni per

vendere un'enciclopedia. Per ogni casa che visita ha probabilità pari a 0.17 di vendere.
Se il suo editore gli ha imposto di non tornare in azienda prima di aver venduto 20 copie
dell'enciclopedia qual è la probabilità che torni dopo aver visitato 100 case?
Soluzione. Se X è una va binomiale negativa di parametri r e p, allora X = n; n 2: r è
l'evento { ci sono stati k tentativi con r successi e n - r insuccessi} e l 'r-esimo successo
è avvenuto al k - esimo tentativo.
Si usa una va X NegBin(r,p). Nel caso del commesso r = 20, k = 100,p = 0.17. Si ha:
II(r+j-1) = ( .r+j-1 ) = (r+j-1)

r-1 (r+J-1)-(r-1) J
mRicordiamo che c+r )xJ = (1-
I:J=~ 1 x)-r se lxi< 1
0.02 Grqfico della legge di probabililà binomiale negativa

di otrenere 20 successi in k "':20 tentativi.
0.016 A ogni tenlalivo la probabilità di successo è pari a 0.17
0.012
0.008
:
!I\
l
0.004
o 100 200 300 400 500 600
6.7 Distribuzione di Poisson

Consideriamo la seguente figura:
o
.......•• ..
a1 a2 a3 U4 a5 an
t
•
s
• • • •• •
a1 a2 U3 U4 05 an
s +t
•
Con il segno
tempo (O,t]. Le
* * rappresentiamo qualcosa che si verifica casualmente in un intervallo di
possono rappresentare incidenti che capitano su un'autostrada a
partire da un chilometro O fino a un chilometro t, possono rappresentare chiamate che
arrivano ad un centralino dall'istante O all'istante t, meteoriti che entrano in collisione con
un satellite, difetti lungo un cavo, tempi di emissione di particelle radioattive, insomma
qualunque tipo di fenomeno casuale per il quale si possa fare un qualche tipo di conteggio
di certi "accidenti", che chiameremo "arrivi", che si verificano con il passare del tempo
(o dello spazio). Indichiamo con
X(a,b]
gli arrivi in un generico intervallo (a; b]. Fissiamo t > O sia X(o,t] la va che conta gli arrivi
nell'intervallo (O,t]. Spesso, per semplicità ci capiterà di indicare questa variabile con Xt,
cioè:
X(o,tJ = Xt
Fissando t abbiamo una famiglia infinita di va legate al parametro t > O reale. Per t = O
poniamo Xo = O.
Assumiamo che il numero medio di arrivi nell'intervallo (O,l] (che è uguale alla frequenza
nell'unità di tempo) sia costante e sia un numero reale v > O in generale non intero. Più
grande è v e più gli arrivi saranno frequenti. Ovviamente il numero medio di arrivi in
un intervallo di ampiezza h, (O,h], è vh. Supponiamo inoltre che valgano le seguenti
proprietà:
141
P[Xro,hJ = l] = vh + o(h) (6.3)
P[X(o,h] ~ 2] = o(h) (6.4)
Vs, t; P[X(o,t] = m] = P[(X(o,s+t] - Xro,,]) = m] (6.5)
(a, b] n (t, s] = 0---+ X(a,b] è indipendente da X(t,s] (6.6)

La 6.3 dice che la probabilità P[Xh = l] che si verifichi esattamente 1 arrivo in un
"piccolo" intervallo di tempo di ampiezza h è uguale a vh a meno di infinitesimi di
ordine superiore.
La 6.4 dice che la P[Xh ~ 2] di 2 o più arrivi nell'intervallo di ampiezza h è trascurabile
rispetto alla probabilità di un arrivo se h è piccolo, cioè
. P[Xh ~ 2]
11m O
h-o P [xh = 1] ---+ .
. P[Xh > 2] o(h)

Infatti [ - ] = ( ) che tende a O se h ---+O.
p xh = l vh +oh
La 6.5 dice che il numero di arrivi dipende solo dall'ampiezza dell'intervallo e non dalla
sua posizione sull'asse reale.
La 6.6 dice che le va che contano il numero di arrivi in intervalli non sovrapposti sono
indipendenti. In particolare, se X(o,t] = Xt rappresenta il numero di arrivi in (O,t] e
X(o,t+s] rappresenta il numero di arrivi in (O,t + s] allora Xt è indipendente da X(t,t+s]·
Teoremino 6.7.1 Se sono soddisfatte 6.3, 6.4, 6.5, 6.6 allora:
e-vt(vt)x
P[Xt =x] = 1 ,x=0,1,2, ..
X.
Dim: (non rigorosa): Osserviamo x arrivi nell'intervallo (O,t]. Possiamo pensare di

t
suddividere tale intervallo in n intervallini di ampiezza - , abbastanza piccoli da contenere
n
al più un arrivo. Per le ipotesi 6.3, 6.4, 6.5, 6.6 fatte, possiamo rilevare le seguenti
approssimazioni:
t t
P[ un arrivo nell'intervallino di ampiezza - ] ~ v- = p
n n
t
P[più di un arrivo nell'intervallino di ampiezza - ] ~ O
n
t
P[ nessun arrivo nell'intervallino di ampiezza -] = 1 - P[ un arrivo nell'intervallino di
n
t t t
ampiezza -] - P[più di un arrivo nell'intervallino di ampiezza -] ~ 1 - v-.
n n n
Il numero di arrivi è perciò uguale al numero di intervallini con esattamente un arrivo.
La situazione è analoga a quella del calcolo della probabilità di avere x successi in n prove
t t
con probabilità di successo in ogni prova pari a v- e di insuccesso l - v-, che si ottiene
n n
con la fdd di una binomiale. Sappiamo che questa probabilità è approssimativamente
data da:
P[Xt = x] ~ ( : ) (:) x ( 1 - : ) n-x
n(n-l)
... (n-x+l)(vt)x ( t)n( t)-x
1- ~ 1- ~ (•)
x! nx n n
Nella (•) facciamo sparire gli intervallini facendone tendere a zero l'ampiezza {il che
equivale a far tendere n all 'oo) e tenendo ovviamente fisso x.
n( n - l) ... (n - x + l) ( vt) n t ( vt )- x ( )
Poiché nx --+ l; 1--:;;: --+ e-" ; 1--:;;: --+ 1, dalla & si
conclude:
P[Xt = x] = (vt)x e-vt •
x!
Oss. 7 Posto vt = À, si può scrivere: P[Xt = x] = >-~
X.
e->-; À > O dove À rappresenta il
numero medio di arrivi nell'intervallo (O,t].
Definizione 6.7.2 Una va X che abbia la ldp:

,\ ,\"
P[X = x] = Px(x) = Px(x; >-)=e- xrI{o,1, ...}(x); À > O
si dice variabile di Poisson Y.
1
Teoremino 6.7.3 Sia X una va di Poisson. Allora:
E[X] = À;var[X] = À;mx(t) = e>-(e'-I)

. +00 etxe-,\Àx +00 (Àetr t t
Dim.: I: ---
mx(t) = E[exp(tX)] = = e->- I: -- = e->-e>-e= e>-(e-l)
o x! o x!
Ora: m'x.(t) = ft(e->-e>-e') = e->-Àete>-e';m';(t) = Àe->-ete>-e'[>-et+ l]
Concludendo: E[X] = m'x. (O) = >-;
var[X] = E[X 2 ] - E 2 [X] = m';(O) - >-2 = >-(>- + 1) - >-2 = >- •
Teoremino 6.7.4 (:•)Datala ldp di Poisson px(x) = e-u~;X. x = O, l, ... , è:
e->-Àx-1 e-,\ÀX
<-- se x<À
(x - l)! x!
e->-Àx-1 e->-Àx
>-- se x>À
(x - l)! x!
e->-Àx-1 e->-Àx
se x = À (possibile solo se À è intero).
(x - l)! x!
e->-Àx-l
{
<l se x<À
(x - l)! X
Dim.:
e->-Àx À
che è: >l
=l
se x>À
se X=À
•
x!
La ldp di Poisson cresce fino al valore À della sua media, poi decresce; quindi il grafico
della legge Px (·) cambia, al crescere di À, come si vede nella figura.
....
'·"
G.!)! •
,_,..........
'·"
________
_ .. .....
IV vedi nota storica in fondo al capitolo
143
Se À non è intero la distribuzione è unimodale e la moda è [A](parte intera di A). Se À
è intero la ditribuzione è bimodale e le due mode sono À - 1 e À.
Oss. 8 Anche nel caso di una va di Poisson possiamo accennarre a un discorso di con-
vergenza in legge. In questo caso si tratta di una successione {Yn} = {B(n,p)} di va
binomiali ciascuna con distribuzione data dalla ldp PYn(x,n,p) = (:)px(l- Pr-x dove
À
p= -.
n
Abbiamo visto che lim PYn(x,n,p) = Px(x;A) = e->-:~I{o,1, ...}(x), ldp della va di
n---+oo ·
Poisson. Abbiamo mostrato un secondo esempio di convergenza in legge: la successione
{Yn} di va con distribuzione binomiale converge (in legge) alla va di Poisson.
Supponiamo di ripetere un esperimento che segua una legge di Poisson di parametro

non noto À, un numero N di volte. Ogni volta contiamo il numero x di "arrivi" che si
manifestano in un intervallo di lunghezza t. Indichiamo con Nx il numero di volte che
l'intervallo contiene esattamente x "arrivi". Allora N ={No+ N1 + N2 + ..}. Il numero
totale di punti osservati in N esperimenti è ovviamente T = N1 + 2N2 + 3N3 + ...
Se N è grande è ragionevole pensare che Nx ~ N · P[X 1 = x] (infatti P[X 1 = x]
rappresenta la probabilità di osservare x "arrivi", cioè approssimativamente la frequenza
~ dell'osservazione dix "arrivi"). Per valutare À possiamo scrivere:
T = N 1 + 2N2 + 3N3 + .. ~ N{P[X 1 = l] + 2P[X 1 = 2] + 3P[X 1 = 3] + ..} =
->-,2 -,>,,3
-- N{e ->-À + 2-e - "'- + 3-e - "'- + ..} -- N · e ->- · À · {l + >-+ >-2+ >-3+ ..} -- N · À
21 31 1 21 31
Segue:
-\~T/N
Questa relazione ci dà la possibilità di stimare À, numero medio di "arrivi" in un intervallo
di lunghezza t, dalle osservazioni e di confrontare i risultati sperimentali con le attese
teoriche. Vedremo un esempio dell'applicazione di questa tecnica presentando il modello
di Poisson in regioni spaziali.
Esempio 6.7.5 Il numero medio di arrivi di telefonate sia 30 per ora.

Valutare la probabilità che in 3 minuti non arrivi nessuna telefonata;
Soluzione: P[{0 chiamate in 3 minuti}]=
x.
e-vtl (vf
x=O
= e-v 3 = e-1. 5 ~ .22313.
(Infatti se il tempo è misurato in minuti, v = = .5) ~g
Valutare la probabilità che in un intervallo di 5 minuti arrivino più di 5 telefonate.
Soluzione: P[ {più di 5 chiamate in 5 minuti}] =
= P[{6 chiamate in 5'} U{7 chiamate in 5'} U{8 chiamate in 5'} U..] =
+oo +oo e-vt(vt)x +oo (2.5)x
= I: P[{x chiamate in 5 minuti}]= I: 1 = I: e- 2·5 -- 1- =(-")
x=6 x=6 X. x=6 X.
+oo ax +oo ax 5 ax
Ora, Va, ea = I: 1 , quindi: I: 1 = ea - I: 1 . Con questo, si ha:
x=OX. x=6 X. x=OX.
(2 5)x
(-") = e-2.5(e2.5 - I:-·,-)~
5
X.
0.0420
x=O
Anche P[{più di 5 chiamate in 5 minuti}]= l - P[{meno di 6 chiamate in 5 minuti}]

Esempio 6.7.6 Assumete che il numero di incidenti stradali in un certo Stato abbia
distribuzione di Poisson con media di uno al giorno.
Qual è la probabilità che si verifichino più di dieci incidenti in una settimana?
Soluzione: se li è la frequenza media nell'intervallo di tempo unitario, per la distribuzione
di Poisson:
P[Xt = x] = e-vt(llt)x
x!
Nel nostro caso l'intervallo di tempo unitario è un giorno e la media giornaliera è li= l.
Dobbiamo calcolare P[X1 > 10]. Poichè P[X1 = x] = e-:r,
si ha:
P[X1 > 10] = P[X1 ~ 11] = 1 - P[X1 :S 10] = 1 - I:}~oe- 1~71
Qual è la probabilità che passino più di due giorni fra due incidenti?
Soluzione: l'evento X 1 = O rappresenta il fatto che nell'intervallo di t unità di tempo non
ci sono stati incidenti. Quindi:
X 2 = O è l'evento: {non ci sono stati incidenti per due giorni}
-220 2 e-vt(vt)o t
P[X2 =O]= ¾f- = e- ; {in generale P[Xt =O]= 01 = e-v ;
questa quantità rappresenta la probabilità di aspettare almeno t unità di tempo prima che
si verifichi un arrivo. C'è un collegamento, come vedremo, con i fenomeni che hanno
una distribuzione esponenziale.
Esempio 6. 7. 7 Dati della polizia stradale ci dicono che a un certo incrocio capitano
di media 5 incidenti al mese. Calcolare la probabilità che a quell'incrocio si verifichino
esattamente 3 incidenti in un mese. Risposta: P[X = 3] =
53 -5
+ = 0.14042
Se vogliamo calcolare la probabilità che a quell'incrocio si verifichino esattamente 5
(lll5)5e-(vl 5 )
incidenti in 15 giorni, abbiamo: P[X15 = 5] =
5.1
Abbiamo cambiato unità di misura (mese/giorno). Considerando mese= 30 giorni,
. (15/6)5e-(l 5 / 5 )
li =arrivi medi al giorno= 350 = ¼- Si ha: P[X 15 = 5] = = 0.067.
5.1
Distribuzione di Poisson in più dimensioni*

Lo stesso modello di Poisson che si applica al conteggio di "arrivi" distribuiti in un inter-
vallo temporale (O, t] o spaziale (O, s] si applica anche al conteggio di "arrivi" distribuiti
su una regione piana o entro una regione tri o n-dimensionale. Invece di avere lunghezze
t abbiamo aree o ipervolumi t. Le condizioni che determinano l'applicabilità del modello
poissoniano sono:
1) la probabilità di trovare x punti in una regione di ipervolume t dipende solo da t e
non dalla forma della regione;
2) la probabilità di trovare più di un punto in una regione di ipervolume t, per t piccoli,
è trascurabile rispetto a quella di trovare esattamente un punto;
3) se A e B sono due regioni che non si intersecano, l'evento {numero di punti in A} è
indipendente dall'evento {numero di punti in B}.
Sotto queste condizioni se X 1 conta gli "arrivi" in una regione di area t allora
_ _ e-vt(vt)" _ _ ->. >." _ .
P[Xt - x] - x! - (oppure - e xT ), x - O, l, 2, .. ,
dove questa volta li rappresenta il numero medio degli arrivi nella regione di area unitaria
(oppure è À il numero medio degli accidenti nella regione di area t).
Esempio 6.7.8 Il panettone di Poisson. Supponiamo che in un panettone ci sia un solo

tipo di uvette e che queste siano distribuite nel panettone secondo il modello di Poisson:
145
precisamente in una porzione di panettone di volume unitario le uvette abbiano una
densità pari a v. Questo significa che se X conta le uvette in una porzione di panettone
di volume t abbiamo:
Esempio 6.7.9 Come esempio del buon adattamento del modello di Poisson a certe
distribuzioni di punti in regioni di dimensione 2, riportiamo i seguenti dati sul bombar-
damento della città di Londra con le "bombe volanti" da parte dei tedeschi durante la 2a
Guerra Mondiale (da R.D.CLark, An appLication of the Poisson distribution,
Journai of the Institute of Actuaries, voi. 72 (1946), pg.48). La parte sud
di Londra è stata suddivisa in N = 576 quadrati di superficie pari a ¼ di km 2 •
Diciamo Nx il numero di quadrati colpiti da esattamente x bombe. Allora il numero
totale di bombe cadute, 537, è dato da I: x · Nx. Definiamo la va X che conta il numero
di bombe cadute in un quadrato. Applicando il modello di Poisson si ha P[X = x] =
e->-Àx/x! (dove il valore sperimentale di À è À = Z:5~~x = ~~~ = 0.9323, rapporto tra il
numero totale di bombe cadute e il numero dei quadrati, dà il numero medio di bombe
per quadrato).
Il numero N -P[X = x] dà il numero di quadrati dove si sono osservate x bombe calcolato
supponendo valido il modello di Poisson.
La tavola seguente, dove sono confrontati gli N x osservati con N · P[X = x] teorici
evidenzia il buon adattamento del modello poissoniano a questo caso.
Bombe volant i cadute su Londra
X o 1 2 3 4 5 o più
P[X = x] = f (x; 0.9323) 0.3936 0.3670 0.1711 0.0532 0.0124 0.0027 (0)
Nx 229 211 93 35 7 1
N-P[X = x ] 226. 713 211.39 98.55 30.64 7.14 1.552
(0) P[X 2: 5] = 1 - P[X :s;4]
6.8 Nota storica
Siméo n Poi ss o n (Francia) 21 giugno 1781 - 25 aprile 1840
Comincia a studiare matematica nel 1798 all' Ecole

Polytechnique di Parigi. Laplace e Lagrange, coi quali
rimane amico per la vita, sono i suoi maestri.
Siméon Poisson, che all'inizio sembra indirizzato verso
la medicina, pubblica la sua prima memoria sulle differenze
finite a 18 anni e attira l'attenzione di Legendre.
Dal 1802 insegna egli stesso all' Ecole Polytechnique
e nel 1808 diventa astronomo al Bureau des Longitudes.

Nel 1809 gli viene assegnata la cattedra di matematica pura alla Faculté des Sciences appena
istituita.
Pubblica più di 300 lavori riguardanti la matematica, l'elettricità, il magnetismo e l'astronomia.
Ottiene risultati molto importanti sulla teoria dell'integrazione e sulle serie di Fourier e i suoi
lavori saranno proseguiti da Dirichlet e Riemann. Il suo nome è legato all'integrale di Pois-
son, all'equazione di Poisson nella teoria del potenziale, al coefficiente di Poisson nella teoria
dell'elasticità, alla costante di Poisson in elettricità.
La distribuzione di Poisson appare per la prima volta nel 1837 nella Recherches sur la probabilité
des jugements.

Esercizio 6.9.1 Si assuma che il numero d'incidenti stradali mortali in una certa zona
abbia una distribuzione di Poisson con una media di un incidente al giorno. Qual è la
probabilità che passino più di due giorni fra due incidenti?
Esercizio 6.9.2 Supponiamo che 20 macchine funzionino indipendentemente l'una dal-

l'altra per un'intera giornata. Sia p = 0.5 la probabilità che una macchina funzioni ancora
a fine giornata. Sia X la va che indica il numero di macchine ancora funzionanti a fine
giornata. Ricordando l'andamento di P[X = n], è in questo caso corretto ritenere che il
numero n* che rende massima P[X = n] sia
vicino a O oltre 20 uguale a 9

uguale a 10 uguale a 11 uguale a 9.5
Esercizio 6.9.3 Si consideri la seguente tabella che dà la fdr Fy(y) (approssimata) di

una va Y rv B(lO; 0.1).
y= O 1 2 3 4
F(y) = 0.34867844 O.73609893 0.92980917 0.98720480 0.99836506
y= 5 6 7 8 9 10
F(y) = 0.9998531 0.99999088 0.99999963 0.99999999 ~ 1 1
Sia ora X la va di Bernoulli che codifica con X= l l'estrazione di un pezzo difettoso da
un lotto che sappiamo contenere il 10% di pezzi difettosi. Si estrae da X un campione di
ampiezza 1O e sia Y la va che conta i pezzi difettosi del campione. Siano A = {vengono
estratti almeno 2 pezzi difettosi}; B = { vengono estratti al più 2 pezzi difettosi}; C =
{ vengono estratti esattamente 2 pezzi difetto si}.
a) Esprimere A, B, C in termini di va Y
b} Calcolare, utilizzando Fy(y), P[A], P[B], P[C]
Esercizio 6.9.4 Si supponga di lanciare una moneta di trucco p = P[T] 100 volte.
Supponiamo di essere al 100° lancio e che nei precedenti 99 la T non si sia mai presentata.
Dobbiamo ora aspettarci che nel 100° lancio la probabilità di avere testa sia maggiore di
p?
a) Calcolare la probabilità che esca Tal 1OD°lancio sapendo che non è mai uscita T nei
99 lanci precedenti.
b) Calcolare la probabilità di ottenere 100 C in 100 lanci
c) Vale la relazione P[{CCCC
"-v--'
... CT}] = 1- P[{CCCC
....__.,
... C}]?
99 100
Capitolo 7
La palingenetica obliterazione dell'io subcosciente
che s 'infutura nelle genesi del protoarchetipo
dell'antropomorfismo universale
Anonimo
Una brocca di vino,

un po ' di pane
e tu accanto a me
che canti nel deserto.
Omar Khayyam {1050-1123}
Distribuzioni continue
7.1 Distribuzione uniforme

Definizione 7.1.1 Una va si dice avere una distribuzione uniforme se la sua densità
di probabilità è data da:
fx(x) = fx(x;a,b) = b~aI[a,b](x) -oo <a< b < +oo.
Tale va si dice uniformemente distribuita in [a, b].
I
b - a
a b
x-a
Lasuafdrèdatada: Fx(x)= b-aI[a,b](x)+I(b,+oo)(x).
Oss.: La distribuzione di un numero generato a caso da Excel® in un intervallo (a, b) è
uniforme in (a, b).
Teoremino 7.1.2 Se X è distribuita uniformemente in [a, b],

148 CAPITOLO 7. DISTRIBUZIONI CONTINUE
E[X] = a+ b. 2 = (b - a)2. ( ) = (ebt - eat)

2 'Clx 12 'mx t t(b - a) ·
Dim.: E[X] = J~:

X b2aI[a,b](x)dx = b2a xdx = ~ ; J:
2 _ E[X2]-E2[X] __ l_ J,b 2d -(a+b) 2 _ (b-a)(b2 +ab+a2 ) (a2 +2ab+b
2) _ a2 +b2 -2ab.
Clx - - b-a a X X 2 - 3(b-a) 4 - 12 '
X l J,b bt at
mx(t) = E[et ] = b-a a etxdx = et(b-::_ea)
•
7. 2 Distribuzione esponenziale
Definizione 7.2.1 La densità di probabilità: fx(x;>-.) = >-.e->-xl[o
,+oo)(x),>-.>Osi dice
distribuzione esponenziale (negativa).
'"
X
La sua fdr è Fx(x) = J >-.e->-tdt= (1- e->-x)I[o,+oo)(x),>-.>O.

o
Teoremino 7.2.2 (:•) Se X è una va con distribuzione esponenziale, allora:
1 2 1 )..
E[X] = -;CJx = - ;mx(t) =--,con t < >-..
).. ).. 2 >-.-t
Teoremino 7.2.3 Mancanza di memoria della esponenziale (:•) Se X ha una

distribuzione esponenziale, allora:
P[X > a+ b I X > a] = P[X > b] a,b > O (7.1)

(Si noti l'analogia con la formula valida per la distribuzione geometrica a pag. 135).
D . ·P[X blX ]=P[{X>a+b}n{X>a}] _ P[X>a+b]
im.. > a+ >a P[X > a] '-v-" P[X > a]
{X>a+b}c{X>a}
149
1 - P[X <a+ b] e-À(a+b)
= -
1 - P[X :Sa]
= ---e-Àa = e-Àb = P[X > b]
Si ricordi infatti che P[X :Sa]= J0"" >-.e-Àxdx = [-e-ÀxJ;= -e-Àa +1•
Si potrebbe dimostrare che, viceversa, se una variabile aleatoria X ha una funzione di
ripartizione continua e se vale 7.1 allora X ha distribuzione esponenziale. Questo ci
permette di concludere che 7.1 è una proprietà che caratterizza tale distribuzione.
La distribuzione esponenziale può modellizzare fenomeni in cui, a partire da un istante di
tempo t = O iniziale, si attende il verificarsi di un certo evento: X rappresenta il tempo
(aleatorio) in cui si verifica l'evento atteso. Alcuni esempi:
1) Un apparecchio è in funzione si attende il momento in cui si guasterà. X è il tempo

di funzionamento (o tempo di vita) dell'apparecchio.
2) Si osservano transitare veicoli e si attende il momento X in cui transiterà il pros-

simo.
3) Si attende una chiamata a un centralino. X è il momento in cui arriverà.
Facendo riferimento all'esempio 1), possiamo dare le seguenti interpretazioni: P[X > a]
rappresenta la probabilità che l'apparecchio funzioni almeno per un tempo "a"; allora il
teorema appena dimostrato dice che la probabilità che tale durata superi "a+ b" unità
di tempo, sapendo che ha già superato "a" unità di tempo è uguale alla probabilità che
aveva inizialmente di superare "b" unità di tempo. In altre parole "la componente non è
soggetta ad usura".
Se risulta P[X > b] > P[X > a + blX > a], cioè è più probabile che duri almeno b
partendo da O che non partendo da a, allora è soggetto a usura.
Viceversa se risulta P[X > a+blX > a] > P[X > b], cioè è più probabile che duri almeno
b partendo da a che non partendo da O, allora l'apparecchio si guasta più facilmente nei
primi momenti di funzionamento; ciò avviene per esempio se ha bisogno di rodaggio.
L'uguaglianza P[X > a+ b I X > a] = P[X > b] si può infine interpretare dicendo che
la propensione dell'apparecchio a guastarsi è la stessa all'inizio del servizio e dopo un
tempo a di funzionamento.
Oss. 1 P[X > a + b I X > a] = P[X > b] si scrive anche: P[X > a + b] = P[X >
a]P[X > b]
Infatti per la prima formula:
P[X > b] = P[X > a+ b I X > a] =
P[{X>a+b}n X>a}]
P[X>a ~1 P X>a+b
P X>a ·
{X>a+b}c{X>a}
Una va X con densità esponenziale si dice tempo continuo d'attesa senza memoria
del primo arrivo.
Oss. 2 Legame tra la Poisson e la esponenziale (:•) C'è un legame tra la va

1
esponenziale T di media A e il processo di Poisson di intensità ).. (numero medio di arrivi
nell'intervallo unitario). Infatti se Xt è la va che conta gli arrivi nell'intervallo di tempo
(0,t] la sua fdd è e-Àt_,-
(>-.We vale la seguente uguaglianza: P[Xt =O]= P[{nessun
X.
arrivo nell'intervallo di tempo (0,t)}] = P[T > t] = e-Àt = 1 - Fr(t). Maggiore è
l'intensità ).. degli arrivi del processo di Poisson nell'intervallo (O,t], minore è il tempo
medio di attesa del primo arrivo (E[Y] = Perciò T è il tempo d'attesa del primo ½J.
arrivo in un processo in cui il numero medio degli arrivi in (O,1] è pari a À.
s+t s+t+r
, -----.1
.... ....:i.---......:J .... ....--""" .,...__Jyl~---...c;~;a,------·
.... ..
O
,.__,._...,.__,._...
o ,.__,._...
01 o ,.__,._...
o, o 2 3 5
Indichiamo con T 1 la va che misura il tempo del primo arrivo e con T2 quella che misura
il tempo del secondo arrivo. Calcoliamo P[T 2 > slT 1 = t], cioè la probabilità che il
secondo arrivo non si presenti nell'intervallo (t, s + t]. Per la 6.6 del capitolo 6 questa
probabilità è la stessa dell'evento: non ci sono arrivi nell'intervallo (O,s] quindi è uguale
a P[Xs =O]= e->-.s. Ma allora' P[T2 > slT1 = t] non dipende da t per cui P[T2 > slT1 =
t] = P[T 2 > s] = e->-.s_Anche il tempo del secondo arrivo di Poisson è esponenziale.
7.3 Distribuzione r (gamma)

Definizione 7.3.1 Una va X con fd data da:
fx(x;r,À) = rf;:y(>-xr- 1 e->-.xI10,+oo)(x) = ['~~)xr-le-ÀXJ10,+oo)(x) dover> 0,À >osi
dice avere una distribuzione gamma e si indica con il simbolo r(r, .X).
grafico della funzione di densità della r per ì, = 1

0,7
0,4
o 2 3 4 5 6 8 9 10 11
1- fx+oo r(;,.,r)(>-t)'- 1 e->-.1dt per X> O (·T")

={
La sua fdr è data da: F(x) T
O per x::; O
Nella formula suddetta, appare la funzione r(-). Per le sue proprietà vedi Appendice 1.
Ricordiamo solo che, se n è intero allora r(n) = (n - l)! e che r( = 2r( = fa. ½) i)
r-l e->-.x(Àx)h
Se r è un intero positivo la (~) è data da Fx (x) 1 - I: ---- come si trova
h=O h!
integrando successivamente per parti.
1Attenzione: P[T2 > slT1 = t] f. P[{T 2 > t}n=

P T1
{~i= t}] perché P[T 1
t
t] O. Per calcolare
P[T2 > slT1 = t] occorrono le fd condizionate (capitolo 9).
151
Teoremino 7.3.2 Se X ha una densità gamma con parametri r e À, si ha:
E[X] = i;var[X] = ; 2 ;mx(t) = (À~ tr ltl < À.

Oss. 3 Si dice fd x2 (chi-quadro} con k gradi di libertà la particolare funzione di den-
l
sità fx_~(x) = 2(k/ 2). f(k/ 2) · x(k/ 2)-l · e-(x/ 2)J[o,+oo)(x) che si ottiene dalla fd gamma
ponendo:
À = ½e r = ~ (k intero positivo ), cioè r( ~, ½).La chi-quadro trova applicazione, per
esempio, nei test statistici.
7.4 Distribuzione normale

Definizione 7.4.1 Si dice che una va X è normalmente distribuita se la sua densità
è data da:
1 (x-,;) 2
f x (x; µ, CJ)=
r..=e- 2a- ; dove - oo < µ < +oo e CJ> O (7.2)
CJy27r
Una distribuzione si dice normale se è definita dalla densità 7.2.
Per indicare che X è normalmente distribuita con media µ e varianza CJ2 , scriveremo:
X,...., N(µ,CJ 2 ).
Per la fd 7.2 useremo la notazione <Pµ,
2(x) e per la sua fdr µ,
17 172(x). Il suo grafico è a
sinsitra nella figura che segue .
. 0.5
N (O,I)
-12.5 -10 µ-cr µ--2.5 o 5 -4 -3 -2 -1
Se µ = O e CJ2 = 1 la X si dice standardizzata. In tal caso la fd ha espressione:
mentre la fdr è:
l
(x)=
t2
r..=e- 2 dt
-oo y27r
l x
(7.3)
e il suo grafico è a destra nella figura precedente.

La curva di una fd normale si chiama gaussiana dal matematico tedesco Gauss 11•

Teoremino 7.4.2 Se X è una va normale:
Teoremino 7.4.3 (:•) Sia X ,....,N (µ, CJ2 ). Allora, posto Z = (X~µ) , si ha Z ,....,N (O,1),
dove Z è una normale standardizzata.
Dim.: Cerchiamo la fdr di Z. Detta Fz ( z) la sua fdr, si ha per definizione:
Fz(z) = P[Z :S z] = P [ (
X
~µ) :S z
]
= P[X :S w+µ] =
zo-+
o-F21'J_CX)
/Le-~dx
(x-µ)2
= I.
Posto:
X = -00 ---+ t = -00
3:..:::....1:!:=t·
{ x=zCJ+µ ---+ t=z sihaI=+fz e-(t 2
/ 2 ldt=Jz fz(t)dt
u ' v2rr -oo -oo '
dx ---+ CJdt
e- (t2 /2)
Perciò la fd di Z è v21r , ossia Z,....,N(O, 1)•
27!'
Oss. Allo stesso risultato si sarebbe potuti arrivare più rapidamente utilizzando il
teoremino 5.4.9 di pagina 119. Infatti Z = X -
(J
!!:..Quindi
(J
la fgm mz(t) di Z risulta:
/!:. t l t l 2
mz(t) = e-to- exp(-µ+ -(-) 2 CJ2 ) = e2 1 •
(J 2 (J
Perciò Z ha la fgm della N(O; 1) e quindi è la N(O; 1).
Sia X,...., N(µ, CJ2 ) e Z la standardizzata di X. Allora:
,_......
Ell
P[a <X<
__ b] = a-µ
p [--<Z<--. b-µJ
------------------
Z = a< X< b {:::}
(X-µ)·
O' '
< Z < !!.=E.) E:..:::...1!:.
O' O'
(J (J
(7.4)
153
Questa importante uguaglianza ci permette di trovare i valori di (EB) in termini di va
standardizzata Z, utilizzando la tabella della normale standardm.
Esempio 7.4.4 Una certa va X ha distribuzione normale media di 1.63 e scarto qua-
dratico medio O'= O.I. Trovare la probabilità che X superi l.65.
X,...., N(µ,0' 2 ), µ = l.63 e 0'2 = 0.01 ossia X,...., N(l.63;0.01).
Per fare i conti, dobbiamo standardizzare X e passare a Z = x 3• o.6t
Ora: X > 1.65 {::}x o\63 > l.65o~i1°63 {::} z > ocio/ = 0.2
P[Z > 0.2] = 1 - P[Z :S 0.2]. In tabella ho P[Z :S 0.2] = <J?(0.2)= 0.5793.
Quindi P[Z > 0.2] = 1 - 0.5793 = 0.4207.
Supponiamo che si voglia invece trovare la probabilità che X superi 4.0454. Anche in
questo caso per fare i conti occorre procedere come sopra:
X > 4.0454 {::}X o\63 > 4.04504 11.63 {::} z > o.~4~54 = 2.4l 54.
Per risolvere il problema occorre il valore <J?(2.4154) ma sulle tavole c'è <J?(2.41) = 0.9920
e <J?(2.42) = 0.0.9922. Per vedere come ci si possa arrangiare a trovare il valore della
fdr <J?in punti non previsti nella tavola si può considerare questo esempio: <J?(2.4154) è
rappresentato dalla somma di <J?(2.41) con l'area del trapezoide A.
<1>(2.4154)= (1)(2.41)+ D
2.41 2.4154 2.42
Figura 7-1:
Una buona approssimazione dell'area del trapezoide è l'area di un trapezio che per basi
2.41 2 2.4154 2
</>(2.41)= J;e- -2- e </>(2.4154)= J;e - -2- e altezza h = 2.4154 - 2.41 = 0.0054.
2.41 2 2.4154 2
(J;e--2- + J;e--2-). 0.0054
Nel nostro caso l'area del trapezio è: 2 = 0.000117.
Conclusione: <J?(2.4154) = 0.9920 + 0.000117 = 0.99212
Esempio 7.4.5 Da una certa università viene lanciato un concorso tra tutti i ragazzi
delle scuole medie superiori italiane per valutare le loro attitudini matematiche. Sup-
poniamo che i voti presi dagli studenti siano normalmente distribuiti con media 500 e
deviazione standard 100.
i) Trovare, in queste ipotesi, la percentuale di studenti che hanno una votazione compresa
fra 400 e 600.
Sia X la va che codifica i voti. Allora X rv N(500, 10000)::::} Z = x 10 00 ,....,N(0, 1). t
400 - 500 600 - 500
Ora: 400 < X < 600 {::} 100 < x 10 00 < 100t {::}-1 < Z < l
IIII] calcolo della probabilità che, per esempio, la N(O, 1) appartenga a un intervallo (a, b) è l'integrale
su (a, b) della fd della normale. Questo integrale non si può calcolare in termini finiti e i conti sono
complicati. Per quasi un secolo è perciò risultato comodo avere i valori dell'integrale esposti in una
tabella. A rigore oggi le sofisticate calcolatrici tascabili e i computer rendono superflua questa tabella,
perché le macchine fanno i conti per noi. Ciononostante apprenderne l'uso rappresenta un esercizio valido
e formativo.
P[400 <X< 600] = P[-1 < Z < l] = 2z(l)- l = 2P[Z < l]-1 = 0.6826
Quindi approssimativamente il 68% degli studenti ha raggiunto un punteggio compreso
fra 400 e 600.
ii) Se l'università decide di accettare soltanto l'iscrizione degli studenti che hanno un pun-
teggio compreso nel 10% più alto dei voti, sopra quale punteggio deve stare uno studente
per essere in quel top 10%?
Se pensiamo alla distribuzione dei voti ogni studente è rappresentato da un voto. Si tratta
di trovare quel valore "a" tale che P[X >a]= O.IO
X> a{=} z _ X-500 > a-500
- 100 100
Calcoliamo quindi P [z > 100 -
a-
500 ] - O 1 · P [z <
' ' - 100
a-
500 ] + p [z > 500 ] - 1 ·
100 - '
a-
P [z::; algg0 ] = 1- 0.1 = 0.9.
Dalle tabelle, poiché -1 (0.9) = 1.282 segue a 1 ggo
= 1.282 ::::}a = 628.2
Oss. 4 La quantità -1 (a) rappresenta il quantile a-esimo ( o l 'a-quantile} della normale
standard.
0.4
a=<l>(x) = _l_ J e-,
X t 2
dt
1/Z
rc -=
o
x=!l> - \a)
Osserviamo inoltre che dalla tabella sembra che lo 0.9997-quantile sia indifferentemente
uno qualunque dei numeri 3.39, ... , 3.48.
o.o~ j
0.001
....__.....___---r,---r-----r,
--,r-----r-----r--"T.--T. -----"1---
3.38 3.39 3.40 3.41 3.42 3.43 3.44 3.45 3.46 3.47 3.48
'1>(3.39) = .9996505 '1>(3.48) = .9997492
Ciò è vero se si esprime il quantile arrestandosi alla terza decimale. Infatti (3.39)=
0.9997 invece che 0.9996505 come dovrebbe essere con una precisione maggiore, e anche
(3.48) = 0.9997 invece di 0.9997 492 come pure dovrebbe essere con una precisione
maggiore (vedi figura).
Esempio 7.4.6 La Volt S.p.a. costruisce voltmetri amperometrici che indicano la diffe-
renza di potenziale fra due punti di un circuito misurando la quantità di elettricità che li
attraversa. In condizioni di equilibrio, lo strumento legge O volt, ma a causa delle impre-
cisioni del metodo costruttivo, sempre in condizioni di equilibrio ciascun voltmetro segna
qualcosa di più o qualcosa di meno di O volt. Definiamo una va Z che dà il voltaggio letto
dal voltmetro in condizioni di equilibrio. Le passate esperienze dicono che Z rv N(O, l).
1} Vogliamo trovare la probabilità che il voltaggio letto sia compreso tra O e 1.43 volt.
Si tratta di calcolare P[O < Z < 1.43]. Usando la tabella dell'Appendice 2, calcoliamo
dapprima P[Z < 1.43] = (l.43)poi P[Z <O]= (O)(= 1/2 per ragioni di simmetria},
quindi P[O < Z < 1.43] = (l.43)- (O)(vedi figura 1-2).
155
area Q =0.9236 area Q =1-0 .9236

<D(l. 43)=0.9236
<D(+=)=l
-4 -3 -2 -1 9 2 3 4
0.4 P[0 < Z < 1.43] = 0.9236 - 0.5

P[Z < - l.43 ] = l - 0.9236
P[ - 1.43 < Z < O]= 0.5 - (1- 0.92 36)
-1 .43
-4 -3 -2 -1 o 2 3 4
Figura 7-2:
Se volessimo calcolare la probabilità che il voltaggio letto sia compreso tra -1.43 e O volt,
cioè P[-1.43 < Z < O], dovremmo sfruttare la simmetria della gaussiana. Infatti:
P[-1.43 < Z <O]= P[O < Z < 1.43].
2) Calcolare P[-0.57 < Z < 1.12]. Si ha:
P[-0.57 < Z < 1.12] = (l.12)- (-0.57) = (l.12)- [1- (0.57)]= 0.8686 - [1-
0.7157] = 0.5843.
3) Calcolare P[l.12 < Z < 1.41].
Si ha: P[l.12 < Z < 1.41] = (l.41)- (l.12)= 0.9207 - 0.8686 = 0.0521
4) Calcolare P[Z > 1.28].
Si ha P[Z > 1.28] = 1 - P[Z < 1.28] = 1 - (l.28)= 1 - 0.8997 = 0.1003
Infatti, per la simmetria della N(O, l), P[Z > 1.28] = P[Z < -1.28].
5} Calcolare P[ Z > 1.28 oppure Z < -1.28].
Gli eventi {Z > 1.28} e {Z < -1.28} sono disgiunti. Pertanto:
P[Z > 1.28 oppure Z < -1.28] = P[{Z > 1.28} U {Z < -1.28}] =
= P[ Z > 1.28] + P[ Z < -1.28] = 0.1003 + 0.1003 = 0.2006
Mettiamoci ora da un punto di vista leggermente diverso. Vogliamo trovare un intervallo
dell'asse z dove siamo sicuri che cadano i valori Z con probabilità 0.025, ossia che il
2.5% dei voltaggi rilevati da Z. La risposta non è univoca: eccone tre possibili.
i} si può trovare a tale che P[Z < a] = 0.025;
ii} oppure a tale che P[Z >a]= 0.025;
iii} o, in,fine, a e b tali che P[a < Z < b] = 0.025
Dalla tabella della normale: P[ Z < 1.96] = 0.975 = 1 - P[ Z > 1.96]. Quindi, per
simmetria,
P[Z < -1.96] = 1 - 0.975 = 0.025 ma anche P[Z > 1.96] = 0.025
Infine P[Z < 1.56] = 0.9406, P[Z < 1.82] = 0.9656 quindi P[l.56 < Z < 1.82] = 0.025
(figura 7-3).
0.4
F{Z< - 1.96] = rl>i

- 1.96) = I - 4>(1.96) = I - 0.975 = 0.025
P[Z> 1.96] = 4>(- 1.96) = ! -(i.96)= 0.025
-4 -3 - 1.96 -I o 3 4
P(l.56 < Z < 1.82] = 0.025 = <1>(1.82) 1.56) =0.9656 -0.9406
- <1>(
Figura 7-3:
Si osservi infine la seguente proprietà peculiare della distribuzione normale. Se indichiamo

con µ la media di una distribuzione normale e con a lo scarto quadratico medio di una
va X, si ha che:
µ-3 o µ-2 o fl-O µ µ+o
D=0.68 O+D+ -o .997
Figura 7-4:
TRA CADE IL 100a % DEI VALORI

(µ- a) e (µ+a) a = P[IX - µI < a] = 0.68
(µ- 2a) e (µ + 2a) a = P[IX - µI < 2a] = 0.95
(µ- 3a) e (µ + 3a) a = P[IX - µI < 3a] = 0.997
(µ- 4a) e (µ + 4a) a = P[IX - µI < 4a] = 0.9999
-00 e (µ - 3a) a = P[X > µ + 3a ] = oio 3 = 0.0015
157
7.5 Nota storica
Carl Friedrich Gauss (Germania) 30 aprile 1777 - 23 febbraio 1855
Sino dalle elementari Gauss stupisce i maestri

per le sue doti di matematico. È noto l'aneddoto
in base al quale calcola in un baleno la somma dei numeri
da 1 a 100 individuando tra questi 50 coppie di numeri,
ciascuna con somma 101.
Il Duca di Brunswick sostiene le spese della sua istruzione.
Nella tesi di laurea Gauss, a soli 22 anni, dimostra il teorema
fondamentale dell'algebra. Nel 1801 pubblica le Disquisitiones Arithmeticae dove si occupa di
teoria dei numeri.
Gauss si dedica all'astronomia: applica il suo metodo dei minimi quadrati per predire, al mo-
mento della sua riapparizione, la posizione di Cerere, un asteroide scoperto nel 1801 dall'italiano
Giuseppe Piazzi e scomparso alla vista dalla Terra nella sua orbita intorno al Sole.
Alla morte del Duca di Brunswick Gauss accetta il posto di direttore dell'osservatorio di Got-
tinga. Le sue vicende personali (una vedovanza e un figlio morto) non sembrano influire sul suo
lavoro. Nel 1809 pubblica due importanti volumi sul moto degli astri: Theoria motus corporum
coelestium in sectionibus conicis Solem ambientium.
È uno dei più prolifici matematici mai esistiti. Tra i suoi lavori importanti citiamo Disquisitiones
generales circa seriem infìnitam sulle serie numeriche, Disquisitiones generales circa superfìcies
curvas in cui introduce la geometria intrinseca delle superfici, il IVIethodus nova integralium
valores per approximationem inveniendi sul calcolo approssimato degli integrali, il Bestimmung
der Genauigkeit der Beobachtungen dedicato agli stimatori statistici, e la Theoria attractio-
nis corporum sphaeroidicorum ellipticorum homogeneorum methodus nova tractata che tratta
soprattutto di teoria del potenziale.
Il volume Theoria combinationis observationum erroribus minimis obnoxiae del 1823 e il sup-
plemento a questo del 1828, è dedicato alla statistica matematica e, in particolare al metodo dei
minimi quadrati.
Nel 1831, l'arrivo a Gottinga del fisico Wilhelm Weber spinge Gauss a interessarsi di magnetismo
terrestre. Nel 1832, '39, '40 pubblica tre importanti opere sull'argomento. In una di queste,
Allgemeine Theorie des Erdmagnetismus mostra che ci possono essere due soli poli magnetici
sul nostro pianeta. Con Weber riesce a costruire un rudimentale telegrafo che può trasmettere
segnali a 1500 metri di distanza.

Esercizio 7.6.1 La famosa azienda Stupide/li lancia una campagna che consiste nel pre-
miare la prima persona che, telefonando al centralino dell'azienda, indovini un numero
k preventivamente scelto tra 1 e 4 (l::; k::; 4).
a) Volendo valutare la probabilità che ciò avvenga esattamente alla decima telefonata dire
quale, fra le seguenti distribuzioni, va scelta per il calcolo:
[I] [TI Bernoulli [I] [TI normale esponenziale

[I] [TI Poisson [I] [TI geometrica uniforme
b) Quanto vale questa probabilità?
Esercizio 7.6.2 Dettaµ la media di una certa distribuzione e CJ la sua deviazione stan-
dard la disuguaglianza di Chebyscev afferma che almeno il 75% dei dati cade nell 'inter-
vallo (µ - 2CJ,µ + 2CJ). Tale affermazione è vera:
V~VI F;F
I ,ola per di,triburiani normali
per qualunque tipo di distribuzione
anche se la varianza non è finita
anche se è finito solo il momento del l O ordine
Esercizio 7.6.3 Sia X la va di conteggio relativa alle disintegrazioni di un kg di plutonio
nell'intervallo [t1 , t 2 ]; (t 2 -t 1 = t). Sia v il numero medio di disintegrazioni nell'unità di
tempo, riferita a un kg. di plutonio. Tenendo conto che il verificarsi delle disintegrazioni è
assimilabile (per esempio) all'arrivo di auto a un casello autostradale attribuire il corretto
valore di verità alle seguenti affermazioni: X è distribuita come:
V F una Bernoulli di parametro v
una Poisson di parametro v
una Poisson di parametro vt
una geometrica di parametro v
una normale di parametri v e t
Esercizio 7.6.4 Sia X una va distribuita esponenzialmente con media E[X] = 2; cal-
colare P(X > 2 I X > 1)
Esercizio 7.6.5 Siano date n va Xi distribuite normalmente, indipendenti, tutte con la
stessa media µ e la stessa varianza CJ2 . Indicando con P* la probabilità che almeno una
delle va Xj sia minore (maggiore) della sua mediaµ, calcolarla.
Esercizio 7.6.6 Sia X una variabile aleatoria continua, distribuita uniformemente su
[O,l]. Allora:
0 ® ---
© -, 2
----,J
o I o o
..._ ____ ]
Figura 7-5:
il grafico in (a) è quello della densità di X

il grafico in (b) è quello della densità di -X
il grafico in ( c) è quello della densità di 2X
Capitolo 8
Negli insegnamenti che ti impartirò io ti sospingerò
a tutte le sconsacrazioni possibili, alla mancanza
di ogni rispetto per ogni sentimento istitutivo.
Tuttavia il fondo del mio insegnamento
consisterà nel convincerti a non temere la sacralità
e i sentimenti, di cui il laicismo consumistico
ha privato gli uomini trasformandoli in brutti
e stupidi automi adoratori di .feticci.
Pier Paolo Pasolini {1922-1975)
Rumorosa la vita,
adulta, ostile,
minacciava
la nostra giovanezza
Umberto Saba (1883-1957)
Funzioni di variabili aleatorie
8.1 Distribuzioni di funzioni di va
Q y=h(xj=h(X(w))
w h
JR JR
Dato uno spazio (O, A, P[·]) e una va X : n f-+ JR sia Dx = {x E JR: per almeno un
w E n, X(w) = x}. Sia h(x) : Dx f-+ JR una funzione (misurabile) a valori reali. Allora
Y = h(X) : n f-+ JR è una nuova va. Infatti Vw E n, Y(w) = h(X(w)) E JR e si può
mostrare che Vr E JR,Ar = {w : h(X(w))::; r} E A.
Un discorso analogo si può fare per un vta X: n f-+ JRn. Sia Dx= {X E JRn: per almeno
un w E n, X(w) = ;iç_}. Sia h(x) = h(x1, x2, ... , Xn) : Dx f-+ JR una funzione (misurabile)
a valori reali. Allora Y = h(X) : n f-+ JR è una nuova vi.
160 CAPITOLO 8. FUNZIONI DI VARIABILI ALEATORIE
Nota la fdr di X o di X, ci poniamo il problema di trovare la fdr di Y. Nel caso discreto,
nota la ldp px_(x 1 , X2, ... , Xn) di X potremo limitarci a trovare la ldp di Y invece della
sua fdr. Illustreremo tre metodi.
1 Metodo della fdr.

Si tratta di determinare P[Y ::; y], cioè di determinare la regione 8(y) dello spazio IRn
tale che h(x1, x2, ... , Xn)::; y.
Se f(x1, x2, ... , Xn) è la fd di X allora fe(y) f(x1, x2, ... , Xn)dx1dx2 ... dxn è la fdr Fy(y)
di Y. La fd di Y si ottiene derivando Fy(y).
Nel caso di un vta discreto, ci limitermo a determinare la regione 8(y) dello spazio IRn
tale che h(x1, x2, ... , Xn) = y, trovando P[Y = y] = py(y) = I: Px(x1, x2, ... , Xn)
,f:h(,f)=y -
Esempio 8.1.1 L'esperimento consiste nel lancio di 3 monete. X è la va che conta il

numero delle T in un lancio. Sia Y = 2X - l. Abbiamo la seguente situazione:
Xi I p( x; ) I Yi I P(Yi)
o -1
1 } 1 }
2 } 3 ~
3
I8 5
I8
Sia invece Y = IX - 21.Allora la situazione è la seguente:
Xi I P( xi ) I
•
da Yi P(y ;)
o
1
•• ••• 1 !=
o i =P(2)
2
3 8
•••
••••
4'-4'-4'-4'-U4'-4't
• 2
P(3) + P(l)
½= P(O)
Esempio 8.1.2 Sia X rv Àe->-x1IR+(x). Sia Y = O se X::;½; Y = l se X>½, Allora:

P[Y =O]= f 1 0.632l;P[Y = l] = J1:'; Àe->-xdx '.::::'.
0 /.XÀe->-xdx '.::::'. 0.3679.
Esempio 8.1.3 X 1 rappresenti la proporzione disponibile, in carburante, del volume to-

tale del deposito di un distributore autostradale all'inizio di una settimana. Sia X2 la
proporzione venduta. A causa della variabilità dei rifornimenti X 1 è una va e, a causa
della mutevolezza dell'intensità del traffico, anche X 2 è una va. Poiché X 1 e X 2 sono
proporzioni variano entrambe tra O e 1 e inoltre O ::; X 2 ::; X 1 . La fd congiunta sia
f (X X ) ={ 3x1 per O ::; X2 ::; X1 ::; 1

1' 2 O altrove
Supponiamo di voler trovare la fdr di Y =X1- X 2 . Dunque
Fy(y) = {
le(y)
f(x1,x2)dx1dx2 = J f(x1,x2)dx1dx2
x1 - x2~Y
Come si vede dalla figura 8-1 vale la seguente
y<O Fy(y) = P[X1 - X2::; y] = O

O ::; y ::; 1 Fy(y) = integrale sulla regione più scura evidenziata in figura
l<y Fy(y) = 1
161
• regione dovex, -x 2 sy
y <O
x,
y =O
O<y l
Figura 8-1:
Calcoliamo F per O ::; y ::; 1. Per semplificare i conti procediamo così:

Fy(y) = P[Y::; y] = 1- P[Y ~ y] = 1- JY 1 J;1 -y 3x 1dx2dx1 = 1- JY1 3x 1 (x 1 -y)dx1 =
= ½(3y - y 3 ), 0::; y::; 1.
Esempio 8.1.4 Una piccola filatura produce .fino a 10 tonnellate di filo di cotone al
giorno. A causa di fermi-macchina e di altre intoppi la produzione reale è misurata da una
va X, la cui densità è data da f(x) = 5x0 I1o,io1(x).Per produrre questo filato l'azienda ha
un costo fisso di 68 milioni; il .filato viene rivenduto a una tessitura incassando 7 milioni
a tonnellata. L'utile giornaliero è perciò una va Y = 7X - 68; (Y = h(X)). Per trovare
la fdr di Y imponiamo: Fy(y) = P[Y::; y] = P[7X - 68::; y] = P[X::; Y~ 68 ].
È facile allora concludere che:
y f.~ ::; o y ::; -68 Fy(y) = O

o < v+:,68 ::; 10 -68 < y::; 2 -lr,dx = ¼n(V~68)2
Fy(y) = fn.li..:!;f2-
10<~ 2<y Fy(y) = l
e che fy(y) = ~t~~I[-68,2](y).
Teoremino 8.1.5 (:•) Siano X e Y due va di densità congiunta fxy(x,y). Allora
Z=Y/X ===} fz(z)= J +oo

_ 00 ltlfxy(t,zt)dt. (8.1)
Infatti: Fz(z) = P[Z::; z] = J Jfxy(x, y)dxdy =

Jl.<z
x-
+O,
+W
-w
Posto y = ux (attenzione: se x < O, quando y = +oo =} u = -oo) la 8.1 diventa:

t(X) dx Iz-(X) fxy(x, ux)xdu + Io+ (X)dxI~(X)fxy(x, ux)xdu =
= t(X) dx I~(X) -fxy(x, ux)xdu + Io+(X)dxI~(X)fxy(x, ux)xdu =
= I~(X)du I~: Ix I f xy(x, ux)dx.
Da ciò segue chef z(u) = I~: I t I f xy(t, ut)dt.
Se X e Y sono indipendenti, tenuto conto delle opportune sostituzioni la 8.1 per Y / X
diventa:
+(X)
fz(u) = j I t I fx(t)fy(ut)dt
- (X)
Se oltre che indipendenti sono normali standard, cioè fx = ~e- 4- e fy = ~e-~

si ha:
t2 + u2t2 t2(1 + u2)
+(X) 1 ---- +(X) 1 -----
f z(u) = I I t I 27re 2 dy = I I t I 27re 2 dt.
-oo -oo
Poiché la funzione integranda è pari si ha:
t 2 (1 + u 2 )
+(X) 1 ----- 1 -1 +(X)
fz(u) = 2 I t-e 2 dt = -- 2- I -(l + u 2 )te dt =
0 27r 1r u + l 0
1 -1 +(X) _t2(l+u2) 1 -1 _t2(u2+1)l+(X) 1 1

--2--
1ru+lo
I de 2 = --2--
1ru+l
e 2 :;;:u2 + 1·
,.
o
Questa è la fd di un va che chiameremo di Cauchy e indicheremo con Chy. La sua media
è: E[Chy] = I~: rr(l~u-) du che chiaramente non esiste. Poiché non ha media non ha
neppure tutti gli altri momenti. Vedi anche paragrafo 11.1 O.
Esercizio 8.1.1 Trovare la fd della va Z = XY, dove X e Y hanno fdc fxy(x,y).
2.1 Metodo della trasformazione: caso univariato

Si applica se Y = h(X), X è una va univariata continua e se h(·) è una funzione invertibile
(crescente o decrescente strettamente). Allora X = h- 1 (Y) è l'inversa e si ha:
163
h crescente
h decrescente
cioè
h crescente
h decrescente
Quindi 1
h crescente
h decrescente
Esempio 8.1.6 Sia Y = aX + b, a -1-O. h(x) = ax +b è invertibile ex= h- 1 (y) =

~ fy(y) = fx(h- I~~ = raTfx(~)-
1 (y)) I
Se riprendiamo il caso dell'esempio 8.1.4
(osservato che y = h(x) = 7x - 68 è invertibile e che fx(·) è diversa da O quando il suo
argomento è compreso tra O e 1O) concludiamo che fy (y) = !1_68 ,21(y). ~t~ff
Questo caso comprende, per esempio, la standardizzazione della X rv N(µ; a 2 ). Sia infatti
X - µ
Y = h(X) = -a-;X = h- 1 (Y) = aY + µ. Allora fy(y) = fx(h- 1 (y)) I dh -dy1 (y) I
1 _ .! (ay+µ-µ)2 1 _ .! y2
--e 2 a a = --e 2 u'2
,/Fia ,fFi
Esempio 8.1.7 La densità di Weibull è quella di una va X con fd data da
fx(x) = aÀx°'- 1 e-,\x" I10,+oo)(x);a,À E JR+.

Come ci si arriva? Sia Y rv fy (y) = Àe- ,\yI[o,+oo)(y), va esponenziale di parametro À.
1
Sia a E JR+. Determinare la fd di X= Ya = {1/Y.
Soluzione. La funzione x = y'Y è invertibile (se y > O) e l'inversa è y = x°' = h- 1 (x)
con~~= dh~:(x) = ax°'- 1 • Poiché fy(·) è diversa da O quando il suo argomento è> O,
si ha:
fx(x) = fy(h- 1 (x)) Idh~:(x) I= fy(x°')ax°'- 1 = aÀx°'- 1 e-,\x" 110,+oo)(x).
La densità di Weibull è spesso usata come modello nello studio della durata dei sistemi
fisici.
Per a = 2 la densità di Weibull prende il nome di densità di Rayleigh fx(x) =
2Àxe-,\x 2 I[o,+oo)(x).
1Per un noto teorema dell'analisi è anche:
fy(y) = fx(h-l(y)) I dh~x) I

--;r;;-
dx l
Infatti - = T·
dy * Sia y = h(x) ex= h- 1 (y) la funzione inversa. È noto che la derivata della funzione
inversa è uguale all'inverso della derivata della funzione diretta, cioè:

dh- 1 (y) 1
dy = dh(x) •
--;r;;-
È utile poi ricordare che una funzione strettamente crescente ha inversa strettamente crescente e una
strettamente decrescente ha inversa strettamente decrescente.
Esempio 8.1.8 Sia X una va positiva e sia Y = ln X. Se Y rv N(µ, CJ2 ) allora si
dice che X ha una distribuzione logonormale cioè fx(x) = xuy,crr
1;;;-::, exp[-p 1 _ (lnx -
2 a
µ) 2 ]I[o,+oo)(x). Per convincersene basta porre X= eY. La funzione y = lnx è invertibile
in x > O, ddy
x
= l,x fy(y) = ~
crv 2~7T"
exp[- -~l\
(y 2
a
CJ > O. Si conclude che
1 1 2
fx(x) = ~ exp[-- 2 (lnx - µ) JI[o,+oo)(x).
XCJy 27r 2CJ
Possiamo dire che il logaritmo di una va lognormale è normale.

Si vede inoltre che:
k
E[X ] = E[e
kY
] = my(k) = exp(µyk + 2l k 2 Cly)
2
= exp(µ 1nxk + 21 k 2 CJ1nx
2
). (8.2)
Oss.: Nonostante la va lognormale ammetta momenti di tutti gli ordini si può dimostare
che non ha fgm.
Da 8.2, ricordando che E[X] = µx e E[X 2 ] - E 2 [X] = CJ]( si ricavano facilmente media
e varianza di X in funzione di media e varianza di Y = ln X. Infatti:
(8.3)
Viceversa partendo da 8.3 si possono ricavare µ 1nx = µy e CJfnx = Cl} nel modo seguen-
CJ (J2
te: posto __?!_= Ox (coefficiente di variazione) o anche
µX µX
= 03c = [exp(CJfnx) - l], --f
(J2
dalla seconda delle 8.3 si ricava CJfnx = ln(l + 03c) = ln(l + --f) mentre dalla prima si
µX
1 .
ha µln x = ln µ x - 2CJfnx . In conclusione:
1 (J2
µy = µlnX = lnµx - - ln(l + --f)
{ 2 µX (8.4)
2 2 Cl](
Cly = CJlnX= ln(l + -2-)
µX
Per un'applicazione vedere nel capitolo 17 l'esercizio 17.1.27.
Osservazione: Per quanto riguarda il metodo della trasformazione osserviamo che la

stretta monotonia di h(·) occorre solo nell'insieme X ={x: fx(x) >O}. Infatti se Y =
h(X) allora P[Y::; y] = J fx(x)dx.
{x:h(x)::;'.y}n{ {x:Jx (x)>O}}
Esempio 8.1.9 Si consideri la va esponenziale X difd fx(x; >-)= Àe-Àx I[o,+oo)(x), À >
O e sia y = h(x) = x 2 . Ovviamente h(x) non è monotona ma lo è la sua restrizione
a X= {x: fx(x) > O} = {x >O}. Allora se cerchiamo la fd di Y = X 2 , posto che,
nel dominio che ci interessa, y = x 2 ha inversa data da x = h- 1 (y) = y!}I[o,+oo)(Y),
abbiamo:
fy(y) = d:Fy(y) = d:Fx(h-l(y)) = lxFx(h-l(y)) ld:h-l(y)I =
Àe-Àfo
= fx(h- 1 (y)) IdyÌdx I = 2vY I[o,+oo)(y).
165
In alcuni casi in cui h(·) non è monotona ci si può arrangiare comunque con altri algoritmi.
Esempio 8.1.10 Sia ancora y = h(x) = x 2 e fx(x) = ~x 4 I1-i,i1(x). Si consideri

Y = X 2 ; poiché Y ~ O Fy (y) = O se y ::; O. Se y > O possiamo scrivere:
Fy(y) = P[X 2 ::; y] = P[-y'y::; X::; y'y] = Fx(y'Y) - Fx(-y'y).
1
Da questa derivando pery >Osi ha: fy(y) = [Jx(y'Y) + fx(-y'y)]-
2y'Y
Esempio 8.1.11 X rv U[(O; l)] allora Y = -lnX rv Exp(l). Infatti:

Fy(y) = P[Y::; y] = P[-lnX::; y] = P[X ~ e-Y] = l-Fx(e-Y) =
= 1- [e-YI[o,+oo)(Y)+ I(-oo,o)(Y)] = (1- e-Y)I[o,+oo)(Y)
Infatti se X è uniforme in [O,l] allora F(x) = xI10,i] + I(l,+oo)(x); quindi
y~O Fx(e-Y) = e-y

y<O Fx(e-Y) =1
2.2 Metodo della trasformazione: caso multivariato

Generalizziamo al caso n-dimensionale quanto detto sopra. Sia X un vtan continuo
di densità congiunta fx(x) e g(·) : IRn ::::}IRn una trasformazione regolare cioè tale che,
nella regione di IRn che ci interessa, la matrice jacobiana
è continua e il suo determinante det [J(g)] =/-O. Sia ora Y = g(X) il vtan trasformato
di X. Si può dimostrare che la densità di Y è data da
fx(x- 1 (y))
(8.5)
Jy(y) = ldet [J(g)JI ·
Caso bivariato. Riscriviamo le formule in questo caso. Siano X e Y due va. Date 11
U = u(X, Y) e V= v(X, Y), si assuma che u e v siano invertibili nel senso che il sistema
{ u=u(x,y)
v =v(x,y)
sia univocamente risolubile rispetto a x e y, cioè si possa ottenere:
{ x=x(u,v)
y =y(u,v)
8(u,v) 8(x,y) 1
Allora, posto det[J(x,y)] = B(x,y) e det[J(u,v)] = B(u,v) = det[J(x,y)] (vedi anche
Appendice) la 8.5 che ci dà fu,v(u,v) di U e V diventa:
fx,Y(x(u, v), y(u, v))

fuv(u,v) = fx y(x(u,v),y(u,v)) ldet[J(u,v)]I = I [ ( )]I
' ' det J x, y
IIovviamente 91 = u,92 = v, eccetera.
Esempio 8.1.12 Siano X e Y due va gaussiane standard indipendenti. Sia
{ e= yX2 + y2
8 = L(X,Y)
8 è l'angolo nel rango (O,21r) che il punto (X, Y) forma con l'asse x mentre e è la sua
distanza dall'origine.
y
p
0
o 2n e X
Le trasformazioni inverse sono:
{ x = pcos0
y = psin0
ox
La Jacobiana è det[J(p,0)1- det (
op ox
80 )
é)y =p.
é)y
op 80
1 l 2 2
fx,Y(x,y) = 2 7re- 2(x +Y) quindi:
1 1I 2 . 2 1 p 1 2
f -(P 0) = -e-2 (pcos0) +(psm0) 1 ·p= - . -e-2P ·p > O·O < 0 < 21r.
e,e ' 21r 1r 2 ' - ' -
Osservazione. f e,e(P, 0) risulta essere il prodotto della distribuzione uniforme fe(0) =
1 l 2 1
-11 0 2 ,,.)(0) e della distribuzione di Rayleigh fe(P) = pe- 2P di parametro À = -.
21r ' 2
Esempio 8.1.13 (:•) Trasformazioni lineari. Sia A una matrice (n, n) tale che
det A i, O e sia
Y = g(X) = AX + b. (8.6)
f ( ) = fx(x- 1 (y)) = fx(A- 1 (y - b))

(8.7)
Y y ldet Al ldet Al ·
3 Metodo della fgm
Si basa sul teorema 5.4.6 di unicità. Se la fgm di Y = h(X1, X2, ... , Xn) è riconoscibile
come quella di una distribuzione "notevole" allora Y avrà quella distribuzione. Utilizze-
remo questo metodo più avanti, nella determinazione della distribuzione della somma di
va.
167
8.2 Distribuzione della somma di va
Sia X= (X1,X2)' =(~~)un vta bidimensionale. Indicheremo al solito la densità con-
giunta (legge di probabilità nel caso discreto) con i simboli fx 1 x 2 (x1, x2) = f~_(x1, x2) =
f(x 1,x2), Sia Z = X 1 + X2. Troviamo la distribuzione di Z.
Cerchiamo innanzitutto la fdr Fz(z) di Z. Fz(z) = P[Z::; z] = P[X 1 + X2::; z].
Caso discreto
Cerchiamo la ldp fz di Z. Siano x 1 e x2 le determinazioni rispettivamente di X 1 e X2.
Lx,fx,x/u- x,, x,) = Lx,fx,x/x,, u-x,) •

x,
u =x,+x,
Allora:
{Z = u} = {X1 + X2 = u} = LJ {X1 = x1, X2 = u - x1}
x,
quindi:
fz(u) = P[X1 + X2 = u] = P[LJ {X1 = xi, X2 = u - x1}] =
x,
= I: P[X 1 = x 1, X 2 = u - x 1] = I: fx,x 2 (x 1, u - xi).
x, x,
Si conclude che
(8.8)
Per ogni valore di u la somma è fatta su tutte le coppie x 1, x2 che stanno sulla retta
X2 = u - X1 (vedi figura).
È evidente che fz è una ldp.
Scambiando i ruoli di X1 e X2 e si sarebbe arrivati alla conclusione che:
Oss. 1 La fdr Fz (u) cumula la massa contenuta nella porzione di piano a sinistra della
retta x2 = u - x1.
Esempio 8.2.1 Siano date due va X 1 , X 2 ciascuna delle quali può assumere determi-
nazioni -1,0,1 e sia (X 1 ,X 2 )' il vta2 le cui determinazioni sono le coppie (i,j)' con i,j
interi e -1 ::; i,j ::; 1 (vedi ,figura 8-2), con densità congiunta: Vi, j : fx,x 2 (i,j) =
f(i,j).
Per come sono distribuite le determinazioni del vettore (X 1,X 2)',la Z = X 1 + X 2 ha
le determinazioni -2, -1, O, 1, 2 che rappresentano ovviamente anche le discontinuità di
Fz.
u=l
u=-1
(-1,0)
--------------- - -·a-- __
O J
_1 Z
u=-1
Figura 8-2:
Se per esempio O< z < 1, Fz(z) è la somma delle masse di (X 1,X 2)' concentrate sulle
determinazioni contenute nel semispazio indicato in figura dalla zona grigia, cioè:
Fz(z) = f(-l, -1) + f(-1, O)+ f(0, -1) + f(-1, 1) + f(0, O)+ f(l, -1)
La ldp di Z, fz(u), è diversa da O solo sulle u tali che le rette x1 + x2 = u intersecano
qualche determinazione di (X 1 , X 2 )' e, come già osservato, rappresenta la somma delle
densità distribuite sulle determinazioni che stanno su tale retta. Nel nostro caso si ha:
f(-1, -1) u = -2
f(-1, O)+ f(0, -1) = I:~ 1 f(x1, u - x1) u = -l
f(-1, 1) + f(0, O)+ f(l, -1) = I:~ 1 f(x1, u - x1) u = O
fz(u) =
f(O,l)+f(l,O)=I:~f(x1,u-x1) u=l
f(l,l) u=2
O ~rom
da cui si ha:
o z < -2
f(-1, -1) -2::; z < -1
-1
I: I:f(x1,u-x1) -1::;z<O
u=-2 x 1
Fz(z) = o
I: I:f(x1,u-x1) o::;z<l
u=-2 x 1
1
I: I:f(x1,u-x1) l::;z<2
u=-2 x,
1 z~2
Se le due componenti del vta2 (X 1 , X2)' sono indipendenti si ha:
Fz(z) = I: I: f(x1, u - xi)= I: I: fx, (x1)fx 2 (u - x1), Si conclude che
(8.9)
x,
o, analogamente,
(8.10)
169
Definizione 8.2.2 8.9 e 8.10 prendono il nome di convoluzione di fx, e fx 2 nel caso
discreto.
Esempio 8.2.3 Siano X 1 e X 2 va di Bernoulli indipendenti,

P[Xi =O]= p, P[Xi = l] = 1 - p; i= l, 2 da cui !xi (x) = pI{o} (x) + (l - p)I{l} (x).
La densità congiunta si ottiene da:
(O,O) con probabilità p 2
{ (O,1) con probabilità p(l - p)
(xi,x 2 ) = (1,0) con probabilità (l - p)p
(1, 1) con probabilità (l - p) 2
e per l'indipendenza, come già visto, è:
fx, (x) · fx 2 (y) = [pI{o}(x) + (1- p)I{l}(x)l[pI{o}(Y) + (1- p)I{l}(Y)] =
= p 2I{o,o}(x, y) + (1 - p)pI{l,O} (x, y) + p(l - p)I{o ,I} (x, y) + (1 - p) 2I{l,l} (x, y)
Posto Z = X 1 +X 2 la densità di Z è data dalla convoluzione delle due ldp (o fdd}, cioè
1
fz(u) = I: [pI{o}(x) + (1- p)I{l}(x)][pI{o}(u - x) + (1- p)I{l}(u - x)]
x=O
Poiché x = O, l la funzione indicatrice I{o}(u - x) può essere non nulla per u = O, l
mentre I{l}(u - x) può essere non nulla per u = l, 2. Si ha:
f z(O) = p 2; fz(l) = p(l - p) + (1- p)p; fz(2) = (1- p) 2 che rappresenta la ldp della va
binomiale che conta il numero di successi in due lanci di una moneta di trucco p.
Concludendo: la somma di due va di Bernoulli indipendentim aventi lo stesso parametro
p è una va binomiale di parametri 2, p.
Esempio 8.2.4 Si lanciano due dadi non truccati a tre facce. Sia X 1 = {uscita del pri-
mo dado} e X 2 = {uscita del secondo dado}. Trovare la densità congiunta di (X 1, X 2)' e
di S = X1 + X2.
1
X 1 e X 2 sono iid; f xi (j) = 3;i= 1, 2; j = 1, 2, 3. La densità congiunta è data da:
x1\x2 1 2 3
1 1/ 9 1/ 9 1/ 9
2 1/ 9 1/ 9 1/ 9
3 1/ 9 1/ 9 1/ 9
che rappresenta una distribuzione uniforme sui punti massa. I legami tra (X 1 ,X 2 )' e S
sono evidenziati in figura 8-3.
La ldp di S è data da:
= 2 s=3 s=4 s=5 s=6
fs(s) = {
s
i 9
2 3
9
2
9
1
9
Una distribuzione siffatta, somma di due uniformi indipendenti, prende il nome di di-
stribuzione triangolare (nel discreto) perché unendo i valori del grafico della legge di
probabilità si ottiene un triangolo.
La media di S si può calcolare facendo riferimento alla sua ldp, E[S] = 2 · ½ + 3 ·
i+ !
4 · + 5 ·i+ 6 · ½ = 4 oppure utilizzando la ldp congiunta di (X 1,X2)', E[S] =
I: I::(i+j)f(i,j)=4
j=l,2 ,3
i=l,2,3
var[S] = E[S 2] - E 2[S] = [22½+ !
32i + 42 + 52i + 62½]- 16 = ½
III Per la somma di Bernoulli dipendenti si veda il paragrafo 8.3.

3/ 9
2/ 91 I I 2/ 9
1/~
3 s
2 x,
Figura 8-3:
Esempio 8.2.5 Supponiamo che X 1 e X 2 siano va a valori interi, non negativi, tali
cioè che P[X1 = k] = ak e P[X2 = k] = bk, k ~ O indipendenti
n
{X1+X2=n} = LJ {X1=i,X2=n-i}, quindi fx,+x 2 (n) = P[X1 +X2 = n] =
i=O
n n n
P[LJ {X1 = i,X2 = n-i}] = I: P[X1 = i,X2 = n-i] = I: a;bn-i·
i=O i=O i=O
Scriveremo {an} * {bn} = {cn}, o anche P[X1 + X2 = n] = {P[X1 = n]} * {P[X2 = n]}
Si può facilmente mostrare che:
1) {an} * {bn} = {bn} * {an} (commutatività).
2) ({ an} * { bn}) * {Cn} = {an} * ({bn} * {Cn}) (associatività}.
Se X 1 e X 2 sono iid, cioè P[X 1 = k] = ak e P[X 2 = h] = ah, allora sarà comodo scrivere
(8.11)
e
(8.12)
Inoltre se le variabili X; sono k allora
(8.13)
Per esempio vediamo come si scrive la 8.13 nel caso k = 3 e X 1,X 2,X 3 iid.
X 1 + X 2 + X 3 = n equivale a X 1 = i e X 2 + X 3 = n - i, che a sua volta equivale a
X 2 = h e X 3 = n - i - h. Si ha:
n n n-i
P[X1 + X2 + X3 = n] = I: P[X 1 = i]P[X2 + X3 = n - i] = I: P[X 1 = i] I: P[X2 =
i=O i=O h=O
h]P[X 3 = n - i - h]. In conclusione:
171
Caso continuo
Assegnato un vta2 (X1, X2)' si tratta, di trovare la distribuzione di Z = X1 +X2 quando
la densità congiunta di (Xi, X2)' è una funzione continua f(x1, x2),
Calcoliamo la fdr Fz(z) di Z, cioè Fz(z) = P[Z::; z] = P[X 1 + X2::; z]:
Poniamo x1 +x2 = u;x2 = u-x1; x2 = -oo::::} u = -oo;x2 = z-x1 =} u = z; dx2 = du.

Si ha
Dunque:
fz(u) = _ 1
+00
00
f(x1, u - xi)dx1.
Parimenti si potrebbe concludere 1v che:
In caso di indipendenza, detta fx.(x) la funzione di densità di X; si ha che
(8.14)
o, equivalentemente
IV Infatti: Fz(z) =
x1
II
+x2<z
f(x1,x2)dx1dx2 = r~:dx2 I~~x f(x1,x2)dx1,
2
Poniamo xi+ x2 = u; xi = u - x2; xi = -oo =} u = -oo; xi = z - x2 =} u = z; dxi = du; si ha

Fz(z) = Ii: dx2f~ 00 f(u - x2, x2)du = I~00 du Ii: f(u - x2, x2)dx2.
(8.15)
che prendono il nome di convoluzione di fx, e fx 2 nel caso continuo.
Esempio 8.2.6 Siano X1 e X2 due va con distribuzione fx.(x;) = I[o,11(x;);i = 0,1

funzione indicatrice dell'intervallo [O,l], indipendenti. Calcoliamo Fz(z), funzione di
ripartizione di Z = X1 + X2.
z=l
z=O
f/zJ
XI o I 2 u
Figura 8-4:
Dalla figura 8-4 si vede chiaramente che Fz (z) è l'integrale doppio della I[o,i]x [O,l] (x 1, x2),
funzione indicatrice del quadrato, sulla intersezione del semipiano a sinistra della retta
z = x 1 + x 2 con il quadrato stesso. Se O ::; z ::; 1 l'integrale è calcolato su T 1 , cioè
2
Fz(z) = foz dxi foz-x, dx2 = J0z(z - xi)dx1 = ~
Se l ::; z ::; 2 l'integrale è calcolato T 1 U T 2 . Ma questo è uguale a l meno l'integrale su
1 1 1 (2-z) 2
T3, cioè Fz(z) = 1- fz-l dxi fz-x, dx2 = 1- fz-l (1- z + xi)dx1 = 1- 2
Si osservi che, in questo caso, con regole della geometria elementare sarebbe stato imme-
diato concludere che il valore dell'integrale su T 1 di lato pari a z avrebbe dovuto essere
z2 (2 - z) 2
2 , mentre quello su T3 di lato pari a 2 - z, avrebbe dovuto essere 2
z2 (2 - z) 2
In conclusione: Fz(z) = 2 I[o,11(z) + [1- 2 ]/[1,21(z) e fz(z) = zl[o,11(z)+ (2 -
z)I[i, 21(z) che prende il nome di distribuzione triangolare (nel continuo).
8.3 Somma di densità notevoli

Le considerazioni di questo paragrafo si basano sul seguente risultato che dimostreremo
solo nel capitolo 9:
Teorema: la fgm della somma Y = I:~=lX; di n va X1, ... , Xn indipendenti è data
da:
173
n
my(t) = E [exp(t LX;)]= IImx.(t) (8.16)
i=i
Caso discreto
Teoremino 8.3.1 {:•) Siano Xi, ... ,Xn n va di Bernoulli indipendenti, identicamente
distribuite, di parametro p, cioè tali che \fiP[X; = l] = p, P[X; = O] = q, mxi (t) =
pet + q. Allora
n
LX; rv B(n,p).
i
Dim.: Per la 8.16 è: mL x.(t) = f17=i mx.(t) = (pet + q)n. Ma m(t) = (pet + q)n è la
fgm di una va binomiale di parametri n e p •
Oss. 2 Mostriamo che la somma di n va di Bernoulli non indipendenti, identicamente

distribuite, di parametro p = : è una va ipergeometrica di parametri n e p = : .
Siano infatti X; queste variabili. Il loro compito è quello di codificare con l l'estrazione
di una palla nera (e con O quella di una palla bianca) da un'urna che ne contiene N nere
n
e M - N bianche. Sia X= I: X;. È già stato mostrato che
i=i
P[X = k] =
quindi la sua ldp è quella affermata. Si osservi che la probabilità di estrarre una palla
nera è la stessa a ogni estrazione (vedi capitolo 2 e 3) cioè Vi, P[X; = l] = p = : ed è
questo che garantisce la identica distribuzione delle X;.
Mostriamo ora, con un esempio, che il collegamento tra va di Bernoulli non indipendenti
e ipergeometrica passa attraverso la distribuzione congiunta della va stesse.
Esempio 8.3.2 Si effettui un'estrazione da un mazzo di 40 carte. Si decida di "codi-

ficare" l'uscita di un asso (ce ne sono 4 nel mazzo) mediante il numero 1 mentre si
"codifichi" la mancata uscita con O.
a) Scrivere la ldp gx (x) della va X che "codifica" l'estrazione anzidetta.
4 36
X è una va di Bernoulli e gx(x) è la sua ldp; gx(l) = 40 ;gx(O) = 40 .
b) Scrivere la ldp congiunta gx (:f.) = gx,,.,Xn (xi, ... , Xn) delle n va X; che descrivono
n estrazioni senza reinserzione(n::; 40).
Detto Oo = [{O},{1}], :f. E no, cioè (xi' ... ' Xn) è una n - upla di oe l. Supponiamo
n > 4 allora nella n-upla ci possono essere al più 4 "assi" cioè f Xk ::; 4; Xk ={ ~
k=i
La gx ,,,,Xn (xi, ... , Xn) rappresenta la probabilità che in un'estrazione senza reinserzione
n
di n carte siano stati pescati I: Xk assi nelle posizioni in cui gli Xk = l. Pensiamo allora
k=i
n
a una stringa in cui siano fissati I: xk assi. In quanti modi posso riempire la stringa
k=i
se pesco da un mazzo con 4 assi e 40 - 4 "non assi"? In (4) n modi per gli assi e in
L Xk
k=l
(40- 4) n modi per i "non assi". Quante sono le stringhe che rappresentano tutte
n- L Xk
k=l
le estrazioni possibili? (40)n,
n ( 40 - 4) n (4)
L Xk n- L Xk
Concludiamo che gK,(:L)= gx,,,,Xn (xi, ... , Xn) = __ k_=-'--(-4-0-)n
___ k=_,_
001
sommando i pesi sui vertici del

{ triangolo grigio scuro si ottiene la
probabilità di estrarre un asso
sommando i pesi sui vertici del
{ triangolo grigio chiaro si ottiene la
probabilità di estrarre due assi
c) Dire se le va X; sono indipendenti.

1
Prendiamone due: Xi e X 2 . Già sappiamo che gx.(l) = 10 . Se calcoliamo gx,,x 2 (l, 1),
(4)2 1
otteniamo gx,,x 2 (l, l) (40)2 i, gx, (l)gx 2 (l) 100 , quindi Xi e X2 non sono
indipendenti.
(4)n (40-4) n
n I: xk n- I: xk
L'espressione ( ) k= 1 k= 1
n rappresenta invece la somma dei
k'fl Xk = (40)n
valori di gx,,.,Xn (x1, ., Xn) su tutte le possibli n - uple fissato il numero degli assi: ci dà
n
perciò la probabilità di estrarre I: xk =k assi in n estrazioni senza reimmissione.
k=l
Posto f (k) sappiamo che tale valore è dato dalla distribuzione ipergeometrica e precisa-
( 4) (40- 4)
mmt, f(k) - k (~) k . Que,t'ultima, la ldp della ,amma di n bernoulliane nan
n
indipendenti I: Xk, Tutto ciò ha una esplicativa rappresentazione grafica suggerita dalla
k=l
figura la cui interpretazione è lasciata al lettore.
Teoremino 8.3.3 {:•) Siano Xi, .. , Xn n va di Poisson indipendenti, ciascuna di pa-

rametro À;. Sappiamo che mx;(t) = exp[..\;(e 1 - l)].
Allora: mi:: X; (t) = IT7=
1 mx; (t) = exp [(I:;À;) (e 1 - l)]
Quindi la somma di n va di Poisson indipendenti di parametro À; è una va di Poisson
con parametro I: À;.
175
Esempio 8.3.4 Il panettone di Poisson con 2 tipi di uvette. Supponiamo che in
un panettone ci siano uvette di due soli tipi e che le uvette siano distribuite nel panettone
secondo il modello di Poisson: precisamente in una porzione di panettone di volume
unitario le uvette di tipo (a) hanno una densità pari a Va mentre quelle di tipo (b) hanno
una densità pari a vb. Questo significa che se X a conta le uvette in una porzione di
panettone di volume t abbiamo: P[Xa = j] = e-vat\vat)l (e analogamente P[Xb = k] =
J.
e-vbt(vbt)k
k! ).
Se vogliamo calcolare la probabilità che in una regione di volume t ci siano esattamente
e-(v.+vb)t[(v + vb)tt
n uvette si ha: P[Xa + xb = n] = Ia
n.
Caso continuo
Teoremino 8.3.5 Se X1, X2, ... , Xn sono n va indipendenti con distribuzione esponen-
ziale di parametro À, Y = I:~ X; ha distribuzione r di parametri n e À.
Dim.: Infatti la fgm di ciascuna X; è data da mxi (t) = >.~t.
Per la 8.16 mExi (t) = f1~=lmxi (t) = ( >.~tr che è la fgm di una f(n, ..\) •
Esempio 8.3.6 Un sistema di controllo elettronico (indicato in figura) è costituito da tre

strumenti identici e opera nel modo seguente. Attivata l'unità U.1, il centro decisionale
C.D. sposta il controllo all'unità U.2 solo in caso di guasto dell'unità U.1. Se si guasta
U.2, il C.D. sposta il controllo all'unità U.3. Si assume che il C.D. è perfetto e non
aggiunge "alea" al funzionamento del sistema.
C.D.
Se indichiamo con X la durata del sistema e con Xi la durata dell'unità U.1, sapendo
6
che Xi ha fd g(x) = 1 0 e-(x/100); x ~ O, si trova immediatamente che X, come somma
À
di 3 esponenziali, ha la densità fx (x; r, ..\) = f(r) (..\x)'- 1e->-xI[o,+ool(x) di una gamma
6
di parametri r = 3 e À = 1 0 = 0.01; cioè (ricordando che f(r) = (r - l)!):
o.01 . (0.01 . x )2 . e-0.01 x per x >O
fx(x) = { 0 21 altrove -
La probabilità che il sistema funzioni per almeno x ore ( affidabilità del sistema) è data
da:
1
R(x) = P[X > x] = 1- F(x) = 1- J0x 0 2 1 · (0.01. t) 2 . e-O.Ol 1dt.
Integrando per parti, si ottiene:
2 e-OOlx(O.Ol·x)k
F(x) = 1 - I: I X> 0
k=0 k.
Nel nostro caso perciò:
2 e-O.Olx(00l·xt [ (00lx) 2]
R(x)=l-F(x)= I:
k=O k.
i =e-O.Dlx l+O.Ol·x+ ·
2
.
In modo analogo si può mostrare che se X 1,X2, .. ,,Xk sono k va indipendenti con
distribuzione r di parametro n e À, Y = I:1 Xi ha distribuzione r di parametri nk e À.
Teoremino 8.3. 7 (:•) (Importante). Siano Xi ,....,N (µi, CJT), indipendenti. Allora
I: aiXi ,....,N (I: aiµi, I::i a7CJT).
Dim: Osserviamo dapprima che
e che la sua f gm è data da
maixi (t) = exp(aiµ;l + a7CJ7t2 /2).

Consideriamo I::~=l aiXi = Y; si ha:
Concludiamo che
In particolare, se X,...., N(µx, CJ2x)e Y,...., N(µy, Cl}), X e Y indipendenti, abbiamo:
Se invece: Xn = ~ (I::~=l Xi) e 'ì!i,Xi,...., N(µ,CJ 2 ), indipendenti, allora:
8.4 Le variabili aleatorie min e Max

Come esempio della ricerca della funzione di distribuzione di una va funzione di altre va
calcoliamo la fdr e la fd delle va min( ... ) e max( ... ).
Siano X1,X2 due va indipendenti; siano Ym = min[X1,X2] e YM = max[X1,X2]. È
chiaro il significato di Ym e di YM,
Cerchiamo la loro fdr iniziando dal massimo.
2 2
FyM(y) = P[YM::; y] = P[X1::; y;X2::; y] = II P[Xi::; y] = II Fx;(Y) (8.17)
i=l i=l
L'estensione al caso di n va indipendenti è immediata.
La 8.17 ci dice che la fdr del massimo, in caso di indipendenza, è il prodotto delle fdr
delle Xi,
177
Per il minimo:
Fym(Y) = P[Ym::; y] = 1- P[Ym > y] = 1- P[X1 > y,X2 > y] =

2 2 (8.18)
= 1- f1 P[Xi > y] = 1- f1[1- Fx;(y)]
i=l i=l
Oss. 3 Se le Xi sono equidistribuite, allora X1 = X2 = X e la fdr di YM = max[X1, X2]

è data da
mentre la f d è data da:
Per il minimo si ha:

2
Fym(Y) = 1- Il[l - Fx;(y)] = 1- [1- Fx(y)]2.
i=l
La f d è data da:
fym(Y) = 2[1- Fx(y)]fx(y).
Esempio 8.4.1 Supponiamo la va X rappresenti la durata di una lampadina con media

100 ore e sia fx(x) = iboe-x/lOOI[o,+oo)(x),Fx(x) = (1-e-x/100)I10,+oo)(x). Si scelgono
10 lampadine. Sia Ym = min[X 1, ... ,X 10] la durata della lampadina che si esaurisce
prima. Abbiamo: Fym(Y) = l - [1- Fx(y)] 10 = [1- e-y/lO]J[o,+oo)(Y) da cui fym(Y) =
1 -y/lOJ [O,+oo)
lOe (y ) .

Esercizio 8.5.1 Se X è una va binomiale di parametri n e p (X rv B(n,p)) qual è la
distribuzione di Y = n - X ?v
Calcolare E[Y]
Esercizio 8.5.2 La somma di due va binomiali è una va con una distribuzione che è
ancora:
QJ [TI binomiale
QJ [TI binomiale solo se le due va hanno lo stesso parametro p
'Vl ['"pl { binomiale solo se, avendo lo stesso
L..:..J L....:_J parametro p, sono indipendenti
Esercizio 8.5.3 Utilizzando come espressione canonica per la densità della distribuzione
esponenziale di parametro>.., fx(x;>..) = >..e--'xI[o,+oo)(x), >..>O e per la densità della
distribuzione r di parametri>.. e r, fx(x;r,>..) = I'(r)(>..xy- 1 e--'xI10,+oo)(x) dover>
v Se X conta, per esempio i successi (probabilità di successo = p) Y conta gli insuccessi (probabilità
di insuccesso = q = l - p)
O,À > O dire se la somma di due va esponenziali è una va con una distribuzione che è
esponenziale
esponenziale solo se le due va hanno lo stesso parametro À
gamma solo se, avendo lo stesso parametro À, sono indipendenti
Esercizio 8.5.4 Siano X1, X2, .. , Xn n va tutte definite sullo stesso spazio campionario
O. Sia Vw E O, X;(w) E R Sia Yn = max[X 1,X2, .. ,Xn]- Sia jyJx) la sua fd e Fyn(x)
la sua fdr.
QJ [TI Vw E O Yn(w) =max[X1 (w), X2(w), .. , Xn(w)]
QJ[I] '
Vw E O Yn(w) =max[X1 (w), X2(w), .. , Xn(w)]
;;
w
se :lw E O: Xk(w) > X;(w) per i=/- k allora Yn = Xk
Yn è definita solo se le X; sono equidistribuite
Yn è definita solo se le X; sono indipendenti
se VwE n: Xk(w) ~ X;(w) per i =I-k allora Yn = Xk
jyn(x) = n[Fx(x)in- 1 fx(x) solo se le X; sono indipendenti
{
e tutte equidistribuite con f dr F x (x) e f d f x (x).
Esercizio 8.5.5 D ate due va indipendenti X ,....,N(40, 4 2 ) e Y ,....,N(50, 32 ), quali delle

segue nt i aff erma zion i sono vere?
V F X+Y,...., N(50,5 2)
V F X+Y,...., N(90,5 2)
V F X-Y,...., N(-10,5 2)
V F X-Y,...., N(90,-5 2)
V F X-Y,...., N(l0,5 2)
Esercizio 8.5.6 Siano X;(i = l, 2) e Y va indipendenti, di fd rispettivamente fx.(x) e
f~~ se fxi sono discrete allora Va, /3;fc,_x,+13x2 (x) = afx, (x) + f3fx 2 (x)
se !xi sono continue allora fx,+x 2 (x) = JIR
se Y è discreta allora !aY+f3(Y) = !Y(¾(Y - /3))
fx, (x - t)fx 2 (t)dt
Esercizio 8.5.7 Siano X 1 e X 2 due variabili aleatorie indipendenti, discrete di densità

fx 1 (x) = P[Xj = x] (ovviamente esisteranno al più una infinità numerabile di valori di
Xj per cui fx 1 (x) =/-O) Allora:
~ !ax,+13x 2 (x) = afx, (x) + f3Jx 2 (x)
~ fx 1 +x 2 (u) = ì:,fx, (x) fx 2 (u - x)
X
I VI F I fx,+x 2 (u) = ì:,fx, (u - x) fx 2 (x)

X
I VI F I !ax,+13(y) = fx, (ay + /3)

I VI F I fax,+13(y) = I! Ifx, (Y: 13)
Esercizio 8.5.8 Sia X una va di Bernoulli di parametro p. Descrivere la distribuzione

di x 2.
Esercizio 8.5.9 Sia X una va uniforme discreta su -l; O; 1. Descrivere la va X 2 .
Esercizio 8.5.10 Sia X,.__, N(O; 1) e Y = X 2 - 2X. Calcolare P[Y ~ O].

Capitolo 9
In genere, gli uomini credono
con facilità a ciò che desiderano
Caio Giulio Cesare {101-44 a.C.)
La maggior parte della gente morirebbe piuttosto che pensare,

e molti fanno proprio così.
Bertrand Russell {1872-1970)
Indici per vettori aleatori
9.1 Vettore media di un vtan

Definizione 9.1.1 Dato un vtan X = (Xi, X2, ., Xn)' : n---+IRn di va il suo vettore
media è dato da µx = (E[X1], E[X2], ., E[Xn])'.
È evidente che posto Y =
(Y1,Y2,., Yk)' tale che Y = AX + b dove A e b sono
rispettivamente una matrice k x n e un vettore (k, 1) di numeri reali, allora
µy = A µX+ b.
(k,1) (k,nl(n,1) (k,1)
n
Infatti la componente i-esima di Y è data da Y; = I: a; 1X 1 + b;. Allora la componente
j=l
n n
i-esima di µy è E[Y;] = E[I:: a;1X 1 +b;] = I: a;1E[X 1] +b; = (a;1, a;2, ... , a;n)µx +b;
j=l j=l
che è l'assserto.
Oss. 1 Supponiamo che il vta X= (X 1 , X 2 )' con densità congiunta {discreta o continua)
fx(x 1,x 2) abbia due sole componenti. Allora il vettore media di (X 1,X 2)Tè ancora
interpretabile come baricentro della massa descritta da f X (x 1 , x 2 ). Cioè: la massa
( diffusa con continuità sul piano X 1 , X 2 nel caso continuo o concentrata nei punti massa
nel caso discreto) ha il suo baricentro nel punto del piano individuato da due coordinate:
µx, = X1 = I:x, xifx, (x1) = I::(x,,x 2 ) xifx(x1, x2)

{
µx 2 = X2 = I:x 2 x2fx 2 (x2) = I:(x,,x 2 ) X2fx(x1, X2)
180 CAPITOLO 9. INDICI PER VETTORI ALEATORI
nel caso discreto, e
{
µx, = x1 = J!';:xifx, (xi)dx1 = J!';:x1dx1 J!';:fx(x1, x2)dx2
µx 2 = x2 = J!';:x2fx 2 (x2)dx2 = J!';:x2dx2 J!';:fx(x1, x2)dx1
nel caso continuo.

Il discorso si estende in modo ovvio al caso n- dimensionale.
Definizione 9.1.2 Sia A una matrice (n, m) formata da n x m va X; 1 ; i= 1, ... n;j =

1, ... , m. Si definisce media della matrice A la matrice numerica formata dalle medie
E[X; 1] delle singole va (ammesso che tutte queste medie esistano).
Esercizio 9.1.1 Sia A una matrice (m,n); Buna (n,m); X= (X 1,X2,,,Xn)'; Y =
(Y1,Y2,., Ym)'. Dimostrare che:
E[AX] = AE[X] E[Y B] = E[Y]B
9.2 Valore atteso per distribuzioni congiunte

Siano X 1 e X 2 le componenti di un vta2 X con densità discreta fx(·, ·). La funzione
Y = g ( X 1, X 2) è una va discreta che ha gli stessi punti massa di (X 1~X 2)' e il suo valore
atteso (o media) è definito da:
E[g(X1, X2)] = L g(x1, x2)fx(x1, x2), (9.1)

(x1,x2)
dove la sommatoria è estesa a tutti i punti massa (x 1,x2).

Nel caso continuo si ha:
(9.2)
Esempio 9.2.1 Come caso particolare della 9.l calcoliamo 1 il valore atteso di una com-
binazione lineare g(X 1,X 2) = a 1X 1 +a 2X 2 di 2 va, mostriamo cioè che vale la seguente
relazione:
Sia fx.J, ·) = f(x 1, x 2 ) la densità congiunta di X 1 e X 2 . Allora:
E[a1X1 + a2X2] = L (a1x1 + a2x2)f(x1,x2) (9.3)

(x1,x2)
dove la somma è eseguita su tutti i punti massa (x 1 , x 2 ). La formula in 9.3 diventa:

I: a1xif(x1,x2)+ I: a2x2f(x1,x2) = a1I::x1I::f(x1,x2)+a2I::x2I::f(x1,x2) =
(x 1 ,x2) (x 1 ,x2) x, x2 x2 x,
= a1 I: xifx, (xi)+ a2 I: x2fx 2 (x2) = a1E[Xi] + a2E[X2]
x,
1Attenzione: siamo in un caso bivariato, intrinsecamente diverso da quello univariato esposto nel
paragrafo 5.1: E[a1g1(X) + a2g2(X)] = a1E[g1(X)] + a2E[g2(X)].
181
Teoremino 9.2.2 Date due va indipendenti X 1 e X 2, se Y1 = g 1(Xi) e Y2 = g2(X 2)
sono due funzioni misurabili, allora g 1(Xi) e g 2(X 2) sono va indipendenti e vale:
E[g1(X1) · g2(X2)] = E[g1(Xi)] · E[g2(X2)]
Il risultato si estende a n va.
Esempio 9.2.3 Lancio di due tetraedri bilanciati con facce numerate da 1 a 4.

Sia X 1 la va che indica il numero riportato sulla faccia rivolta verso il basso e X 2 la va
che indica il numero più grande che compare sulle due facce rivolte verso il basso (una
volta che i tetraedri lanciati si sono fermati). X 1 e X 2 prendono congiuntamente i valori
delle coppie evidenziate nella figura seguente, caso a):
1/16 1/16 1/16 4116

4 4
X1X2=1S
1/16 1/16 3116
3 3
X1Xz=1z
1/16 2116
2 2 ><1Xz=9
><1Xz= 8
1/16 ><1Xz= a
1 1 X1Xz=•
><1><2= 3
><1><2=2
><1 ><2= 1
o 1 2 3 4 o 1 2 3 4
a) b) E[Yl= J J x 1 x,fCx.- x,J
y ><i.><::i:=Y
Su ognuno dei due tetraedri il possibile risultato di un lancio è indicato da una va Y;, uni-
formemente distribuita tra le 4. È allora evidente che (X1,X2)' = (Y1,max((Y1, Y2))1 =
(m, n), 1::; m::; 4 e m::; n::; 4, descrive i risultati possibili nell'esperimento in esame.
La tabella dei valori della fdd fx(x1, x2) è la seguente:
X2 = 4 1/ 16 1/ 16 1/ 16 4/ 16
X2 = 3 1/ 16 1/ 16 3/16 o
X2 = 2 1/1 6 2/ 16 o o
X2 = 1 1/ 16 o o o
//lii X1 = 1 X1 = 2 X1 = 3 X1 = 4
Poniamo ora g(X1, X2) = X1X2 (figura sopra, caso b}:

Abbiamo: E[g(X1, X2)] = E[X1X2] = I: x1x2fx(x1, x2).
(x1,x2)
Con facili conti si ottiene: E[X 1X 2] = 1/;. Poiché E[Xi] = %e E[X 2] = ~irisulta che
E[X 1X 2] i- E[Xi] · E[X 2], cioè X 1 e X 2 non sono indipendenti.
Se invece g(X 1, X 2) = X 1 + X 2 con conti altrettanto facili si ha:
90
E[X1 +X2] = I: (x1 +x2)fx(x1,x2) = - = E[X1] + E[X2]
(x 1 ,x 2 ) 16
9.3 Funzioni generatrici di momenti per vtan

Definizione 9.3.1 Sia t = (t 1, t2, ... , tnf un vettore di variabili reali. La funzione
generatrice dei momenti (fgm) di un vtan (X1, ... ,Xn)T è definita da:
mx,, ..,Xn (ti, ... , tn) = E [exp(t tiXi)l = E[exp(tI'X)] (9.4)
se esiste per tutti i valori tk : -h < tk < h, e qualche h > O.

Teoremino 9.3.2 n va Xi congiuntamente distribuite sono indipendenti se e solo se:
n
Vti : -h < ti < h, h > O; mx,, ..,Xn (ti, ... , tn) = IT E[exp(Xiti)] = mx, (ti) ... .mxn (tn)
i=l
(9.5)
Dim.: È facile verificare che dalla indipendenza segue la tesi. Infatti:
mx(t1, ... , tn) = E[exp(t1X1)· · · · · exp(tnXn)]

....__,,_.., ,__,.._...,
=:=
teoremino 9.2.1
II E[exp(tiXi)]
i
gi(X1) 9n(Xn)
Non dimostriamo l'implicazione opposta •
Teorema 9.3.3 (:•) (fgm di una trasformazione lineare) Sia A una matrice di
tipo (k, n) X un vtan e b un vettore k-dimensionale. Consideriamo il vtak
Y = AX + b
(k,l) (k,n) (n,l) (k,l)
ottenuto da X attraverso una trasformazione lineare. Allora la fgm di Y è:
(9.6)
dove tè un vettore (k, 1).
Dim:
my(t) = E[exp(tTY)] = etrb E[exp((tT A)X)] = etrb E[exp((ATt)TX)] = etrbmx(ATt).
Infatti tTY = tT(AX + b) = tT(AX) + tTb = tTb + (tT A)X = tI'b + (ATtfX.
In questo calcolo si utilizza la proprietà associativa del prodotto tra matrici conformabili
tT(AX) = (tT A)X, e il fatto che la trasposta del prodotto è il prodotto delle trasposte•
Conseguenza:
Corollario 9.3.4 II Siano Xi, ... , Xn n va indipendenti ed esista Vi, la fgm mx; (t) =
E [exp(tXi)] in -h < t < h, h > O.
Poniamo Y = I:~=l Xi, La sua fgm è:
n
my(t) = E [exp(t L Xi)] = II mx;(t) (9.7)
i=l
D[i";.:lla 9. 7 è un caso particolare della 9.6. Basta prendere k = l, A= [l, ... , l], ATt =
eb = O. Allora Y è una va unidimensionale e t uno scalare. La fgm della

t
n
trasformata è my(t) = mx(ATt) = mx,, .. ,xn(t) = E [exp(I:~=l tXi)] = f1 mx;(t).
i=l
Oss.: Si noti che la fgm della somma di va indipendenti X 1, ... , Xn si ottiene sostituendo
nella espressione della fgm del vettore X a ciascuna variabile (reale) ti l'unico valore t.
IlGià anticipato come teoremino 8.3.3 a pag. 174

183
9.4 Momenti di distribuzioni congiunte
Limitiamoci per ora al caso n = 2 e consideriamo un vta2 X= (X1, X2f. Sia E[X1] =
µx, e E[X2] = µx 2
Definizione 9.4.1 Si dice momento centrale misto di ordine Ir I= r 1 +r 2 di X il

numero:
caso discreto:
µr,,r 2 = E[(X1 - µx 1 Y (X2 -
1 µx 2Y2] = I: (x1 - µx,Y'(x2 - µx 2 Y 2 fx(x1,x2)
(x,,x2)
caso continuo:
µr,,r 2 = E[(X1 - µx 1 Y (X2 -
1 µx 2Y2] = JIR2(x1- µx,)r 1 (x2 - µx 2 V2fx(x1,x2)dx1dx2
Se esiste mx,x 2(t 1, t2), la fgm del vta2 X, allora per ogni r1 e r2 il momento di ordine
r 1 rispetto a X1 e r2 rispetto a X2 si può ottenere derivando la mx,,x 2 r1 volte rispetto
a ti e r2 volte rispetto a t2 calcolando poi la derivata della fgm nell'origine O.
Definizione 9.4.2 Il momento centrale misto del secondo ordine di X, si chiama cova-
rianza di X 1 e X 2 , e si scrive:
µ1,1 = 0-12= o-x1 x 2 = cov[X1,X2] = E[(X1 - µx 1 )(X2 - µx 2)], (9.8)

(ammesso che tale quantità esista).
Proprietà della covarianza

Valgono le seguenti proprietà della covarianza (e della matrice di covarianza) e altre che
esporremo nel seguito e che numereremo con p. xx).
p. 01) cov[X, X] = var[X],
p. 02) cov[X1,X2] = cov[X2,X1]
p. 03) cov[X1, X1 + X2] = var[Xi] + cov[X1, X2]
p. 04) cov[a1X1 + b1, a2X2 + b2] = a1a2 cov[X1, X2]
p. 04 bis) cov[X1,o:X2 + (1X3] = o:cov[X1,X2] + ;3cov[X1,X3]
p. 05) cov[a,X] = O
Definizione 9.4.4 Due va X1e X2 si dicono correlate positivamente {negativa-

mente) se cov[X1,X2] >O(< O); scorrelate (o incorrelate) se cov[X 1,X2] = O.
Oss. 2 Se X 1 e X2 sono indipendenti allora cov[X1,X2] = O {dimostrarlo per esercizio).

Esempio 9.4.5 Si chiede se le va X1 e X2 dell'esempio 9.2.4 sono correlate. Calcoliamo
la covarianza. Si ha: cov[X1, X2] = E[X1X2] - E[X1]E[X2]
E[X1X2] = [1· ½+ 2 ·i+ 3 ·i+ 4 · ½+ 6- i+
9 · ½]= 4::::}cov[X1,X2] = O.
X 1 e X 2 sono perciò incorrelate (sapevamo comunque già che erano indipendenti}.
Esempio 9.4.6 Sia X una va simmetrica, i.e. "ix; fx(-x) = fx(x). Detta Y = X 2 ,
X e Y sono certamente dipendenti. Mostriamo che cov [X, Y] = O, cioè la covarianza
può essere nulla anche in assenza di indipendenza. Infatti:
cov [X, Y] = E[X 3 ] - E[X]E[X 2 ] ma per la simmetria E[X] = O e anche E[X 3 ] = O.
Esempio 9.4.7 Una macchina è provvista di un pannello di controllo con tre quadretti
Q 1, Q 2 e Q 3, ciascuno dotato di una coppia di lampadine, una verde e una rossa. Se
sul quadretto Q; c'è accesa la luce rossa è segnalato un malfunzionamento in una certa
parte della macchina. Sia X il "numero di lampadine rosse" accese nei quadri Q 1 e Q 2 .
Sia poi Y la va che conta il numero "numero di lampadine rosse" sui quadri Q2 e Q3 .
Le lampadine del quadro Q; sono indipendenti da quelle dal quadro Qi e in ogni quadro
la probabilità che sia accesa la lampadina rossa è p (mentre quella verde è q = l - p ).
Indichiamo con R = { la lampadina rossa è accesa} e con V = { la lampadina verde è
accesa}.
a) Trovare la distribuzione congiunta di (X, Y)'
b) Trovare la distribuzione condizionata di Y dato X = 1.
c) Trovare la cov[X, Y].
Soluzione a): casi possibili
X Q1 I Q2 Q3 y X Q1 I Q2 Q3 y
2 R 2
2 R R 1 V R <
1 R V
}i R
1
1
o V V <
>
V
R
1
1
V o V o
P[VVV] = P[X = O;Y = O]= q3 ; P[VV R] = P[X = O;Y = l] = pq 2 ;
P[RVV] = P[X = l;Y =O]= pq 2 ;P[RVRU VRV] = P[X = l;Y = l] = p 2 q + pq 2 =
pq;P[VRR] = P[X = l;Y = 2] = p 2 q;
P[RRV] = P[X = 2; Y = l] = p 2 q; P[RRR] = P[X = 2; Y = 2] = p 3 •
X\Y o 1 2 ma rgina li di X
o qj pq'L o q'L
1 pq' p'q + pq'L = pq p'Lq 2pq
2 o p'Lq pj p'
margina li di y q' 2pq p' 1
C> Le marginali di X si calcolano considerando che il terzo quadro non esista. I casi
possibili sono perciò quattro: {RR, RV, V R, VV}.
C> Le marginali di Y si calcolano considerando che il primo quadro non esista. I casi
possibili sono quattro: {RR, RV, V R, VV}.
C> Conoscere prima le marginali può essere utile sia come controllo di quadratura, sia
per trovare il contenuto di una casella (per esempio [!] }, conoscendo la marginale e
sottraendo il contenuto di ITJ
e di [QJ:
X\Y o 1 2 marginali di X
o A q2
1
- E 2pq
2
-e p2
marginali di Y q' 2pq p' 1
185
= pq2 = !l, y=O
2pq 2'
. _ _ _ P[Y=ynX=l] _ { _ l,
_ ..E!J....
C> Ora. P[Y - vlX - l] - P[X=l] - - 2gq - 2' y=l
= E.....9..
y=2 = E.,
2pq 2'
P[Y = y n X = l] è il numero all'intersezione della colonna Y = y e della riga X = l
b) cov[X, Y] = E[(X - µx )(Y - µy )] = E[XY] - µxµy
Con facili conti si calcola: µx =O· q2 + l · 2pq + 2. p 2 = 2p = µy; E[XY] = pq + 2p 2q +
2p2q + 4p3 = pq + 4p2q + 4p3 = pq + 4p2 (p + q) = pq + 4p2.
Quindi: cov[X, Y] = pq + 4p 2 - 4p 2 = pq.
La matrice di covarianza
Definizione 9.4.8 Si dice matrice di covarianza C di un vta2 X = (X 1 ,X 2 )'di
media (E[X 1 ], E[X 2])' la matrice 2 x 2 formata dai momenti centrali di 2° ordine µij, 1::;
i, j ::; 2, (i + j = 2) prima definiti, cioé:
Nel caso n-dimensionale la matrice di covarianza Cx di un vtan X= (X 1 , ... , Xn)' è

una matrice n x n , data da:
1::; i,j::; n; Cx= [cov[X;, Xjl] (9.10)
Oss. 3 Se X= X 1 allora Cx = var[X].
Oss. 4 Il prodotto dei due vettori (X - µ) e (X - µf dà luogo a una matrice (n, n).
(n,l) (l,n)
Allora è evidente chem:
Cx= E[(X - µ)(X - µf]. (9.11)
Inoltre
Infatti (X - µ)(X - µf = XXT - µXT - XµT + µµT. Da questo segue che Cx =

E[XXT] - µE[XT] - E[X]µT + µµT = E[XXT] - µµT - µµT + µµT che è l'asserto.
Questa uguaglianza è l'equivalente multidimensionale del risultato del teoremi no 9.4.3.
Oss. 5 Invece di Cx useremo anche la notazione var[X].
III Per esempio se n = 2 si ha:
Cx= E [( ~~ =~~ )(
X1 - /l1 X2 - /l2 ) = l
_ [
-
2
E[(X1 - µ 1) ]
E[(X2 - µ 2 )(X1 - µ 1)]
E[(X1 - µ1)(X2 - /l2)]
E[(X2 - µ2)2] l= [ var[X1]
cov[X2,X1]
cov[X1,X2]
var[X2]
Proprietà di Cx.
p. 06) Cx è simmetrica.
p .07) Si può mostrare che Cx è semidefinita positiva, cioè Va E IRn, aT Cxa ~ O. Inoltre
se il vettore X contiene va degeneri (cioè costanti con probabilità 1) allora Cx non è
definita positiva. Infatti in questo caso det(Cx) = O, quindi ci deve essere almeno un
autovalore nullo.
p. 08) Se a è un vettore di costanti allora var[X + a] = Cx+a = Cx = var[X]
Teorema 9.4.9 (:•) {legge di propagazione della covarianza) Sia X un vettore

(n, 1), A una matrice (k, n), b un vettore di costanti reali (k, 1) e Y = AX + b. Allora
Cy = A Cx AT (9.12)
(k,k) (k,n)(n,n)(n,k)
o equivalentemente:
var[AX + b] = Avar[X]AT
Dim.: Già sappiamo che µy = Aµx + b. Per calcolare Cy procediamo nel modo
seguente:
Cy = E[(Y- µy)(Y- µyf] = E[(AX + b-Aµx - b)(AX + b-Aµx - bf] =
= E[A(X- µx)(X- µxf AT] = ACxAT.
Si è utilizzata la legge della trasposta: (ABf = BT AT (appendice 01).
Una generalizzazione
Definizione 9.4.10 Dati due vta X e Y con valori attesi rispettivamente µx e µy,
(n,l) (k,l)
chiamiamo covarianza di X e Y la matrice
cov[X, Y] = E[(X - µx)(Y - µy f].

(n,k) (n,l) (l,k)
E evidente che
Cx = cov[X, X]
Più in dettaglio risulta
cov[X1, Y2]
cov[X2, Y2]
= [cov[X;, Yj]]
(n,k)
Proprietà di cov[X, Y]
p. 09) Se X e Y sono due vta allora var[X + Y] = Cx+Y =Cx+ Cy + cov[X, Y] +
cov[Y,X].
p. 10) Se X e Y sono indipendenti allora cov[X, Y] = O.
p. 11) Date due matrici A e B allora cov[AX, BY] = A cov[X, Y]BT.
p. 12) cov[·, ·] è bilineare, cioè se a, (3 sono due numeri reali, si ha
cov[aX + (3W, Y] = acov[X, Y] + (3cov[W, Y]

187
cov[Y,aX + ,6W] = acov[Y,X] + ,6cov[Y, W]
come nel caso unidimensionale.
Altre considerazioni
Mostriamo che la varianza della combinazione lineare di 2 va è:
var[a1X1 + a2X2] = ai var[X1] + a~ var[X2] + 2a1a2 cov[X1,X2].

Infatti indicando con µx 2 = E[X2] e con µx, = E[X1] si ha: var[a1X1 + a2X2] =
= E[(a1X1 + a2X2 - E[a1X1 + a2X2]) 2] = E[(a1X1 - a1µx, + a2X2 - a2µxJ 2] =
= E[ai(X1 - µx,)2 + a~(X2 - µx 2 )2 + 2a1a2(X1 - µx 1 )(X2 - µx 2 )] =
= aiE[(X1 - µx 2)2]+ a§E[(X2 - µx 2 )2]+ 2a1a2E[(X1 - µx 1 )(X2 - µx 2 )] =
= aivar[X1] + a 2 var[X2] + 2a1a2cov[X1,X2].
Oss. 6 Utilizzando il linguaggio matriciale, posto ( :~ ) = a e (X 1 ,X 2 )I' = X si ha:
vara[ rx] = ar [ var[X1] cov(X 1,X 2)] a

cov(X1, X2) var[X2]
Generalizzando i risultati precedenti si ha:
Teoremino 9.4.11 Sia Y = I:~=Ia;X;; allora

E[Y] = I:~=Ia;E[X;]
var[Y] = var [I:~=Ia;X;] = I:~=Ia7 var[X;] + I: I:a;aj cov[X;, X 1] =
i,f.j
= I:~=Ia7 var[X;] + 2 I: I: a;aj cov[X;, X 1].
1::;i<j::;n
Oss. 7 Utilizzando il linguaggio matriciale
Corollario 9.4.12 Se le va sono scorrelate, allora:

var[Xn] l·
var [t
i=l
a;X;l = t
i=l
a7 var[X;] = (ai, ... , a;,) ( va~~~i] )
var[Xn]
· I '-'n
In particolare, se -Xn = nL..i=IX;; 2
(X; va iid di media µx e varianza ax), allora:
- - a~
E[Xn] = µX; var[Xn] = -.
n
Vale il seguente risultato:
Se (Xi, X2, ... , Xm)' ha distribuzione multinomiale allora:
9.5 Indice di correlazione lineare
La covarianza è un numero che "sente" il legame lineare tra due va ma è un cattivo
sensore perché dipende dall'unità di misura in cui sono espresse le va stesse. Se per
esempio tale unità fosse centimetri allora la covarianza sarebbe in centimetri xcentimetri.
Cambiando l'unità di misura delle va da centimetri a, per esempio, metri (10 2 centime-
tri), il numero che esprime la covarianza sarebbe quello di prima moltiplicato per 10- 4 •
Quindi molto più piccolo per indicare la medesima relazione. L'esigenza di un "senso-
re" adimensionale, insensibile cioè all'unità di misura, è soddisfatta da un nuovo indice
descritto dalla definizione seguente.
Definizione 9.5.1 Si chiama coefficiente di correlazione lineare tra due va X 1 e

X2 il numero:
(9.13)
Ovviamente pesiste se cov[X 1,X2], ax, e ax 2 esistono {cioè se esistono finiti tutti i
momenti del f!' ordine) e se X 1 e X 2 non sono degeneri, cioè ax, > O e ax 2 > O.
Esempio 9.5.2 Ancora lancio di due tetraedri. Nell'esempio 9.2.3 abbiamo trovato che:
E[X1X2] = (135/16), E[X1] = (5/2) e E[X2] = (50/16).
Si calcola facilmente E[X?] = (30/4), E[X?] = (170/16), per cui:
var[X1] = E[X?] - E 2[X1] = (5/4) var[X2] = E[X?] - E 2[X2] = (55/64)
Inoltre: cov[X1X2] = E[X1X2] - E[X1]E[X2] = \3:-
1/t = ~~
· d. ·l ffi · t d. l · ,.
Quin i i coe cien e i corre azione e. Px,x 2 - _ r10/16)
~ ~ -
_ 10 · 2sr,,;- _- 1m
16 5 11 11
y (5/4)y (55/64) vii
Significato di covarianza
(y, - µ r )(x, - µx)<O
.. . . y
• (Y; - µ r )(x, - µx)> O
. . .•
µy
..
. . X
Supponiamo di essere nel caso bivariato e consideriamo cov[X, Y] = E[(X - µX )(Y -

µy )]. Supponiamo di voler stimare cov[X, Y] eseguendo n osservazioni dalla popola-
zione bivariata (X, Y)'. Una buona stima è data dalla media aritmetica delle osser-
vazioni fatte ¾I:~=l(x; - µX) (y; - µy ). Se per esempio cov[X, Y] > O il valor me-
dio del prodotto aleatorio (X - µX )(Y - µy) è positivo e ci si dovrà aspettare che
¾I:~=l(x; - µX) (y; - µy) sia positiva e che quindi le coppie x;, Yi osservate, indicate
189
con un pallino, e che stanno nei settori in grigio della figura precedente, siano mediamen-
te più frequenti di quelle indicate con la stellina che stanno nella regione complementare
alla precedente.
Cioè le osservazioni sono mediamente più frequenti nei settori nord-est e sud ovest del
piano dove il prodotto (x - µx )(y - µy) è positivo. Ciò è indice del fatto che il legame
aleatorio tra X e Y descritto dalla loro distribuzione congiunta "tiene" le due variabili
mediamente in questi due settori.
Se le osservazioni sono molto vicine a una retta per (µ x, µy) che attraversa i settori
sopra citati (figura seguente) allora il coefficiente di correlazione Pxy è vicino a 1.
(y 1 - µ Y/(x, - µx/<0
y
(_y µr )(x 1 - µxJ>O X

1-
Proprietà del coefficiente di correlazione

p è insensibile, in modulo, a trasformazioni lineari che coinvolgono separatamente le due
variabili.
Infatti sia Y; = a;X;+b;; i= 1, 2. Allora poiché aa;X;+b; = la;lax; e grazie alla proprietà
4) della covarianza, si ha:
( :•) Si può mostrare che:
(9.14)
Infatti consideriamo
X Y X Y X Y 1
var[- + -] = var[-] + var[-] + 2cov[-,-] - 2-var[X] +
ax ay ax ay a x ay proprietà 4 della cov ax
1 cov[X, Y]
- 2 var[Y] + 2--- = 2(1 + Px y ).
ay axay '
Da questa segue che 1 + Px y ~ O e quindi Px y ~ -1 perché 2(1 + Px y) è una varianza
X , y , ,
e 2(1 + Px y) = O sse - + - = e con probabilità 1, cioè c'è un legame lineare tra X
' ax ay
e Y con probabilità 1.
Rifacendo lo stesso percorso con var[ ~ - 2:._]si ottiene Px y ::; 1 e ancora un legame
ax ay '
lineare con probabilità 1 tra X e Y.
Vediamo due situazioni estreme.
p. 13) Se X 1 e X2 sono indipendenti Px,x 2 = O.
p. 14) Se X2 = aXi + b (cioè X2 linearmente dipendente da Xi, o anche se P[X2 =
aXi +b] =1) come caso particolare della p. 04) si vede che Px,x 2 =far=
±1, a seconda
che a sia positivo o negativo. Mostrarlo per esercizio.
p. 15) Vale anche un viceversa, cioè se Px,x 2 = ±1 allora X2 è linearmente dipendente
da X i e, con probabilità 1 vale la seguente uguaglianza:
X2 - E[X2] = ±_X_i_-_E_[_X_i]
Teorema 9.5.3 {disuguaglianza di Schwarz) se Xi e X 2 hanno momento secondo

finito allora:
(9.15)
Dim: O::;E[(Xi + tX2) 2] = E[Xr + 2tXiX2 + t 2X?j = E[Xl] + 2tE[XiX2] + t 2E[X?j
(•)
Il discriminante dell'equazione di 2° grado associata alla disequazione(•) è non positivo,
vale a dire~= E 2[XiX 2] - E[Xl] · E[X?]::; O •
Oss. 8 Si può mostrare che nella 9.15 l'uguaglianza valesse :lt: P[Xi + tX 2 =O]= 1
oppure P[tXi + X2 = O] = 1
La 9.14 si ricava anche dalla 9.15: infatti basta porre nella disuguaglianza Yi = Xi - µ 1 e
Y2 = X2-µ2 dove µi= E[X;] e riscriverla nel modo seguente IE[YiY2]I::; vE[Yi2]E[Yl],
9.6 Riassunto di risultati sulle fgm
C> Fgm di un vtan (Xi, ... , Xn)T è definita da:
C> Fgm di un vtan (Xi, ... , Xn)T con componenti X; indipendenti:
mx,, ...,Xn (ti,•••, tn) = mx, (ti),,, ,mxn (tn) = E[et,X, l · ••••E[etnXn]
C> Fgm di una trasformazione lineare: Y = AX + b allora
my(t) = etrb E[e(Art)rx] = etrbmx(ATt).

C> Fgm della somma Y = I:~=i X; di va Xi, ... , Xn indipendenti:
n
my(t) = E [exp(t LX;)]= IImx;(t)
i=i
C> Media di un vtan X= (Xi, X2, ., Xn)T
C> Media del trasformato lineare Y = AX +b di un vtan X
µy =Aµx +b.
191
C> La matrice di covarianza Cx di un vtan X= (X 1 , ... , Xn)T è una matrice n x n
, data da:
1::; i,j::; n; Cx= [cov[X;, X 1]]

Si vede che:
Cx= E[(X- µ)(X- µf] = E[XXT]- µµT

C> Una generalizzazione della matrice di covarianza di due vtan X= (X 1 , ... , Xn)T
e Y = (Y1,... , Yn)T è una matrice n x n, data da:
cov[X, Y]= [cov[X;, Yj]] = E[(X - µx)(Y- µyf].

(n,k) (n,l) (l,k)
C> Legge di propagazione della covarianza Se Y = AX + b allora
Cy = ACxAT
C> Trasformazioni lineari. Sia A una matrice (n, n) tale che det A =/-O e sia Y =
g(X) = AX +be x- 1 (y) = A- 1 (y- b) Allora:
f ( ) = f x (A - (y - b))
1
Y y ldetAI ·
9.7 Funzioni di ripartizione condizionate

Dati due eventi A e B con P[B] > O avevamo definito nel capitolo 3 la probabilità di
A condizionata a B nel modo seguente: P[AIB] = P)fJil.
Possiamo estendere questo
concetto alle va.
Caso univariato
Definizione 9.7.1 La funzione di ripartizione condizionata di X rispetto a un evento
B; (P[B] > O) è la seguente funzione:
F(xlB) = P[X < xlB] = P[{X::; x} n B]

- P[B]
e la sua densità di probabilità condizionata J(xlB) è data da:
d
J(xlB) = dx F(xlB) (9.16)
Esempio 9.7.2 Supponiamo che l'evento B sia:={X ha preso valori compresi tra a e
b}, cioè B = {w : a ::; X (w) ::; b}. Sia F (x) la f dr (incondizionata) di X; vediamo
come si modifica F assumendo l'informazione che B si è verificato. Dalla definizione di
probabilità condizionata si ha:
P[X < xlB] = P[{X::; x} n B] = P[{X::; x} n {a::; X::; b}]

- P[B] P[{a::; X::; b}]
0 X< a
P[{X::; x} n {a::; X::; b}] = { F(x) - F(a) a::; x < b
F(b)-F(a) x~b
Per cui:
~ x -F(a)
x<a
F(xlB) = P[X < xlB] = P[{X::; x} n {a::; X::; b}] = { -F(a) a:=;x<b
- P[a::; X::; b] F b
1 X ?:_b
(9.17)
Concludiamo che, conoscendo la fdr incondizionata, possiamo costruire la funzione di
ripartizione condizionata. Discorsi analoghi valgono per la densità di probabilità condi-
zionata J(xlB).
Il caso discreto si svolge in modo analogo.
Esempio 9.7.3 Limitiamoci a un esempio che coinvolge la va X tempo di attesa del

primo successo nel lancio di una moneta di trucco p. Scrivere la ldp di X dato B =
P[{X = x} n {X< m}]
{X::; m}. Si ha: Px(xlB) = P[X::; m] - . Ora P[{X = x} n {X::; m}] =
P[X = x] = qxp O< X< m l - qm+l
{
0
-
m<x
- P[X ::; m] = p + qp + q2p + ... + qmp = p---
l-q
1 - qm+l da cui:
q"p
Px (xlB) = { o::;x::;m
~-qm+i (9.18)
m<x
Caso multivariato
Cominciamo dal caso di un vt (X, Yf discreto: indicati con Xi i punti massa di X e con
y 1 i punti massa di Y, si ha:
( ) Pxy(xi,Yj)
PYIX Yj IXi = ( ) (9.19)
Px Xi
dove px(·) è la legge di probabilità marginale di X.

Ovviamente se X e Y sono indipendenti allora PY1x(Y 1 lxi) = py(y 1). La 9.19 è una vera
e propria probabilità condizionata
P[y = ·IX= ·] = P[{X = xi} n {Y = y1}]

Y; x, P[X = xi] .
Parleremo in questo caso di legge di probabilità (o funzione di densità discreta) condi-

zionata di Y dato X = Xi, L'espressione analoga
ci porta alla legge di probabilità condizionata.di X dato Y = y1 :
(9.20)
193
Che si tratti di una legge di probabilità lo si vede immediatamente. Per esempio per la
9.19 si ha:
"""" ( ·I ·) _ L.1Pxy(xi,Y1) _ Px(xi) _ 1
L., PYIX YJ x, - ( ) - ( ) - ·
1 Px xi Px xi
Allora PY1x(·lxi) è non negativa e sommata su tutti i possibili punti massa dà 1.

Osservazione. Ovviamente se X e Y sono indipendenti
Definizione 9.7.4 Se X e Y sono va discrete congiunte, la fdr condizionata di X dato

Y = y 1 è indicata con Fx1Y(·ly 1) ed è data da:
(9.21)
cioè:
F XIY (X IYj ) = """" ( I ) """" Px ,Y (xi, Y1) (9.22)
L., PXIY Xi Y1 = L., py(y )
{x;::;x} {x;::;x} J
P[{X = x} n {Y = y}]
Le cose vanno diversamente nel caso continuo perché [ ] non è de-
P X= x
finita in quanto P[X = x] = O. Non si dovrebbe parlare allora di funzioni di densità
condizionate ma condizionali. Dopo avervi messo in guardia su questa sostanziale di-
versità tra caso discreto e caso continuo, continueremo a usare l'aggettivo condizionata
secondo la seguente:
Definizione 9.7.5 Siano X e Y due va continue con fd congiunta data da fxy(·). La

funzione di densità condizionata di Y dato X= x è indicata con fy1x(·lx), ed è
definita da:
x) = fx,y(x,y)
{ f YIX (yl fx(x) se fx(x)>O
(9.23)
non è definita se fx(x)=O
f x (·) è la densità marginale di X.
Analogamente, la f d condizionata di X dato Y =y è:
f XIY (xly) = fx,y(x,y) se fy(y) >O

{ fy(y)
non è definita se fy(y) =O
fy (·) è la densità marginale di Y. IV
Che si tratti di una densità di probabilità lo si vede immediatamente. Per esempio per
la 9.23 si ha:
J +oof
-oo
( I )d =
YIX y X y
J!"; fx,y(x,y)dy
fx(x)
= fx(x)
fx(x)
= 1
.
rvuna definizione analoga vale per il caso vettoriale. Siano Y e X= (X 1 , .. ,,Xn)' un va e un vta
continui con fd congiunta data da fxy(-). La funzione di densità condizionata di Y dato X= x è
indicata con fy1xClx), ed è definita da:
f ( fx,y(x,y)
{ Yx =
YIX
I )
fx(x) se fx(x) > O
non è definita se fx(x) = O
fx(-) è la densità marginale di X.
Osservazione. Ovviamente se X e Y sono indipendenti
fy1x(Ylx) = fy(y)
Definizione 9.7.6 Se X e Y sono va continue congiunte, la fdr condizionata di X dato

Y = y è indicata con Fx1Y(·IY) ed è data da:
Fx1Y(xly) = P[X::; xlY = y] (9.24)
lx lx
cioè:
I ) fx,Y(t,y)
FxlY (x Iy ) = _ 00 fx1Y(t y dt = _ 00 fy(y) dt (9.25)
L'espressione di Fy1x(·lx) fdr condizionata di Y dato X= x è analoga.
Osservazione: si noti anche qui la parentela con le frequenze condizionate osservate del
capitolo 1.
Esempio 9.7.7 Difetti della pompa dell'esempio 4.5.4. Qual è la densità di probabilità
di X dato Y = 3?
Consideriamo il grafico dove si è evidenziato il condizionamento Y = 3:
y
3/ 30
4
3/30
/y(3) =4130
3
1/30
•
1/30 e 1/30 e 3/30
2
1/ 30 e 1130 e 3/30 e 3/30
1/ 30 1130 1130 4/3 0 1/ 30
o 2 3 4 X
Si ha:
_ Pxy(0, 3) _ 1/30 _ l x __O
PXIY (013) - py(3) - 4/30 - 4
Pxly( xl3) = PXIY

(113) - Pxy(l, 3) -
- py(3) -
3f3o -
4 30 -
l
4
x = l
3) - Pxy(x, 3) - O
( x _,_O·,l
PXIY x - py(3)
1
- 1
X e Y non sono indipendenti (come è intuitivamente ovvio). Infatti, per esempio:

Px1Y(213)= P[X = 2IY = 3] = O i=Px(2) = P[X = 2] = 8/30
Esercizio 9.7.1 Trovare, per esercizio, PY1x(·ll).
Esempio 9.7.8 Dati due dadi non truccati siano X e Y il risultato del primo e del
secondo dado rispettivamente. Detta Z = X+ Y le tabelle a doppia entrata che descrivono
la distribuzione congiunta di (X, Yf e di (X, zf sono le seguenti:
195
X\Z 2 3 5 6 7 8
X\Y 1 2 3
o o
1
1
2
2
3
3
4 4
pz 1
Dal punto di vista grafico la situazione è la seguente :
y z
z=5 ,=6 z=7 z=8
I I
Ì6 Ì6
8
2 I I
7 Ì6 io Ì6
I I I
6
ft 116 li 'i6
.!. I I
4 Ì6 i6
2
I 1 J. I
T ii 16 16
1
Z =X+Y 3
I .!.
Ì6 16
I I ]
T
I I I I
I I I
T T T T 7 7 T
X
2 3 4 I 2 3 4
Vediamo due diverse funzioni di densità (discrete) condizionate, di Z condizionata da

X = 2 e di X condizionata a Z = 4
. . P[X = 2 /\ Z = i] P[X = 2 /\ Y = i - 2] / 6 1
i= 3, 4, 5, 6; P[Z = i I X = 2] = P[X = 2] = P[X = 2] = ¼= 4
diversa da O solo per quei valori di i per i quali la retta Z = i interseca i punti massa
sulla retta X = 2 (parte destra della figura sopra).
i= 1 2 3· P[X = i I z = 4] = P[X = i I\ z = 4] P[X = 2 /\ y = 4 - i] = 1~ =~

' ' ' P[Z = 4] P[Z = 4] 1~ 3
diversa da O solo per quei valori di i per i quali la retta X = i interseca i punti massa
sulla retta X+ Y = 4 (parte sinistra della figura sopra).
Esempio 9.7.9 Date due va indipendenti X e Y, esponenziali di parametro À, calcolare

la probabilità di P[Y > slX = t], trovare la fd condizionata.
fx y(t y) >-2 e-À(t+y)

fy1x(Ylt) = fx(t) = Àe-Àt = Àe-ÀY = fy(y) se y ~ O ex~ O
da cui:
come era logico aspettarsi data l'indipendenza.

Esempio 9.7.10 Un ingegnere ambientale pesa la quantità di particolato in un campione
d'aria di un certo volume prelevato sopra le due ciminiere di una centrale a carbone. Una
sola delle ciminiere è provvista di filtri per l'abbattimento delle polveri. Sia X il peso (in
una certa unità di misura) del particolato proveniente dalla ciminiera priva di filtri e Y
il peso di quello proveniente dalla ciminiera con filtri. Supponiamo che il comportamento
aleatorio congiunto di X e Y possa essere modellato con
fx y (X' y) ={ Ok O ::; X ::; 2 i O ::; y ::; 1 i 2y ::; X

altrove
k=I
In altre parole (X, Y)T è uniformemente distribuito su un triangolo limitato dalle rette
X= 2, y = 0, 2y ::; X.
a) Trovare k affinché fxy(x,y) sia una fd.
Il triangolo è rettangolo di base 2 e altezza l con area pari a l, quindi k = l.
b) Trovare P[X ~ 4Y], cioè la probabilità che la quantità di particolato dovuto alla ci-
miniera con i filtri sia meno di un quarto di quello dovuto alla ciminiera senza filtri.
:I~
O I 2
~l:;?: 1
O
:=1 I 2y 2
Occorre integrare f xY (x, y) sulla parte più scura del triangolo (parte sinistra della figura
qui sopra):
P[X ~ 4Y] = J;dx fox/ dy 4 = ~ (ma più facilmente si potrebbe calcolare in modo
elementare l'area del triangolo più scuro).
e) Calcolare la probabilità che la quantità del particolato proveniente dalla sola ciminiera
con filtri pesi più di 0.5.
Si tratta di calcolare P[Y ~ 0.5]. Occorre perciò la marginale
fy(y) = J22Y dx= 2 - 2y con O::; y::; 1.
P[Y ~ 0.5] = J;_
5 (2 - 2y)dy = (2y -y
2
5 = 0.25 )1~.
d} Trovare fxlY=y(xlY = y)
Come si evince dalla parte destra della figura:
fxy(x,y) 1 ( ) . ,
fx1Y=Y (x IY = y) = fy(y) = ( 2 _ 2y) I12y; 2] x , cioe per 2y::; x::; 2
197
e) Supponendo che il particolato proveniente dalla ciminiera con i filtri pesi 0.5, trovare
la probabilità che il particolato proveniente dall'altra ciminiera pesi di più di 1.5.
Si tratta di calcolare P[X > 1.5IY = 0.5]. Occorre trovare fx1Y=o. 5 (xly = 0.5). Per il
punto precedente si ha:
fx1Y= 5 (xly = 0.5) = 1 per l::; x::; 2
Ora P[X > 1.5IY = 0.5] = J1\ dx= 0.5.
Esempio 9.7.11 Riscriviamo la legge di probabilità della va ipergeometrica data nel

capitolo 6 ponendo M = r + s, k = r, n = x + y. Si ha:
(:) (·)
Px(x;r,s,y) = (r+:) ;x::; r,y::; s
x+y
Questa legge ora modellizza la probabilità che estraendo x + y oggetti da un'urna che ne
contiene r + s (r non difettosi e s difettosi) se ne scelgano esattamente x non difettosi
( e ovviamente y difettosi).
Vediamo ora come la legge appena descritta si possa ricavare come probabilità condizio-
nata. Siano rispettivamente X rv B(r,p) e Y rv B(s,p), binomiali di parametri rispet-
tivamente r, p e s, p, indipendenti. Intanto osserviamo che X + Y rv B (r + s, p) poi
calcoliamo:
P[X = xlX+ y = x + y] = P[X = x, X+ Y = x + y] = P[X = x, Y = y] =
P[X+Y=x+y] P[X+Y=x+y]
(:)px(l _ p)'-x(~)pY(l _ p)s-y _ (:)(;)
(:!~)px+Y(l- p)'+s-(x+y) - (:!~) ·
Perciò la distribuzione ipergeometrica può essere vista come una probabilità condizionata.
Teorema delle probabilità totali

Sia (X, Y)' un vta discreto con legge di probabilità congiunta pxy(x,y) e marginali
Px(x) e py(y). Allora
P[Y E A]= I:Px(x)P[Y E AIX = x] (9.26)

X
Infatti
P[Y E A]= I:I:pxy(x,y) = I: I: PYIX=x(Ylx)px(x) =

x,yEA x yEA
= I:Px(x) I: PYIX=x(Ylx) = I:Px(x)P[Y E AIX = x]

X yEA X
L'analogo continuo di 9.26 è ovviamente:

(X)
P[Y E A]= J fx(x)P[Y E AIX = x]dx (9.27)

-(X)
Esempio 9.7.12 Il tempo impiegato da un automobilista per rifornirsi di carburante a

1
un se(f service sia una va T rv exp(A) cioè tale che E[T] = >."·Sia N la va che conta
il numero di automobilisti che arrivano alla pompa mentre un automobilista si serve e
consideriamo v (N, T)T. Fissato T =
t ipotizziamo che N sia una va di Poisson di
(llt)ke-vt
parametro li nell'intervallo unitario cioè tale che P[N = klT = t] = k! ,.__,
P(llt).
Per la 9.27 si ha:
(llt)ke-vt
f >-P[N = f À---e-,\tdt
(X) (X)
P[N = k] = klT = t]e-,\tdt = =

o o k!
(X) 1 (X)
k!
O~a
" Jtke-(v+,\)tdt -- -(--,-)k_+_l Jzke-zdz =
o (,\+v)t=z li+ A O CXJ (li+ >-)k+l.
J zke- 0 dz=r(k+l)=k!
o
Sostituendo questo risultato nella (C?) si ha:
P[N = k] = Àllk k! __ >-_ llk Poiché __ >-_ + __ li_ = 1 si
k! (li+ >-)k+1 (li+>-) (li+ >-)k· (li+>-) (li+>-)
À
conclude che N è la va geometrica traslata (indietro) GT(-(--)) con probabilità di
li+ À
À
successo-(--).
li+ À
Esempio di utilizzo delle distribuzioni condizionate

Sia Xt = N(o,t) numero degli arrivi nell'intervallo (O,t). Sia T1 il tempo in cui si è
verificato l'arrivo 1.
Allora T 1 = inf{t: Xt ~ l}.
Vale la seguente identità: T 1 ::; t sse Xt ~ l da cui P[T 1 ::; t] = P[Xt ~ l].
Teoremino 9.7.13 Il primo arrivo di un processo di Poisson soddisfa la seguente pro-
prietà:
u
\fu;O <u<t P[T1 < ulXt = l] = -
t
quindi la distribuzione del primo arrivo nell'intervallo (O,t) a numero di arrivi Xt = l
fissato è uniforme.
Dim:
P[T IX = ] = P[T 1 < u,Xt = l] = P[T 1 < u,Xt = l]
1 -te-,\t .
Ora
P[T1::; t] = P[Xt ~ l]::::} P[T1 < u,Xt = l] = P[Xu ~ l,Xt = l] con O< u < t.
L'evento {Xu ~ l} n {Xt = l} equivale a: {Xu = l} n {Xt-u = O}.
Gli intervalli (O,u) e (t - u, t) sono disgiunti. Per le proprietà del processo di Poisson e
per quanto detto è
P[Xu ~ 1, Xt = l] = P[{Xu = l} n {Xt-u = O}] = P[{Xu = l}]P[{Xt-u = O}] =
Àue-,\ue-,\(t-u).
P[T < u X = l] Àue-,\ue-,\(t-u) u
I n eone 1·usione: i
Àte-,t ,\t = ------ Àte- ,\t = • t.
v Osserviamo che in questo esempio le variabili di Te N che esaminiamo congiuntamente nel vettore
(N, T)T non sono entrambe discrete o entrambe continue, come era stato stabilito nel capitolo 4, ma
una discreta e una continua.
199
Valori attesi condizionati
Definizione 9.7.14 Siano (X, Y) due va congiunte; sia g(.) una funzione (misurabile)
da IR.2 a IR. Allora g(X, Y) è una va. Il suo valore atteso condizionato da X = x viene
indicato nel caso discreto con:
~ ~ Pxy(x,y)
E[g(X,Y)IX=x]=L..,g(x,y)pylx(Ylx)=L..,g(x,y) () (9.28)
y y
Px x
dove PxY (x, y) è la legge di probabilità congiunta, Px (x) la legge di probabilità marginale,
P[X =x Y=y]
PY1x(Ylx) la probabilità condizionata P[Y = ylX = x] = [ ' ] e la somma è
PX=x
estesa a tutti gli y che sono i valori possibili di Y
Nel caso continuo si ha:
E[g(X, Y)IX = x] = L g(x,y)lY1x(ylx)dy (9.29)
dove fyl x (y lx) = f ~: \:t è la densità condizionata. VI
In particolare se g(X, Y) =Y la 9.28 diventa
E [y IX = X l= ~
L.., YPYIX (y
IX ) = ~ Pxy(x,y)
L.., y ( ) (9.30)
y y
Px x
mentre la 9.29 diventa:
E[YIX = x] = L tlY1x(tlx)dt = L /x;;~;/) dt (9.31)
E ancora se g(X, Y) = g(X)Y si ha:
E[g(X)YIX = x] = g(x)E[YIX = x] (9.32)
Esempio 9.7.15 Con riferimento all'esempio 9.2.3 si ha:

E[YIX = 2] = I: YPYIX (yl2) = 2py1x (212) + 3py1x (312) + 4py1x (412) = 11 •
4
y
Esempio 9.7.16 Con riferimento all'esempio 4-5.4 si ha:

E[XIY = 3] = I: XPx1y(yl3) =O· Px1y(Ol3) + 1 · Px1Y(ll3) = ¾,
X
Oss. 9 Si consideri la funzione r(x) = E[YIX = x]. r è una funzione reale di variabile
reale per cui r(X) = E[YIX] è una va di cui E[YIX = x] è una determinazione e che nel
caso discreto ha legge di probabilità px(x) = P[X = x] e nel caso continuo ha funzione
di densità fx(x).
VINel caso vettoriale si ha: g(X, Y)
E[g(X, Y)IX = x] = /Rg(x,y)fy1x(Ylx)dy

d ove f YIX (y Ix ) fxy(x,y) è I d · ' d' ·
= fx (x) a ens1ta con 1z10nata.
Ovvia la scrittura nel caso che g(X, Y) = Y.
Definizione 9.7.17 Al variare dix la funzione r(x) = E[YIX = x] si chiama funzione
di regressione o curva di regressione di Y su X e la va E[YIX] prende il nome di
variabile di regressione di Y su X.
Teoremino 9.7.18 (:•) Date due va X e Y e una funzione g(X, Y) si ha:
E[g(X, Y)] = E[E[g(X, Y)IX]] (9.33)
Dim (nel caso continuo). Si cominci a osservare che
h(x) = E[g(x, Y)IX = x] =
= J-oo+oo( )f ( )
g x,y YIX=x y dy = -oo g x,y
J+oo(
)fxy(x,y)
fx(x) dy
Quindi h(X) = E[g(X, Y)IX] ha funzione di densità fx(x) e:
E[E[g(X, Y)IX]] = J~:dxh(x)fx(x) =

= J+oo
-oo
dxf (x) J+oo
x -oo g
(x )fxy(x,y)
,Y fx(x)
d =
Y
= J~:J~:g(x,y)fxy(x,y)dxdy = E[g(X, Y)] •
Oss. 10 Vale anche il seguente risultato:
Vg E[g(X)Y] = E[g(X)E[YIX]] (9.34)
che segue immediatamente da 9.32 e da 9.33. Si può anche mostrare che E[YIX] è
l'unica funzione per cui vale 9.34 (vedi per esempio [BVJ).
Proprietà della media condizionata.

1) Se X e Y sono indipendenti allora E[YIX] = E[Y]
2) Vg: JR---+JR;E[g(X)IX] = g(X). Infatti h(x) = E[g(x)IX = x] = g(x)
3) Vg : JR---+JR;E[g(X)YIX] = g(X)E[YIX]
4) E[(aY + (1X3)IX] = aE[YIX] + ;3E[X3IX]
Vediamo ora la legge delle alternative per la media:
Teorema 9.7.19 (:•) Date due va X e Y si ha:
E[Y] = E[E[YIX]] (9.35)
Nel caso discreto la 9.35 si scrive:
E[Y] = E[E[YIX]] = L E[YIX = x]P[X = x] (9.36)

X
mentre nel caso continuo diventa:
E[Y] = E[E[YIX]] = 1 +00

-oo E[YIX = xl.fx(x)dx
Dim: basta porre nella 9.34 g(X) = l •
La 9.35 ci permette di calcolare la media di una va senza trovare la sua distribuzione.

201
Esempio 9.7.20 Somme aleatorie di va Data una successione di va X 1 , X2, ..., Xn, ...
indipendenti, identicamente distribuite, di momento l O finito, poniamo E[X;] = µ. Sia
N una va a valori interi (zero incluso), indipendente dalle X; anch'essa di momento 1°
finito. Sia infine Y = I:;': 1 X; la somma aleatoria. Quando N fosse O si conviene che
Y = O, va costante. Intanto facile vedere che:
N k
E[YIN = k] = E[L X;IN = k] = E[L X;]= kµ.
i=l i=l
Quindi E[YIN = k] = g(k) = kµ. Perciò la va E[YIN] = Nµ, e dalla legge delle
alternative per la media segue:
E[Y] = E[E[YIN]l = E[Nµ] = µE[N].

Esempio 9.7.21 Dall'esempio g_'l.12, se si volesse ricavare la media di N, ricordando
che NIT rv P(vT) e T rv exp(À) si avrebbevn_.
V
E[N] = E[E[NIT = t]] = E[vT] = ~-
Osservazione importante NIT rv P(vT) intendiamo ovviamente che P[N = klT = t]

è uguale alla probabilità che una Poisson di parametro vt valga k.
À
Se avessi utilizzato la distribuzione di N rv GT(--) avremmo avuto
À +V
1- _À_
V
E[N]= >-+v
,\
>-+v
Esempio 9.7.22 Gli uccelli in migrazione osservati a una certa stazione di avvistamen-
to, dove la giornata di lavoro dura 8 ore, vengono divisi in uccelli rapaci e uccelli non
rapaci. Sia Xa il numero degli uccelli avvistati nell'arco di una giornata e Y il numero
degli uccelli rapaci. Sappiamo che:
• il numero degli uccelli avvistati in un'ora è una va X 1 ,.__, P(lO) di Poisson di
parametro 10;
• se in una giornata sono stati avvistati m uccelli, la probabilità che n di loro siano
rapaci è proporzionale a n.
a) Se per una emergenza la stazione viene chiusa per mezz'ora, qual è la probabilità che
in tale periodo il numero di uccelli che passano inosservati sia minore di 3?
Sia X 1 la variabile aleatoria {numero di uccelli osservati in un intervallo di tempo pari
10
a t ore). Ovviamente X 1 rv P(lOt) e poiché t = 30' = ½ora ,X½ rv P( 2 ). Da cui
5me-5
P[X1 = m] = -- -. La probabilità cercata è:
z m.1
52e-5
P[X, 2- <2]=P[X, =O]+P[X, 2 =l]+P[X, 2 =2]=e- 5 +5e- 5 +--=0.12465.
2 2
b) Calcolare P[Xa = m; Y = n].
Sappiamo che P[Y = nlXa = m] = kn. Troviamo innanzitutto k. Ovviamente se n > m
è P[Y = nlXa = m] = O. Pertanto:
VIIPiù pedestremente:
E[N] = f= E[NIT = t]Jy(t)dt = f=vtfy(t)dt = vE[T]

-= o
+oo m m
Vm; 1 = L P[Y = nlXa = m] = L P[Y = nlXa = m] = L kn = km(~+I) da cui
n=I n=I n=I
k= 2
m(m + 1)
Tornando a P[Xa = m; Y = n] si ha:
se n > m oppure se m < O

P[Xa = m; y = n] = { ~[Y = nlXa = m]P[Xa = m] se n::; m
Ricordando che X 0 rv P(80) si conclude:
2n some- 80
P[Y = nlXa = m]P[Xa = m] = -m-(m_+_l_) m!
e) In media, ogni giorno, quanti rapaci vengono avvistati?

Senza calcolare la distribuzione marginale di Y e utilizzando la media condizionata di Y
dato Xa si ha:
+oo
E[Y] = E[E[YIXa]] = L E[YIXa = m]P[Xa = m]
m=l
dove:
+oo m 2 2 m
E[YIXa = m] = L nP[Y
n=I
= nlXa = m] = L n m(m n+ 1) = ---
n=I m(m + 1)
Ln
n=l
2 =
2 m(m + 1)(2m + 1) 2m+ 1

m(m+l) 6 3
Da cui E[YIXa] = 2 x1+ 1 e quindi
E[Y] = E[E[YIXa]] = E[ 2Xa + 1 ] = ~E[Xa] + ! = 161 = 53.667

3 3 3 3
Esempio 9.7.23 James Band, la famosa spia è rinchiuso in una cella dalla quale si
può fuggire solo in 3 modi: un condotto per l'aria condizionata, una fogna e la porta
(la cui serratura non funziona, ma Band non lo sa). Quando imbocca il condotto Band
cade nelle mani dei suoi carcerieri dopo 2 ore. Se prende la via della fogna Band viene
ricatturato dopo 5 ore. Ciascuna cattura produce in 007 un'amnesia, quindi, a ogni
tentativo, James Band riparte da zero. Supponendo che egli scelga una delle 3 alternative
con la stessa probabilità, quanto tempo impiegherà (mediamente) Band ad accorgersi che
la porta non è chiusa a chiave?
Soluzione. Si tratta di un problema di media condizionata. Sia X la va tempo impiegato
per evadere (in ore) (o, che è lo stesso, per accorgersi che la porta è aperta). Dobbiamo
trovare E[Xj. Codifichiamo con la va Y la strada presa da 007 nel modo seguente:
Y= 1 condotto aria condizionata P[Y = l] = 1/3

Y=2 strada della fogna P[Y = 2] = 1/3
Y=3 porta (aperta) P[Y = 3] = 1/3
203
XIY = 1 è la va X+ 2; XIY = 2 è la va X+ 5; infine XIY = 3 è la va O.
Se Band sceglie il condotto dell'aria E[XIY = l] = 2+E[X], se sceglie la.fogna E[XIY =
2] = 5 + E[X], se prende la via della porta E[XIY = 3] = O.
3
Per la 9.36 abbiamo: E[X] = I: E[XIY = y]P[Y = y]. Da ciò si ricava
y=l
1 1
E[X] = (2 + E[X]) 3+ (5 + E[X]) 3 +O:::;, E[X] = 7.
In generale si può mostrare che se esistono n alternative, la prima che conduce in libertà
dopo h 1 ore mentre le altre riconducono in cella dopo hj ore, si trova che E[X] = h 1 +
h2 +. + hn.
Varianza condizionata
Definizione 9.7.24 La funzione di x var[YIX = x] si dice varianza condizionata
di Y dato X = x, o curva di variabilità di Y intorno alla curva di regressione
r(x) = E[YIX = x]. var[YIX = x] è la varianza della distribuzione condizionata di Y
dato X = x cioè, nel caso continuo:
J
(X)
var[YIX = x] = (y - E[YIX = x]) 2 fxf:~~t dy (9.37)

-(X)
mentre nel caso discreto:
var[YIX = x] = L [y- E[YIX = x]]2 Px,Y~xt)

Px x
(9.38)
y
Come si evince dalla definizione 9. 1.14, la varianza condizionata è la media dei qua-
drati degli scarti di Y da E[YIX] calcolata rispetto alla densità (o legge di probabilità)
condizionata:
var[YIX = x] = E[(Y - E[YIX = x]) 2 IX = x]
Non è difficile mostrare che la formula precedente si può scrivere anche nel modo seguen-
te, analogo a quello già visto per la varianza non condizionata di una va:
var[YIX = x] = E[Y 2 IX = x] - E 2 [YIX = x] (9.39)
Anche in questo caso si può pensare alla va var[YIX] che ha determinazioni var[YIX = x]
e che nel caso discreto ha legge di probabilità Px (x) = P[X = x] mentre nel caso continuo
ha funzione di densità fx(x). Quindi la 9.39 si può scrivere anche:
var[YIX] = E[Y 2 IX] - E 2 [YIX] = E[(Y - E[YIX])21X] (9.40)
Teoremino 9.7.25 Vale l'identità:
var[Y] = var[E[YIX]] + E[var[YIX]] (9 .41)
Dim: Per la 9.40 si può scrivere:

E[var[YIX]] = E[E[Y 2 IX]] - E[E 2 [YIX]] = E[Y 2 ] - E[E 2 [YIX]] =
= E[Y 2 ] - E 2 [Y] + { E 2 [Y] - E[E 2 [YIX]]} =
= var[Y] - { E 2 [E[YIX]] - E[E 2 [YIX]]} = var[Y] - var[E[YIX]] •
Importante. Si vede che
var[E[YIX]] = E[(E[YIX] - E[E[YIX]])2] = E[(E[Y] - E[YIX])2].
Inoltre, per esempio nel caso continuo,
J
(X)
E[var[YIX]] = var[YIXlfx(x)dx =
-(X)
(X) (X)
per la 9.37
j fx(x)dx j (y - E[YIX = x])dxf:~~t dy =
-oo -oo
(X) (X)
JJ
-00-00
(y - E[YIX = x]) 2 fxy(x,y)dxdy =
per la 9.29
E[(Y - E[YIX]) 2 ]
Posto
a1= E[(E[Y] - E[YIX])2] a~ = E[(Y - E[YIX])2]
possiamo concludere che la 9.41 afferma che la variabilità var[Y] di Y intorno alla sua
media µ 2 è composta da una variabilità "spiegata" dal legame tra E[Y] e la funzione di
regressione E[YIX] misurata da a1,che prende il nome di varianza spiegata, e da una
variabilità di Y intorno alla regressione E[YIX] misurata da a~, cioè:
var[Y] = a1 +a~= E[(E[Y] - E[YIX])2] + E[(Y - E[YIX])2].

Esempio 9.7.26 Sia X una Bernoulli di parametro p e Y la va sequenza iniziale (se
il primo risultato è un successo, Y conta i tentativi ( dopo il primo) per avere il primo
insuccesso, mentre se il primo risultato è un insuccesso, Y conta i tentativi ( dopo il
primo) per avere il primo successo (Y = l, 2, 3, .. .).
Se il primo risultato è © conta i tentativiper avere la prima ©
y
--------------
l@l@l@l@l@I ....
J~I l@l©I
1-J~
k
J~I l©l@I
l©l©l©l©l©I1-J~
--- - --
Se il primo risultato è
k
© conta i tentativiper avere la prima ©
È evidente che la va {YIX = O} è uguale a l + il numero di insuccessi che precedono
il primo successo a partire dal secondo lancio, quindi è una geometrica di parametro p.
Invece la va {YIX = l} è uguale a 1 + il numero di successi che precedono il primo
insuccesso sempre a partire dal secondo lancio, quindi è ancora una geometrica ma di
parametro q = l - p (infatti si sono scambiati successi con insuccessi). Quindi:
P[Y = k] = P[Y = klX = l]P[X = l] + P[Y = klX = O]P[X =O]=

= (pk-lq)p + (qk-lp)q = pkq + pqk.
1 1
E[YIX =O]= - E[YIX = l] = -
p q
205
a) Verificare che E[Y] = E[E[YIX]].
E[Y] = L k[pk q + Pl]

(X)
= pq
((X)
L kpk- l + L(X) kl- l
)
= pq( 2
1
+ 2)
1
= r.+ :!...
1 1 1 q p qp
(X) d(X) d l 1 1 (X) 1
Infatti I:l kpk- I = - I: pk
dp o
= - --
dpl-p
= ---
(l-p)2
= -
q2
e quindi I:1 kqk- I = - . Inoltre:
p2
E[E[YIX]] = E[YIX = l]P[X = l] + E[YIX = O]P[X =O]= !q + !p

p q
= :!..+ r_
p q
che è il valore già trovato.

b) Calcolare var[Y] e verificare che var[Y] = E[var[YIX]] + var[E[YIX]].
Osserviamo che E[Y 2] = E[Y] - E[Y(Y - l)].
(X) (X)
E[Y(Y - l)] = I: k(k - l)P[Y = k] = I: k(k - l)(pkq + pqk) =
1 1
(X) (X) d2 (X) d2 (X)
= p2q I: k(k _ l)pk-2 + pq2 I: k(k _ l)qk-2 = p2q_ 2 I:Pk + pq2 _ 2 I: qk =
1 1 dp O dq O
d2 1 d2 1 2p2q 2pq2 p2 q2
= p2q- -- + pq2 ___ = --- + --- = 2(- + -)
dp2l-p dq2l-q (l-p)3 (l-q)3 q2 p2
In conclusione:
q p p2 q2
E[Y 2] = E[Y]- E[Y(Y-1)] = - + - + 2( 2 + 2 ).
p q q p
Da quest'ultima si ha:
var[Y] = E[Y 2] - E 2[Y] = 2
p
+E+
q
2(Pq22 + p2
2
q ) - (2p + E)
q
2= P2
q2 + p2
q + 2 + E-
2
p q
2
Inoltre var[YIX = O] = q con probabilità q e var[YIX = l] = P2 con probabilità p.
p2 q
Quindi
p2 q2
E[var[YIX]] = 2 +2
q p
Rimane da calcolare var[E[YIX]l.Sia Z = E[YIX]; allora
1
Z = E[YIX = O]= - con probabilità q = P[X = O]
Z = E[YIX = l] = -
f con probabilità p = P[X = l]
q
var[E[YIX]] = var[Z] = E[Z 2] - E 2[Z] = {l + l}

-q
p2
-p
q2
p
- (-
q
+ p-q )2 = q
-
p
+ -pq - 2
q p p2 q2
var[E[YIX]] + E[var[YIX]] = - +- - 2 + 2 + 2 = var[Y]
p q q p
Esempio 9.7.27 Proseguiamo l'esempio 9.'l.12 e cerchiamo varianza di N.

Sempre ricordando che NIT rv P(vT) abbiamovm_.
var[N] = E[var[NIT]] + var[E[NIT]] = E[vT] + var[vT]. Concludendo:
var[N] = vE[T] + v2 var[T]. (9.42)
VIIIpiù pedestremente avremmo avuto:
var[N] = E[N 2] - E 2 [N], E[N 2] = E[E[N 2 1T = t]],E[N 2 1T] = var[NIT] + E 2 [NIT] = vT + v2T 2 •
Allora:
E[N 2 ] = f E[N 2 1T = t]fr(t)dt = f[vt + (vt) 2 ]fr(t)dt = vE[T] + v 2 E[T 2 ].
-= o
Da cui il risultato cercato.
Oss. 1: A questo risultato si sarebbe potuti arrivare anche sfruttando la distribuzione
di N trovata nell'esempio 9. 7.12 e la ditribuzione di T ma, come si vede, abbiamo dato
espressione alla varianza di N senza usare né la sua distribuzione né quella di T.
Oss. 2: Se T = c costante, cioè T non è casuale, allora media e varianza di N sono
quelle di una va di Poisson di parametro vc = vE[T]. Se T è casuale la media di N
rimane formalmente la stessa mentre la sua varianza è amplificata dal fattore v 2 var[T].
Facendo riferimento alla Oss .1 facciamo notare che le 9.42 valgono per un qualunque
sportello di servizio ai clienti dove il tempo di servizio T ha distribuzione .fr(t) e non è
V V v2
obbligatoriamente esponenziale. Se T è esponenziale E[N] = ~ e var[N] = ~ + À2 che
sono la media e la varianza della N trovata nell'esempio 9. 7.12.
Esempio 9.7.28 Supponiamo che un insetto depositi un grande numero di uova e che
ciascun uovo abbia una probabilità p di sopravvivere (non mangiato da uccelli, serpenti,
altri insetti, eccetera). Sia X il numero delle uova sopravvissute e Y il numero di uova
deposte. Un buon modello è quello di considerare Y rv P(À), Poisson di parametro
À. Se si suppone che le probabilità di sopravvivenza di ogni uovo sia indipendente dal
sopravvivere degli altri, allora sopravvivere o no ha in modello bernoulliano e X IY ,.__,
B(Y,p)rx
La distribuzione di X si ricava perciò da una distribuzione condizionata.
(X) (X)
P[X = x] = I:P[X = x, Y = y] = I:P[X = xlY = y]P[Y = y] =

O O P[X=xlY=y]=O se y<x
CXJ CXJ e-ÀÀY
I:P[X = xlY = y]P[Y = y] = I: (~)px(l- p)y-x_ _ = (<>)
X X y,1
Àx
Moltiplicando il tutto per Àx si ha:
(Àpye->- (X) _ Ày-x (Àpye->- (X) [(1- p)À]I
(<>)= x! ~(l-p)Y x(y-x)!y-~=t x! ~ t!
= (Àp)xe-À e(I-p)À = (Àp)xe-pÀ rv P(Àp)
x! x!
Quindi E[X] = Àp.
Ma si sarebbe arrivati allo stesso risultato, senza calcolare la distribuzione di X, utiliz-
zando E[X] = E[E[XIY]].
Infatti, poiché XIY ,.__,
B(Y,p) è E[XIY] = pY da cui E[X] = E[pY] = pÀ.
In un modo analogo si sarebbe potuto calcolare le varianza utilizzando la formula:
var[X] = E[var[XIY]] + var[E[XIY]]
var[XIY] = p(l - p)Y; E[var[XIY]] = p(l - p)À;
var[E[XIY]] =var[pY] =p 2 À;var[X] =pÀ.
Il modello potrebbe essere arricchito pensando che madri diverse abbiano un À diverso
l'una dall'altra. Quindi À è aleatorio. È ragionevole pensare che la va che codifica À sia
A,.__,E(()= (e-< 1I 1o,CXJ)(t),
esponenziale di parametro(. Si avrebbe allora una situazione
di questo tipo:
XIY B(Y,p) Cv
YIA ,.__,
P(A)
A rv exp(()
Per calcolare la media di X allora occorre un passaggio in più:
E[X] = E[E[XIY]] = E[pY] = pE[Y] = pE[E[YIA]] = pE[A] = r
IX Ricordiamo ancora una volta che con la notazione XIY ~ B(Y,p) intendiamo P[X = klY = n] =
P[B(n,p) = k].
207
Valore atteso condizionato e stima ottima
Data una va reale X, se prendiamo e al posto del valore di X l'errore casuale che si
commette è X - e, mentre l'errore quadratico è (X - c) 2 • Cerchiamo è in modo che
l'approssimazione di X con e renda minimo l'errore quadratico medio E[(X - c) 2 ], cioè
cerchiamo è in modo che
Ve E JR;E[(X - è)2] ::; E[(X - c)2].
Il risultato seguente mostra che è= E[X]
Teoremino 9.7.29 (:•) Ve E JR;E[(X - è)2]::; E[(X - c)2]

Dim. E[(X - c)2 ] = E[X 2 ] - 2cE[X] + c2 . Derivando rispetto a e e uguagliando a O
segue l'asserto•
Sia ora (X, Y)' un vta con densità continua fxy(x, y) (o ldp discreta Pxy(x, y)). Suppo-
niamo di poter osservare X ma non Y. Supponiamo di voler utilizzare il valore osservabile
x di X per approssimare il valore di Y, attraverso una g(x)
L'errore che commettiamo, approssimando, è Y-g(x). Cerchiamo g(x) che renda minimo
l'errore quadratico medio, cioè
Vh: JR--+JR;E[(Y - g(x))2] ::; E[(Y - g(x))2].
Teorema 9.7.30 (:•) La.funzione g(x) = E[YIX = x] rende minima la quantità E[(Y-
g(x))2], cioè la funzione g(x) = E[YIX = x], valore atteso condizionato di Y dato
X. realizza la disuguaglianza:
E[(Y - g(x))2] ::; E[(Y - g(x))2]
J_+ooYiY1x ( I . I ) fxy(x,y)x
Dim. E [Y IX= xl = 00 y x)dy dove, al solito, !Y1x(Y x = fx(x) Pro-
seguiamo la dimostrazione nel caso continuo (il caso discreto si dimostra con lo stesso
procedimento). Per semplicità indichiamo con W la va che ha come fd la fyix(Ylx) (in
realtà W = YIX = x).
Evidentemente E[W] = J~yfy1x(Ylx)dy = E[YIX = x] = g(x) da cui, per la proposizio-
ne precedente,
Ve E JR;E[(W - g(x))2] ::; E[(W - c)2].

Il che equivale a:
Ve; 1 (y - g(x)) 2 !Y1x (ylx)dy::; 1 (y - c) 2 !Y1x (ylx)dy.
Ora Vh: JR--+JR sostituisco e con g(x) poi moltiplico per fx(x) e integro da -oo a +oo:
J~ [J~(y - g(x)) 2 !Y1x(ylx)dy] fx(x)dx::; J~ [f~(y- g(x)) 2 !Y1x(ylx)dy] fx(x)dx.
Poiché !Y1x(ylx)fx(x) = fxy(x,y) si ottiene
E[(Y - g(x)) 2 ] ::; E[(Y - g(x))2] •
X Nel caso discreto sarebbe ovviamente E[X2IX1 = x] = I:YPx 2 1x, (ylx) e Px 2 1x, (ylx)
Px 1 x 2 (x,y)
Px,(x)
Un esempio nel capitolo 15.
Ciò si può formulare anche nel modo seguente:
Teorema 9.7.31 Proprietà di minimo per la media condizionata. Data una

qualunque g : JR---+ JR misurabile si ha:
E[(Y - E[YIX])2]::; E[(Y - g(X))2] (9.43)

e l'uguaglianza vale solo se P[E[YIX] = g(X)] = 1,XI
Formule di riepilogo
Questo riepilogo è scritto pensando al vta (Y, Xi, X2, ... , Xn)' = (Y, X)' con n + l
componenti. Formalmente non cambia nulla. lntepretando il vettore X come una va
unidimensionale X si ottengono le stesse formule già viste prima.
Sia (Y,X)' un vta.discreto con densità congiunta p(y,x 1 , ••• ,xn) e marginali px(x) e
p(y). Allora
P[Y E A]= I:Px(x)P[Y E AIX = x]

X
L'analogo continuo è:
P[Y E A]= J fx(x)P[Y E AIX = x]dx
dove f (y, X1, ... , Xn) è la densità congiunta e fx(x) è la marginale rispetto a X.
Media condizionata nel caso discreto:
e nel caso continuo:
E[g(Y,X)IX = x] = L g(y,x)!Y1x(vlx)dy
In particolare
[ I l= ~ I )= ~ PYX (y' X)
EYX=x ~YPY1x(yx ~y ()
Y Y Px x
e:
{ { !Yx(Y, x)
E[YIX = x] = JRYiY1x(vlx)dy = JRY fx(x) dy
Vale:
E[g(X)YIX = x] = g(x)E[YIX = x]
Curva di regressione di Y su X è
XINel caso multivariato, data una qualunque g: !Rn ---->JRmisurabile si ha:
E[(Y - E[YIX]) 2] E[(Y - g(X))

:CC:: 2]
e l'uguaglianza vale solo se P[E[YIX] = g(X)] = 1.

209
r(x) = E[YIX = x]
La variabile di regressione di Y su X è
E[YIX].
Vale:
E[g(Y, X)]= E[E[g(Y, X)IX]]

e anche:
Vg E[g(X)Y] = E[g(X)E[YIX]]
Proprietà della media condizionata.

1) Se Y e X sono indipendenti allora E[YIX] = E[Y]
2) \fg: JRn---+JR;E[g(X)IX] = g(X)
3) \fg : JRn ---+ JR;E[g(X)YIX] = g(X)E[YIX]
4) E[(aY + ;3Z)IX] = aE[YIX] + ;3E[ZIX]
Legge delle alternative per la media:
E[Y] = E[E[YIX]]
Proprietà di minimo per la media condizionata.
E[(Y - E[YIX])2]::; E[(Y - g(X)) 2]
e l'uguaglianza vale solo se P[E[YIX] = g(X)] = 1.

Varianza condizionata di Y dato X = x, o curva di variabilità di Y intorno alla
curva di regressione r(x) = E[YIX = x] :
caso continuo:
J
(X)
var[YIX = x] = (y - E[YIX = x])2 fyf:r~)x)dy

-(X)
caso discreto:
var[YIX = x] = L [y -Y
E[YIX = x]]2 PYx~y,)x)
Px x
e anche:
var[YIX] = E[Y 2 IX] - E 2 [YIX] = E[(Y - E[YIX])2]

Vale l'identità:
var[Y] = var[E[YIX]] + E[var[YIX]]
var[Y] = (T1
+ (T1
= E[(E[Y] - E[YIX])2] + E[(Y - E[YIX])2].
Funzioni e rette di regressione nel caso discreto finito
Nella capitolo 1 abbiamo parlato di retta di regressione per l'interpolazione col metodo
dei minimi quadrati di una nuvola di n punti (x;, y;). Abbiamo anche accennato al
caso in cui chi esegue l'esperimento controlla completamente il valore x del predittore e
la "risposta" Y è perciò funzione di una variabile non casuale x. Vediamo cosa accade
quando x è un valore osservato da una va X.
Sia X= (X, Y)'un vta2 discreto finito di ldp congiunta pxy(x,y); siano px(x) e py(y)
le due marginali relative alle due va X e Y. Consideriamo i due casi estremi:
a) X e Y indipendenti e allora pxy(x,y) = Px(x)py(y)
b) Y dipende funzionalmente da X, cioè esiste una funzione misurabile g(·) tale che
P[Y = g(X)] = 1.
Funzioni di regressione
Dal teoremino 9.7.30 sappiamo che il minimo della funzione: S(>.) = E[(Y - >.)2 ] =
I:7= 1 (y; - >.)2py (y;) è À = I: YiPY (y;) = E[Y]; in altre parole il baricentro µy minimizza
la somma (pesata sulla massa depositata sulle determinazioni y;) dei quadrati degli scarti
delle Yi da À, e il valore minimo è var[Y] (una cosa analoga l'avevamo già vista nel capitolo
1).
Ora dalla 9.43 sappiamo che il minimo di S[g(X)] = E[(Y - g(X))2] = I: I:[Yj -
i,j
g(x;)]2pxy(Xi,Yj) è dato da una n-upla di valori Àk = E[YIX = Xk] = I:Y/xy(t,r)

j Px xk
luogo dei baricentri a x fissato. Al variare di Xk, y = g(xk) = E[YIX = xk] "descrive" la
funzione di regressione di Y su X. Analogamente x = g(yj) = E[XIY = yj], luogo
dei baricentri a y fissato, è la funzione di regressione di X su Y.
Esempio 9.7.32 X(= X 1 ) e Y(= X 2 ) siano le va dell'esempio 9.2.3: X descrive

l'uscita di un tetraedro mentre Y è il massimo tra le due uscite.
Le funzioni di regressione g(x;) e g(yj) sono date daxn:
XIIInfatti, detta Px,y(x,y) la fd le marginali sono date da:

Px(l) = 1/4; Px(2) = 1/4; Px(3) = 1/4; Px(4) = 1/4;
py(l) = 1/16; py(2) = 3/16; py(3) = 5/16; py(4) = 7/16;
mentre le condizionate di Y dato X sono:
py 1x(lll) = 1/4;py 1x(2ll) = 1/4;py 1x(3ll) = 1/4;py 1x(4ll) = 1/4;
py 1x(ll2) = O;py 1x(212) = 1/2;py 1x(312) = 1/4;py 1x(412) = 1/4;
PY1x(ll3) = O;py1x(213) = O;py1x(3l3) = 3/4;py1x(4l3) = 1/4;
PY1x(ll4) = O;py1x(214) = O;py1x(314) = O;py1x(414) = 1;
e le condizionate di X dato Y sono
Pxiy(lll) = 1:Pxw(2ll) = O;pxw(3ll) = O;px 1y(4ll) = O;
Pxiy(ll2) = 1/3;px 1y(212) = 2/3;px 1y(312) = 0;Pxw(412) = O;
Px1y(ll3) = 1/5:Px1y(213) = 1/5:Px1y(3l3) = 3/5;Px1y(4l3) = O;
Px1y(ll4) = 1/7:Px1y(214) = 1/7:Px1y(314) = 1/7;Px1y(414) = 4/7.
I valori medi condizionati di Y dato X:
E[YIX = 1] = 1 · PY1x(lll) + 2 · PY1x(2ll) + 3 · PY1x(3ll) + 4 · PY1x(4ll) = 10/4
E[YIX = 2] = 1 · PY1x(ll2) + 2 · PY1x(212) + 3 · PY1x(312) + 4 · PY1x(412) = 11/4
E[YIX = 3] = 1 · PY1x(ll3) + 2 · PY1x(213) + 3 · PY1x(3l3) + 4 · PY1x(4l3) = 13/4
E[YIX = 4] = 1 · PY1x(ll4) + 2 · PY1x(214) + 3 · PY1x(314) + 4 · PY1x(414) =4
I valori medi condizionati di X dato Y:
E[XIY = 1] = 1 · Pxiy(lll) + 2 · Pxiy(2ll) + 3 · Pxw(3ll) + 4 · Pxiy(4ll) =1
E[XIY = 2] = 1 · Pxiy(ll2) + 2 · Pxiy(212) + 3 · Pxw(312) + 4 · Pxiy(412) = 5/3
E[XIY = 3] = 1 · Pxiy(ll3) + 2 · Pxiy(213) + 3 · Pxw(3l3) + 4 · Pxiy(4l3) = 12/5
E[XIY = 4] = 1 · Pxiy(ll4) + 2 · Pxiy(214) + 3 · Pxw(314) + 4 · Pxiy(414) = 22/7
211
3 4
;(;) = ~0/4 ii/4 ~3/41 : I 12/5 22/7
Si deduce che, in generale, g(x) -1-g(y).
Osservazione Se Y e X sono stocasticamente indipendenti allora, ad esempio, Vig(x;) =

E[YIX =xi]= E[Y], quindi g(x) =cost.
Rette di regressione
( :•) Se invece della funzione di regressione si cerca la retta di regressione allora occorre
trovare il minimo di
S[g(X)] = L L[Yi - g(x;)]2pxy(x;, Yi)

j
sotto il vincolo g(X) =bo+ b1X, quindi il minimo di
S(bo, b1) = L L(Yj - bo - b1x;)2pxy(x;, Yi) = E[(Y - bo - b1X)2].

j
Nel capitolo 1 abbiamo già osservato che
è una forma quadratica che ammette un unico punto stazionario di minimo assoluto.
I conti per trovarlo sono analoghi a quelli già svolti col metodo dei minimi quadrati
presentato nel capitolo 1. Rivediamoli:
(9.44)
Dalla prima delle 9.44 si ricava:
j j j
E[Y] E[X]
Dalla seconda delle 9.44 si ricava:
j j j
E[XY] E[X] E[X2 ]
Riassumendo:
{ E[Y] = bo+ b1E[X]
E[XY] = b1E[X 2 ] + boE[X] ::::}
2
{ -E[Y]E[X] = -b1E [X] - boE[X]
::::} E[XY] = b1E[X 2 ] + boE[X]
Perciò: E[XY] - E[Y]E[X] = b1{E[X 2] - E 2 [X]}, cioè: cov[X, Y] = b1 var[X], da cui
bi = cov[X, Y] . lTy = covJX, Y] . lTy = Pxy lTy

var[X] lTy lTxlTY lTx
Dalla seconda equazione E[Y] =bo+ b1 E[X], otteniamo:

(Ty
bo= E[Y] - Pxy-E[X].
lTX
Abbiamo infine: y = E[Y] - Pxy lTy E[X] + Pxy lTy x

lTx lTx
Definizione 9.7.33 La retta di regressione di Y su X è data da:
(Ty
y- E[Y] = Pxy-(x- E[X]) (9.45)
lTx
Analogamente, partendo da s(a, /3) = I:i I:)xi - (a+ /3yj )]2 f xy(Xi, Yj ), otteniamo la
retta di regressione di X su Y:
lTx
x - E[X] = Pxy-(y-
(Ty
E[Y]) (9.46)
Con facili conti, per trovare l'intersezione delle due rette, si mette in sistema la 9.46 con
la 9.45 e si ha:
y - E[Y] = Pxy ~; (x - E[X])
{
x - E[X] = Pxy :: (y - E[Y])
da cui segue
(x - E[X]) = l\'.Y· (x - E[X])
Se Pxy = =fl le due rette sono sovrapposte. In caso contrario c'è intersezione solo per
x = E[X] da cui y = E[Y].
cov[X,Y]
Oss. 11 Il coefficiente di correlazione lineare PxY = ---=---...:.
è uguale a =r=lse e solo
lTxlT Y
se vi è una dipendenza lineare quasi certa tra X e Y vale a dire se e solo se, su tutte
le coppie (x, y) delle determinazioni di (X, Y)' che non stanno sulla retta, è depositata
una probabilità nulla. Nel caso discreto finito tutte le coppie senza eccezione stanno sulla
retta.
Esercizio 9.7.2 Vediamo che se X e Y sono linearmente dipendenti, cioè che
Y = aX + /3 ===} Pxy = =fl.
Infatti
cov[X, Y] = cov[X, aX + /3]= E[(X - µX )(aX + /3- µax+i3)] =
= E[(X - µx )(aX + /3- aµx - /3)]= aE[X 2] - aµ3c - aµ3c + aµ3c = avar[X].
cov(X, aX + /3) avar[X] avar[X]
Px (aX +/3) = ------
lTXlTaX+/3
= ---;=:;==:;:--;:::::=::::;:====::::;:
vvar[X]vvar[aX + /3]
= ----=---==
var[X]H
= =f1 ·
'
. d' { lTx(Y - E[Y]) = =flTy(X - E[X])
quin i lTy(X - E[X]) = =flTx(Y - E[Y]) .
213
~ iD<ol
~ (1)
~
media della marginale f y (y J
media della marginale fX(H)
E[X]
"
E[X]
!Variabili X e Y dipendenti!
Non è detto che le rette di regressione siano anche funzioni di regressione. Le funzioni di
regressione si trovano infatti cercando i massimi e minimi liberi di S(g(X)) mentre per
le rette di regressione abbiamo un problema di massimi e minimi vincolati con g(X) =
bo + b1X. Perciò la retta di regressione di Y su X, per esempio, passa per i baricentri a
X fissato solo se è anche la funzione di regressione di Y su X.
Y=E[Y] (1)
Se X e Y sono indipendenti: cov[X, Y] =O{::} Pxy =O{=} { X = E[X]
(2)
(2)
(1)
Y= E[YJ
I X e Y indipendenti I
•=E[XJ

E sercizio 9.8.1 Data la seguent e matrice di probabilità congiunte
Y\X o 1 2
o 1/ 10 3/ 10 o calcolare cov[X, Y].
1 o 1/5 1/ 10
2 1/ 10 o 1/5
Esercizio 9.8.2 Date due va X 1, X2 di densità congiunta discreta fx,,x 2 (x 1x2), en-
trambe di media nulla, allora
cov(X1, X2) < O significa:
ìVl ìpl { valori di segno concorde per X 1 e X 2 sono più probabili
L.:...J L...=_J di quelli di segno discorde
ìVl ìpl valori di segno discorde per X 1 e X2 sono più probabili
L.:...J L...=_J di quelli di segno concorde
[!] [TI se X 1 cresce è certo che X2 decresca.
Esercizio 9.8.3 Siano X e Y due va finite e sia fx,y(·, ·) la funzione di densità con-
var(X + Y) = var(X) + var(Y)

cov(X, Y) > O
P(Y = Yj) = L, dx,y(x;,yj)
Esercizio 9.8.4 Indicare i valori di verità corretti per le seguenti affermazioni riguar-
danti la matrice di covarianza.
[!] CI] è costituita esclusivamente da quantità positive o nulle
IT1l f'"pl { le quantità positive o nulle sono sulla diagonale principale mentre
L...'.:....J
L...=_J fuori dalla diagonale ci possono essere quantità di segno qualunque
[!] CI] è costituita da quantità positive o nulle salvo che sulla diagonale principale
IT1l f'"pl { è costituita da elementi tra loro uguali se sono in posizione
L...'.:....J
L...=_J simmetrica rispetto alla diagonale principale
~
esiste V vettore aleatorio con un numero finito di determinazioni
F è costituita da elementi tutti > O
F è una matrice simmetrica
IT1l f'"pl { se ha gli elementi sulla diagonale principale tutti nulli
L...'.:....J
L...=_J allora ha tutti nulli anche gli altri elementi
Esercizio 9.8.5 Sia f(x,y) = 6xy 2I[o,i]x[O,I](x,y) (dove /[o,i]x[O,I](x,y) è la funzione

indicatrice del quadrato {O::; x::; l; O::;y::; l} in IR.2 ) la densità congiunta di due va X
e Y. Dopo aver trovato fx (x) e fy(y) le due marginali rispettivamente di X e Y apporre
i corretti valori di verità alle seguenti domande:
V~v X e Y sono ~correlate

I F:FI fx(x)fy(y) !XY(x,y)
Y ha varianza finita
X non possiede funzione generatrie di momenti
Esercizio 9.8.6 Dato un qualunque vettore aletorio (X 1 ,X2, .. ,Xn) la matrice di cova-
rianza cov[Xh, Xk], 1 ::; h, k ::; n:
IVI f'"pl { :3 sicuramente se il vettore aleatorio possiede
L...'.:....J
L...=_J solo un numero finito di determinazioni
V~ I F:I i costituitada dementi tutti positivi
gli elementi della diagonale principale sono tutti nulli
se esiste è una matrice simmetrica
IVI f'"pl { se ha gli elementi sulla diagonale principale tutti nulli allora
L...'.:....J
L...=_J ha tutti nulli anche gli altri elementi
Esercizio 9.8.7 Sia f(x,y) = (x+y)I[o,i]x[O,I](x,y) (dove I[o,i]x[O,I](x,y) è la funzione

indicatrice del quadrato {O ::; x ::; l; O ::; y ::; l} in R 2 ) la densità congiunta di due va
X e Y. Dopo aver trovato fx(x) e fy(y), le due marginali rispettivamente di X e Y,
apporre i corretti valori di verità alle seguenti domande:
I v~v r:FI fx(x)fy(y) ~!XY(x,y)

X e Y sono correlate
Y ha varianza finita
X non possiede funzione generatrice di momenti
215
Esercizio 9.8.8 Siano X, Y e Z tre variabili aleatorie equidistribuite incorrelate, dotate
di momento secondo finito. Allora:
V F var[X + Y + Z] = 3var[X]
V F E[X Z] = cov[X, Z]
V F E[XY] = (E[Z]) 2
V F può esistere var[Z] e non E[X]
V F Pxz=-l
V F va;[aX + bY + cZ] = a 2 var[X] + b2 var[Y] + c2 var[Z]
Esercizio 9.8.9 Siano X una va di Poisson di parametro À e Y una va di Poisson di

parametro µ indipendenti
a) scrivere la densità congiunta di X e Y.
b) scrivere la matrice di covarianza
c) calcolare P[X = hlX + Y = j]; h::; 1
;!
Esercizio 9.8.10 Siano X e Y due variabili aleatorie qualsiasi dotate di momento se-
condo finito. Allora:
E[XY] = E[X]E[Y]
F Va E JR, E[aXIY] = aE[XIY]
F V(..\,v) E JR, var[..\X + vY] > ..\2 var[X] + v2 var[Y]
F V(..\,v) E JR, var[..\X + v] = ..\2 var[X]
;!
Esercizio 9.8.11 Siano X e Y due variabili aleatorie qualsiasi dotate di momento se-
condo finitoxm. Allora:
E[X+Y]=E[X]+E[Y]
F E[XY] = E[X]E[Y]
F E[X/Y] = E[X]/E[Y]
F E[XY] = E[X]EIY]
Esercizio 9.8.12 Date tre va X, Y e Z e due numeri reali a e b strettamente positivi,

dire quali delle seguenti relazioni sono sempre vere.
V F var[X + a] = var[X] + var[a]
V F var[X + a] = var[X] + a
V F var[X +X]= 2var[X]
V F var[X + Y] = var[X] + var[Y]
V F var[X + Y] = var[X] + var[Y] + 2 cov[X, Y]
V F var[X + Y + Z] = var[X] + var[Y] + var[Z] + 2 cov[X, Y, Z]
. d'
l a ma t rice . d' X y , [ var[X] cov[X, Y] ]
[!][TI i covarianza i e e: cov[X, Y] var[Y]
[!][TI [ var[X] cov[X, Y] ] =/=[ var[X] cov[X, Y] ]

cov[X, Y] var[Y] cov[Y,X] var[Y]
[!][TI la matrice di covarianza di X e Y può talvolta essere [ ~ ; ]
Esercizio 9.8.13 Rispondere alla domanda relativa ai grafici a), b}, c) d} in figura
considerando che sui punti massa è depositata la densità fx,Y(x,y) congiunta di due va
X e Y discrete finite.
XIIIPer l'ultima sia Y = 2, va costante. Allora E[XY] = E[X]E[Y] {==} E[X 2] = E 2 [X]
Dove c'è
a] y 1/3 1/3 b] y 1/4 1/4 indipendenza
2 2
tra X e V?
1/3
1 1
X
1 2
masse equidistribuite
e] d]
y 1/16 1 /16 y
2 n
3/16 1/16
1
2
1
X
1 2
masse non equidistribuite masse equidistribuile
aJ DCTI bJ D'.JD cJ DCTI dJ D'.JD

Esercizio 9.8.14 Date le variabili aleatorie X, Y, X 1 , X 2 , ... ,, XN tutte dotate di momen-
to secondo finito, apporre i corretti valori di verità alle seguenti affermazioni:
O'.] [TI Va E JR, cov[aX,aY] = acov[X, Y]
O'.] [TI Va E JR cov[a,Y] = O
V F cov[I:;1':1 Xi, Y] = I:;1':1 cov[Xi,Y]
V F E[XY] = µxµy + cov[X,Y]
V F cov[X,Y] =O{::}X, Y sono indipendenti
V F IE[XY]I::; E[X 2 ]E[Y2 ]
V F IE[XY]I::; VE[X 2 ]E[Y2 ]
:~:r::::ic:·:
v,:::~l
1:D[a:::al:;':~:
:,:)'.~:::,:,
(:, :::n::,::
~::::: ~:
,::b,)"
a31 a32
meri reali. Indicando mx,,x 2(t 1, t 2) con la fgm di X eventualmente esistente, e con
Y = (Y1 , Y2, Y 3 )T = AX + b il vettore risultante dalla trasformazione lineare di X,
V basta che X sia discreto finito per garantire l'esistenza di mx,,x 2(t 1,t 2)
potrebbe esistere mx,,x 2(t 1, t2) e non E[Xf]
my(t1, t2, t3) = e11b1+t 2b2 +t 3 b3 mx(a11t1 + a21t2 + a31t3, a12t1 + a22t2 + a32t3)
mx,,x2(t1,t2) = E[et,x,]. E[et2X2]
mx,,x 2(t 1,t 2) = E[e 11X1] · E[e 12X2] se e solo se le Xi sono indipendenti
se le Xi sono indipendenti e W = X1 + X2 allora mw(t) = mx, (t) · mx 2 (t)
Esercizio 9.8.16 La funzione generatrice di momenti E[exp(tTX)] di una vtan X:

[!]_O corrisponde in modo univoco alla funzione di densità fx(x 1, ... , Xn) di X
D1J:'.J non può essere utilizzata per trovare il vettore media µ di X
217
Esercizio 9.8.17 Dire in quale dei seguenti grafici sono indicate correttamente le fun-
zioni di regressione nell'ipotesi che siano retteXIV:
3)
•
• • EfYIX=x}
• • •
EfXIY=y} EfXIY=y} E/.XJY=y} EfXIY=y}
Figura 9-1:
Esercizio 9.8.18 Dato un vtan X= (X 1 , ... , Xn)', A una matrice (k, n), b un vettore
di costanti reali (k, 1), Y = AX + b e Cx = [cov[Xi, Xjl] = [c;j], Apporre i corretti
F Cx esiste sempre
può esistere Cx e non Cy
se esiste Cx allora Cy = ACxA'
se nessuna Xi è costante con probabilità l allora esiste 1 C:x
Cx è simmetrica se e solo se X è ha una distribuzione particolare
può talvolta essere Cii = O e Cij =I-O per qualche j
Esercizio 9.8.19 Siano X e Y due va indipendenti di media e varianza finite. Allora:
la curva di regressione di X su Y coincide
con la curva di regressione di Y su X
la curva di regressione di Y su X è una retta
Esercizio 9.8.20 Supposto che la retta di regressione di X 1 su X2 coincida con quella
di X 2 su X 1 apporre i corretti valori di verità alle seguenti affermazioni:
:la, b, c E JR: P(aX 1 + bX2 + c =O)= 1
\t'A,B C JR: P({X1 E A} n {X2 E B}) = P({X1 E A})P({X2 E B})
:lE >O: \fa, b, c E JR, P(I aX 1 + bX2 + c I::;E) > O
;!
Esercizio 9.8.21 Date due qualunque variabili aleatorie X e Y dotate di momento se-
condo finito, allora:
E[XY]=µxµy+cov[X,Y]
F cov[X, Y] =O::::} X, Y sono indipendenti
F Se X rv N(O, 1) e Y = X 2 allora cov[X, Y] = O
F I E[XY] 1::;VE[X 2]E[Y2]
Esercizio 9.8.22 Siano X e Y tali che cov[X, Y] = O,E[X] = -2 e E[Y] = 1. Calcolare
E[XY].
cov[X, Y] = E[XY] - E[X]E[Y] =O::::} E[XY] = -2
XIV Sappiamo che, nel caso discreto, le funzioni di regressione E[YIX = x] e E[XIY = y] rappresentano
il luogo dei baricentri delle masse rispettivamente a x e y fissati. Segue che se, per esempio, a x fissato
c'è un solo punto massa la funzione di regressione (in questo caso la retta) deve passare di lì. Un discorso
analogo vale per y. Di conseguenza il grafico accettabile è ...
Esercizio 9.8.23 Siano X e Y due va di momento secondo finito. Sia Pxy il coefficiente
di correlazione. Apporre il corretto valore di verità alle seguenti affermazioni:
F se cov[X, Y] = O allora P[Y = aX + b] = l
,............,.,_.....,
se Pxy = ±1 allora P[Y = aX + b] = l
se cov[X, Y] = O allora X e Y sono indipendenti
se cov[X, Y] = O allora Pxy = O
se cov[X, Y] = 1 allora X - Y rv N(-l; 1)
Esercizio 9.8.24 Sia (Xi, X 2)' un vettore aleatorio continuo, g(.) una funzione {misu-
rabile) da IR.2 a IR e E[g(Xi,X 2)1Xi = x] il valore atteso di g(Xi,X 2) condizionato da
Xi = x. Indicare l'unica risposta valida:
D E[g(Xi, X2)IXi = x] = x JR2
g(x, y)fx,x 2 (x, y)dxdy
[B E[g(Xi,X2)IXi = x] = JRg(x,y)fxf;~i:t) dy
D E[g(Xi, X2)IXi = x] = E[g(Xi, X2)] · E[Xi]
Esercizio 9.8.25 Sia (Xi, X 2) un vta2 e g: IR---+IR misurabile. Allora:

F E[(X2 - E[X21Xi]) 2] ~ E[(X2 - g(Xi))2]
~,..,.,........, E[(X2 - E[X21Xi]) 2] = E[(X2 - g(Xi))2] se e solo se P[E[X2IXi] = g(Xi)] = 1
E[X2IXi = x] = xE[X2]
F E[X 21Xi = x] si chiama curva di variabilità di X 2 su Xi
F se X2 = k costante allora E[X2IXi = x] = O
Esercizio 9.8.26 Sia (Xi, X 2) un vta2 e g: IR---+IR misurabile. Allora:

V var[X2IXi = x] = E[(X2 - E[X2IXi = x])21Xi = x]
V var[X2] = var[E[X2IXi]] + E[var[X2IXi]]
V g(Xi) = E[X2IXi] rende minima E[(X2 - g(Xi)) 2]
var[Xi] rende minima E[(Xi - c) 2]
P[(Xi, X2) E g(x)] = 1 allora Vxvar[X2IXi = x] = O;
Esercizio 9.8.28 Sia (Xi, X 2)' un vettore aleatorio. Posto a1

= E[(E[X 2]-E[X 21Xi])2]
e ak = E[(X 2 -E[X 21Xi])2], rispettivamente varianza spiegata e varianza residua di X 2,
indicare l'unica risposta valida:
var[X2] = ai - ak
var[X2] = ai + ak
var[X2] =ai+ ak + cov[Xi, X2]
Esercizio 9.8.29 Sia (X, Y) un vettore aleatorio di momenti secondi finiti. Apporre i
corretti valori di verità alle seguenti affermazioni:
la retta di regressione di ....
219
ay
C!JD Y su X è data da: Y - E[Y] = Pxy-(X
ax
- E[X])
cov(X, Y)
C!JD Y su X è data da: Y - E[Y] = 2
ax
(X - E[X])
E[Y] = Pxy(X - E[X])
BEE Y su X è data da: Y -
X su Y è data da: X - E[X] = Pxy(Y - E[Y])
cov(X, Y)
C!JD X su Y è data da: X - E[X] = 2
ay
(Y - E[Y])
Esercizio 9.8.30 Il coefficiente di correlazione lineare tra le due va X e Y aventi de-

terminazioni come in figura:
è necessariamente negativo
è necessariamente positivo
può essere negativo o nullo
nessuna delle precedenti
Commento: questo test serve solo a mettere in guardia contro ciò che sembra un'e-
videnza conclusiva. Il coefficiente di correlazione lineare segnala una relazione lineare
con probabilità 1 tra X e Y nel senso che se p = ±l allora :la, b : P[Y = aX + b] = 1.
Ma p può essere vicino a 1 anche se la relazione non è lineare, come mostra questo
esempio:
XI X2 X3 X4
X 1 2 3 4
Y = X~ 1 4 9 16
l l l l
P [X = xi] = P[Y = y;]
4 4 4 4
Allora
E[X] = 2.5; var[X] = 1.25; E[Y] = 7.5; var[Y] = 32.25; cov[X, Y] = 6.25;
p = cov[X, Y] = 6.25 = 0 _98437

jvar[X]var[Y] yl.25 · 32.25
Veniamo al test. Per capirne la soluzione e fare conti dimostrativi cambiamo leggermente
la figura:
0.5
I
; 0.5 1
-1
Le coordinate dei punti P; che stanno sulla bisettrice R 1 del f!" e 4° quadrante sono
i -i
(x;, y;) = (10 ; 10 ) con i = -10; -9; ... ; 10 mentre quelle dei punti Q; che stanno sulla
bisettrice R 2 del 1° e :I° quadrante sono (-0.5; -0.5) e (0.5; 0.5). Se mettiamo sui punti
P; (che sono 21) la stessa massa M 1 e sui punti Q; (che sono 2 escluso quello che sta
nell'origine) la stessa massa M 2 sarà 21 · lvfi + 2 · NJ2 = 1. Costruiamo il nostro esempio
4 1
prendendo !1'1 2 = - 0 . Allora M 1 = - 2-. Ovviamente, per come sono state messe le cose
1 5· 1
è
E[X] = O;E[Y] = O.
Ma è anche
E[X 2] = E[Y 2 ] = var[X] = var[Y] = 2.733
e
1.267
cov[X, Y] = E[XY] = 1.267;p = 2 _733 = 0.46359 > 1
Quindi il legame tra X e Y suggerito dai punti massa su R1 è solo apparente. In realtà
l 'attrazione tra le variabili è determinata dalla distribuzione congiunta Px ,Y e questa è
molto più intensa su R 2 • Quindi c'è una specie di legame lineare motivato dalla presenza
4
di 5 della massa totale su R 2 , ma p che indica questa correlazione non è vicino a l
perché la relazione è indebolita dalla dispersione delle masse su R 1 .
Come vedete molti dei concetti che riguardano la probabilità (ma anche la statistica) sono
sfuggenti e, a volte, ingannevoli. Non sorprendetevi. Stiamo occuppandoci dell'Incerto.
Capitolo 10
Curati dei tuoi pensieri ...
diventeranno le tue parole.
Curati delle tue parole ...
Diventeranno le tue azioni.
Curati delle tue azioni ...
diventeranno le tue abitudini.
Curati delle tue abitudini ...
diventeranno il tuo carattere.
Curati del tuo carattere ...
diventerà il tuo destino
Frank Outlaw ( attribuito '?'?)
Argomenti speciali
10.1 Trasformazione integrale di probabilità

Sia X una va continua e Fx(·) la sua fdr. Supponiamo che Fx(·) sia una funzione
strettamente crescente in JR. Allora esiste la sua inversa Fx 1 (·). Possiamo considerare
la nuova va U = u(X) = Fx (X). Ovviamente O ::; U ::; 1, quindi la sua distribuzione
è concentrata in [O,l] cioè Fu(u) = O se u::; O e Fu(u) = 1 se u ~ l. Nell'intervallo
O< u < l possiamo scrivere::
Fu(u) = P[Fx(X)::; u] = P[X::; Fx 1 (u)] = Fx(Fx 1 (u)) = u.
Abbiamo perciò dimostrato il seguente:
Teorema 10.1.1 (:•) Se X è una va la cui fdr Fx (·) è strettamente crescente allora
U = Fx(X) ha distribuzione uniforme in {0,1}.
La trasformazione U = Fx (X) si chiama trasformazione integrale di probabilità.
Questo teorema ha la seguente formulazione equivalente:
Teorema 10.1.2 (:•) Se U ha distribuzione uniforme in [O,l] allora X= p- 1 (U) ha
funzione di distribuzione F( ·). 1
Infatti:
P[X::; x] = P[F- 1 (U)::; x] = P[U::; F(x)] = F(x).
1Negli studi che venivano condotti a Los Alamos sulla bomba atomica per realizzare simulazioni di-
222 CAPITOLO 10. ARGOMENTI SPECIALI
10.2 Motori aleatori
Si presenta spesso il problema di generare determinazioni che riproducano un campione
estratto da una certa distribuzione (vedi capitolo 11). Per fare ciò è necessario disporre
di uno strumento che simuli la casualità intrinseca della distribuzione aleatoria che ci
interessa.
Fu (rnd)
rnd= Fu (rnd)
rnd x=F·'x(rnd)
Lo strumento più semplice di cui disponiamo è un motore per generare numeri casuali
con distribuzione uniforme in [O,l]. Grazie alla trasformazione integrale di probabilità
disponiamo allora di un metodo per generare un campione da una va la cui fdr sia F(·).
Prendiamo per esempio il generatore di numeri casuali in [O,l] di Excel®.
Per spiegare il procedimento si osservi la figura qui sopra: il computer sceglie un numero
casuale rnd. Questo valore punta a rnd = Fu(rnd) che a sua volta punta a Fx(x) da
cui si arriva all'unico X= Fx 1 (x) corrispondente.
Generare n numeri rndn equivale a campionare n volte da una popolazione U distribuita
uniformemente in [O,1] ma anche da una popolazione X distribuita secondo Fx (x) e i
valori ottenuti sono Xn = Fx 1 (rndn),
Esempi
Distribuzioni continue
Esponenziale Per campionare da questa distribuzione X, basta considerare la sua fdr
Fx(x) = (1 - e->-x)I[o,+oo)(x);trovare l'inversa Fx 1 (u) = -±ln(l - u)I[o,ii(u). Per
rette del comportamento della diffusione di neutroni prodotti in un procedimento di fissione di atomi di
uranio durante una reazione a catena, era necessario disporre di campionamenti da varie distribuzioni di
probabilità. La mitologia vuole che si generasse un campionamento casuale da una esponenziale misu-
rando i tempi di attesa del decadimento di sostanze radioattive (la cosa funziona talmente bene che oggi
si possono ottenere numeri casuali generati in questo modo sul sito http://www.fourmilab.ch/hotbits/.
Grazie alla trasformazione integrale si risaliva poi a una distribuzione casuale in [O, 1] e da qui si poteva
arrivare a ogni altra distribuzione.
223
1
quanto detto se U è uniforme in [O,1], X =- ~ ln(l - U)I[o,i) (U) è una va esponenziale
con fdr Fx(x) = (1- e--'x)I[o,+oo)(x).
Normale: primo metodo Nel caso di una distribuzione la cui funzione di ripartizione
non è ricavabile in forma esplicita il metodo della trasformazione integrale non si può
applicare perché non è possibile il calcolo della sua inversa. È quindi necessario ricor-
rere ad altri metodi per generare un campionamento da tale distribuzione. Un metodo
possibile discende dal teorema centrale del limite (vedi capitolo 11). Se si scelgono va
- o.5
_~_1_U_;
1 1
Un uniformi tra [O,l], E[Un] = 2;var[Un] 12 allora Zn = ~n"--==,-- ~ N (O;1) e
f;f
~1Ui - 0.5
generati n numeri casuali u; si hanno approssimativamente n campioni z; = _n~==--
ex
f;f
Normale: secondo metodo La fdr F(x) = -- la cui funzione di densità è f(x) =
1 + ex
( 1 exex ) 2 viene utilizzata per approssimare la distribuzione N(0; 1). Allora invece della
+
vera inversa -1 (x) della N(0; 1) si usa F;/(u) = [ln(u)-ln(l- u)]/1o,i)(u). Per quanto
detto se U è uniforme in [O,l], X = [ln(U) - ln(l - U)]/[o,i)(U) è una va con fdr
ex
Fx(x) = --.
1 + ex
Distribuzioni discrete
Quanto sopra detto vale solo per le distribuzioni continue. Vediamo come c1 s1 può
comportare con distribuzioni discrete.
F_jxi +,) 1-------------

y
F_jx;)
XJ
Pensiamo ora a una distribuzione discreta X le cui determinazioni siano Xi, i= 1, 2, ....
Sia Fx(x) il grafico della sua fdr. Generiamo un numero casuale y tra [O,l]. Mettiamo
y sull'asse delle ordinate di Fx(x) : riterremo di aver osservato Xi se Fx(Xi-I) < y::;
Fx (xi) avendo posto Fx (xo) = O. Se le determinazioni Xi sono in numero n finito avremo
osservato Xn se Fx(Xn-1) < y::; 1 = Fx(xn),
Osservazione importante
I computer sono macchine deterministiche. Non generano numeri casuali ma pseudo-
casuali che simulano un caos deterministico che assomiglia al caso.
generati da Exce/ generati dalla formula
Nella figura mostriamo duemila punti generati casualmente da Excel® nel quadrato di
lato unitario (a sinistra) e generati con una formula caotica (a destra). La formula è:
I(j + 1) =a· I(j) mod(m) (10.1)

Nella 10.1 la scelta ideale dei parametri a e m è la seguente
a= 16807 = 75 m = 2147483647 = 231 - 1 (10.2)

La partenza è I(l) = 1. I numeri generati con 10.2 si ripetono con un ciclo di circa due
miliardi passi. A ogni passo per ottenere un numero appartenente all'intervallo [O,l]
si. pren d e --.
I(j) Ne11a figura qm. sopra 1e ascisse
. d ei. punti . caotici
. . sono generate con i.
m
parametri settati come indicato nella 10.2 mentre per le ordinate si è scelto a= 168007.
Osservazione: Esistono test per verificare la bontà dei numeri casuali generati. Chi è
interessato può consultare: E.Battistini, Probabilità e Statistica, un approccio interattivo
con Excel, McGraw-Hill, 2004, oppure D.Knuth, The Art of Computer Programming,
Seminumerical Algorithms, Volume 2, Addison-Wesley, 1997.
10.3 Metodo Monte Carlo

Un nome pittoresco per descrivere uno strumento di simulazione estremamente potente.
Fu ideato da Stanislaw Ulam, un matematico polacco che ebbe un ruolo decisivo nel
progetto Manhattan, di creazione della bomba atomica. Ulam, che fu allievo di Stephan
Banach, e intimo amico di Enrico Fermi e di John von Neumann, si era rifugiato negli
Stati Uniti prima della Seconda Guerra mondiale. Ecco, dalla sua autobiografia Adven-
tures of a mathematician, University of California Press, 1991, pag. 196, il racconto di
come gli venne questa idea.
"The idea for what was later called the Monte Carlo method occurred to me when I
was playing solitaire during my illness. I noticed that it may be much more practical to
225
get an idea of the probability of the successful outcome of a solitaire game (like Canfield
or some other where the skill of the player is not important) by laying down the cards,
or experimenting with the process and merely noticing what proportion comes out suc-
cessfully, rather than to try to compute all the combinatorial possibilities which are an
exponentially increasing number so great that, except in very elementary cases, there is
no way to estimate it. This is intellectually surprising, and if not exactly humiliating, it
gives one a feeling of modesty about the limits of rational or traditional thinking. In a
sufficiently complicated problem, actual sampling is better than an examination of all the
chains of possibilities"".
Con questo metodo vengono applicate tecniche statistiche per risolvere problemi che non
hanno in sé niente di aleatorio.
Calcolo di un integrale Un classico esempio a proposito è quello del calcolo dell'in-
f
tegrale definito 01 f(x)dx di una funzione integrabile secondo Riemann nell'intervallo
(O, 1). Per comodità supporremo che O::; f(x) ::; 1, caso a cui potremo comunque sempre
ricondurci. Definiamo una va f(X), con X distribuita uniformemente tra (O, 1). Allora
f
E[.f(X)] = 01f(x)dx.
Potendo generare N numeri casuali compresi tra O e 1 potremo utilizzare come stimatore
di E[.f (X)] la media campionaria (pag. 260)
Y = .f(X1) + .f(X2) + ... + f(XN)

N .
Per il teorema centrale (pag. 267) Y ha una distribuzione approssimativamente normale
a2
di media E[.f(X)] e di varianza N dove a 2 è la varianza di .f(X), cioè a 2 = f01J2 (X)dx-
E2[.f(X)]. Per N abbastanza grande da poter considerare Y sufficientemente normale la
probabilità che IY - E[Y]I = IY - f01 f(x)dxl ~ 4ay = 4 rN è minore di 10- 4 (come si
evince dalla tabella della gaussiana a pag. 156).
Precisiamo meglio questo concetto.
Supponiamo di dover calcolare:
l g(t)dt
Prendiamo una funzione di densità fx (t) su O. Allora è noto che
E[g(X)] = l g(t)fx(t)dt (10.3)
e che, di conseguenza, una stima di fn g(t)fx (t)dt è data dalla media campionaria della
va g(X), cioè da:
l n
- I: g(xi)
n i=I
II ... L'idea di ciò che più tardi sarebbe stato chiamato Metodo Monte Carlo, mi venne durante la
mia malattia, mentre ammazzavo il tempo facendo solitari. Avevo notato che per avere un'idea della
probabilità di riuscita di un solitario ( come il Canfield o simili, dove l'abilità del giocatore non conta
molto) sarebbe stato assai più pratico distribuire sul tavolo le carte, provare il solitario varie volte, e
annotare qual è la frequenza dei giochi riusciti, piuttosto che calcolare tutte le combinazioni possibili;
infatti tali combinazioni, data la loro crescita esponenziale, sono numero così grande che, tranne nei casi
più semplici, non sono trattabili praticamente a causa della complessità di calcolo. Ciò è sorprendente
e, anche se non proprio umiliante, ci dà l'idea dei limiti del pensiero razionale. In problemi abbastan-
za complicati, un campionamento adeguato risulta migliore dell'esame esaustivo di tutte le catene di
possibilità.
dove gli x; sono campionati da X secondo la distribuzione narrata da fx (t).
Lo stimatore è evidentemente
l n
- I: g(X;)
n i=I
Per il TCL
n
I:
.!_ g(X;) ~ N(E[g(X)];
i=I
var[~(X)J)
dove
var[g(X)] = E[g2(X)] - E 2 [g(X)] = i g2(t)fx(t)dt-{fn g(t)fx(t)dt}

2
Uno stimatore di var[g(X)] è dato da:
;;:I1g2(X;) -
l n { 1 n
;;: i~ g(X;)
}
2
È quindi evidente per esempio che, per la normalità asintoticam:
n i=I
I:
P[E[g(X)] - 2J var[~(X)J ::; .!_ g(X;)::; E[g(X)] - 2J var[~(X)l] '.:::'.0.95 (10.4)
e che quindi:
l n -l I: g
n 2 (Xi)-
{ l
- I: g(Xi)
n }
- I: g(X;) - 2 n=, n,=• <

n
n i=I
2
l l
~ g 2 (Xi)- ~ g(X;)
n { n }
l n ;;: ;;:
::;Ing(t)f x (t)dt ::; -n I: g(X;) + 2
i=I
n
è un IC asintotico (vedi pag. 337) di livello 'Y = 0.95 per Ing(t)f x (t)dt = E[g(X)].
Supponiamo ora di voler calcolare
lalOe-t2 dt
Facendo fare il conto, per esempio a Matlab, che usa algoritmi di approssimazione molto
efficienti, si ottiene:
lalOe- 12
dt = 0.88623
Noi lo calcoleremo applicando il metodo Monte Carlo in due modi diversi, e poi ac-
cenneremo a un metodo che teoricamente è perfetto ma dal punto di vista numerico fa
orrore.
Illcome si evince dalla tabella della gaussiana a pag. 156 avendo preso in intervallo di semiampiezza
2a.
227
Monte Carlo 1
1
Partiamo da (10.3) prendendo fx (t) = 10 1[0;10] (t), cioè:
X,.__,U(0; 10)
uniforme nell'intervallo (O;10). Si ha:
-l I:n e-xi
2
E[g(X)]
'.::::'. = -1 110 e-t
2
dt
n i=l 10 o
10
Quindi un valore approssimato di f010 e-t 2
dt è dato da - I:n e-xi.
2
Dove gli X; sono
n i=l
campionati da X.
Facciamoci aiutare da Excel, scegliendo prima n = 100 campioni, poi n = 400. Poiché gli
X; vanno campionati dalla uniforme tra O e 10, per noi sarà
Vi; x; = 10 · casuale().
f
I grafici che vedete qui sotto mostrano 100 diverse stime di 010 e- 12 dt ottenute con 100
campioni da X (grafico a sinistra) e con 400 campioni da X nel grafico di destra.
o,, 0,0
o,, o,,
'·' o,,
E[ g(U)l = fIl g(t)fu(t)dt ~ l_

n
L,g(u) ==E[g(U)l
Si osservi come queste stime ballano intorno al valore vero (che, in questo caso, noi
conosciamo e lo abbiamo indicato con una linea, ma che quando si deve calcolare un
integrale ovviamente non si conosce). L'ampiezza del ballo è ovviamente maggiore per
un campione piccolo (n = 100) che non per quello grande (n = 400). Il ballo è tipico
delle stime Monte Carlo. Ogni stima non dipende dalla altre e ogni volta che faccio una
stima, la variabilità è la stessa e influisce sul comportamento random del risultato.
L'unica cosa che si può fare per rendere la stima più affidabile è aumentare la dimensione
del campione, come si vede anche dai garfici della figura.
Ripetiamo quanto abbiamo già detto in (10.4): per il teorema centrale, ~
n
f: e-x;
i=l
ha
una distribuzione approssimativamente normale di media E[e-X 2

] = 1
10 f010 e- 12dt e di
2
varianza ::_ dove a 2 è la varianza di e-X2, cioè
n
a2 = -1
10
110
0
e- 2 t 2 dt - ( 110 )
-1
10 0
e-t 2
dt
2
Per n abbastanza grande la probabilità che
è minore di 10- 4 (come si evince dalla tabella della gaussiana a pag. 156) e comunque
la differenza va a O come fa.
Calcolo di 1r
Si consideri il quadrato Q di lato r su cui è assegnata una distribuzione di probabilità

uniforme (P[Q] = 1), e il sottoinsieme S di Q rappresentato dal settore circolare indicato
in figura con centro in A e raggio r.
Indichiamo con (U1, U2), dove Ui ha distribuzione uniforme in [O,l], un numero a caso
scelto nel quadrato Q. La probabilità che un punto scelto a caso nel quadrato appartenga
, area(S) 1r
a Se data da P[S] = (Q) = - .
area 4
Si campioni ora N volte da Q: sia sN il numero di punti campionati che cadono in S, cioè
il numero di punti tali che le loro coordinate soddisfino la disuguaglianza + U:j ::;r. vUf
Si ponga PN[S] = 8;.Allora:
Monte Carlo 2
Utilizzando una tecnica analoga a quella esposta nell'esempio del calcolo di 7r, si consideri
la seguente figura:
229
li--,----------------------,
Q
casuale(O;I) 1---......-- ------e
A
o casua/e(O;1O) IO
#(Q E A);#(Q E 0.)= n
f
Poiché 010 e-t 2 dt rappresenta l'area di A C O, prendendo un punto Q a caso 1v nel
rettangolo O= (O; 10) x (O; 1), la probabilità che questo punto finisca in A è data da:
rIO t2
P[Q E A] = area(A) = Jo e- dt.
area(O) 10
Per utilizzare Monte Carlo in questo secondo modo, generiamo dapprima n = 100 e poi
n = 400 punti a caso in O. Facciamoci aiutare ancora da Excel. Il generico punto a
caso avrà coordinate (10 · casuale(); casuale()). Tutte le volte che casuale() < exp[-(10 ·
casuale())2)] allora Q E A.
Per la legge dei grandi numeri
P[Q E A]= area(A) ~ #(Q E A) = #(Q E A)

area(O) #(Q E O) n
da cui:
area(A) ~ area(O)-#_(Q_E_A_)
n
Dopodiché
1,5
'·'
,.,
0,1
Ae n::::}
area(A) = P(A) = #(Q e A)
area(O.) #(Q E O.)
IV a caso significa che la distribuzione che guida la posizione di Q è uniforme su !1.
Anche in questo caso vediamo i due grafici che si riferiscono alla ripetizione per 100 volte
di un campionamento con n = 100 (a sinistra) e n = 400 (a destra). Anche qui si osserva
quanto già illustrato nel precedente esempio Monte Carlo 1.
Monte Carlo 3
Ricordando che:
+oo xk O +oo x2k
ex= I: - ===} e-x- = I: (-l)k-,
k=O k! k=O k.
e che le convergenze delle due serie rispettivamente a ex e e- x2 sono uniformi su JRe che
vale il terorema di integrazione per serie, possiamo scrivere:
110
O
e-t 2
dt=
110+oo
O
I::(-ll-=I::--- +oo (
k=O
t2k
k! k=O k!
l)k 110t kdt=I:+oo
O
2
k=O
( l)k
-
k!(2k + 1)
102 k+ 1 (10.5)
Ora, la serie che rappresenta l'integrale è una serie a termini di segno alternato. Quindi
se arresto la somma al posto m - 1 l'errore che commetto nel prendere la somma finita
invece del valore vero della serie, non supera in modulo il primo termine trascurato, cioè:
102mk+l
m!(2m + 1)
Come si può facilmente vedere facendo i conti con Excel la serie in (10.5) non è imme-
diatamente a termini decrescenti. E i primi termini sono molto grandi, come è molto
grande la sua somma approssimata.
m
1oim 1C
-t-l
f (- lt 102k+1
m!(2m + 1) k =O k !(2k + 1)
2 10000 9676.66667
50 3.2554. 10"4 2.15. 10" 4
100 5.3309 · 104 U 2.64548 · 104 U
150 5.81487 E· 10"" 2.3111 · 10""
151 3.82549 · 10"" - 1.5144. 10°"
Per esempio, arrestandosi al posto 150 l'errore che si commette non supera in modulo
3.82549 · 1035 , un errore enorme. E la somma approssimata della serie, che dovrebbe
f 10
stimare 0 e-t 2 dt = 0.88623, vale 2.3111 · 1035 .
Un'altra cosa da considerare è quella che, se m > 153, Excel restituisce #NUM! perché
non ce la fa a calcolare il fattoriale al denominatore.
Calcolo del volume della ipersfera

La formula che dà il volume della ipersfera di raggio r immersa in JRk è:
1rkf2rk
(10.6)
r( ~ + 1)
Per esempio, nel caso di k = 3 si ha la nota formula:
4
-1rr3
3
231
Volendo calcolare il volume della ipersfera di raggio r utilizzando la tecnica dell'esempio
precedente, è opportuno pensare che l'ipersfera sia iscritta in un ipercubo O di semi-lato
pari a r.
Per semplificare l'esposizione prendiamo r = l. L'ipercubo O avrà volume 2k. Sia §
l'ipersfera iscritta che ha diametro pari a 2.
Per ogni Q, sia Q = (x1,x2, ... ,xk) un punto scelto a caso in O. Allora ogni x; è un
numero casuale in ( -1; 1) cioè
x; = -1 + 2 · casuale().
Si deve controllare se il punto Q E § cioè se Xj + + ··· + x~ x%::;1.
Si generano n = 100 oppure n = 10000 di questi punti Q.
Il volume cercato dovrà soddisfare questa relazione:
volume(§) = P[Q E§]~ #(Q E§)

volume(O) n
quindi una sua approssimazione sarà
volume(§)~ volume(O) #(Q E§)

n
Se si usa Excel per questa approssimazione, si tenga conto che già con k = 20 il generatore
di Q non trova neppure un Q E §. Ciò fa pensare che il volume della sfera tenda a O
quando la dimensione dello spazio in cui è immersa cresce.
Infatti è noto che v
e quindi
l\Ia le sorprese non finiscono qui. Il volume dell'ipercubo O in cui la sfera è iscritta ha
volume pari a
quando la dimensione k dello spazio diventa grande. Dunque un'ipersfera con volume
che tende a O iscritta in un ipercubo il cui volume diventa infinito!
Non tutti gli ipercubi hanno volume divergente. Pensiamo, per esempio, all'ipercubo
iscritto nella ipersfera di prima. Allora la diagonale dell'ipercubo è costante al crescere
della dimensione k dello spazio di immersione, ed è pari al diametro della sfera che è
anch'esso costante e vale 2 (se r = l).
In JRk la lunghezza d della diagonale dell'ipercubo soddisfa la realazione:
d2 = 12 + 12 + ... 12 = k12
-.._,,..._.,
k volte
dove I è il lato dell'ipercubo. Poiché d = 2 si ha:
v da cui la formula di Stirling: I'(n + 1) = n! ~ v"'21rnnne-n

l=v1
quindi, perché l'ipercubo possa rimanere iscritto, il suo lato deve tendere a O, e così anche
il suo volume.
Generazione di un campione da una distribuzione di Poisson
Supponiamo di voler generare un campione di n x; dalla distribuzione di Poisson p(x) =
e-;,..
>?- 1 la cui funzione cumulativa indicheremo con F( x) Consideriamo la seguente tabella
X.
che dà i valori cumulati di tale distribuzione fino a 19.
o 0.018316 F(0) 10 0.99716 F(lO)

1 0.091578 F(l) 11 0.999085 F(ll)
2 0.238103 F(2) 12 0.999726 F(l2)
3 0.43347 F(3) 13 0 .999924 F(l3)
4 0.628837 F(4) 14 0.99998 F(l4)
5 0.78513 F(5) 15 0.999995 F(l5)
6 0,889326 F(6) 16 0.999999 F(l6)
7 0.948866 F(7) 17 1 F(l7)
8 0.978637 F(8) 18 1 F(l8)
9 0.991868 F(9) 19 1 F(l9)
Consideriamo n numeri casuali rnd;. Come già indicato se F(k - 1) < rnd; ::; F(k), k =
O, 1, ... , 17 con la convenzione F(-1) = O, riterremo che il valore x; dell'i-esimo elemento
campionato sia k. Evidentemente valori del campione che superano 17 non vengono mai
campionati, data la loro probabilità troppo piccola. Per esempio se rnd; = 0.6578 avremo
campionato x; = 5.
10.4 Vettori gaussiani

Promemoria riguardante risultati, in parte già visti, in parte riguardanti l'algebra della
matrici (vedi anche Appendice).
1) Sia A una matrice (n,n) tale che detA i, O e sia X rv fx(x). Allora
Y=g(X)=AX+b===}j (y)= fx(x-l(y)) = fx(A-1(y-b))_

Y ldet Al ldet Al
2) Sia A una matrice di tipo (k, n) X un vtan e sia mx(·) la sua fgm, mentre b un
vettore di costanti. Allora:
Y = AX + b ===}my(t) = etrbmx(ATt).
(k,1) (k,n) (n,l) (k,1)
4) Cx= [cov(X;,X 1)] è simmetrica.

5) Si può mostrare che Cx è semidefinita positiva, cioè \fa E lRn, aT Cxa ~ O. Inol-
tre se il vettore X contiene va degeneri (cioè costanti con probabilità 1) allora Cx è
semidefinita positiva.
6) A è definita positiva sse esiste una matrice non singolare W tale che A = wrw
233
7) A è definita positiva sse tuti i suoi autovalori À; sono positivi.
8) Se A è definita positiva allora ha inversa A- 1 e gli autovalori dell'inversa sono i
reciproci degli autovalori di A, cioè f.
f
9) Se A è non singolare allora (A_' 1 = (A T )- 1
10) Se B è una matrice qualunque allora C = BBT è simmetrica e semidefinita
positiva.
11) data una matrice qualunque A tale che AAT sia non singolare, allora
12) (legge di propagazione della covarianza) Sia X un vettore (n, 1), A una
matrice (k, n), b un vettore di costanti reali (k, 1) e Y = AX + b. Allora
Cy = A Cx AT.
(k,k) (k,n)(n,n)(n,k)
Vettori gaussiani: definizione uno

Sia Z un vettore le cui componenti Z; siano indipendenti e N(O; l); la densità congiunta
di z è
(10.7)
Infatti, per l'indipendenza, fz(z) = nfz,(z;)

n
i=l
I\ fz,(z;) = ~-zZ;.
1 2
Definizione 10.4.1 Chiamiamo gaussiano standard un vtan Z la cui funzione di

densità è data da 1O.7.
Vediamo ora la seguente
Definizione 10.4.2 Chiamiamo multinormale o gaussiano un vtan X la cui fun-

zione di densità è data da:
fx(x) = 1 e-½(x-µ,)rc-'(x-µ,) (10.8)

j(21r)n(det C) 1l 2
dove C è una qualunque matrice simmetrica definita positiva (e quindi invertibile), detC
il suo determinante e µ è un vettore (n, 1) di costanti reali.
Teorema 10.4.3 {:•) Sia A di tipo (n, n) e tale che det A =/-O. Allora se il vettore Z è
un gaussiano standard allora
X=AZ+µ
è un vettore gaussiano nel senso della definzione 10.4.2.
Dim.: Infatti
•) Z = A- 1 (X - µ);
1 1 1 _l(A- 1 (x-µ,))T(A- 1 (x-µ,))
--) fx(x) = I det Alfz(A- (x - µ)) = v(21r)nl det Al e 2
... ; (A- 1 (x-µ))T(A- 1 (x-µ)) = (x-µ)T(A- 1 )T(A- 1 )(x-µ) = (x-µf(AT)- 1 (A- 1 )(x-
µ) = (x - µ)T(AAT)- 1 (x - µ)
Ora: AAT è simmetrica; AAT è definita positiva ldet Al = j(det A) 2 = Vdet Adet AT =
jdet(AAT). In conclusione:
(10.9)
Teoremino 10.4.4 Teoremino 2: Sia X un vtan gaussiano secondo la definizione

10.4.2, cioè un vtan la cui funzione di densità è data da 10.8. Allora C simmetrica,
definita positiva e per il teorema spettrale esiste H simmetrica tale che
H 2 = C;c- 1 = (H 2 )- 1 ;detH 2 = (detH) 2 = detC; ldetHI = (detC) 112 .
Ma X è il risultato di una trasformazione lineare di Z come in 10. 'l. Infatti se conside-

riamo
X=HZ+µ
per quanto già visto in 10.4.S, la fx(x) diventa:
Oss.: Abbiamo sostanzialmente dimostrato che i vtan che sono gaussiani secondo la
definizione 10.4.2, sono tutti e soli quelli che si ottengono attraverso una trasformazione
lineare dal vettore gaussiano standard Z di media O e matrice di covarianza I.
Definizione 10.4.5 La trasformazione inversa di X= HZ+µ cioè
che trasforma X,.__,N(µ; Cx) in Z ,.__,

N(0; I) viene detta standardizzazione di X.
Possiamo ora dimostrare il seguente
Teorema 10.4.6 (:•) Se X ha distribuzione 10.8 allora E[X] =µe C = Cx.

Dim.: L'enunciato è ovvio se Z è il gaussiano standard 10. 'l. Più in generale, per quanto
visto in Teoremino 2,
X=HZ+µ
per cui
E[X] = H E[Z] + µ = µ
Cx= HIHT = C
235
Fgm di un vettore gaussiano
Cominciamo a trovare la fgm di un vtan Z rv N(O; I) normale standard. Le componenti
t2
Z; del vettore sono N(O; 1) indipendenti la cui fgm mz,(t;) = exp( ~ ). Si conclude che
la fgm di un vtan normale standard é:
(10.10)
Prendiamo ora un qualunque vtan X rv N(µ; Cx). Per quanto detto in precedenza esiste
una matrice H = HT tale che Cx= HHT = H 2 e X= HZ+µ. Dalla 2) si ha: mx(t) =
T T T l T l
et µ,mz(HTt) = et µ,mz(Ht) = et µ, exp[ 2(Htf (Ht)] = et µ,exp[ 2 (tT HT Ht)]. Quin-
di:
T 1 T
mx(t) = et µ,e2t Cxt (10.11)
Osservazione: nel caso univariato t e µ sono scalari e Cx = cr2 : la 10.11 diventa
1 cr2 t 2
mx (t) = exp(tµ) exp( 2cr2 t 2 ) = exp(tµ + - 2 -) che già conosciamo.
Vtan gaussiani: definizione due, una generalizzazione

Definizione 10.4. 7 Chiameremo vettore gaussiano un vettore X la cui fgm è data da:
T 1 Te
mx(x) = ex µ,e':ix x
dove C è una matrice simmetrica, semidefinita positiva. Tale vettore sarà indicato con
X,.__,N(µ;C).
È evidente che i vettori che erano gaussiani secondo la definzione 10.4.2 lo sono anche
secondo la definizione 10.4.7. Questa definizione rappresenta perciò una generalizzazione
della precedente.
Consideriamo ora:
X=BZ+b (10.12)
dove B è una matrice di tipo (m, n), Z un vettore gaussiano standard di tipo (n, 1) e
b un vettore reale di tipo (m, 1). Per le proprietà di linearità della media E[X] = b e
per la legge di propagazione della varianza C = BBT (con BBT semidefinita positiva e
simmetrica). Scriviamo la fgm di 10.12: Per quanto già visto in 9.3.3 abbiamo:
Tb T Tb 1 TBBT Tb 1 Te
mx(x) = mBz+b(x) = ex mz(B x) = ex e2x x = ex e2x x
quindi 10.12 è un vtn gaussiano secondo la definizione 10.4.7.

Viceversa se mx(x) = exTµ,e½xTex, dove C è simmetrica e semidefinita positiva (quindi
in generale non invertibile ma sempre fattorizzabile in un prodotto del tipo UUT), allora
X=UZ+µ.
Oss. 1 (:•) Importante: concludiamo che, anche i vtn gaussiani secondo la definzione
10.4. 'l sono tutti e soli quelli che si ottengono da un vtn gaussiano standard attraver-
so una trasformazione lineare. Ora la matrice B della trasformazione non deve essere
quadrata non singolare {det B =f.O) ma non deve essere neppure quadrata.
Oss. 2 (:•) Importante: è anche evidente che, preso un vtn gaussiano X,.__,N(µ; Cx),
anche il vtn:
Y=BX+b
è gaussiano. Infatti
my(y) = eYrbmx(BTy) = eYrbe(Bry)rµ,e½(Bry)rCx(Bry) = eYr(b+Bµ,)e½YrBCxBry

Y ,.__,
N(b +Bµ;BCxBT).
Abbiamo perciò dimostrato il seguente:
Teorema 10.4.8 {:•) Sia X rvN(µ; Cx) e A una matrice (k, n) e b sia (k, 1). Allora
Y = AX + b ===} Y rvN(Aµ + b; ACxAr).
::.::p::~";::,~::~
/,::::::~:. T::~reL~:
::::ric::·::r:
Riformuliamo il teorema precedente in questo caso. X ,.__,
N(µ;Cx) con Cx = BBT.
Allora Y = I: a;X; e:
cioè Y è una va gaussiana di media la combinazione lineare delle medie aT µ = I: a;µ;

e varianza lo scalare (a1, ... , an)Cx(a1, ... , anf.
Infatti per la definizione {10.12) X= BZ + µ, e Y = I: a;X; = aTX = aT BZ + aT µ.
Per le proprietà di linearità della media E[Y] = aT µ e per la legge di propagazione della
covarianza var[Y] = (aT B)I(aT B)T = aT BBT a= aTCxa.
Perciò la somma di va congiuntamente gaussiane (siano esse indipendenti o no) è

gaussiana.
Controesempio (:•) . Vediamo come può accadere che somma di va normali non sia
normale. Sia Z rv N(O, l) e Y: P[Y = ±1] = ~' indipendenti.
&) Mostriamo innanzitutto che
X = ZY ,.__,
N(O; 1)
Per il teorema delle probabilità totali:
P[ZY::; t] = P[Z::; tlY = l]P[Y = l] + P[Z:::: -tlY = -l]P[Y = -1] =
= ~P[Z::; t] + ~P[Z::; t] = P[Z::; t]
&&) Mostriamo poi che Z + X non è normale quindi (Z, X)T non può essere congiunta-
mente normale.
Ancora per il teorema delle probabilità totali:
Fz+x (t) = P[Z + X ::; t] = P[Z(l + Y) ::; t]
1 1
= P[2Z::; tlY = l]P[Y = l] + P[O::; tlY = -l]P[Y = -1] = 2FN(0,4)(t) + 2I[o,+oo)(t)
Infatti P[O::; t] = {o set< O=

o
I[o +oo)(t).
1 se t :::: '
Percome è stata costruita Fz+x(t) è effetivamente una fdr. Verifichiamolo per esercizio:
•)Fz+x(-oo)= lim Fz+x(t)=O;Fz+x(+oo)= lim Fz+x(t)=l
t---+-oo t-+oo
237
.. ) se a< b =} Fz+x(a)::; Fz+x(b) (monotona non decrescente);
--•) lim Fz+x(t+h)=Fz+x(t) (continuità da destra);
h-o+
che sono facilmente verificate.
l\Ia Fz+x(t) non è la fdr di una normale quindi Z + X non è normale. Segue che Z e
X non possono essere congiuntamente normali (altrimenti la somma sarebbe normale).
La distribuzione congiunta di (Z, X) è degenere ed è concentrata sulle bisettrici del 1°
e 3° quadrante e del 2° e 4° quadrante: infatti (Z, X)T = (Z, zf oppure (Z, Xf =
(Z, -z)T.
Questo è anche un esempio di variabili congiuntamente non normali con marginali nor-
mali.
Utilizziamo ancora il vettore W = (Z, X)T per mostrare che
Cw _ [ var[Z] cov[Z,X] ] [ 1 O ]
- cov[X,Z] var[X] O 1 = h,
cioè che Z e X sono incorrelate anche se non sono ovviamente indipendenti (anche se lo
sembrano).
Che entrambe le varianze siano uguali a 1 non è neppure da commentare. Inoltre:
cov[X,Z] = E[XZ]- E[X] · E[Z]
E[XZ] = E[XZIZ = l]P[Z = l] + E[XZIZ = -l]P[Z = -1] =

= E[X]P[Z = l] + E[-X]P[Z = -1] = O
Sono incorrelate, non sono indipendenti, non possono essere congiuntamente gaussiane.
Oss. 3 (:•) Importante: la generalizzazione ha un prezzo. Il vtn gaussiano definito in

10.4. 'l potrebbe non avere funzione di densità fx(x). Infatti tale funzione esiste sole se
la matrice di covarianza C oltre che semidefinita positiva è anche invertibile. Se C non
è invertibile allora fx(x) non esiste. Come è possibile? vediamo il seguente:
Esempio 10.4.10 (:•) Sia Z = [ !~] è un gaussiano standard, e poniamo
X= [ ~ ~ ] Z = BZ = [ !~].
Per quanto detto sopra X è gaussiano con E[X] = O; Cx = BBT = [ ~ ~ ] . Ovvia-
mente Z 1 e Z1 non sono indipendenti {cov(Z1, Zi) = var[Zi] = 1). Ogni determinazione
(z 1 ,zi)= (x,x) di X appartiene alla retta bisettrice del 1° e 3° quadrante, quindi tutto
il peso di probabilità è su tale retta. Si conclude che, se esistesse una funzione di densità
f(x,y), allora dovrebbe essere
f(x,y) i, 0 {::::::::}X= y
In questo caso si arriverebbe a questa contraddizione:
1= j j f(x,y)dxdy = jj f(x,y)dxdy = O
bisettrice
JJ f(x,y)dxdy = O perché calcolato su un insieme unidimensionale di IR.2 , che ha

bisettrice
misura nulla in IR2 .
Esempio 10.4.11 Vediamo un altro esempio. Sia X = ] un vta con legge

[ XX21
normale N(O, C), dove
C=[~~]-
Definiamo il vettore Y = [ i
Y3
], ponendo
Y1 = X2 Y3 = 3X1.
Legge di Y si può calcolare osservando che risulta Y = AX, dove
Pertanto Y ha legge normale con valore atteso nullo e matrice di covarianza
ACAT = [ -2O
3
ll
1
o
[ 4
1
l ] [ O - 2
2 1 1
3 ] =
o
[2O 14O
3 -21
Supponiamo di essere interessati alla legge del vettore (X 1 ,Y 2 )' = (X 1 ,X 2 - 2X 1 )' =

[!2 ~ ] [ 1~] . Per trovare questa legge cominciamo a osservare che (X 1, Y2 )' è
una trasformazione lineare di (X 1 , X 2 )' segue:
µ=(O, O)'.
Calcoliamo D. Possiamo farlo in due modi.

1) J,l primo
· mo d o possiamo
· chiamar
· lo vett oria
· le. Osservando che [ yy;
1 ]
2
QX
[!2 ~ ] X, da cui E[Y] = O e D = QCQT, si ha
1
D = [ -2
O] [ 4
1 1
1 ] [ 1 -2 ]
2 O 1 =
[ 4
-7
4
-7
-7]
14
2) Il secondo modo possiamo chiamarlo scalare.
d11 = var[Xi] = 4; d22 = var[Y2] = var[X2 - 2Xi] = 14

d12 = d21 = cov[X1, Y2] = cov[X1, X2] - 2cov[X1, Xi]= 1- 2 · 4 = -7
Veniamo ora all'importante
o
1
Teoremino 10.4.12 (:•) {delle marginali}. Se a= è un vettore reale con
o
o
tutte le componenti nulle tranne la i- esima allora
239
aTx = X;
è la i- esima marginale che per quanto dimostrato alla proposizione precedente è ancora
normale di media E[X;] e varianza a3c;.
Perciò vettori gaussiani hanno marginali gaussiane.
Teoremino 10.4.13 (:•) Sia X ,.__, N (µ; Cx) un vtan gaussiano le cui componenti X;
siano non degeneri (a3c; > O) e scorrelate ('ì!i,j;i-/- j ===} cov[X;,Xj] = O). Allora le
X; sono indipendenti.
Dim:. In queste ipotesi Cx = diag(aT) è una matrice diagonale e si ha xT Cxx = I: a7x7-
La fgm di X allora diventa mx(x) = ex r µ,ezx 1 Te
xx= ex T µ,ez1 "'~ 17 2ixi2 = ex,µ,+zx,
1 2 2
17 , •
.. . . exnµn+½x~a~ = mx, (xi)· .. ·· mxn (xn) prodotto di n fgm di va X; ,.__, N(µ;; aT).
Segue che le X; sono indipendenti.
Oss.: È facile anche vederlo scrivendo direttamente la funzione di densità. Farlo per
esercizio ricordando che Cx:= diag( ~
1
a;
).
Questo teorema afferma che va congiuntamente gaussiane sono indipendenti se e solo se
sono scorrelate.
Un esempio scoraggiante
La scrittura scalare delle formule nel caso bivariato
Come esercizio, per valutare la potenza della simbologia matriciale, riscriviamo,nel caso
n = 2, in forma scalare quanto esposto nei paragrafi precedenti.
Densità
Siano date due va X1 e X2, componenti del vta2 (X1, X2)'. La matrice di covarianza in
questo caso è Cx= [ ; 11
2 :y] dove a12 = cov[X1, X2] e a7 = var[X;]. Si ricava facil-
1
1 a21
mente che cx-l = -------,,----,,,
p
(1 - p 2 )aya~
dove p = ~ è il coefficiente di correlazione. La 10.8 diventa:

a1a2
fx,,x2(x1, x2) = 1 e-Q(x,,xz) (10.13)
21ra1a2~
2_ 2 (x,-µ,)(xz-µ?) 2]
[( x,-µ
<71
1)
p 0"1 <72
+(x2-µ
<72
2)
dove Q(x1, x2) = 2 1-p )

La 10.13 prende il nome di distribuzione normale bivariata m forma scalare. Il
vettore mediaµ= (µ 1,µ 2)' VI
Nella figura 10-1 è presentato il grafico di una funzione di densità normale bivariata per
i seguenti valori dei parametri: µ 1 = 1, a 1 = 2, µ 2 = 2, a2 = 3, p = ½-
VI sempre per esercizio mostriamo che è effettivamente una fd, cioè che:
( +) = / 1 e-Q(xi ,xz)dx1dx2 = l.
2na1a2V1-p 2
]R2
O03
0.025
O 02
0.015
0.01
0.005
Figura 10-1 :
Marginali
Sempre come eserc1z10 calcoliamo per la 10.13 la funzione di densità marginale, per
esempio, di X1.
fx, (xi)= J!';:
fx,,x 2 (x1, x2)dx2 =
A questo scopo eseguiamo il seguente cambiamento di variabili: u1 = Xl - µ, , u2 = x 2 - µ 2 , cioè:
x1 = u10-1 + µ 1 , x2 = u20-2 + µ 2 . La matrice Jacobiana della trasformazion:

1
è J = ( ;;t ~ 2
) ;
. . . . 8( X1, x2 ) 2.E.l.
au 1
2.E.l.
òu?
I I
0'1
O I au, au;
qumd1 11suo Jacob1ano è det J = B(u u ) = I 22'..2. .zti O = 0-10-2 che coincide col
1' 2 òu1 òu2 0' 2
suo modulo, per cui risulta:
(+)=J~: J~: 2 "hexP{- 2 (l~p2) [u?-2pu1u2+u~]}du1du2=
= J~: J~: 2 "h exp { - 2(l~p2) [(u1 - pu2) 2 + (1 - p 2 )u~]} du1du2 =
=J+=J+= 1 exp{-l[(u,-pu 2 ) 2 +u 2]}du1du2=(H).

-= -= 27'~ 2 y(l-p2) 2
Ponendo ancora
u2 = u2 e W = u,-eu 2 cioè
~
U1 = pu2 + ~w (e allora det J = B(ul,u 2; =
8(w,u2
I v1 0- P2 ~ l=~)siha:
(H) = J~;: J~;: 2~ exp {-½

[w2 + u~]} dwdu 2 =
_
- J+= 1
-= ,,/2'ji'exp { - 21 w 2} dw J+= 1
-= ,,/2'ji'exp 2 du2 -- l .
{ - 21 u 2}
241
{ ( )2}
exp 1 .::.l..=....i::2 x2-µ? - px1-µ,
[-2( o1 ) ] J+CXJ 1 exp _l o-2 o-1 dx2 = (-"-")-
v'2rro-1 -CX) v'2rro-2~ 2 1 - p2
Ponendo nell'integrale:
x2-µ?_ =.i...=...t:.l.
02 P 01 = w ===} dx 2 = dw si ottiene·
~ 0-2~ •
2
exp [ =.i...=...t:.l.)
1 ( ]
.ll.ll)=
(•• -2 01
v'2rro-
J+CX)1 { 1 2}d
v'2rrexp - 2 w w.
1 -CX)
In definitiva:
Analogamente si può ottenere:
È perciò chiaro il significato dei simboli µ 1,a1,µ 2,a2.
Funzione generatrice dei momenti
Come esempio della fgm di un vta2 calcoliamo quella di una distribuzione normale
bivariata. Abbiamo:
Si può mostrare con conti abbastanza facili che:
mx 1,xJt1, t2) = exp[t1µ 1 + t2µ 2 + ~(tia~ + 2pt1t2a 1a + t~a;)] 2
Rispetto al punto precedente si può ora riverificare per esempio che µ 1 = E[Xi]. Infatti
Analogamente si ha:
E[Xr 1x·]
2 -- ~m
ot'ot' x1,x2(t1,t2) I .
1 2 t1=0,t2=0
Da quanto detto segue immediatamente il seguente:
Teoremino 10.4.14 Due va X 1 e X 2 con distribuzione congiunta bidimensionale nor-
male sono indipendenti se e solo se sono scorre/ate.
Dim.: basta osservare che se p = O (variabili scorre/ate) allora mx,,x 2 (t1, t2) = exp[t1µ 1 +
½tia; + t2µ 2 + ½t~a;] = mx, (t1)mx 2 (t2) •
Oss.: Questo risultato era già stato enunciato in forma vettoriale.
Distribuzioni condizionate
Nel caso della normale bivariata si ha:
1 [( ~ a, - p'!:.1.:::..../:)2]}
a2
= v2lra1 ~ exp { - 2(1 - p2) .
Con un ultimo passaggio infine:
Questa è la funzione di densità di una va normale di media µ 1 + ~(x2 - µ 2 ) e varianza

(1 - p2)0'j. -
Analogamente:
cioè la funzione di densità di una va normale di media µ 2 + ~ (x 1 - µi) e varianza

(1 - p 2 )a~.
243
Quindi, nel nostro caso,E[X1IX2 = x2] = J~:xifx,1x 2 (tlx2)dt = µ 1 + ~(x2 - µ2)-
Come è già stato osservato la quantità
si chiama curva di regressione di X1 su X2 = x2 e rappresenta una retta che, al variare

di x2 indica la posizione della media di X 1 calcolata con la densità condizionata di X1
dato X2 = x2.
Nel piano (x1,x2) tale retta si ottiene disegnando x 1 = µ 1 + ~(x2 - µ 2) (figura 10-2)
Figura 10-2:
Esempio di stima ottima
sia (X, Y)' ,.__,N(m, C) con m = (µx, µy )' e C = ( a;.; axy2 ) . All ora s1· puo'
axy ay
dimostrare che
axy
dove p= --.
axay
Come già sappiamo la fYIX (ylx) è una va gaussiana di media µy+~ (x-µx) e varianza
(1 - p )a~. Risulta perciò r(x) = E[YIX = x] = µy + ~(x
2 - µx ). Il valore minimo
dell'errore quadratico medio risulta perciò pari a (1 - p 2)a;,; :
E[(Y - r(x)) 2 ] = (1- p 2 )a~.
10.5 Riassunto di risultati sui vtan gaussiani

C> Trasformazioni lineari di normali. Y = AZ + b, A non singolare:
C> Se anche A è simmetrica allora:

C>Vettore gaussiano con densità: è un vtan X rvN(µ; Cx) la cui funzione di densità
è data da:
dove C è una qualunque matrice simmetrica definita positiva (e quindi invertibile), ICI
il suo determinante e µ è un vettore (n, 1) di costanti reali.
C> Standardizzazione di X. L'inversa di X= HZ+µ è:
che trasforma X rv N(µ; Cx) in Z rv N(O; I).

C> Fgm di un vtan gaussiano X"' N(µ; Cx),
dove Cx = H HT = H 2 e X = HZ+ µ
C> Vettore gaussiano (generalizzato): è un vettore
X=BZ+b
che si ottiene da B matrice di tipo (k, n) e Z un vettore gaussiano standard.

oppure
che ha fgm data da:
mx(x) = exTb 1
e'l'x
TG
x
C> Somma di normali: Sia X rvN(µ; Cx) e A una matrice (k, n) e b sia (k, 1). Allora
se Y = AX+b:
segue
C> Combinazione lineare di gaussiane. X"' N(µ;Cx). Allora se Y = I: aiXi:
cioè la somma di va congiuntamente gaussiane (siano esse indipendenti o no) è gaussiana.

C> Marginali. Vettori gaussiani hanno marginali gaussiane cioè
X"' N(µ;Cx) ===} Xi "'N(µi; cov[Xi, Xi])
C> Va congiuntamente gaussiane sono indipendenti se e solo se sono scorrelate.

245
10.6 va di tipo misto

Abbiamo parlato di va la cui fdr è costante a tratti (caso della va discreta) oppure è
continua (caso della va continua). Vogliamo segnalare che esistono va di tipo misto la
cui fdr non è costante a tratti ma non è neppure continua, anche se lo sviluppo di questo
tema esula dalle finalità del corso.
Esempio Un automobilista arriva a un semaforo in un istante casuale. Indichiamo con
X il tempo di arrivo dell'automobilista al semaforo. Possiamo ragionevolmente supporre
che:
1) il semaforo stia verde per metà del tempo e rosso per l'altra metà;
2) il periodo tra l'inizio di un verde e l'inizio del verde successivo sia [O,2T) quindi
O::;X < 2T e X è distribuita uniformente in [O,2T);
1
3) P[O ::; X < T] = 2 = P[T ::; X < 2T] = ?[semaforo verde] = ?[semaforo rosso]
(nella figura 10-3 la fd e la fdr di X).
I
n'
I --fr
2T -y lT
Figura 10-3:
Sia ora Y il tempo di attesa dell'automobilista al semaforo; ovviamente:

4) Y = O se O ::; X < 2T mentre Y = 2T - X se T ::; X < 2T, quindi O ::; Y ::; T.
Cerchiamo Fy(V) = P[Y::; v]
5) se V< O Fy(V) = P[Y::; O]= O
6) se v ~ T Fy(V) = 1
7) se O ::; v < T applico il teorema delle probabilità totali:
1 1
Fy(V) = P[Y ::; v] = P[Y ::; vi semaforo V]· 2 + P[Y ::; vi semaforo R] · 2= P[Y ::;
1 1
vi {O::; X< T}]. 2 + P[Y::; vi {T::; X< 2T}]. 2
Osservato che P[Y::; vi {O::; X < T}] = 1 se v ~ O proseguiamo:
1 1 1 P[{Y::;v}n{T::;X<2T}] 1
Fy(V) = l · 2 + P[Y::; vi {T::; X< 2T}] · 2 = 2 + P[{T::; X< 2T}] ·2=
= ~+ P[ 2T- V::; X] . ~ = ~ + [l - Fx (2T- v)] = ~ + J!..... (vedi nota VII)

2 ½ 2 2 2 2T
X
VIIFx(x) è la fdr di una va uniformemente distribuita in [0,2T) quindi: Fx(x) = -11 0 2r)(x) +
2T '
J[2T,=)(x)
La va descritta è di tipo "misto": non può essere continua perché la sua fdr sarebbe
continua, non può essere discreta perché la sua fdr sarebbe costante a tratti.
Scriviamo le due fdr, continua e discreta, che compongono la nostra fdr mista, come ci
autorizza a fare il successivo teorema 10,.;...6;;;..;·..=l..;...
-~~--~----~--~
O y <O I a = 1/2 Il y < O O ::; y <
T ::; y T
Fy(y)= { ½(f+l) O::;y<T ::::}1Fd(y)=11
O 1 1
l T ::; y Fc (y) = .. O 1 f
Valor medio di va miste Non disponendo della fd, il tempo medio d'attesa della va
X si calcola con la formula seguente: E[Y] = 0
(1 - F(y))dy - Jt'x
F(y)dy (vedi t(X)
Appendice 1).
Abbiamo - F(y))dy =foT(1-
J/(X)(l ½(f + l)dy =t; t(X)F(y)dy =O::::} E[Y] =t
Fy(y)
1 ----j- ---- ----:;;;;;
.-------
• l
posizione del baricentro 1/2
di un sistema meccanico costituito
da una sfera di massa 1/2
e da un'asta omogenea di massa 1/2
Figura 10-4:
Osservazione: per il calcolo del tempo medio di attesa si poteva ragionare in modo
intuitivo considerando un sistema meccanico formato da una pallina di peso ~ unita a
un'astina omogenea lunga T e di peso ~- Allora il baricentro (media) dei due sistemi
è la media dei baricentri, cioè f.
Nella figura 10-4 a sinistra il sistema meccanico da
baricentrare e, a destra, la fdr della va mista in esame.
Teorema 10.6.1 Se F(x) è la fdr di una va di tipo misto e x 1 < x 2 < ... < Xk sono i
punti di discontinuità con salti dati da p 1 ,p 2 , .. ,,Pk (p; > O) allora si può scrivere:
F(x) = (1 - a)Fc(x) + aFd(x); O< a= LPk <l (10.14)
(10.15)
Se I:~Pk =l::::} F(x) =

Fd(x) mentre se I:~Pk =O=} F(x) Fc(x). =
Fd(x) è la fdr di una va discreta Xd mentre Fc(x) è la fdr di una va continua Xc,
Il fatto che X sia distribuita secondo F(x) = (l-a)Fc(x)+aFd(x) non significa affatto
che X =Xc+ Xd,
Nei punti di continuità di F(x) la fd della sua va è f(x) = (1- a)F~(x).
247
1
l - __!_
16
x< 2 =>F(x) = O
2.'.>x<3=>F(x)=
4- ~
l - l l l
l - 3.'.>x<4=>F(x)=
~
2 16 2- x 8
2 9 l
4 .'.>x =>F(x) = l - 2
l X
4 9 _/
O 1
- 2- 3 4
Figura 10-5:
Esempio 10.6.2 Vediamo un altro esempio di scomposizione di una fdr mista disegnata
in figura 10-5:
Ci sono 2 salti, in XI = 3 pari a PI = P[X = 3] = ¼ e in x2 = 4 pari a P2 = P[X = 4] =
I .
2' 3
PI+ P2 = 4 = a
F(x) interv allo Il

o o o x<2
I I FlxJ_
I -
l- 4
_,,. o 2:Sx<3 prima del primo salto
4- ~ - a: x~
I I
2 - ;-'1"
FlxJ- p1= 1- 4 P1
3:Sx<4 tra il primo e il secondo salto
1- a: x-
Flxl - °'-- 1- 4
°' = 1
1-J,.x - ~ ;7 P1 +P2 4 '.SX dopo l 'ultimo salto
°'
10.7 Funzione generatrice di probabilità

Sia X una va discreta, intera a valori non negativi e sia Pi = P[X = i], i= O, 1, ...
Definizione 10.7.1 Chiamamo funzione generatrice di probabilitàvm (fgp) della

va X la funzione
(X) (X)
Gx(s) = E[sx] = I: P[X = i]si = I: p;si

i=O i=O
Proprietà:
(X)
1) La serie di potenze I: p;si converge almeno in lsl:S 1.

i=O
2) Quando sarà chiaro che X è la va in gioco al posto di G x ( s) scriveremo semplicemente
G(s)
VIII Più in generale la somma G(s) = I:i aisi si dice funzione generatrice della successione di numeri
reali {a;}
3) G(s) è indefinitamente derivabile rispetto a s nell'insieme lsl < 1 e posto diG(s) I

ds' s=O
• (X) Q(i)(O) . G(i)(O)
G(,)(O) si ha G(s) = I: --. 1-s'; quindi --. 1- = P[X = i]. Da ciò segue l'unicità
i=0 i. i.
della fgp.
(X) (X)
4) limG(s) = lim I: p;si = I: Pi= 11x

sìl sìl i=0 i=0
5) G(l) = 1, G(O) = P[X = O] e E[X] = G'(l)
Le proprietà di G(s) ricordano quelle della fgm.
Teoremino 10.7.2 Se X ha una fgs allora
E[X(X - 1) .. · (X - k + l)] = c(k) (1)

(X)
Dim: Sia s < l: allora G(k)(s) = I: p;i(i - l)(i - 2) ... (i - k + l)si-k = E[X(X -
i=0
l)(X - 2) ···(X - k + l)sX-k]
(X)
Dal teorema di Abel citato in nota si ha lim Q(k) (s) = I: p;i(i - l)(i- 2) .. · (i - k + l) =
sTl i=0
E[X(X - l)(X - 2) ···(X - k + l)] •
Teoremino 10.7.3 Se X 1 e X 2 sono indipendenti allora
Gx,+x 2 (s) = Gx 1 (s)Gx 2 (s)

Dim: Se X 1 e X 2 sono indipendenti allora a(X 1) = sx, e b(X 2) = sX 2 sono indipendenti
per cui E[a(X 1)b(X2)] = E[a(X 1)]E[b(X2)] •
Esempi
Bernuolli. Sia X rv B(l,p). Allora G(s) = E[sX] = (l - p) + ps
Binomiale. Sia X rv B(n,p) = X1 + · · · + Xn, X; rv B(l,p) indipendenti. G(s) =
[(l - p) + ps]n
>..X-,\ CXJ Àx -,\
Poisson. Sia X rv fx (x) = _e_ 1 -. Allora G(s) = I: _e_ 1 -sx = e->-e>-s= e>-(s-l)
X. x=O X.
Un'altro elemento di somiglianza della fgp con la fgm nasce dalla definizione di fgp
congiunta, cioè Gx,,x 2 (s 1, s2) = E[s{ 1 s: 2 J e dal seguente risultato:
Teorema 10.7.4 Siano X1, ... , Xn n va iid con G(s) come fgp comune. Le va X;
prendano valori interi non negativi. Sia N una va indipendente dalle X; anch'essa a
valori interi confgp data da GN(s). Allora posto
s-{
-
O se N = O
X1 + X2 + ... + XN se N > O
si ha:
Gs(s) = GN(G(s)) (10.16)

IX Teorema di Abel: Data '°'.
Di
aisi se ai >
-
O allora lim
sTl
'°'.
Di
aisi '°'.ai
= Di
249
Dim: Usando la media condizionata:
Gs(s) = E[s 8 ] = E[E[s 8 IN]] =
n indip. di s 8 da N n
indip. delle sxi
= L cn(s)P[N = n] = GN(G(s)
n
Esempio 10.7.5 Un esempio famoso riguarda i pulcini che nascono dalle uova che de-
pone una gallina. Supponiamo che questa gallina deponga N uova, con N rv f N (n) =
Àne->-
--1 - . Ciascun uovo abbia la probabilità p di generare un pulcino indipendetemente dalle
n.
altre uova. Il numero dei pulcini nati sarà perciò:
(10.17)
(X) Àne->-
dove X; è una Bernoulli di parametro p. Sappiamo che GN(s) = I: -- 1 -sn = exp[>.(s-
n=O n.
1)] e G (s) = (1 - p) + ps
Per la 10.16 Gs(s) = GN(G(s)) = exp[>.({1- p) + ps} - l)] = exp[>.(ps - p)]
Teorema 10.7.6 Siano X 1, ... , Xn, S come nel teorema precedente. Sia E[Xi] = µ e
var[X;] = 0' 2, entrambe finite. Allora:
E[S] = µE[N]; var[S] = 0' 2E[N] + µ 2 var[N]

Dim:
+(X) +(X)
E[S] = L E[SIN = n]P[N = n] = L E[X 1 + X2 + ... + XNIN = n]P[N = n] =
n=O n=O
+(X) +(X)
= L E[X1 + X2 + ... + Xn]P[N = n] = µ L nP[N = n] = µE[N]
n=O n=O
var[X] = E[(X - E[X])2] = E[(X - µE[N])2] = E[(X - Nµ + Nµ - µE[N])2] =
= E[(X - Nµ)2] + E[(Nµ- µE[N])2] + 2E[(X - Nµ)(Nµ- µE[N])] =A+ B + C
Studiamo i tre addendi cominciando dal primo:

+(X)
A= E[(X - Nµ) 2] = L E[(X - Nµ)21N = n]P[N = n] =
n=O
+oo
= L E[(X1 + X2 + ... + XN - Nµ)21N = n]P[N = n] =
n=O
+oo
= L E[(X1 + X2 + ... + Xn - nµ)2]P[N = n] = L
n=O
Poiché E[X1 + X2 + ... + Xn] = nµ segue:
+oo
L = L na 2 P[N = n] = a 2 E[N]
n=O
Passiamo al secondo:
B = E[(Nµ- µE[N])2] = µ 2 var[N]
Ora al terzo:
+oo
C = E[(X - Nµ)(Nµ- µE[N])] = µ L E[(X - Nµ)(Nµ- µE[N])IN = n]P[N = n] =
n=O
+oo
= µ L E[(X - nµ)(nµ - µE[N])]P[N = n] =
n=O
+oo
= µ L µ(n - E[N])E[(X - nµ)]P[N = n] = 'v
n=O
Poiché E[X] = nµ
+oo
'v = µ L µ(n - E[N]) ·O· P[N = n] = O
n=O
Si conclude: var[X] = a 2E[N] + µ 2 var[N] •
Esempio importante collegato ai branching process

Supponiamo che all'istante O una popolazione sia formata da Zo = l individui. All'istante
1 la popolazione è costituita da Z1 individui, figli dell'unico individuo della generazione
O. All'istante n la generazione è costituita da Zn individui che rappresentano la somma
dei figli X1 (n), X2(n), ... , Xzn-, (n) generati, indipendentemente l'uno dall'altro, dagli
Zn- l padri che appartengono alla generazione n - l.
. ::::::::::::::: ~
1
Xz 0 (1)
X1(2) + ... + Xz, (2)
n+l
Xj (n)
251
Xj(n) rappresenta dunque il numero di figli generato dall'individuo j della generazione
n - l (o il numero di individui della generazione n che provengono dall'individuo j
della generazione n - l). Per ipotesi, Vi, n, k = O, l, 2, ... , le va X;(n) sono iid con
distribuzione P[X;(n) = k] = Pk e quindi la stessa media E[X;(n)] = µ e la stessa
varianza var[X;(n)] = 0'2.
Da quanto detto risulta evidente che Zn-I è indipendente da Xk(n) per ogni k, n.
Sia G(s) la fgp di una generica X;(n). Allora per la 10.16 si ha:
Gz 0 (s) = s
Gz, (s) = G(s)
Gz 2 (s) = Gz, (G(s)) = G(G(s))
Gz 3 (s) = Gz 2 (G(s)) = G(G(G(s))) (10.18)
Gzn(s) = Gzn_,(G(s)) = G(Gzn_,(s)) = G(G ... (G(s)))

n volte
Esempio: In generale i conti per trovare Gzn(s) sono difficili, ma talvolta si possono
fare. Per esempio se le X; sono Bernoulli, e quindi G(s) = q + ps, si ha:
Gz 0 (s) = s
Gz, (s) = q + ps
Gz 2 (s) = q + p(q + ps) = q + pq + p 2s
Gz 3 (s) = q + pq + p2 (q + ps) = q + pq + p2 q + p3s
q + pq + p2 q + p3q + ... + pn S
Teorema 10.7.7
n seµ= l
E[Zn]- µ"m[Zn] - a'µ"_,· { l - µn se µ =f.1
l-µ
Dim: posto N = Zn-I in 10.17 segue S = Zn da cui:
E[Zn] = µE[Zn-1]
var[Zn] = E[Zn-1]0' 2 + µ 2 var[Zn-1]
Iterando si ha
Posto Zo = 1, quindi E[Zo] = 1 e var[Zo] = O segue che E[Zn] = µn.

var[Z1] = 0'2
var[Z2] = E[Z1]0' 2 + µ 2 var[Z 1] = 0'2 (µ + µ 2)
var[z 3] = µ20'2 + µ20'2(µ + µ2) = 0'2(µ2 + µ3 + µ4)
var[z 4 ] = µ30'2 + µ20'2(µ2 + µ3 + µ4) = 0'2(µ3 + µ4 + µ5 + µ6).
Si può vedere che in generale
n seµ= l
m[Zn] - a'(µ"-'+ µn + ... + µ'"-') - u'µn-,. { l - µn
--
l-µ
seµ=/- l •
10.8 Entropia
Chiamiamo sistema un ente matematico rappresentato da n eventi Aj che costituiscano
una partizione {Aj} dell'evento certo:
n= uAj;VJ,Pj ~ o;LPj = 1.
(10.19)
Quando eseguiamo un esperimento uno e solo uno degli Aj si verifica ma prima che
questo accada nel sistema è presente una dose di incertezza che dipende dai valori dei Pj·
. .
C onvmciamocene con un esemp10: . A*
. con f rontan d o 1. d ue s1Stem1
. =( A1
O.OOOl A2 )
0 _9999
e A ** =( Ai
0 _5
A2
0 _5
) e' mtmt1vo
· · · ch e c1· sia
· una d ose d'1 mcertezza
. .
magg10re . A** ch e
m
in A*. Infatti con A* mi aspetterò che quando eseguo un esperimento si verifichi quasi
con certezza A 2. Definiamo incertezza del sistema A la funzione:
(10.20)
La 10.20 prende il nome di entropia del sistema A.

Nella 10.20 si conviene che Pj = O ::::}Pj lnpj = O. Le proprietà della 10.20 sono le
seguenti:
1) H(p1,P2, ... ,Pn) ~ O ed è O se e solo se uno dei Pj = 1 (nel qual caso, data la natura
della partizione {Aj} tutti gli altri Pi = O)
2) H(p1,P2, ... ,Pn) ha il suo massimo in PI= P2 = ... = Pn = ~-
n
Non dimostriamo la proprietà 2) ma la sua verità è intuibile perché afferma che il massimo
di incertezza si ha quando gli eventi incompatibili della partizione sono equiprobabili.
Se eseguiamo un esperimento otteniamo qualche informazione relativamente al sistema
A. Il risultato dell'esperimento è quello di azzerare l'incertezza. Poiché il verificarsi di
uno degli eventi Aj azzera l'entropia H(A) noi riterremo ragionevole che l'informazione
ottenuta uguaglia l'entropia eliminata, perciò quanto più grande era l'incertezza tanto
più grande sarà l'informazione ottenuta.
Consideriamo ora due diversi sistemi
dove gli eventi Aj della partizione {Aj} e i B; della partizione {B;} siano a due a due
indipendenti. Consideriamo il sistema AB: la collezione di eventi AjBi costituiscono
ancora una partizione dell'evento certo e P[AjB;] = pjqi per la supposta indipenden-
za. Se calcoliamo: H(AB) = H(p1,P2, .. ,,pn,q1,q2, .. ,,qk) -'i:,'i:,pjq;lnpjqi
j
H(AB) = H(A) + H(B) (10.21)
e l'incertezza relativa al verificarsi contemporaneo di due sistemi indipendenti è rappre-

sentata dalla somma delle incertezze.
253
Supponiamo che le determinazioni di una va X siano {l, 2, ... , M}. Gli eventi elementari
sono wi = {X = i} e costituiscono una partizione dell'evento certo. Sia Pi = P[X = i] e
consideriamo la funzione (definita sullo spazio degli eventi elementari):
I(wi) = I(X(i)) = ln l . = -lnP[X =i]= -lnpi (10.22)

P[X=i]
1
I(X) è una va ottenuta componendo g i f-+ ln P[X = i] con X : Wi f-+ i. Le sue
determinazioni (non negative) sono M
Definizione 10.8.1 Definiamo entropia di X il valor medio di I(X) cioè
M M
Hx(P1, ... ,Pn) = E[I(X)] = L
i=I
P[X = i] ln [ 1_ '] = -
p X - i i=l
L
P[X = i] lnP[X = i]
(10.23)
Si noti l'analogia della formula 10.20 con quella in 10.23 dove Pi = P[X = i].
Esempio 10.8.2 Se X è la va di Bernoulli che codi.fica il lancio di una moneta con

probabilità di successo P[X = l] = p, la sua entropia è:
y
0.625
0.5
Hx(p) = -plnp- (1-p)ln(l-p)

0.375
IJ.25
0, 125
o
o 0.25 0.5 (}.75
H x (p) è una funzione di p e dal suo gra,fico si vede che il massimo dell'entropia si ha
1
per p = 2.
Ciò corrisponde al massimo dell'incertezza nel risultato. Infatti se p è vicino a O lan-
ciando una moneta mi aspetto X = O mentre se p vicina a 1 mi aspetto X = 1.
Esempio 10.8.3 Se nella 10.20 (o in 10.23) utilizziamo il logaritmo in base 2 invece che
in base e diciamo che l'entropia è misurata in bit. Pensiamo di trasmettere un messaggio
digitalizzato fatto da una stringa lunga n di O e 1. Se O e 1 sono equiprobabili qualunque
sia la stringa la sua probabilità è 2- n. Supponiamo che il contenuto del messaggio sia il
numero binario rappresentato dalla stringa e consideriamo la va X che ha come deter-
minazioni questi numeri {che vanno da O a 2n - 1). I numeri sono perciò 2n ciascuno
preso con probabilità 2-n. Misuriamo l'entropia di X utilizzando il logaritmo in base 2.
Dalla 10.23 abbiamo:
2n-l 2n-l 1 1 1
Hx = - L P[X = i] log 2 P[X =i]= - L 2 n log 2 2 n = -2n 2n (-n) = n (10.24)
i=O i=O
La 10.24 ci da la lunghezza in numero di bit del messaggio trasmesso.
10.9 Compressione di un segnale
Supponiamo di estrarre un ccn (Xi, X2, ... , Xn) da una popolazione di Bernoulli, le cui
determinazioni possono essere interpretate come le parole (xi, x2, ... , Xn); Xi = O, 1 di
lunghezza n di un linguaggio binario il cui alfabeto è composto da due sole lettere, O e
1. Le parole sono perciò punti dello spazio rr=i
{O,l} = On, Gli eventi {Xi= Xi} siano
indipendenti e Vi; P[Xi = l] = p mentre P[Xi = O] = q = I - p. Denoteremo l'evento
{Xi = Xi} n {X2 = x2} n ... n {Xn = Xn} semplicemente con la parola (xi, X2, ... , Xn)-
È allora chiaro che:
Ora:
n[Sn log2 p + (I - Sn) log2 q] = n[plog2 p+ qlog2 q] + n[(Sn - p) log2 p- (Sn - p) log2 q]
n n n n
Si conclude che:
'-'"'~
p~•=l
x
'q
n- '-'"'~
~,=1
x
'= 2-nH(p)+n[( Sn -p) log 2 E.]
n q
Sia ora An(c) l'insieme delle parole (xi, X2, ... , Xn) che hanno probabilità compresa tra
2-nH(p)-ne e 2-nH(p)+ne, cioè:
A n (€ ) -_ {( Xi,X2, .. ,,Xn ) .. 2-nH(p)-ne < P[( Xi,X2, .. ,,Xn )] < 2-nH(p)+ne}
o anche
An(c) = { (xi, X2, ... 'Xn): rnH(p)-ne < pÌ:~=1 Xiqn-Ì:~=1 Xi < rnH(p)+ne}
Per i conti precedentemente fatti si ha:

An(c) = { (xi,X2, ... 'Xn): 2-nH(p)-ne < 2-nH(p)+n[(~-p) log2 !J< 2-nH(p)+ne} =
Sn -p) log E.]

{ (xi,X2, .. ,,Xn): 2-ne < 2n[( n 2 q < 2ne } =
{ (xi,x2, ... ,xn): -é <(~ -p)log2 ~<e}=

{ (x,,x,, .. ,,xn)' I(~ -p)I < s p }
1 log 2 -
q
Consideriamo la va Sn . Ovviamente E[ Sn] = p e var[ Sn] = pq. Per la disuguaglianza
n n n n
di Chebyscev si ha:
P[ I-Sn - p I < t] ~ I - pq
--. I
n n t2
e
Posto t = ~-~ si ha: P[ I -Sn - p I < ~~] ~
e
1 - pq I
- -(log p 2
2- )
llog2 ~I n Ilog2 p-q I n €2 q
255
Ora P[An(c)] =P [I("" <n

-p)I I "]
1 p
og2 -
~ 1- pq 12 (log 2 E)2
ne q
q
l p
Se n > ~pq(log 2 - )2 ===} P[An(c)] ~ 1 - J
ué q
Ciò significa che per n grande, è grande la probabilità di quegli eventi (x1, X2,... , Xn)
che hanno probabilità vicina a 2-nH(p).
Possiamo rendere la disuguaglianza precedente indipendente da p e q. Esaminando il
comportamento di
p(l-p)(log 1pl(J-p)/
p(l - p) [log2 p/(1- p)] 2
p
0.15 0.5 0.75
1 1 p
concludiamo che n ~ ~ > ~pq(log 2 - )2 ===} P[An(c)] ~ 1 - J.
ué ué q
Ciascuna n-upla (xi, x2, ... , Xn) E An(c) ha probabilità maggiore o uguale di 2-nH(p)-ne.
Quindi indicato con #(An(c)) il numero di elementi di An(c) dovrà almeno essere
#(An(c)). rnH(p)-ne ::; 1
< 2n[(H(p)-l)+e]
#(OJ=2n
1
Sappiamo che H(p)::; 1 e H(p) = 1 {=::=:;, p -- -2·
Abbiamo dimostrato il seguente
Teorema 10.9.1 di Shannon-McMillan (semplificato) Consideriamo un linguag-

gio binario il cui alfabeto è composto da due sole lettere. Siano (x 1, x2, ... , Xn); x; = O, l
le parole di questo linguaggio. Sia ancora An (e) l'insieme delle parole (x 1, x2, ... , Xn)
che hanno probabilità vicina a 2-nH(p) cioè compresa tra 2-nH(p)-ne e 2-nH(p)+ne, dove
H (p) = -p log 2 p - ( 1 - p) log 2 ( 1 - p) è l'entropia del sistema che genera ciascuna lettera
. 1 1 .
della parola. Allora per ogni e > O;J > O;p =I-2; preso n ~ Jc 2 si ha:
1} P[An(c)] ~ 1- J
2} #(An(c))::; 2nH(p)+ne
1
Commento Lo spazio Dn dei segnali possibili ha cardinalità 2n. Se p =/-2 (cioè se non
c'è distribuzione uniforme sulle due possibilità per ciascun carattere dell'alfabeto) allora
H (p) < 1 e si può scegliere e in modo che nH (p) + ne < n e quindi 2nH (p)+ne < 2n.
In questo caso #(An(s))::; 2nH(p)+n, < 2n posso utilizzare stringhe di lunghezza uguale
al più piccolo intero che supera nH(p) + ns per descrivere gli elementi di An(s).
D'altra parte c'è una probabilità maggiore o uguale di 1-6 che il messaggio da trasmettere
sia in An(s).
Esempio. Si deve trasmettere un segnale binario di lunghezza n. Supponiamo che
Vi, P[x; = l] = ~ (e di conseguenza P[x; =O]= i)-
L'entropia H(p) = H(~) = -(~log 2 ~ + ilog 2 i)= 0.722.

Quindi per trasmettere i segnali di Dn bastano stringhe di lunghezza parte intera di
n · (0.722 + s). Si risparmia quindi circa il 30% con probabilità 1 - 6.

Esercizio 10.10.1 Se, per esempio, l'esperimento è il lancio ripetuto 20 volte di una
moneta bilanciata e X è la va che conta le teste in ogni tentativo, calcolare:
1} P[X = 20]
2) P[X = 10]
3) L'entropia Hx(p) di X utilizzando i logaritmi a base 2.
Esercizio 10.10.2 Data una matrice A con m righe e n colonne, indicando con a;j il
generico elemento della matrice allora
[}:J D non si può definire det A se m =f.n
D CI] se esistono det A e A- 1 in generale det (A- 1 ) =/-det1 A
§ se esiste det A allora det A = det (A T)
se esiste A- 1 allora (AT)- 1 = (A- 1 )T
se A è de.finita positiva esiste A- 1
Esercizio 10.10.3 Date due matrici quadrate A di tipo (n, n) e B di tipo (h, h) allora
V AB esiste se e solo se n = h
AB=BA
se B è quadrata e ortogonale allora esiste B- 1
se B è quadrata e ortogonale allora det(BBT) = l /\ det(B 2 ) =f.1
se B è quadrata e ortogonale allora det(BBT) = l
se A è quadrata e simmetrica ::::}:lB : BT AB è una matrice diagonale
Esercizio 10.10.4 Siano X rv N(l; 1) e Y rv N(2; 2). Apporre il corretto valore di verità
alle seguenti affermazioni:
F X-YrvN(-1;3)
F se cov[X, Y] = -1 allora X - Y rv N(-l; 3)
F se X e Y sono indipendenti allora X - Y rv N ( -1; -1)
e--........,r--1
se X e Y sono indipendenti allora X-Y rv N(-1;3)
se cov[X, Y] = 1 allora X - Y rv N(-l; 1)

Esercizio 10.10.5 Siano X e Y due va congiuntamente normali con medie rispetti-
l
vamente 2 e -4 e scarti 9 e l e coefficiente di correlazione 18 . Trovare la legge di
X-Y.
257
1
cov[X, Y] = Pxyaxay 18 · 9 · 1 = 0.5 quindi var[X - Y] 81 + 1- 1 81 e
conseguentemente X - Y rv N(6; 81).
Esercizio 10.10.6 Sia Z ,.__, N(O; I) un vtan gaussiano standard e sia A una matrice
quadrata di tipo (n, n) con det A =/-O e b un vettore di costanti reali di tipo (n, l) allora
detto Y = (Y1,... Yn); Y = AZ + b, Cy = cov[Y;, Yj] e f AZ+b(Y) la funzione di densità
del vtan Y assegnare i corretti valori di verità alle seguenti affermazioni:
C!:JD fAz+b(Y) = 1 e-½(y-b)r(AAr)-'(y-b)
v(21r)n ldet Al
f Az+b(Y) = 1 e-½(y-b)r(y-b)
v(21r)n
AAT è simmetrica
det(AAT) = det A 2 = det 2 A
Cy = A- 1
A- 1 (Y - b) ,.__,
N(O; I)
Esercizio 10.10.7 Sia Z ,.__, N(O; I) un vtan gaussiano standard e sia A una matrice
quadrata di tipo (n, n) con det A=/- O e b un vettore di costanti reali di tipo (n, 1). Detti
Y = (Y1,... Yn); Y = AZ + b, Cy = cov[Y;, Yj], f AZ+b(Y) la funzione di densità del
vtan Y, mz (t) e my ( t) le fgm rispettivamente di Z e di Y apporre i corretti valori di
verità alle seguenti affermazioni:
C!:JD mz(t) = e½(t~+ +t~l
0D Cy = AAT
T I Tc-1
D0 my(t)=et
f Az+b(Y)
be2t vt
0D = 1
v(21r)n ldet Cyl
e-½(y-b)T(Cv)-'(y-b)
I
0D my(t)
T
= et be2t
Te
vt
f Az+b(Y)
D0 = 1
v(21r)n ldet Cyl
e-½(y-b)rcv(y-b)
Esercizio 10.10.8 Sia Y = (Y1 , Y2 ). Si sappia solo che le marginali
h (Yi) sono N(µi; a;); i= 1, 2.

Allora:
~
Y1 + Y2 ha distribuzione normale
Y1 + Y2 ha distribuzione normale solo se
Y1 e Y2 sono indipendenti
se Y1 e Y2 sono congiuntamente normali Y1 + Y2 ha distribuzione normale
Esercizio 10.10.9 Sia Y = (Y1 , ... , Yn) rv N(µ; Cy) un vtan gaussiano. Indichiamo
con fy.(yi) le marginali di Y. Allora:
le fyi (Yi) sono gaussiane se solo se le Y; sono indipendenti
le fyi (Yi) sono gaussiane se solo se le Y; sono incorrelate
le fyi (Yi) sono sempre gaussiane
Esercizio 10.10.10 Sia dato il vettore gaussiano (X, Y)' rv N(m, C), m = (m 1, m2)' e
e= ( C11 C12 ) l a cui. fd in
. Jorma
f
scal are sia
.
C21 C22
fx,Y(x,y)= l~e-2(1-p2)
1 [(x-µx)2(x-µx)(y-µy)+(y-µy)z]
O'x -p
2
O'XO'Y O'y
27l'O'XO'Y l-p-
axy cov[X, Y]
conp= -- = .
axay axay
1. Apporre, per il caso gaussiano, il corretto valore di verità alle seguenti affermazioni.
0D E[YIX=x]=µy+71-(x-µx)
D ìpl
L....:_J
{ la curva di regressione e la retta di regressione
di Y su X coincidono se e solo se X e Y sono indipendenti
D [TI la retta di regressione di Y su X e quella di X su Y coincidono sempre
2. Indicare per i e j che vanno da I a 2 cosa valgono le componenti m; del vettore m e
gli elementi Cij della matrice C.
Esercizio 10.10.11 Sia (X, Yf rv N(O; I) dove I = [ ~ ~] è la matrice identica.
Apporre il corretto valore di verità alle seguenti affermazioni:

VV : X e Y sono indipendenti
X e Y sono incorrelate ma non è detto che siano indipendenti
le leggi marginali di (X, Y)T sono gaussiane di media O e varianza I
le leggi marginali di (X, Y)T non sono gaussiane
1
Esercizio 10.10.12 Siano X e Y due va tali che var[X] = 2,var[Y] = 3 e cov[X, Y] =
-2. Calcolare var[2X - Y].
var[2X - Y] = 4var[X] + var[Y] - 4cov[X, Y] = 2 + 3 + 8 = 13
Esercizio 10.10.13 Sia X una va continua e Fx(·) la sua fdr che supponiamo che
strettamente crescente in JR. Poniamo U = Fx (X). Allora:
U ha distribuzione uniforme in [O,l]
U ha distribuzione esponenziale in [O,+oo]
X= p- 1(U) ha funzione di distribuzione F(·)
X= p- 1(U) non può essere una va perché può essere p- 1(U) > I
Esercizio 10.10.14 Il Metodo Monte Carlo è

D [TI un metodo per calcolare le probabilità di vincere alla roulette
IT7l D un metodo che si basa sulla generazione di numeri casuali per risolvere
L'.'.....J anche problemi che non hanno natura aleatoria
Se O::;J(x) ::; 1 e I= J;
J(x)dx allora, generati n numeri casuali
0D [ ]
f(u1)+ ... +f(un)
u 1 , ... , Un, tra O, I , -------- è un buon stimatore di I
n
Capitolo 11
Tramontata è la luna
e le Pleiadi a mezzo della notte;
anche giovinezza già dilegua
e ora nel mio letto resto sola.
Scuote l'anima mia Eros
come vento sul monte
che irrompe entro le querce;
scioglie le membra e le agita,
dolce amara indomabile belva.
Ma a me non ape, non miele;
e soffro e desidero.
Saffo - VII - VI secolo a.C. - Frammenti
Comportamenti asintotici
11.1 Il campionamento
Il campionamento ci porta all'essenza della statistica. Abbiamo già accennato a questo
concetto in ambito descrittivo: vediamo ora di definirlo con precisione.
Un metodo fondamentale nell'acquisizione di nuove conoscenze del mondo reale consiste
nell'osservare solo pochi elementi di una popolazione in esame (obiettivo) e, sulla base
di questi pochi elementi osservati, trarre delle conclusioni sulla popolazione nella sua
totalità.
Assumiamo che a ogni elemento della popolazione obiettivo sia associato un valore
numerico e che la distribuzione di questi valori abbia una certa densità.
Definizione 11.1.1 Supponiamo di avere una popolazione X di densità fx(·) e siano

X 1 , ••• ,Xn, n va indipendenti e identicamente distribuite {iid} con la stessa densità
f x (·). La densità congiunta del vettore aleatorio X = (X1, ... , Xn)' è fx(x1, ... , Xn) =
fx (xi) ... fx (xn) e tale vettore si dice campione casuale di ampiezza {o di dimensione
o di taglia) n (ccn) estratto da X o da fx(·).
In termini "ingenui" si può affermare che un buon campione deve riprodurre in

piccolo quello che avviene in grande. La popolazione da cui è stato estratto un
260 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
campione casuale è la popolazione campionata e la distribuzione del vettore aleatorio
X= (Xi, ... , Xn)' si dice distribuzione campionaria.
Esempi
1) Supponiamo di avere un silos con 106 semi che possono produrre fiori bianchi o rossi.
Ogni seme è un elemento della popolazione. Tecnicamente nessun valore numerico è
associato a ogni seme, ma noi possiamo immaginare di associare 1 al bianco e O al rosso.
X; allora varrà 1 o O a seconda che l'i-esimo seme estratto produca rispettivamente un
fiore bianco o uno rosso (i = 1, ... , n). Se preleviamo i semi in modo che le X; siano
indipendenti e abbiano tutte la stessa densità allora Xi, ... , Xn è un campione casuale.
2) Se consideriamo le 10 ruote del lotto, dove si fanno le estrazioni per il famoso gioco
del sabato (e ora anche del mercoledì), allora i primi numeri estratti su ciascuna ruota
rappresentano un campione casuale di dimensione 10, descritto da 10 va X; ciascuna con
densità P[X = n] = 1/90, 1 ::; n::; 90.
2,a) I sei numeri da indovinare nel Super Enalotto rappresentano i primi estratti sulle sei
ruote di (sigle delle province) BA, FI, MI, NA, PA, RM, con il primo estratto sulla ruota
di VE che fa da jolly. Però se indichiamo con X 1 , X 2 , ... , X 6 le va del possibile risultato
del gioco queste non sono indipendenti perché le regole richiedono che nella 6-upla non
ci possano essere 2 numeri uguali.
2,b) Sempre nel caso del lotto, i cinque numeri estratti sulla ruota di Napoli non sono
un campione casuale, perchè non sono indipendenti.
3) Si vuole valutare il numero di figli maschi in famiglie di tre figli. In una scuola si
scelgono 100 alunni (maschi o femmine) provenienti da tali famiglie e a ciascuno si chiede
quanti sono i figli maschi nella sua famiglia. Attenzione si campiona da una popolazione
di risposte che dichiarano il "numero di figli maschi" per famiglia; la risposta è una va X;
che può prendere i valori O;l; 2; 3 e ha ldp B(3,1/2), dove 1/2 rappresenta la probabilità
di successo che, nel nostro caso, è "avere un figlio maschio" (1/2 nell'ipotesi che maschi
e femmine abbiano la stessa probabilità di nascere).
Definizione 11.1.2 Definiamo somma campionaria la quantità: X 1 + X 2 + ... + Xn

e media campionaria la quantità: X= Xn = I:?~, xi.
Non esiste un limite superiore alla numerosità del campione: n può essere grande quanto
si vuole. È chiaro che più n è grande meglio è, ma aumentare n si scontra con problemi
concreti di budget versus costi da sostenere per eseguire la campionatura. Teoricamente
n può essere reso grande quanto le circostanze richiedano. Questo ci porta dal vettore
campione casuale X= (Xi, ... , Xn)' al concetto di successione {Xn} di va.
11.2 Successioni di va
Con il simbolo {Xn} indichiamo una successione di va definite su un medesimo spazio di
probabilità (O, A, P). Il suo significato non è banale: {Xn} può essere pensata come una
funzione da n in JR00 • La cosa più delicata è lo spazio dei casi possibili (campionario).
Occorre ricordare che, eseguito l'esperimento, il risultato osservato w E n deve essere
in grado di fornire la descrizione della successione nella sua interezza, cioè di fornire i
valori Xn = Xn(w) per ogni n. Tale successione può essere pensata come la traiettoria di
261
un processo stocastico a tempo discreto e può essere rappresentata come è mostrato in
figura.
o x.(I;)
o x/1;) o x.(w)
ox ,(w) ox,(I;)
o x/w) o x,(I;) o x,,(ç)
o x,(w) o x,,(w)
tempo
o 2 4 11
I pallini indicano la traiettoria osservata per un evento elementare ç mentre i quadrettini

ne indicano un'altra osservata in corrispondenza dell'evento elementare w. Si può pensare
che Xi(ç) rappresenti il valore della traiettoria all'istante i di tempo quando si verifica
l'evento ç.
Facciamo alcuni esempi.
Esempio 11.2.1 Supponiamo che (O, A, P) sia tale che n = (O,1), A sia la a--algebra
generata dagli intervalli aperti contenuti in (O,1) e P sia la distribuzione uniforme su
(O,1). Allora la probabilità di scegliere un punto appartenente all'intervallo (a, b) e (O,1)
è uguale ab - a. Prendiamo a caso un valore çE (O, 1) e sia {Xn} = 1-
n
_t In questo
caso la dipendenza della va X n dall'evento elementare ç è palese (vedi ,figura).
l-ç /4
-+---------~,........----~l D
-çln
D
D
I- c,/ 3 • 1-w/n
l- c,/ 2
• l-w/3
l-w /4
D
1-ç • 1-w/2
1-w
tempo
o 2 3 4 Il
Esempio 11.2.2 Sia {Xn} una successione di va di Bernoulli iid e sia w un evento
elementare dello spazio campionario n tale che P[Xn(w) = O] = ½ = P[Xn(w) = l].
Si può immaginare che ogni evento elementare dello spazio n coincida con una delle
stringhe in.finite di O e 1 e che potremmo chiamare stringhe campionarie. Per esempio
l'evento elementare ( = (1, O,O,O,... , O,... ) sarà quello per il quale X 1 (() = 1, X 2 (() =
O,X 3 (() = O,X 4 (() = O,... , Xn(() = O,... , eccetera, mentre l'evento elementare ç =
(O,O,l,0, ... ,0, ... ) sarà quello per il quale X 1 (ç) = O,X 2 (ç) = O,X 3 (ç) = l,X 4 (ç) =
O, ... , Xn (ç) = O, ... , eccetera. Poiché tali stringhe sono, per esempio, tante quante i
numeri reali compresi tra O e 1, scegliere un evento elementare w equivale a scegliere un
numero reale x compreso tra O e l.
Esempio 11.2.3 Sia Un} una sucessione di va di Bernoulli iid di parametro p. Sia
Dn = 2In - l. Allora P[Dn = +l] = P[In = l] = p e P[Dn = -1] = P[In =O]= q. Sia
ora Sn = I:~=lDi.
Supponiamo che [±[] si sia manifestato k volte e, di conseguenza, C=IJn - k volte.
Allora Sn = k - (k - n) = 2k - n
D,
+I
D, D,
___ I____
:
EEJ +/
».
-/
__ J __ _
Viceversa sia Sn =j : allora i [±[] sono esattamente 1 n; j

n + j e, in. t ero I nj att.i J. _ 2 k - n e { j dispari se n è dispari , quin di n + J. è pari.
--
2 · - j pari se n è pari
P[ Sn = j] è la probabilità che in una stringa ci siano esattamente k elementi uguali
tra loro (e, di conseguenza, n - k uguali tra loro). Le stringhe sono G) ciascuna di
probabilità pk qn- k.
Per quanto detto e per l'indipendenza si conclude che:
P[Sn=J]=( ~ )/·F/;j
Inoltre E[Dn] = E[2In - l] = 2p- 1 = p - q e var[Dn] = var[2In - l] = 4var[In] = 4pq.
Da ciò segue:
E[Sn] = n(p - q) var[Sn] = 4npq.
Vedremo che, grazie al teorema centrale del limite,
Sn ~ N(n(p - q); 4npq)
cioè Sn asintoticamente normale di media n(p - q) e varianza 4npq.
20
ò
n
" " "
• •
15 Sn =LD; • •" "
10
t:. " IJ. t:. IJ. A
i=\
t:. "
•"
. 6
" "
t:. /J,.
D..
t:,,
t:.
t:.
/J,. h.
/J,. t:. t:. t:. t:. t:.

5 O l!I A 6 IJ. .6.
CJ l!I O 6
CJ .o. o o
D t:. O O CJ O O O a 25 JO 35 40
~ ~ o o o a a a a
oo o aooa CIO o
IO oo 15 cJO aaooaoococacao ooaooo 45 ooa5 0
o o o o o o o o o o o o
-5 o o o o o o o o o o o o o o
o o o o o o o
o o o
o o
o
-I O o
o
o
-15
La rovina del giocatore

Supponiamo che ci siano due giocatori A e B dotati rispettivamente di un capitale pari
ad x e y euro, O < x < n; O < y < n. Questi giocatori fanno una partita che consiste
in una successione di lanci della stessa moneta truccata, P[T] = p e P[C] = q = l - p.
Se esce {T} allora A vince un euro da B se esce {C} allora B vince un euro da A. La
partita termina quando A o B sono in rovina, cioè hanno .finito i loro euro.
1Infatti i C±:IJdevono essere k tali che j = 2k - n, cioè si tratta di trovare k tale che j = 2k - n.
263
Consideriamo i seguenti eventi:
Ax = {A parte con x euro e va in rovina}

By= {B parte con y euro e va in rovina}
N = x + y rimane costante durante la partita.

Poniamo f x = P[Ax] e gy = P[Ay]- Evidentemente
Sia l::; x::; N - l Sia E= {esce {T} alla prossima partita}. Allora P[AxlE] = P[Ax+il
e P[AxlEc] = P[Ax- 1 ]. Per il teorema delle probabilità totali, dal momento che P[E] =
P[T] = p si ha:
P[Ax] = P[Ax n (EU Ec] = P[AxE] + P[AxEc] = P[AxlE]P[E] + P[AxlEc]P[Ec]

cioè:
fx =p·fx+l +q·fx-l (11.1)
Scambiando i due giocatori si ha:
Ricordando che p +q= l e quindi f x = (p + q)f x riscriviamo la 11.1
q(fx-l - fx) = P(fx - fx+I)
Se p =I-p ponendo r = 'f..otteniamo:

q
fx-l - fx = r(fx - fx+1) (11.2)

La 11.2 è una formula ricorsiva. che ci permette di calcolare f x in termini di f N -I·
Cominciamo infatti con x = N - l
!N-2 - !N-1 = rUN-1 - !N) = r !N-1
quindi
fN-2 = (1 + r)fN-l·
Ora prendiamo x =N- 2. Si ha:
!N-3 - !N-2 = rUN-2 - !N-i) = r 2 !N-1
Quindi
!N-3 = !N-2 + r 2!N-l = (1 + r + r 2)fN-l·
Continuando così si ottiene:
fN-k = (l +r +r 2 + ·· · +rk-l)fN-l· (11.3)
Se N = k si ha:
fo = l = (1 + r + r 2 + · · · + rN- l )f N-1
Caso r =I-l (i.e. p =I-q)
È:
2 N-1 l-rN
l+r+r +···+r =---
l-r
da cui:
l-r
fN-l =-1 -r N"
Se nella 11.3 poniamo k = N - x otteniamo fx = (l + r + r 2 + · · · + rN-x-l )f N-l =

l-rN-x l-r
-l---r- _l___r_N_'cioè
l -r N-x
fx = l -r N (11.4)
Questa è la probabilità che il giocatore A partendo con x euro vada in rovina.

Per trovare gy cioè la probabilità che il giocatore B partendo con y euro vada in rovina,
1
basta riscrivere nella 11.4 scambiando p con q, cioè r con - ex con y:
r
(11.5)
Caso r = l (i.e. p = q)
È
1+r + r 2 + · · · + rN - 1 = N
da cui
1
fN-l =N
N-x y
f X = ~ = N
Analogamente
N-y X
gy=~= N
cioè la probabilità di andare in rovina per A è inversamente proporzionale al capitale
posseduto da B e viceversa.
Osservazioni
1) Nel caso di equiprobabilità se y >> x allora fx::::::1.
2) Se r < l (q > p), e N-x = y---+oo allora r <le da 11.4 segue fx---+ l
3) Se r > l (p > q) allora 11.4 si può scrivere:
cioè la probabilità di non finire rovinato è diversa da O anche se si gioca con un avversario
in.finitamente ricco a patto di avere una probabilità più grande della sua di vincere ogni
singola partita.
4) Se q > p e y ---+ oo allora dalla 11. 5 si ricava che qy ---+ O. Per questo i casinò non
vanno mai in rovina.
In figura una rappresentazione grafica dei possibili cammini del capitale di A e di quello
di B ipotizzando che entrambi partano con un capitale di x = y = 10 euro e che la
moneta che lanciano non sia truccata.
265
20
.. .
19
,, •
.
18
16 •
,,
15 •
/J
12
• . •
.• .•
.
Il
• 8
IO o
• • • A
• .• .
9
.
8
,
5 • .• .• .•
.•
J
•
o I J 7 /J u
2
' 5 6 B 9 IO li 15 /6 17 /8 /9 10 21
I]
Il gioco si ferma perché alla 21- esima giocata il capitale di B si è azzerato.
Esempio 11.2.4 È noto che per Vn, n ~ l, :lm : 2m- l ::; n < 2m. Per esempio n = l --+
m = l; n = 2, 3 --+ m = 2; n = 4, 5, 6, 7 --+ m = 3 eccetera. Possiamo allora pensare a
definire la successione {Xn} di va nel modo seguente: Xn(w) rappresenta gli stati della
traiettoria w ai tempi (discreti} n. Dividiamo l'asse dei tempi in intervalli [2m- 1 , 2m).
1
Se n E [2m- l, 2m) ci sarà uno stato uguale a l con probabilità 2m- l in uno solo dei
2m- l = 2m - 2m- l istanti dell'intervallo [2m- l, 2m) mentre in tutti gli altri istanti di
tale intervallo gli stati saranno uguali a O. In altre parole: ogni traiettoria si trova nello
stato l esattamente in un punto di ogni intervallo [2m- l, 2m - l] mentre è nello stato O
in tutti gli altri punti di tale intervallo. Inoltre vale l la probabilità che in [2m- 1 , 2m)
esista un istante in cui la traiettoria è nello stato l.
Xi (<;)X J(<;)X5 (<;) X 9 (t,) xn(t,)

I
-- ~
o I 23 45678910 1112131415 2m-1 n 2lii_ 1
Pensiamo a cosa può succedere in pratica: osservare un evento elementare ç significa os-
servare una traiettoria fatta di punti Xn(ç). Quello che si vede nella ,figura è la traiettoria
che corrisponde ai punti x 1 (ç) = 1, x 2 = O, x 3 = 1, x 4 = O, x 5 = 1, x 6 = x 7 = x 8 = O,
x 9 = 1, eccetera. Quello che è certo che per 2m- l ::; n ::; 2m - 1 esattamente uno degli
Xn osservati vale l.
Un'altra traiettoria potrebbe essere: x 1 (ç) = 1, x 2 = 1, x 3 = O, x 4 = O, x 5 = O, x 6 = 1,
x1 = xs = Xg = x 1o = x 11 = O e x 12 = 1, eccetera.
Per le considerazioni che faremo successivamente è comodo pensare a ogni evento ele-
mentare w come a una traiettoria descritta dalla successione {Xn}.
Esempio 11.2.5 Media campionaria {Xn} di una popolazione di mediaµ. All'i-
stante n la va in giuoco è X n = I:'~ xi dove le X; sono indipendenti ed equidistribuite.
x1 = X 1 (() sarà il valore dell'osservazione all'istante l, Xn = Xn(() sarà il valore del-
l'osservazione all'istante n. Allora il valore di Xn all'istante n sarà Xn = I:f~, Xi, cioè
la media aritmetica dei valori osservati fino a n incluso. L'insieme dei valori (n, Xn) os-
servati per n = l, 2, ... costituiscono il grafico (discreto) di una delle possibili traiettorie
della successione (pallini nella ,figura). Naturalmente è solo una delle traiettorie possibi-
li. Infatti in una seconda occasione avremmo potuto osservare l'evento elementare ç e i
valori a1 = X1(l;), ... ,an = Xn(l;) e il valore di Xn all'istante n sarebbe an = I:f~,ai
e il cammino sarebbe stato quello formato dai punti (n, an) del piano (quadratini nella
,figura).
X 1 + Xz + ... + X 11
o 1 2 n
Nel caso le va siano Bernoulli iid di parametro p è facile vedere che P[x,+x,: ...+xv =
~] = (;)pkqn-k = P[B(n,p) = k]. La figura mostra come potrebbero approssimativa-
mente essere distribuite, in questo caso, le determinazioni della media campionaria a n
.fissato.
Vedremo che si possono definire diversi concetti di convergenza per le successioni di va.
Cominciamo da quello che per noi avrà maggiore rilievo.
11.3 Convergenza in legge
Definizione 11.3.1 Si dice che una successione di va {Xn} converge in legge (cL)
a una va X e si scrive Xn i:+X se e solo la successione {Fn(·)} delle fdr delle va Xn
converge puntualmente alla fdr F(·) di X, per ogni punto di continuità di F.
La funzione F(·) si chiama funzione di ripartizione limite e si dice che {Xn} ha come
distribuzione limite quella di X.
Questa definizione implica la seguente serie di relazioni
Fn(a)
l
P[X:=;a] F(a)
267
che si legge: se n è grande Fn(a) è vicina a F(a) quindi P[Xn ::; a] è vicina a P[X::; a],
o anche: per n grande P[X::; a] può sostituire P[Xn::; a].
Nei casi che esamineremo la cosa sarà equivalente alla convergenza delle fd cioè a fn(·)--+
f(·), ma in generale ciò non è vero. Nel caso invece esistano le fgm di Xn e di X, che
indichiamo al solito con mxn (t) e mx (t) si ha la seguente equivalenza:
Fn(·)--+ F(·) {::}mxJ)--+ mx(·).
11.4 Teorema centrale del limite

Il teorema seguente è uno dei più importanti della statistica: ci dà informazioni sul-
la convergenza in legge delle successioni di medie campionarie standardizzate da una
popolazione X e sul comportamento asintotico delle somme e delle medie campionarie.
Teorema 11.4.1 (centrale del limite, TCL) Siano X 1 , ... , Xn n va indipendenti,

identicamente distribuite con media µ e varianza 0' 2 finite e 0' 2 =I-O. Sia
Z _X1+ ... +Xn-nµ

n - O',jn (11.6)
Se indichiamo con Fn(x) la fdr di Zn e con cI>(x)la fdr della Z,...., N(O, l) allora
VxEIR,Fn(x) -----+ cI>(x) (11.7)

n-+oo
cioè, per n grande, vale la relazione
P[Zn::; b] = Fn(b) '.:::'.

cI>(b)= P[Z::; b] (11.8)
La dimostrazione del TCL esula dalle finalità di questo corso.

I seguenti grafici danno un'idea "ingenua" di come la densità della media campionaria di
una popolazione la cui densità può anche essere molto distante da quella gaussiana, le si
avvicina rapidamente.
densità. de11a popo1azione

originaria
densità. di Xquando n=2 O densità di Xquando n=4 O
densità di X quando n=2
JI. JI.
Osservazioni sul TCL

1) Se le X; sono normali, cioè X;,...., N(µ, 0' 2 ), allora X,...., N(µ, 0' 2 /n) e la dimostrazione
del TCL è immediata. Infatti: Zn = ':,7:;ff--vN(O, l).
2) La va:;;; dell'enunciato del TCL converge a una N(0, 1) in legge.

3) Alcuni pensano che n ~ 30 basti per applicare la 11.8, ma attenzione che questo
NON è, in generale, vero (vedi esempi più avanti).
4) La 11.6 è la standardizzata di una va Y = X1 + ... + Xn di media nµ e varianza
CJ
2 n. Perciò il TCL si può anche formulare così: la va X 1 + ... + Xn per n grande
è approssimativamente una N(nµ, nCJ2 ), cioè, per n grande, P[X1 + ... + Xn ::; a] :::::
P[N(nµ,nCJ 2 )::; a]= <Pnµ,no-2(a)
5) Un altro modo di scrivere la 11.8, che utilizza la media campionaria X, è il seguente.
X-µ
CJ/yn ~N(0,l) (11.9)
dove ricordiamo E[X] = µ se E[X;] = µ, e var[X] = ~ se var[X;] = CJ2.

6) Importante! Il simbolo X ~ F(·) significa che X è distribuita asintoticamente (o
approssimativamente) secondo F(·) oppure che F(·) è la distribuzione asintotica di X.
Vale a dire: per n grande, P[X::; a]::::: F(a). Utilizzeremo la scrittura 11.9 nella statistica
inferenziale.
Distribuzione asintotica
Fermiamoci un attimo sul concetto di distribuzione asintotica, che è fondamentale
in statistica. Supponiamo di avere una successione di va { Sn} con le loro fdr {Fsn}.
Facciamo distinzione fra due concetti differenti, ma legati fra di loro:
Funzione di ripartizione limite Funzione di ripartizione asintotica

E il limite della successione Quando n è grande , scelta una Sn , è
di funzioni , {Fs n (-)} per n-----+
oo. una funzione di ripartizione che
Ovviamente non dipende da n approssima quella vera di Sn
Per esempio se le va X; sono quelle specificate dall'enunciatodel TCL concludiamo che

N (O,1) è la fdr limite e asintotica della va: Zn = ':; fo (':;fo
_!:__,N (O,1)) mentre
N(µ,CJ /n) è solo la fdr asintotica della va X (X~ N(µ,CJ /n)).
2 2
Riassumendo: data una popolazione X di momento secondo finito il TCL dice che:
1) la distribuzione asintotica della somma campionaria X1 +X2+ .. .+Xn è N(nµ; nCJ2 );
- 1
2) la distribuzione asintotica della media campionaria X= -(X1 + X2 + ... + Xn) è
n
(J2
N(µ;-);
n
3) la distribuzione asintotica della media campionaria standardizzata, cioè di ':;fo,
è N(0; l);
4) la distribuzione limite della media campionaria standardizzata, cioè di ':;fo,è
N(0; 1).
Osservazione: è facile vedere che la media campionaria X ha come distribuzione limite
(e quindi anche asintotica) quella della costante µ.
Esempio 11.4.2 Un'azienda produce zucchero che viene confezionato in sacchetti il cui
peso è indicato da una va X; di media mezzo chilo e scarto l etto. Per la vendita questi
sacchetti sono imballati a 250 per volta. A loro volta gli imballi sono sistemati a 20 per
269
volta su pallets per la spedizione. Si vuole sapere la probabilità che il peso di un pallet
superi 2510 Kg (al netto del peso del pallet stesso, degli imballaggi e dei sacchetti).
Soluzione. La va S 5 ooo = X 1 + X2 + ... + X 5 ooo rappresenta il peso totale del pallet.
E[S 5 ooo] = 5000 · 0.5 = 2500; var[S 5 ooo] = 5000 · 0.01 = 50. Per il teorema centrale del
. . S 5000 - 2500
limite v50 è asintoticamente una N(0, l). Da ciò:
50
S5000 - 2500 10
P[S5000 > 2510] = P[ v50 > 7_071 ]:::::1 - cI>(l.41) = 1 - 0.9207 = 0.0793.
Esempio 11.4.3 Si vuole utilizzare una piccola centrale termoelettrica da 2 Megawatt di

potenza per servire la rete elettrica di un piccolo comune cui sono allacciate n famiglie.
Supponiamo che il consumo di una generica famiglia sia indicato da una va Xi di media l
K w e varianza l K w 2 ma di distribuzione ignota. Quando la potenza richiesta dalla rete
supera i 2 Megawatt la centrale va in blocco. Quante devono essere le famiglie allacciate
alla rete affinchè la probabilità che la centrale vada in blocco sia superiore a O.l?
Soluzione. Xi (misurata in K w) rappresenta il consumo di una famiglia; posto Sn =
X1 + ... + Xn dobbiamo valutare:
Pn = P[Sn ~ 2000].
Le va Xi sono iid. E[Sn] = n e var[Sn] = n.
S - n 2000- n
Sn ~ 2000? fa ~ fa
Per il teorema centrale, Sn è approssimativamente N(n; n) e Z = 8 r;j,t è approssimati-

vamente N(0, 1). Ora: .
2000 - n] 2000 - n
P [Z ~ fa ~ 0.H::::::::}P[Z < fa ] ::; 0.9.
Nell'ipotesi che Z sia normale, abbiamo (vedi tavola della normale): P[Z < 1.282] = 0.9.
Per cui deve essere: 20 ~n < 1.282::::}n+l.28,/n-2000 >O::::} fa> -1.2s+v1~282 +sooo::::}
n > (44.086) 2 = 1943.6.
Concludiamo che in queste condizioni se le famiglie in rete sono 1944c'è una probabilità
superiore al 10% che la centrale vada in blocco.
Una generalizzazione del problema precedente consiste nel ritenere che la potenza erogata
dalla centrale sia un va W (che è evidentemente indipendente dalle Xi), normale di
media 2000 Kw e varianza 10000 Kw 2 (cioè scarto pari a 100 Kw). In questo caso
Sn - W è approssimativamente normale, con:
E [Sn - W] = E [Sn] - E[W] = n - 2000
var[Sn - W] = var[Sn] + var[W] = n + 10000.

Il blocco avviene se si verifica uno dei due eventi
(Sn - W) - (n - 2000) 2000 - n

S - W > O ~ -----:::====--- > ---:::====
n - vn+ 10000 - vn+ 10000
Per il TCL Z = (Sn-W)-(n-
y1n+l0000
2000 ) è approssimativamente N(0, 1).
Per quanto detto al punto precedente P [Sn - W ~ O] > 0.1 se n è tale che ~ <
1.28::::}n + l.28yn + 10000 - 2000 = (n + 10000) + l.28yn + 10000 - 12000 ~O::::}
::::}yn + 10000 ~ -1. 2 s+v\ 282 +4SOOO = 108.91 ::::}n ~ (108.91 ) 2 - 10000 = 1861.
Lo stesso tipo di conti si potrebbe fare nell'esercizio precedente. Infatti si ipotizzi che i
pallets vengano spostati da un "muletto" che ne solleva uno per volta e sopporta, senza
rompersi, un peso W, dove W è una va normale di media 2535 Kg. e scarto 20 Kg.
Supponiamo che pallet, imballaggi e sacchetti (cioè la tara) pesino 10 Kg. Se si vuole
calcolare la probabilità che il "muletto" si rompa. Bisogna calcolare P[Y + 10- 2535 > O].
Fare i conti per esercizio.
Esempio 11.4.4 Vediamo come si comportano al crescere dir le densità di r(r, 1). Per
[r]
r = 50 la densità assomiglia a quella della normale. Infatti una f(r, l) = I: X; + Y
1
può essere spiegata come somma di [r] (parte intera dir) esponenziali X; tutte di media
[rl X
f(r - [r], 1). Per il TCL posto X =
1, indipendenti, e di una Y ,.__, X;+ Y, [r] = 2(
[rl X· y
L [rÌ + [r] la sua distribuzione asintotica è quella di una normale di media l e varianza
1
1/[r].
0,6 0,06
:r=O,S
0,5 0,05
0,4 0,04
F50
0,3 0,03
0,2 0,02
0,1 0,01
O I 2 3 4 5 6 7 8 9 101112 O 10203040 506070
Importante: uso del TCL per un test

Esempio 11.4.5 Una fabbrica produce lampadine. Si sa che la durata di queste lam-
padine è modellabile non conjuna esponenziale ma con una va Y con media µy = 900
ore, con una deviazione standard O"y = 30 ore. Viene messa a punto una nuova tecnica
costruttiva per produrre lampadine che I dovrebbero I avere una durata media più lunga,
lasciando inalterata la deviazione standard.
Quindi lampadine di durata X tale che
E[X] > E[Y] e var[X] = var[Y]
Come fa il produttore a verificare se E[X] > E[Y]? Questa verifica passa per una analisi
della nuova produzione, non tutta ovviamente, ma solo di un campione estratto da questa.
Viene scelto un campione di 36 lampadine che, sottoposte a un test di durata, mostrano
una vita media di 915 ore.
271
Questo esempio presenta una struttura complessa e riguarda, solo in parte, un'applica-
zione del teorema centrale. Smontiamo il problema pezzo per pezzo e ci sarà utile anche
per i capitoli futuri. All'inizio il teorema centrale non ha rilevanza. Si afferma semplice-
mente: una fabbrica produce lampadine; si sa che la durata di una qualunque
di queste lampadine è una va Y con media 900 ore e deviazione standard di
30 ore, cioè E[Y] = µy = 900 e var[Y] = a} = 900. Fino a questo punto non ci sono
domande: solo una descrizione dello stato di fatto. Leggiamo il prosieguo: viene mes-
sa a punto una diversa tecnica costruttiva che I dovrebbe I aumentare la vita
media delle lampadine prodotte, lasciando inalterata la deviazione standard.
Siamo informati del fatto che il produttore mette a punto un diversa tecnica costruttiva.
Cosa si propone? Di migliorare la qualità delle lampadine, cioè aumentare la loro durata
media. Le nuove lampadine avranno una durata rappresentata da una nuova va X.
I ATTENZIONE I: il produttore conosceva la durata media delle lampadine prodotte con
il vecchio sistema. Da cosa aveva questa informazione? Dalla storia della sua azienda.
In molti anni di produzione, misurando la durata di moltissime lampadine prodotte, anche
se ovviamente non tutte, si è convinto che è ragionevole essere certi che la loro durata
sia codificabile da una va Y con E[Y] = 900 e var[Y] = 900. Ora si trova di fronte a
una popolazione sconosciuta di durate di lampadine, quelle prodotte con il nuovo sistema.
Per ragioni che non ci riguardano, si dà per certo che la va che descrive la durata
delle "nuove" lampadine sia la stessa che descriveva la durata delle vecchie, con un'unica
eventuale differenza: la media. Cioè si da per certo che:
E[X] = µx ignota e var[X] = 900.
A noi non viene chiesto di entrare nel merito di questo fatto: non spetta a noi giudicare
se è giusto o sbagliato. Ci viene solo chiesto di tenerne conto.
w:cchi~<1produzione nuova produzione
distribuzione della durata
di unagenetica lampadina
'''
µ, ~ 900 Y(ro) X(ro)

µx"""??
a,~10 a.,~30
Veniamo inoltre informati che il produttore, per saperne di più su E[X], esegue un test
statistico. In cosa consiste un test? Lo vedremo dettagliatamente nel capitolo 14. Ma lo
possiamo anticipare qui nella sua idea di fondo. Il punto di partenza per eseguire un test è
la formulazione dell'ipotesi da sottoporre a test: l'ipotesi nulla del test. Nel formulare
l'ipotesi nulla il produttore segue una regola spesso rispettata: sceglie cioè come ipotesi
nulla quella che vorrebbe fosse negata dal risultato del test, in questo caso
ipotesi nulla
che equivale al fatto che il nuovo processo non ha cambiato nulla o addirittura ha peggio-
rato le cose.
L'ipotesi riguarda la vita media. Per verificarla occorre trovare una stima
di questa media. Ciò passa attraverso l'osservazione di una porzione della
popolazione (cioè di un campione) e l'utilizzo di uno stimatore di tale media,
la media campionaria.
Viene allora scelto un campione di 36 lampadine. Nel nostro caso, il valore osservato sul
campione della media campionaria X 36 = I:fiJxi è X36 = 915.
Il produttore deciderà di non rifiutare l'ipotesi nulla se x36 , il valore osservato di X 36 ,
cadrà prima di 900 o poco distante alla sua destra. Deciderà di ri.fiutarla se x 36 cadrà
distante a destra di 900. Rifiutando µx ::; 900 accetterà µx > 900 cioè accetterà che la
nuova tecnica costruttiva è migliore della precedente.
Entra in gioco il teorema centrale. Per decidere cosa signi.fica lontano non utiliz-
ziamo un metro. Utilizziamo la distribuzione di X 36 . Qui entra in gioco il TCL che
ci assicura che, con buona approssimazione (si spera che n = 36 sia sufficiente per po-
ter utilizzare questa approssimazione), la distribuzione di X 36 è una normale di media
900
incognita µx e varianza O'-x 2 = - = 25. Si decide che x36 è lontano (a destra) da
36 36
µ x se, ipotizzando µ x ::; 900, la probabilità che X 36 cada oltre X36 è piccola (diciamo
inferiore ad a, con a ::; 0.2), cioè P[X36 ~ X36 = 915lµx ::; 900] ::; a. Questo perché
se P[X36 ~ X36 = 915lµx ::; 900] è piccolo, vuol dire che X36 è caduto nella parte dove
la gaussiana che disegna la fd di X 36 si è già abbassata molto, quindi X36 è lontana, a
destra, dal punto di massimo di tale gaussiana, che sta nella sua media µx = µx 36 (::; 900
almeno nelle nostre ipotesi). Osserviamo che il nostro concetto di distanza non è in senso
euclideo ma probabilistico: diciamo che X36 è distante da µx se la probabilità alla sua
destra è piccola.
In ipotesi µ_1. =900, X36 si çonsidera distante da µ,1

perché l'area sotto la "gonna"destra O.0013 massa di prohabilità a de.,·tra
della normaleè piccola e la "gonna"è mollo bassa. di 9I 5 in ipotesi µx = 900
9l5=X.M
Se µ.r < 900, x_M

si considera ancor più distante
da µ\.perché l'area sotto la ''gonna"
destra della normale è ancora più piccola ,
Se µx > 900. X:,(l

si considera meno distante da µxperché
l'areaso!to lu "gonna'' destra della
normaleè più grande in qumuola "gonna"è più alta.
900
µX> 900
915 =x"
Calcoliamo dunque P[X 36 ~ 915lµx ::; 900]. Questa probabilità si chiama p - value.
Dunque, se il p - value è piccolo, diciamo inferiore a 0.2 il produttore rifiuterà l'ipotesi
µX ::; 900II.
Basta calcolare P[X 36 ~ 915lµx = 900], cioè ridurci all'ipotesi nulla µx = 900. Infatti
P[X36 ~ 915lµx < 900]::; P[X36 ~ 915lµx = 900]: quindi se µx fosse minore di 900 la
- - 900
probabiltà di {X 36 ~ 915} sarebbe ancora più bassa. Grazie al TCL X 36 ~ N(900; 36 ),
IIse il p - value è piccolo significa che x35 (la stima di µx osservata) è distante (a destra) da µx.
Si rifiuta perché, come più volte osservato, si tende a pensare che ciò che accade è ciò che è più pro-
babile. Dunque il valore più probabile di µX sembra più grande di quello ipotizzato. Ciò in base a
una banalizzazione del principio antropico: esiste solo ciò che può esistere (o ciò che è più probabile che
esista).
273
quindi Z = X3cr-
5 - µxs6 Xs§-900
5 è asintoticamente una N (O, l ). Ricordiamo che non
X35
si calcola esattamente la probabilità dell'evento {X 36 ~ 915} o, se volete, dell'even-
to {x 36 ~900~ 915 ~900= 3}, perché I NON SI CONOSCE I la distribuzione esatta di
X 36. Via TCL si può calcolare un suo valore approssimato, che è pari alla probabilità
dell'evento {N(0, l) ~ 3}.
P[X36 ~ 915lµx = 900] = P[X36 ~ 915] = P[Z ~ 3] = 1-P[Z < 3] = 1-0.9987 = 0.0013.
Conclusioni. Poichè nell'ipotesi fatta (µx ::; 900), il p- value è molto basso (poco più
dell'l per mille se µx = 900 e ancora più piccolo se µx < 900), decidiamo che µx non
dovrebbe essere 900 ma qualcosa di più. Torneremo su ragionamenti di questo tipo nel
capitolo 14.
Attenzione: accettando l'ipotesi alternativa µx > 900 si potrebbe commettere un errore
nel caso che fosse invece vera µ x ::; 900. C'è un modo di valutare la probabilità di questo
errore. Ci torneremo nel capitolo 14.
Attenzione: se l'ipotesi nlla fosse stata, per esempio, µ x = 915 la probabilità dell'evento
{X 36 ~ 915} {cioè il p - value) sarebbe stata (sempre via TCL) circa la stessa di
{N(0, 1) ~ O} cioè 0.5. In questo caso sarebbe stato difficile ri_fiutare tale ipotesi.
11.5 Approssimazioni asintotiche via TCL

Il TCL ci permette di approssimare la distribuzione della somma di n va indipendenti,
equidistribuite di media µ e varianza 0' 2 con la distribuzione normale. Vediamo alcune
applicazioni.
Approssimazione di una B(n,p) con una N(µ,0' 2)
Una delle applicazioni più importanti del TCL riguarda le va binomiali. Ricordiamo che,
se X rv B(n,p), allora X rappresenta il numero di successi in n esperimenti indipendenti,
dove la probabilità di successo in ogni esperimento è data da p. Sappiamo che X si può
considerare come la somma di n va "indicatori", cioè:
X· = { 1 se nell' i - esimo esperimento si ha un successo
' O altrimenti
Abbiamo già visto che E[Xi] = p e che var[Xi] = pq. Per il teorema centrale del limite,
se n è grande, ~ è approssimativamente una N(0, 1).
Modellizziamo con la moneta. Supponiamo di lanciare una moneta bilanciata 10 volte e
di voler valutare la probabilità di ottenere un numero di teste compreso tra 5 e 8, estremi
inclusi. Detto X il numero di teste, il conto esatto è:
P[ 5 ::; X::; 8] = (12)(½)5(½)10-5
+(12)(½)6(½)10-6
+(1~)(½)1 (½)10-8
+(1i) (½)8(½)10-8
E[X] = np = 5
Inoltre· {
· var[X] = npq = (5/2) = 2.5
La funzione P[X = x] è discreta ed è diversa da O solo nei punti di ascissa intera
x = l, 2, ... , 10. Noi però effettuiamo una correzione di continuità per P[X xl,
facendola diventare una funzione a gradini:
(a)
O 12 ::145 61
l l ..
~ O 1 2 3 4 5 6 l 8 , 10
Interpretiamo poi P[X = x] come l'area di un rettangolino avente altezza P[X = x] e

base unitaria [x - 1/2, x + 1/2]. La correzione di continuità si basa sul fatto che, per
una va che assuma determinazioni intere, non fa differenza considerare la sua fd come
discreta a valori P[X = i] solo sulle determinazioni "i" o discontinua a tratti con valore
costante P[X = i] nell'intervallo (i - 0.5, i+ 0.5).
Consideriamo ora la figura seguente, dove sono sovrapposti i grafici di P[X = x] (corretta
con continuità) e di N(np, npq) = N(5, !)-
da 4.5 a 8.5
L'area puntinata rappresenta così la P[X = 5] e la P[5 ::; X ::; 8] è la somma delle aree
8+0.5
dei rettangolini [TI, ITJ,ITJ,[I] che può essere pensata come J
5-0.5
P[X = x]dx. È
anche intuitivamente evidente che l'area [TI è approssimativamente uguale a:
[-(1/2). (x~;:)2] [-(1/2). (x;t]

J
5+1/2exp 5+0.5exp
~----=--------"dx
y1npqv27r
= j -----"----==-=------""dx.
v2.5v27r
5-1/2 5-0.5
Per i rettangolini ITJ,ITJ,[I] , si può fare un discorso analogo di modo che:
P[5 ::; X ::; 8] ::::: J

8+0.5exp
5-0.5
[-(1/2)
v2.5v27r
(x-5)2]
2.5
dx.
Per questo calcolo conviene standardizzare, passando a

5 < Z < ..1d.. = 2 21· quindi·
v"2.5' con -O .316 = _-o.
Z = x- 5
y'2.5 - - v"2.5 . ' .
275
2.21 2
P[5 ::; X ::; 8] '.::::'. f exp[-(l/ 2) t I dt = <J?(2.21)- <J?(-0.316) = 0.9864- (1- <J?(0.316))=
-0.316 y'27r
= 0.9864 - 1 + 0.6230 = 0.6094.
Se avessimo fatto i conti con la densità binomiale avremmo ottenuto P[5 ::; X ::; 8] =
0.6123. La differenza tra i due valori è 0.0029, trascurabile nei problemi dove basta una
precisione dell'ordine dei centesimi.
Rapidità di convergenza in dipendenza del valore dei parametri
A B C
0,5 0,5 0,5
o L----'-~--- ······-·· o ,..__.__.._ _ __ ___

_____
__o L...!.....I.....L..J~ - --
2 3 3 4 O I Z J 4 5 6 7 8
n~l00; p~0.0001 n~f(/00: p~0.0001 n~IOO:r0,01
Importante: l'approssimazione di una B(n,p) con una normale N(np, npq) funziona
bene quando sia np che nq sono almeno 5. Quando si parla di approsimazione via
teorema centrale si usa dire che n > 30 è sufficiente a garantire un comportamento
normale della somma di va indipendenti dotate di media e varianza finite. Questi esempi
mostrano che tale affermazione va presa con cautela. Nella figura sopra (da sinistra) sono
mostrati i grafici della ldp di una va risultato della somma di 100 Bernoulli di parametro
p = 0.0001, di 1000 Bernoulli di parametro p = 0.0001 e di 100 Bernoulli di parametro
p = 0.01. Si vede che questi grafici sono molto lontani dall'assomigliare al grafico della fd
di una normale. Nella figura qui sotto invece c'è il grafico della somma di 100 Bernoulli
di parametro p = O.Ol e questa ldp ha l'andamento a campana tipico della gaussiana.
Perché valga la approssimazione si chiede che
n ·p ~ 5 e n ·q ~ 5.
Nei casi A,B,C tali valori sono rispettivamente: (n x p = O.Ol, n x q = 99.99); (n x p =

O.I, n x q = 999.9); (n x p = l, n x q = 99) valori lontani dal limite 5. Nel caso D invece
(n x p = 10, n x q = 990) e l'andamento della fdd è quello tipico a campana della normale.
0,5
O I 2 3 4 5 6 7 8 9 JOJI/2/3/4!5/6/718/920212223242526
n=/000; p=0.01
Tabella delle correzioni di continuità
Valore cercato Correzione Valori in termini di
della B( x, n , p) di continuità distribuzione della N(O, 1)
P[X = x ] P [x - -12 -< X -< x + -21 ] <I?(
x +l / 2 - np ) _ <I?( x - l / 2 - np )
,/ npq ,/np q
P[X:c; x ] ½l
P[X::; X + <I?(x + l / 2 - np )
vnpq
P[X < x] = P [X :e;x - l] P[X :e;x - 1 + ½] <I?(x- 1/ 2- np )
vnpq
P[X 2: x] P[X 2: x - ½] l _ <J?(x - 1/ 2- np )
,/np q
P[X > x] = P [X 2: x + l ] P[X 2: x + 1 - ½] l _ <J?(x +l / 2- np )
vnpq
P[a :e;X :e;b] P [a - -21 -< X < 1
- b + -]
2
<J?(b+ l / 2-np)
vnpq
_ <J?(a -1 / 2-np)
vnpq
Esempio 11.5.1 In un'università prestigiosa ritengono che il numero ottimale di stu-

denti da accettare come iscritti al primo anno sia 150. Dalle passate esperienze, sanno
che solo il 30% degli studenti di cui sono state accettate le iscrizioni rimarrà poi definiti-
vamente. Decidono perciò di accettare le domande di iscrizione di 450 studenti. Calcolare
la probabilità che gli studenti che si fermano siano più di 150.
Soluzione. Possiamo considerare gli studenti come 450 esperimenti di un processo ber-
noulliano e considerare successo uno studente che si ferma de.fmitivamente (e insuccesso
quello che non si.ferma). Allora X; è una va che codi.ficase lo studente si.ferma (X;= 1)
o no, e X = I: X; è una va che dà il numero degli studenti che si fermano. X è una
va binomiale di parametri (n,p) = (450;0.3). Poichè la binomiale è discreta, mentre noi
penseremo ~ come continua (approssimativamente normale), calcoleremo con una
correzione di continuità P[X =i]= P[i - 0.5 <X< i+ 0.5].
Allora P[X 2 151] diventa P[X > 150.5]. Ora X > 150.5 {::}Z > 150 -5 - 450 (o.3 ) ed
y450 (0.3) (0.7)
essendo Z = x - 45 o(o.3 ) si ha:
y450(0.3)(0.7)'
P[X > 150.5] = P [z> 150 ·5 - 45 o(o.3

y450(0.3)(0.7)
J] = P[Z > 1.5945] = 1 - P[Z < 1.5945] =
1- 0.9441 = 0.0559.
La probabilità è dunque 0.05. Possiamo concludere che questa strategia, se applicata ogni
anno, ci garantisce che solo 5 volte ogni cento anni si fermeranno più di 150 studenti.
Esempio 11.5.2 Supponiamo che due dadi bilanciati vengano lanciati 600 volte. Sia X
il numero di volte che il totale delle due facce è pari a 7. Calcolare P[90 ::; X < 111].
Soluzione. Cominciamo ad osservare che si può pensare a ogni lancio come ad un esperi-
mento con due sole possibili uscite: {7} oppure {non 7}.
P[{7}] = 3~ = ½--+ P[{non 7}] = i
Pertanto la densità di X è una binomiale con n = 600 e p = (l/6).
P [90 ::; X :e;110l = "'110
~j= 90
(600)
j ( l)j (5)600-j
6 6 , che non e, proprio. breve da calcolare.
Ora, np = 100 e nq = 500. Siamo perciò garantiti che l'approssimazione normale della
.
binomia. l f . p . h, { E[X] = np = 100 .h h
e unzwna. oic e: var[X] = npq = (500 / 6 ) si a c e:
110+0 5 exp [-(1/2) ((5-68/~n v~~i/

6 exp(-(1/2) t2)
P[90 :e;X :e;110] = f
90-0.5 y(500/6)V27r
dx
~
- f
-10.5
- V27c dt -
-
X - 100 ,/500/6
t=~==
)500/6
277
= 21 J5exp(-J,J;
-oo
2l t 2 ) dt - l = 2 · (0.8749) - 1 = 0.7498
110 exp[- (1/2) (x,;-0 ~~~) 2 ]

Approssimando ulteriormente, si pone: P[90 < X < 110] =
- -
J
90
y'5ocÌ!6v'21r
500/6 271"
dx
.
ntenen d o trascura b·1· r9o5 come c1. autonzza
1110.5 e Jsg_
1 1 110
. a f are 1·1 seguente:
Teorema 11.5.3 Teorema limite di De Moivrem-Laplace. Sia X una va bino-

miale di parametri p, n. Allora, .fissati a, b con a < b, si ha:
P [a::; X - np ::; b] = P[np + ay'npq::; X::; np + by'npq] ----+ (b)

- (a)(11.10)
y'npq n-+oo
.
dove, al solito, x)
( = Jx
_ exp(-v'27r
00
(1/2) t 2 )
dt.
Approssimazione di una Poisson con la normale

Sia X rv Pois(>..). Indicando con [>..]
la parte intera di À si può scrivere:
1-'l
X= LX;+ = s < 1).
Y; X; rv Pois(l), Y rv Pois(0::; À - [>..]
1
Dividendo entrambi i membri per parte intera di À si ha:
X
--1 - -
[>..] x 1" 1 -1 y x 1" 1 -1
Standardiziamo: ~ = ~ + v[,\] dove ~ ~ N(0, 1).
y € y €
Per quanto riguarda Y si ha: E[ /f\l] = /f\l ----+ O; var[ /f\l] = [ '] ----+ O.
V[>..] V[>..]-'-+oo V[>..] A -'-+oo
Perciò Pois(>..) è approssimativamente una N(>..;>..).
Perché valga questa approssimazione basta
Approssimazione di una B(n,p) con una Poissoniana

Prima di proseguire vogliamo per un attimo ricordare almeno un altro tipo di approssi-
mazioni riguardante le distribuzioni di va binomiali e di Poisson. Ricordiamo che una va
binomiale B(n,p)rvfB(n,p)(x) = P[X = x] = (:) px(l - p)n-x mentre per una Poisson
( t)X -vt
è f(x) =P[X(t) = x] = v ~ ; (probabilità dix "arrivi" nel tempo t con numero
X.
medio di "arrivi" nell'unità di tempo v).
Nel capitolo 6 abbiamo visto che, se n --+ +oo in modo che np rimanga costante, allora:
( n) e-np(np)x
x px(l - p)n-x '.::::'. x!
. . { n-20
. Venfich1amolo con P,:-0 _2 e facciamo i conti con:

Approccio binomiale Approccio poissoniano
P =[X= 3] = (;)p3(1- p)n- 3 = 0.0065 P= [X= 3] =
e-np(np)6
::li
= 0.00715
La differenza fra i due valori è: 0.00065.

Perché valga questa approssimazione basta
n ~ 20 e p ::; 0.05.
11.6 Altri tipi di convergenze

Convergenza in probabilità
Definizione 11.6.1 Si dice che una successione di va {Xn} converge in probabilità
(cP) a una va X e si scrive Xn :E+X se e solo se:
Vs> O, lim P[I Xn - X I> s] = lim P[{w E O :I Xn(w) - X(w) I> s}] = O.
n-+~ n-+~
La convergenza in legge non implica la convergenza in probabilità ma vale il viceversa.
Mostriamolo con tre esempi.
E semp10. 11 . 6 . 2 s·ia '-'

vn, P[Xn =O]=
X n = { P[Xn = l] = l/
2 .
l/ 2 , una successione d'i va d'i B ernou ll'i
e sia P[X =O]=

· X = { P[X l/ 2 . Ovviamen
= l] = l/ 2
· t e X n---+
L X
. s·ia poi. Y = 1 - X . L a fd r d'i Y
Y. Non ci può però essere Xn

è la stessa di quella di X per cui è anche Xn .!::..,, :E+Y in
quanto "in, IXn - YI = 1.
Esempio 11.6.3 Sia O= {w1 ,w2,w3,w 4 }, A la a-algebra di tutti i sottoinsiemi di O e

P la distribuzione uniforme di probabilità. Sia
"in, Xn = { Xn(w1) = Xn(w2) = 1 ; X= { X(wi) = X(w2) = O .
Xn(w3) = Xn(w4) = O X(w3) = X(w4) = 1
Non può ovviamente essere Xn :E+ X perché "in, IXn - Xl = 1, cioè IXn - Xl è una va
che vale 1 con certezza.
Basta però calcolare le fdr per vedere che c'è convergenza in legge. Infatti:
"in, Fn = {o x<0
1/2 O::; X < l ; F =
{o
x<0
1/2 O::; X < l
1 x~l 1 x~l
Esempio 11.6.4 Consideriamo la normale standard N(0, l) {basta una va simmetrica,

cioè tale che per la sua fd valga "ix, f(x) = f(-x)). Poniamo "in, Xn = N(0, 1) e X =
-N(0, 1). Oviamente fx = f-x quindi c'è convergenza in legge. Non c'è convergenza in
probabilità in quanto Vs,P[IXn - Xl > s] = P[IN(O, 1)1> !] ----1-+O
Teoremino 11.6.5 La convergenza in probabilità implica quella in legge ma non vale il

viceversa. Cioè:
279
Teoremino 11.6.6 La convergenza in legge a una costante implica la convergenza in
probabilità a quella costante. Cioè:
Convergenza q.c*
Definizione 11.6.7 Si dice che una successione di va {Xn} converge quasi certamente
(cQC) a una va X e si scrive Xn ----+ X se l'insieme degli w tali che lim Xn(w) =
qc n-+oo
X(w), (cioè lim (Xn(w) - X(w)) = O) ha probabilità 1, cioè se
n-+oo
P[n-+oo
lim (I Xn - X I= O)] = 1 (11.11)
oppure, la probabilità dell'evento per cui è falso che lim

n---++oo
(IXn - X I= O) deve essere O,
cioè:
P[{w E n: lim
n---++oo
I Xn(w) - X(w) I= 0} 0 i = o (11.12)
La scala gerarchica tra le convergenze appena definite è la seguente:
(cQC)::::} (cP)::::} (cL) (11.13)

La (cQC) e la (cP) necessitano che le va della successione {Xn} siano definite sullo stesso
spazio di probabilità; in particolare la (cP) utilizza la distribuzione congiunta di (Xn, X).
La (cL) vede invece solo le fdr delle va X; nel senso che se Xn i:+X e se "in, Xn rv Yn
allora anche Yn i:+ X.
Da quanto appena visto la (cL) non implica la (cQC).
Altre considerazioni sulle convergenze in Appendice 1.
Esempio 11.6.8 Utilizzando l'esempio 11.2.4 mostriamo che cP non implica cQC. Iden-
tifichiamo ogni evento elementare w con le traiettorie Xn(w). Da come è costruita la
1
successione {Xn} si vede che P[IXn - O I> s] = P[{w E n :IXn I> s}] = 2m-l dove m
è il più grande intero tale che 2m- l ::; n. Inoltre quando n --+ oo anche m --+ oo. Per cui
lim P[IXn I> s] = O che garantisce la cP a O. Ora se ci fosse anche cQC a O, soltanto
n---++oo
un insieme di traiettorie (cioè di w) di probabilità nulla dovrebbe rimanere fuori da un
tubo di ampiezza 2s che sta intorno a O (figura qui sotto).
Ma non può essere P[{w E n: n-+oo

lim I Xn(w) I= o}]= 1. Infatti una traiettoria è un
insieme di punti Xn (ç): tra questi un'infinità numerabile valgono l e tutti gli altri valgono
O. Ma non c'è mai un istante k oltre al quale gli lxnl < s. Quindi è impossibile che
lim
n---++oo
I Xn I= O. Di conseguenza P[{w E n: lim
n---++oo
I Xn(w) I= o} =
0
J 1 e non c'è
cQC.
Oss. 1 Per quanto riguarda la Y della sezione dove si è trattato della approssimazione
y
di una Poisson con la normale si può affermare che ~ --+ O quasi certamente e quindi
in probabilità e in legge.
11.7 La legge debole dei grandi numeri
Teorema 11.7.1 {:•) Siano X 1 , ... ,Xn n va iid di mediaµ. Allora:
Vs > O : hm P .
n---+oo
[I------
X1 + ... + Xn
n
- µ I s] = hm.
~
n---+oo
P [I-
Xn - µ I ~ s] = O (11.14)
Dim.: Facciamo la dimostrazione sotto l'ipotesi aggiuntiva che le va Xi abbiano varianza

.finita a 2. Sappiamo che: E [x,+.,:,:+Xn]
= ¾E[I:iXi] = ¾I:E[Xi] = ~ = µ;
2
a~= ~ var[I:i Xi] = ~na 2 = : . Dalla disuguaglianza di Chebyscev si ha che:
p [IX, +...+Xv µI ~ s] ::;~ ---+ O•
n = n-+=
Osservazione: Si noti che nel teorema precedente si considera, per ogni numero E > O,
il limite delle probabilità degli eventi {w E n : IX n ( w) - µ I > E}.
La 11.14 si chiama legge debole dei grandi numeri 1v.
. se A si veri,fica
. { 1 .
Esempio 11.7.2 Sia Xi
lt . =
t· . Sappiamo che X 1 + ... + Xn rap-
0
a rimeni
presenta il numero di volte che A si verifica in n esperimenti. Poichè E[Xi] = p = P[A],
la 11.14 dice che la probabilità che la frequenza (proporzione) del verificarsi di A in n
esperimenti differisca dalla probabilità di A per più di s tende a zero al tendere di n
all'infinito.
Ecco come si comporta la media campionaria nel caso di un esperimento di Bernoulli:
1 P[Xi = l] = p
Xi= { o::;p::;1;
O P[Xi =O]= q
IV Legge forte Sia X 1 , X2, .. , , Xn,, .. una successione di va iid, ciascuna di media µ. Allora, si ha
P [ lim X n = µ] = 1 .
n-=
Dove X n è la media campionaria. Si noti che qui si considera la probabilità dell'evento
{w E !1: limn-= X n(w) =µ}.Si dimostra che la legge forte dei grandi numeri implica la legge debole.
281
detennina.zioni
l'!!:.!
n
2
n I
n
Xl+ .....+Xn
variabili
n
Le determinazioni si infittiscono (senza addensarsi intorno a p, figura); la densità di

probabilità della media campionaria tende a concentrarsi sulla p. Infatti da var[X;] = pq
segue var[Xn] = pq ---+ O. Nella figura successiva un'immagine di come le traiettorie
n n---++oo
che corrispondono a diverse osservazioni della successione delle medie campionarie re-
lative al lancio di una moneta bilanciata, convergono alla media. Il TCL garantisce la
convergenza in legge, la legge debole quella in probabilità, la legge forte quella quasi certa.
Grazie alla convergenza quasi certa le osservazioni che rimangono fuori da (m - s, m + s)
rappresentano un evento di probabilità O.
f ....
....: ...··..:··· ·. .:·:·-:·
....
Osservazione. Potrà capitare che la fd di X; dalla popolazione assegnata abbia una

forma nota ma dipenda da un parametro incognito come nell'esempio seguente. Nel
capitolo 13 ci occuperemo della "stima" di questo tipo di parametri.
Osservazione. Una formulazione analoga della legge debole è:
Vs > O : lim P[IX

n-oo
n - µI < s] = 1
Supponiamo di non conoscere la qualità di una macchina, cioè la proporzione tra pezzi
buoni e pezzi totali prodotti. In buona sostanza non conosciamo la probabilità p che un
singolo pezzo sia difettoso. Il nostro scopo ora è quello di stimare il parametro p di una
popolazione B(l,p). La stima del parametro di una popolazione sarà affrontato in forma
generale nel capitolo 13, ma vediamone qui un paio di esempi.
Esempio 11.7.3 Prendiamo un campione di taglia n dalla produzione cioè prendiamo

un vettore aleatorio (X 1 ,X 2 , ... ,Xn)', dove
con probabilità p
Vi· X= {
' ' ol con probabilità l - p
Utilizzare X n per stimare p e la legge debole per valutare quale deve essere almeno la
dimensione n del campione affinché sia I la probabilità che la differenza fra il valore vero
p della qualità della macchina e il suo valore stimato Xn non superi s, equivale a utilizzare
la disuguaglianza di Chebiscev. Vediamo. Sia s = 0.01, 1 = 0.95; si deve trovare n tale
che:
P[IXn - PI < 0.01] ~ 0.95
cioè
a~
P[IXn - PI< 0.01] ~ 1- o.it2 ~ 0.95
P[IXn - PI< 0.01] ~ 1- ~(.1o~oi~ ~ 0.95
> p(l - p) = 1001002. ( - )

n - 0.05 · 0.012 5 p 1 p
1
dove però non si conosce p. Però, dal momento che O lOO1002 ·
- 5
!4 = 50000
una dimensione del campione non certo incoraggiante. Questo comunque significa che
esaminando 50000 pezzi, c'è una probabilità maggiore o uguale a 0.95 che la frequenza
Xn dei d~fettosi sugli esaminati, differisca da p al più per un centesimo.
Via TCL si sarebbe ottenuto molto di più. Infatti sono equivalenti gli eventi:
{I-Xn-p<O.l=
I } -{ Xn-P
fif!i<W
p(l-p)
0.01 }
p(l-p)
n -n-
e, per n grande, w
Xn-P
~ N(O; 1). Allora:
P[IX., - PI < 0.011- p [ <

J0.01
p(l~p)
~p l [IN(O;
1)1 <
J0.01
p(l~p)
l ~ 0.95
da cui:
0 ·01
)
~ 1.645 ~ 1~ 100.1.645vp(l~p) ~ vn~ 164.5vp(l-p)
n
1
dove, ricordando che Jp(l - p) ::; 2 si conclude che basta che sia:
164.5
yn ~ -- ~ n ~ [6765.1] + 1 = 6766
2 parte intera
un risultato ancora abbastanza sconfortante ma sicuramente molto migliore del preceden-

te.
283
Esempio 11.7.4 L'uso della legge debole sarebbe risultato più semplice in questo altro
caso (a causa della conoscenza della varianza della popolazione).
La misurazione di una certa distanza attraverso un telemetro è affetta da due tipi di
errori, l'errore sistematico che dipende dallo strumento e l'errore casuale che dipende da
imprecisioni nell'uso dello strumento, condizioni atmosferiche, irregolarità del terreno.
Supponiamo che, durante la rilevazione di una proprietà, un agrimensore voglia misurare
la distanza tra due estremità di un campo. Indichiamo con d tale distanza incognita. A
causa dell'errore casuale ogni misura non dà l'esatto valore della distanza, ma solo una
sua stima. L'agrimensore decide di fare un certo numero di misure e di accettare come
misura esatta la loro media aritmetica. Trascurando l'errore sistematico egli ipotizza che
ogni misura sia una va Xi, normale, con media d e varianza pari a 1 metro 2 • È motivato
in questa conclusione perché Xi = d + si dove si è l'errore casuale, in generale distribuito
normalmente di media O. La legge debole dice che al crescere di n la probabilità che la
media campionaria X n delle misure si avvicini al valore vero d tende a l. Più osservazioni
fa l'agrimensore più grande è la probabilità che la media delle misure osservate sia buona.
Quante misure deve fare l'agrimensore in queste ipotesi per essere certo che la media
aritmetica delle sue misure abbia almeno il 99% di probabilità di essere compresa tra
(d- 1) e (d + 1) metri? Risolto il problema saremo confidenti al 99% che la misura vera
d è compresa tra Xn - l e Xn + l.
Soluzione. Si tratta ancora di stimare il parametro d di una popolazione N(d, 1). Abbiamo
due incognite: d = distanza tra due estremità, n = numero delle misure. Sappiamo che
Xi,.__,N(d, 1). Consideriamo
- 1 n
dove, al solito X n = - I: Xi è la media campionaria.
n i=I
Qui Zn ,....,N(0, l) esattamente e non si usa il TCL perché Xi rv N(d, 1). Osserviamo
che l'incognita d (standardizzando) non ha influenza sulla distribuzione di Zn. Stiamo
cercando quanto deve valere n affinchè - l < X n - d < l con probabilità almeno uguale
a 0.99. Allora:
P [IXn- di< 1] = P [IZnl< 1/fo]= P [IZnl< v'n]

= <J?(
v'n) - <J?(-v'n) = 2<J?(
v'n) - 1 ::::0.99
<J?(
v'n) ::::0.995.
Dalla tabella della N(0; l), si ha fa:::: 2.576, cioè n:::: (2.576) 2 :::: [6.6358] + 1 = 7.
parte intera
L'agrimensore deve perciò fare almeno 7 osservazioni (n deve essere intero).
Oss. Se la dispersione dell'errore casuale fosse maggiore, cioè se var[Xi] = 2 il numero

di osservazione richieste raddoppierebbe. Dimostrarlo per esercizio.
Oss. Se ancora var[Xi] = 1 ma la precisione richiesta fosse di 0.5 metri con la stessa
probabilità, quanto dovrebbe essere almeno n?
Oss. La stessa tecnica funzionerebbe se si dovesse stimare il voltaggio d attraverso una
misura X= d + s dove s rv N(0; a 2 ) è il disturbo che caratterizza la lettura.
Teoremino 11.7.5 Il limite in probabilità si comporta come il limite tradizionale del

calcolo infinitesimale. Se g : JR---+ JR è una funzione continua allora:
T T
Yn ---+ ç ===} g(Yn) ---+ g(ç)
Oss. 2 Vale un risultato analogo per la convergenza in legge, cioè se g : JR---+ JR è
continua:
T T
Teoremino 11.7.6 Se A e B sono due va e An---+ A e Bn---+ B allora
T
An-Bn---+A-B.
Sia X= (XI,··· ,Xn)' un campione di dimensione n da X rv N(µ,o- 2 ).
2
Definizione 11.7.7 La quantità: S2 = n~iI:7= 1 (Xi-X) 2 = n~I [I:7= 1 X;-nX ]
si dice varianza campionaria {corretta) relativa al ccn (X 1 , X2, .. , Xn)'.
Teoremino 11.7.8 Sia X una popolazione di mediaµ e varianza o-2 finite allora
S~ = _l_ -.2---,(Xi
- Xn) 2 !:..,,
o-2
n-lL...,
i=l
Dim.: Infatti, considerato che ¾I:7= 1 X; è la media campionaria di X 2 , valgono le
seguenti relazioni:
- T
Xn ---+ E[X] legge debole
l.n L
'-'':
...d=l X i2 !:.+
E[X 2 ] legge debole
X; !:.+E 2 [X] teoremino 11. 7. 5
¾I:7= 1 X; - X;!:.+E[X 2] - E 2 [X] = var[X] teoremino 11. 7.6
Conclusione: sn2 = n: [I:i=ln 7X - - 2J T

1
2
xn ---+ var[X]
•
11.8 Le distribuzioni x2 e t-Student
Dimostriamo il seguente:
Teoremino 11.8.1 (:•) Il quadrato di una va N(0, l) è una funzione r di parametri

r = 1/2 e À = 1/2.
Dim.: Sia Y = g(X) = X 2 con X ,....,N(0, 1). Fy(y) = P[Y ::; y] = P[X 2 ::; y]
P [-y'y::; X::; y'y] = (y'y) - (-y'y) = J~f(u)du =
2 rfo _I_e- ½u2
du 2 fY _I_e-
1
.,,zdz = fY
e-½z
-,---=dz
Jo v'2,r ---------.. Jo 2,/z2,r ~ Jo r(l)ffz
U = vz; du = /rzdz r(½) = V1f 2
dove y ~ O. Perciò
Sappiamo dal capitolo 9 che la somma di n va r indipendenti di parametri re À è una

r di parametri nr e À. Allora è immediato il seguente
285
Teoremino 11.8.2 {:•) Se Z 1 , •. ,Zn sono n va indipendenti tali che lfiZ;,...., N(O,l)
allora la va
x;, = Zf + ... + Z; è una r di parametri n/2 e,\= 1/2, cioè rrn, ½)-
Oss. 3 Sia Z = (Z 1 , ... , Zn),...., N(O; In) un vettore gaussiano standard. Allora f(%, ½)
è una va della forma IIZll2 = Zf + · · · + Z;.
Definizione 11.8.3 La va r( %, ½)testè definita prende il nome di chi-quadro (di Pear-
son v) con n gradi di libertà {df} e si indica con x;,.La sua funzione di densità
è:
1/2 (X)!l-1 _:E. I

f( X ) = f(n/ ( ) (11.15)
2 ) '.2 2 e 2 [O,+oo) X .
Oss. 4 Poichè x;,è una r di parametri n/2 e 1/2 si ricava immediatamente che
E[x;,] = $ = n; var[x;,] = (;/2~2 = 2n; mx~ (t) = ( 1_: 21 ) n/
2
(ltl < 1/2) n ~ l.
00
0.5
df=l
df=2
o 5 10 15 20 25 30
Oss. 5 Non c'è una sola chi-quadrato, ma ce ne sono infinite, tante quanti i
gradi di libertà. Il grafico della x;,
non è simmetrico rispetto all'origine, ma la sua parte
non nulla si estende da zero all'infinito. Ovviamente l'area totale sotto la curva è sempre
uguale a l. Nella figura qui sopra è evidenziato l'andamento delle curve di densità della
x2 al crescere dei df. Si noti che la Xi tende all 'oo quando x --+ O mentre la x~ vale 0.5
in ovr
v vedi nota storica in fondo al capitolo
Visi noti che le chi-quadro hanno massimo solo a partire da n 2".2. Per n = 2 il massimo è di frontiera
in x = O. Per trovare il massimo se n > 2 deriviamo la fd che scriviamo così:

(l/2)n ~-1 _X
fx~ (x) = I'(.g.) (x) e '! I10,+oo)(x)
Derivando nell'intervallo [O,+oo) si ha:
..:!:_f
dx Xn
2(x) = (ll;t
r( 2 )
e-½ [(!l- l)(x)~-
2
2 - l(x)~-']
2
t)
= (I'l/(r_ e-½(x)~-
2
2 [(%-1)- ½x] = O
che è vera sse [(n - 2) - x] = O.
Inoltre nel capitolo 14 dei test d'ipotesi, ci serve la mediana della x;;. Si può vedere che med(x;;) =
n(l-2_) 3.
9n
Oss. 6 Cerchiamo, per una x2 con df = 11, un x2 (a) tale che l'area a sinistra di x2 (a)
sia 0: = 0.005. Dalla tabella di appendice 4, che riportiamo in parte più sotto, si ha:
x2 (.005) = 2.6 (caso a) della figura}
a) I 1 2 (chi-quadro) I b)
df-10
Supponiamo ora di avere una x2 con df = 10. Cerchiamo il valore 2 tale che l'area sotto x
la curva alla sua destra sia uguale a 0.05. Si tratta di trovare x2 (l - 0.05) = x2 (0.95).
Dalla tabella di Appendice 4 si ha x2 (0.95) = 18.3 (caso b} della figura)
df = n .005 .01 .025 .05 .1 .9 .95 .975 .99 .995

... ... ... ... ... ... ... ... ... ... ...
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.6 3.05 3.82 4.57 5.58 17.3 19.7 21.9 24.7 26.8
... ... ... ... ... ... ... ... ... ... ...
Sussiste l'importante:
Teoremino 11.8.4 La somma x%,+ xt + ... + xL di n va chi-quadro indipendenti

rispettivamente con k 1 , k2, ... , kn gradi di libertà è una va chi-quadro con I: k; gradi di
libertà.
Questo teorema ci permette di legare una x2 con un campione (X1, X2, .. , Xn)' estratto
da una densità N(µ, a 2 ) (cioè Vi, X;,...., N(µ, a 2 ). La sua dimostrazione è banale. Basta
pensare che la fgm della somma di va indipendenti è il prodotto delle fgm di ogni singola
va e che una xt è una r(~, ½).
Gaussianità e vettori ortogonali: il teorema di Cochran

Proiettori
Innanzitutto ricordiamo che
Vx, y E Ilr; < x, y >= I: XiYi = XT y

è il prodotto interno definito su lRn e che
Vx, y E lRn; X =/-O;y =/-O;X ..l y ~ < x, y >= O

cioè x e y sono ortogonali se e solo se il prodotto interno di x e y è nullo.
È inoltre noto che, preso V C IRn, sottospazio vettoriale di lRn, e V _j_, sottoinsieme di lRn
i cui vettori sono ortogonali a V, allora V _j_ è uno spazio vettoriale e
lRn=VEBV_j_
oppure
287
Vy E Ilr; :l!v E V; :l!e E V_!_: y = v +e
cioè ogni vettore di lRn può essere espresso in un solo modo come somma di un vettore
di V e di un vettore di V_!_.Ciò si può formulare anche dicendo che lRn è somma diretta
di Vedi V_]_.
Sia ora V C IRn un sottospazio vettoriale di lRn e sia P un operatore che proietta ortogo-
nalmente ogni vettore y E lRn su V. Come si può intuire dalle seguenti figure osservando VII
la situazione in JR2 ,
Ày
l'operatore P è un operatore lineare da lRn a V, cioè
È noto che gli operatori lineari tra spazi vettoriali sono rappresentati da matrici.
Oss. 7 Guardiamo più attentamente l'operazione di proiezione. A questo scopo scrivia-

mo la matrice P mettendo in evidenza le sue colonne:
Allora è evidente che, dal momento che y = (y1,y2, ... ,Yn)T E IRn, l'operazione di
proiezione
n
Py = I: YiPi
i=l
rappresenta una combinazione lineare delle colonne di P. Dal momento che
la dimensione di V dipende dal numero di colonne linearmente indipendenti di P, cioe

dal rango(P). E per motivi dimensionali, poiché Py E lRn, la matrice P sarà di tipo
(n; n).
Detta In la matrice identica, la proiezione di y sullo spazio V_!_ortogonale a V è realizzata

dalla matrice In -P, come si può facilmente vedere. Quindi In -P è anche un proiettore.
Inoltre, poiché Py E V la sua proiezione P(Py) = P 2 y coincide con Py, cioè:
VIIFigura di sinistra, geometria elementare, si vede che P(y1 + y2) = Py2 +*e *= Py1 mentre
nella figura di destra ~ = ~ = 2. (teorema di Talete studiato alla scuola media) .
.Ày P(.Xy) .À
P(Py) = P 2 y = Py ===} p = p2
ma si può anche mostrare che P = pT_ Infatti:
ciò implica
quindi
P=PT
cioè P è anche simmetrica VIII.
Scriviamo ora con una nuova simbologia,
V= Vi;V_j_ = Vi;P = Pi;In -P = P2;YI = P1YiY2 = P2y
Per quanto già detto
e, per il teorema di Pitagora,
Esempio 11.8.5 Sia n = k + h, e

]Rk = {x E ]Rn: X= (x1, ... ,Xk,o, ... ,O)} ]Rh = {x E IRn: X= (O, ... ,0,Xk+I, ... ,xn)}
Allora
IRn = IRk EBIRh
P=[h oh,k
ok,h
oh,h
] .I
' n
_ P = [ ok,k
oh,k
dove 0;,1 è la matrice di tipo (i; j) i cui elementi sono tutti zeri.
Fattorizzazione
Un proiettore si può fattorizzare come stabilito dal seguente
Lemma 11.8.6 Sia P (1..) un proiettore su IRn e sia k = rango(P). Allora esiste una
matrice ortogonale U di dimensione (n, k) tale che:
P=UUT I\
VIII Viceversa ogni operatore lineare H tale che H = H 2 = HT, è un proiettore ortogonale sul sottospazio
che è la sua immagine.
289
Vettori aleatori invece di vettori di costanti
Finora abbiamo parlato di vettori di costanti reali x. Consideriamo invece un vettore
aleatorio X = (X 1 , ... , Xn) T. Si dice che X vive in IRn. Sia P un proiettore ortogonale
di IRn su V. Il vettore PX è un vettore aleatorio che vive in V, cioè un vettore le cui
determinazioni stanno in V, mentre (In - P)X è un vettore aleatorio che vive in V_!_.
In appendice, nel paragrafo intitolato Matrici e vettori ci sono tutti i risultati che servono
per le trattazioni relative ai vettori aleatori (gaussiani), sia per quanto riguarda il teorema
di Cochran, sia per quanto riguarda la regressione lineare univariata e multivariata del
capitolo 15. Ma occorre fare una precisazione. Come abbiamo fatto qui sopra, nelle
formule in Appendice utilizziamo vettori di numeri e non vettori aleatori. Un vtan di
IRn non si trova mai in una posizione certa, come accade a un vettore numerico, ma ha una
probabilità di stare in certe zone di IRn piuttosto che in certe altre e questa probabilità
è descritta dalla fd o dalla ldp del vettore.
Vettori gaussiani
Sia ora X rv N(µ; C) il vettore definito in (10.7) del capitolo 10 e siano X1 e X2 due
vettori di dimensioni (p, 1) e (q, 1), p + q = n, tali che
Sia
(11.16)
dove Cn ha dimensione (p,p), C12 (p, q), C21 (q,p) e C22 (q, q) e dove C21 = Cf2 =
cov[X 1 , X2] secondo la definizione a pag. 186 data nel capitolo 9.
Sussiste il:
Teorema 11.8.7 Sia X,.__,N(µ; C). Allora:
e X 1 e X 2 sono indipendenti se e solo se C 12 = O, dove con O intendiamo la matrice

nulla di dimensione (p, q).
Il teorema si generalizza al caso X = (X 1 , ... , Xk)' dove la matrice di covarianza C

di X si spezza in una matrice a blocchi del tipo (11.16). e i vettori Xi e Xj saranno
indipendenti se e solo se la corrispondente matrice Cij = O.
Vediamo come agiscono i vettori di proiezione sui vettori gaussiani. Una conseguenza del
lemma (11.8.6) è il
Teorema 11.8.8 Sia X rv N(µ; In) e P sia un proiettore ortogonale di rango k tale che
Pµ = O. Allora
Dim: Per il lemma sappiamo che esiste U tale che:

Ora
e
Pµ=0 {::::::::}
uuTµ=0 {::::::::}
ur(UuTµ)=0 {::::::::}
{::::::::}
ur(UuTµ)=0 {::::::::}
hUTµ=0 {::::::::}
urµ=0.
Si conclude che
urx N(O; h)
,.__,
Cioè urx è un vettore gaussiano di dimensioni (k, 1) le cui k componenti sono N(O; 1).
È perciò evidente che I iurxII2 ,.__,x~ •-
Teorema 11.8.9 Sia X rv N(µ, In) un vtan normale di mediaµ e matrice di cova-
(n,1)
rianza In e siano P1 e P2due proiettori ortogonali su due sottospazi Vi e Vi tra loro
ortogonali. Allora:
1} PiX e P 2X sono indipendenti (oltre che ortogonali};
2) anche IIP1Xll 2 e IIP2Xll
2 sono indipendenti.
Dim.: P 1 X e P2 X sono congiuntamente gaussiani 1x perché ottenuti per trasformazioni
lineari da un vettore gaussiano. L'indipendenza segue dal fatto che sono incorrelati.
Infatti
cov[P1X, P2X] = Picov[X, X]Pi = P1InPi = O.
Infatti P1 e P2 sono proiettori ortogonali quindi PiP[ = P1P2. Inoltre i proiettori pro-
iettano su sottospazi ortogonali tra loro quindi PiP[ = P 1 P 2 = O, perchè P 2 v sta su
Vi ..l Vi quindi viene proiettato da P 1 nello O di Vi. I P;X sono dunque incorrelati e
quindi sono stocasticamente indipendenti.
Inoltre se P 1 X,P 2X sono indipendenti allora anche g 1 (P 1 X),g 2(P2X) {dove le g; sono
funzioni misurabili} sono indipendentix, il che conclude l'asserto •-
Teorema di Cochran
I teoremi (11.8.8) e (11.8.9) si generalizzano nei seguenti teoremi.
Teorema 11.8.10 di Cochran: Sia X
(n,1)
rv N(µ, a 2 In); X = (X 1 , ... , Xn)' un vtan
normale di media µ e matrice di covarianza a 2 In e siano Xj = Pj X le proiezioni

(n,1) (n,n)(n,l)
ortogonali di X sugli spazi Vi, Vi, ... , Vi mutuamente ortogonali tra loro di dimensioni
rispettivamente d1 , ... , dk ( ovviamente P 1 , ... , Pk sono k proiettori ortogonali}. Allora:
1} Cx= [cov[X;, Xjl] = a 2 In implica che i i=j; cov[X;,Xj] = cov[P;X,PjX] = O
(n,n) (n,n) (n,n)
2) X.1 = PiX, ... ,Xk = PkX sono indipendenti (oltre che ortogonali};
3) anche IIP1Xll 2, ... , IIPkXll 2 sono indipendenti.
Dim.: P 1 X, ... , PkX sono congiuntamente gaussiani. Perciò se sono incorrelati sono
indipendenti. Ora:
i-/=j; cov[P;X,PjX] = P; cov[X, X]PT = a 2 PJnPT = a 2 P;PT = O.
Infatti, ragionando come in {11.8.9}, si conclude che i i=j; P;PT = O, quindi i P;X sono
incorrelati e stocasticamente indipendenti esattamente come i IIP;Xll2•-
rx [ ;~i] = [ ;~ ] X.
(2n,n)
xvedi capitolo 4.
291
Oss. 8 (In-Pi)X è ortogonale a PiX quindi, sempre per la gaussianità, PiX e (In-Pi)X
sono indipendenti e quindi anche IIPiXll 2 e ll(In - Pi)Xll 2 sono indipendenti.
Teorema 11.8.11 Se, oltre alle ipotesi del teorema di Cochran risulta P 1 µ = O,P2 µ =
O, ... ,Pkµ = O allora
~ IIPiXll 2 rv xt; ~ IIP2Xll2 rv x~

2 ; ••• , ~ IIPkXll 2 rv xt
Dim.: Intanto sia Y = ¾X rv ¾N(µ, CJ2 In) = N(¾µJn)- Allora, per il teorema
{11.8.8), dato un qualunque proiettore ortogonale P, di rango k tale che Pµ = O (e
quindi anche P¾µ = ¾Pµ = O) risulta:
Ma è evidente che
IIPYll 2 = IIP¾Xll 2 = ~ IIPXll 2
Il teorema risulta così dimostrato •-
Risultati collaterali
Teoremino 11.8.12 (:•) Sia V C IRn lo spazio vettoriale generato dal vettore ln =
(1, ... , l)'. Il proiettore ortogonale Pv di IRn su V è tale che PvX = (Xn, ... , Xn)'.
Dim.: Infatti Pv X è il vettore che sta su V a distanza minima da X. Quindi è il vettore
e = (c, ... , c)', dove lo scalare c deve rendere minima
dist[X, e]= IIX- cll 2 = L(Xi - c)2 (11.17)
Uguagliando a O la derivata prima di ( 11.17) si ottiene la c cercata, cioè:

I::Xi -
c=--=Xn
n
Si tratta di un minimo perché ( 11.17} è un paraboloide con vertice in e •-
Vale infine il seguente:
Teorema 11.8.13 (:•) Sia X rv N(µ,CJ 2 ) e X= (Xi, ... , Xn)' un ccn da X. Siano Xn
e S2 rispettivamente media e vairianza campionaria corretta. Valgono le affermazioni
seguenti:
X n e S 2 sono indipendenti
s2
(n - 1) 2
(J
rv x;,-1
Dim. Sia V_!_lo spazio ortogonale a V generato da ln e sia P 1 X = X nln il proiettore
su V. Sappiamo che il proiettore su V_!_è P2 = In - P1. Applichiamolo a X; otteniamo:
(In - Pi)X = X - P1X = (X1 - Xn, ... , Xn - Xn) 1
Per il teorema di Cochran e la successiva osservazione, P1X = X n ln e P2X = (In - P1)X

sono indipendenti. Di conseguenza PiX e IIP2Xll2 = ll(In - P1)Xll 2 = I::(Xi - Xn) 2 =
(n - l)S 2 sono indipendenti e quindi anche Xn e S2 lo sono.
Ora µ = lnµ E V, quindi P 2 µ = O, perché P 2 proietta su V_!_ e lnµ E V. Inol-
tre dim(P 1X) = 1 e dim(P2X) = n - l. Per il corollario {11.8.g) si conclude che
1 IIP.xII2
;;:z 2
= (n - l)S2
CJ2
2
,---,Xn- 1
•
·
Oss. 9 Il risultato di questo teorema è caratterizzante della distribuzione normale nel
senso che tale distribuzione è l'unica per la quale media campionaria X e varianza
campionaria S 2 sono indipendenti.
Esempio in IR.2
Supponiamo di avere un vettore aleatorio gaussiano che vive in IR.2 così fatto:
cioè le componenti sono due N(O; 1) indipendenti.

È evidente che la matrice di proiezione ortogonale di IR.2 sullo spazio vettoriale unidimen-
sionale costituito dall'asse X1 è data da Px, = [ ~ ~ ] . Se invece voglio la matrice
di proiezione P che proietta IR.2 sullo spazio vettoriale V, sempre unidimensionale, rap-
presentato dalla bisettrice del 1° e 3° quadrante, cioè lo spazio dei punti {a, a}, devo
procedere in questo modo.
Sia u =[ 11 ] il vettore che genera V. Allora la matrice di proiezione si ottiene in questo
modo:
(11.18)
Oss.: Più in generale se si vuole la matrice di proiezione ortogonale sullo spazio Vk ,di
dimensione k, generato dalle colonne u 1 , u2, ... , uk della matrice U = [u1 lu2I ... luk], U
di tipo (n, k), occorre fare questo conto:
P = U (UT U )- 1 UT
(n,n) (n,k) (k,n)(n,k) (k,n)
Nel caso IR.2 , si è generato un campione di dimensione 1000 da X. I triangolini della

figura rappresentano il risultato di questo campionamento. Questi triangolini sono stati
proiettati sia sull'asse X1 con la matrice Px, (piccoli rombi), sia sulla retta X1 = X2 con
la matrice P in (11.18).
Si osservi che, poiché X vive in IR.2 , la sua funzione di densità
1 1 T
fx(x) = -e-·p x (11.19)
27!'
vive in IR.3 . La (11.19) è una campana bidimensionale a simmetria rotonda che con i
piani X3 = h o non ha intersezione, quando h supera il valore del maxfx(x), oppure
xEffi!. 2
l'intersezione rappresenta una circonferenza. Dovrebbe essere evidente che, comunque
si scelga una retta per l'origine, le 1000 determinazioni campionate di X si proiettano
secondo una distribuzione gaussiana.
293
x,=x 2
••
•
•
4 • x,
•
•• •
•
•
normale bivariata ••• •- •

•
• normale bivariata proiettata su x, •

• normale bivariata proiettata su x 1= x 2
Altri risultati
Teoremino 11.8.14 (:•) Data X ,..., x;,e W indipendente da X, se Y = X+ W e se
y ,...,
x;,allora w ,..., m x;,_
Dim. Solo nell'ipotesi che W abbiafgm. Da Y = X +W segue che my(t) = mx+w(t) =
mx(t)mw(t).
. .
Quindi mw(t)
my(t)
= --(-) = (i!2tf 12
-- (-1-) (n-m)/2 •
mx t (- 1 -)m/2 l-2t
l-2t
Per capire quale può essere il significato di "gradi di libertà" si osservino le due chi-quadro:
(-")x;,= Zr + · · · + z~ = t (X;a-µ)
i=l
2; (-"-")x;,-1 S 2=
= (n;P t
i=l
(X;;_l[) 2
•
Nella somma (-") ci sono n quadrati indipendenti mentre nella somma (-"-") ce ne sono
solo n - l in quanto I:(X; - X) = O permette di ricavare una delle differenze (X; - X)
dalle altre n - l.
Vale il seguente:
Teorema 11.8.15 Date n va X; indipendenti supponiamo di estrarre, da queste varia-

bili, m gruppi di va
(X;,, X; 2 , .. , X;k, ); (Xi,, X32, .. , XikJ; .. .; (Xh,, Xh 2, .. , Xhkm ), dove k 1 +k2+ .. +km = n
in modo che ogni va originaria X; appartenga a uno e uno solo di questi gruppi. Con-
sideriamo le m nuove va
Y1 = fi(X;,' X;2, .. , X;k, ), ... , Ym = fm(Xh,' Xh2, .. , Xhkm)
ottenute come funzioni delle va suddivise nei gruppi precedenti. In ipotesi molto ampie
sulle funzioni h, .., f m le nuove va Y1 , .. , Ym sono indipendenti.
Come conseguenza del teorema 11.8.15 (caso particolare del teorema 4.7.8) se X 1, X2
sono indipendenti anche Y1 = .fi(X1), Y2 = h(X2) lo sono e se Xi, X2, X3, X4, X5 sono
indipendenti anche Y1 = .fi (X3), Y2 = h(X2, X5), Y3 = h(X1, X4) lo sono.
Analogamente presi due campioni, ccn e ccm, da una popolazione qualunque, le relative
medie campionarie X l,n e X 2,m sono indipendenti in quanto si può pensare a un gruppo
di n + m va indipendenti e a X l,n come funzione (media aritmetica) delle prime ne a
X 1,m come funzione (media aritmetica) delle seconde m. Stesso discorso per le varianze
campionarie Sfne S§ m·
Importante. 'se abbiamo due popolazioni normali N(µ 1,CJ 2) e N(µ 2,CJ 2) di media
diversa e uguale varianza allora possiamo pensare a due ccn e ccm rispettivamente
estratti dalla prima e dalla seconda popolazione e alle rispettive medie campionarie X l,n
e X 2,m e varianze campionarie Sf,n e S§,m. I campioni estratti dalle due popolazioni sono
indipendenti, quindi X l,n,X 2,m e Sf.n ,S§.m sono indipendenti. Inoltre per il teorema
11.8.13 sono indipendenti anche X l,n,Sf,n e X2,m, S§.m· Allora tutte e quattro le va
sono indipendenti e si ha che (X l,n - X 2,m) ha media (µ 1 - µ 2) e scarto jCJ 2/n + CJ2/m
e che (x'i,n-X\m)-(µ1-µ 1).
2) ,..._,N(O,
o-yl/n+l/m
Enunciamo un teorema che ci porta alla scoperta di una nuova va.
Teorema N(O, 1) e V è una

11.8.16 Se Z ,..._, x~ con n df, indipendenti; allora la va
t = b
y V/n
ha densità
r[(n + 1)/2] 1
f(t) = y"Jrnr(n/2) . [(t2 /n) + l] (n+l)/2; (-oo < t < +oo) (11.20)
Definizione 11.8.17 La t testé definita prende il nome di t di Studentx 1 con n df.

Si può vedere che E[t] = O (se n > l); var[t] = n':':2 (n > 2). Inoltre t non ha fgm. Non
esiste una sola t, ma ne esistono infinite, tante quanti i possibili df. La curva della
sua densità è molto simile a quella della normale standard. La sua forma però è più
allargata (ha una deviazione standard maggiore).
Quando n cresce, t si avvicina alla normale. Per casi con df > 29, se la precisione
richiesta lo consente, si usa l'ultima riga della tabella in Appendice 3 oppure la tabella
di Appendice 2, essendo la curva di densità della t praticamente quella di una N(O, 1).
Mostriamo che, dato ancora un campione (X1, X2, .. , Xn) estratto da una densità N(µ, CJ2)
(cioè lfiX; ,..._,

N(µ, CJ2)), la va t = (;/~) è una t-Student con n - l df.
Infatti si ha:
(X-µ)
~
tn-l =
jS2/CJ2
(X-µ)
o-/fo. sCJ (X-µ)
S/fo
dove X e S 2 sono indipendenti, C;/~) ,..._,N(O,1), S 2/CJ 2 ,..._,X~-i/(n - 1).
(n-1) (X-µ)
La X~- 1 = ~ S 2 e la t = sI vn hanno un ruolo fondamentale nella teoria degli
stimatori e, più in generale, in statistica, quando si campiona da densità normali.
X 1vedi nota storica in fondo al capitolo
295
Esempio 11.8.18 Supponiamo di avere una t con 15 gradi di libertà (n = 15, campione
"piccolo") e cerchiamo il valore i tale che l'area sotto la curva alla destra di i sia 0.05
(e quindi quella a sinistra sia 0.95}. Usando la tabella dell'appendice 3, qui in parte
riportata, si ha: (caso a) della ,figura della pagina successiva) i= t(0.95) = 1.753.
df = n t(.995) t( .99) t(.975) t( .95) t(.9) t(.75)

. .. ... ... ... ... . .. ...
14 2.977 2.624 2.145 1.761 1.345 0.692
15 2.947 2.602 2.131 1.753 1.341 0.691
16 2.921 2.583 2.120 1.746 1.337 0.690
. .. ... ... ... ... . .. ...
b} Data una t con df = 14, trovare t(0.l) cioè un t(a) tale che l'area a sinistra di t(a)
sia 0.1. Per la simmetria della t si ha: t(0.l) = -t(0.9) = -1.345 (caso b} della ,figura
sopra).
c) Data una t con df = 16, trovare una valore i tale che P[I t I< i] = 0.95 (caso c) della
,figura). Sempre per ragioni di simmetria
i= t(0.95 + (1 - 0.95)/2) = t(0.975) = 2.120.
11.9 La distribuzione di Cauchy

Vogliamo fare un esempio di distribuzione per la quale non vale il Teorema centrale
y
del limite. Prendiamo la va X rapporto di due va iid, X rv N(0, o-2 ) e Y rv N(0, o-2 ).Nel
y
capitolo 8 si era visto che X prende il nome di va di Cauchy e che la sua densità è:
a.- J3/Fl a.+ 13;v
Poiché non ha media per Chy non vale il TCL. Si può anzi mostrare che per un cam-
pione casuale (X 1 , X2, .. Xh)' estratto da una densità di Cauchy come in (•) la media
campionaria Xh ha, per ogni h, sempre la stessa densità quindi non converge in legge a
una N(O, 1).
Più in generale la densità di Cauchy ha la seguente forma:
1 ~
(~>O).
f(x,0:,~)= 1r~{l+[(x-0:)/~]2} = 1r{~2+(x-0:)2}
In questo caso la media è 0:. Il suo grafico è riportato in figura.

Si può mostrare che la somma di n Cauchy di parametri 0: e ~ è una Cauchy di parametri
0: e n~.
Oss. 10 Se nella 11.20 poniamo n = l otteniamo la (•): quindi una t - Student con 1
grado di liberta è una Chy.
11.10 La distribuzione della va F di Fisher

Definizione 11.10.1 Si chiama va di Fisher con n e m gradi di libertà una variabile
aleatoria {che indicheremo con) F della forma
F- x~/n
- x~/m'
dove X~ e x;;,,sono indipendenti. Si scrive F rv Fn,m.
La funzione di densità fn,m(x) della va Fn,m, cioè la funzione tale che P[Fn,m :S u] =
f:(X)fn,m(x)dx è data da:
r(n+m)nn/2mm/2x(n-2)/2 [nx + mr(n+m)/2

fn,m(x) = 2 r(?)r(~) l[o,+cx,)(x) =
= fn,m(x) = K(n; m) · x(n- 2J/ 2 [nx + mr(n+m)/ 2 I[o,+cx,J(x)
Ricordo che
m 2m 2 (n + m- 2)
media varianza
m-2 n(m - 2) 2 (m- 4)
n-2 m m 3n-2
moda mediana
n m+2 3m-2 n
297
I conti per modax 11 e le garanzie sulla approssimazione della medianaxm sono in nota.
Esercizio 11.10.1 Si mostri che:
Quantili o punti percentili

Indichiamo con F"Y,n,mil ')'-quantile della va Fn,m, cioè il numero tale che
P[Fn,m < F"Y,n,m]= 'Y·
Indichiamo invece con Fcx,n,mil lOOa-esimo punto percentile della va Fn,m, cioè il numero
tale che
P[Fn,m > Fcx,n,m]= a.
Si osservi che i valori standard di a e di 'Y sono:
'Y o.75 0.9 0.95 0.975 0.99

a 0.25 0.1 0.05 0.025 0.01
Per i quantili e i percentili della legge F vedere le tavole in Appendice. Anche a costo
di generare confusione, per non appesantire l'esposizione, Fa,m,n sarà un quantile se
a ~ O.75, un percentile se a :S 0.25.
Molto importante
Risulta
1 x?n/m
Fn,m X~/n
e quindi
1
-- rv Fmn•
Fn,m '
Da cui, poiché 1/ Fn,m ha la stessa legge di Fm,n, si ha:
'Y = P[Fn ' m < F"Yn m] = P[-Fn,m

' '
1 > -F-y,n,m
1 ]
1-')' = P[~ n,m

< FIIJJ,
-y,n,m
I= P[Fm,n < ~]-y,n,m
XII d:fn,m(x) = K(n; m) d: xCn-2)/2 [nx + m]-(n+m)/2 =
1
-n-2
1 (-2m + mn - 2nx - mnx) x2
= K(n;m)2 1 1
-m+-n+l
(m+nx)2 2
d mn- 2m m n- 2
-fn m(x) =O{==} X=----=-----
dx ' 2n + mn m +2 n
XIIILa precisione è già molto buona se n 2".2 e m 2':2.
e, per definizione di quantile, si ottiene:
Il F1-'t,m,n = ~ Il- (11.21)
Cioè l'(l - ì)-quantile della Fm,n è il reciproco del ì-quantile della Fn,m (attenzione
allo scambio dei gradi di libertà).
La (11.21) è scritta utilizzando la simbologia dei quantili. Con i punti percentili la (11.21)
diventa:
a=P[Fnm
'
> Fanm]
' ~
=P[~ c.,n,m
> ~]n,m
1-a=P[~ o:,n,m
< ~]n,m =P[~ o,n,m
<Fm,n]
Cioè il 100(1- a)-percentile della Fm,n è il reciproco lOOa-percentile Fn,m (attenzione

allo scambio dei gradi di libertà).
E ragionando come in precedenza
Il Fi-a,m,n = ~ Il- (11.22)
11.11 Nota storica
Abraham de Moivre (Francia) 26 maggio 1667 - 27 novembre 1754
Protestante, de Moivre è costretto a lasciare la Francia

per Londra nel 1685 dopo la revoca dell'Editto
di N antes e la persecuzione degli Ugonotti.
A Londra vive dando ripetizioni e sembra che abbia
Bayes tra i suoi allievi. Nel 1697 diviene membro della
Royal Society. Nel 1710 è incaricato dalla Royal Society
di far parte della Commissione istituita per dirimere
la controversia che vede Newton e Leibniz contendersi
la paternità dell'invenzione del calcolo infinitesimale.

De Moivre lavora nel campo della geometria analitica e della probabilità. In The Doctrine of
Chance pubblicato nel 1718 descrive il concetto di indipendenza stocastica. In Analytica del
1730 appare la formula, erroneamente attribuita a Stirling, che de Moivre usa nel 1733 per
ottenere la distribuzione normale come limite della binomiale.
De Moivre stabilisce anche la formula (cosx + isinxt= cosnx + isinnx che rappresenta un
ponte tra la trigonometria e l'analisi.
Nonostante il suo valore scientifico muore in povertà. Come Cardano è famoso per aver predetto
con esattezza il giorno della sua morte.
299
Karl Pearson (Inghilterra) 27 marzo 1857 - 27 aprile 1936
Si laurea nel 1879 alla Cambridge University.

La sua carriera si svolge per la maggior parte all'University
College di Londra. Nel 1892 pubblica The Grammar
of Science dove anticipa alcune idee della teoria della relatività.
I suoi interessi in campo scientifico sono ampi. In biologia
applica metodi statistici a problemi relativi
alla ereditarietà e all'evoluzione.
Nel 1893 Pearson conia il termine deviazione standard. Dal 1893 al 1912 scrive 18 articoli dal
titolo !vlathematical Contribution to the Theory of Evolution dove sono contenuti i suoi più
importanti risultati sulla regressione, la correlazione e il test chi-quadrato di buon adattamento
(1900).
Con Weldon e Galton, è il fondatore del giornale scientifico Biometrika.
William Gosset (Inghilterra) 13 giugno 1876 - 16 ottobre 1937
Studia matematica e chimica al New College di Oxford

e nel 1899 viene assunto dalla birreria Guinness in Dublino.
È l'inventore del t-test per piccoli campioni e pubblica
i suoi lavori scientifici sotto il nome di Student.
Nel 1922 ottiene dalla Guiness la possibilità di creare presso
la birreria un piccolo laboratorio di statistica
che dirige fino al 1934.
Ronald Aylmer Fisher (Regno Unito) 17 febbraio 1890 - 29 luglio 1962
L'inglese Ronald Aylmer Fisher (1890 - 1962),

è stato un biologo evoluzionista (probabilmente
il più grande dopo Darwin), un genetista
e un sostenitore dell'eugenetica. Ma è stato
soprattutto uno statistico molto importante.
Tra i suoi contributi l'analisi della varianza
(ANOVA) e il metodo di massima verosimiglianza.
Esercizio 11.12.1 Data una successione {X;} di va indipendenti ed equidistribuite, il

teorema centrale del limite fornisce informazioni
D 0 riguardo alla convergenza in legge di tale successione
D m riguardo alla distribuzione asintotica di I: X;
1171 D { riguardo la distribuzione asintotica di I: X;
L.'.'.....J solo se le X; hanno media e varianza finite
Esercizio 11.12.2 Solo per studenti esperti Sia X un campione di dimensione n da

una popolazione normale di media µ e varianza <J2 . Alloraxiv:
XIV Cominciamo a osservare che, nella prima e nella quarta, la conoscenza diµ non influenza la risposta.
Da una popolazione N(µ,u 2 ) campionando si ha: Xn ~ N(µ, 0'
n
2
) mentre 8 2 = - 1-
n-1
I:(Xi - Xn) 2
n-1
è tale che -- 2 -8 2 ~ x;;_ 1 dove E[x;;_ 1 ] = n - 1 e var[x;;_ 1 ] = 2(n - 1).
O'
I:(Xi - µ) 2 1 u2
Poniamo V=
u2
= x;; ==} - I:(Xi
n
- µ) 2 = -V
n
e E[V] =ne var[V] = 2n
da cui
1 0'2
E[- I:(Xi - µ) 2 ] = -E[V] = u2
n n
1 u4 2u 4
var[- I:(Xi - µ) 2 ] = 2 var[V] = -
n n n
La prima domanda chiede se è vero che ~ I:(Xi - µ) 2 u2•
___!:___,
n
Le Xi sono indipendenti quindi anche le Yi = (Xi - µ) 2 sono indipendenti.
Allora per il teorema centrale
Yn - - L, Y,. ~
- _ 1" 2 2u 4
~ N(u , -).
n n
Per una va W di momento secondo finito Chebyscev garantisce che P[I W - µI 2': k] :CC:: va~[:']. Se
var[W] ----> O W converge in probabilità e in legge a µ. Ciò risponde alla prima, alla terza e alla quarta
domanda.
1 -2 L 2
La seconda domanda chiede se è vero che -- I:(Xi - Xn) -----> O' •
n-1
Le Xi - Xn sono indipendenti? No infatti osserviamo per esempio X2 -
qui c'è X7 qui c'è X2

non possono essere indipendenti. Quindi non si può applicare il Tcl.
n-1
--
O'
2 -8
2 ~ x;;_ 1 è somma di n - 1 va Xiindipendenti quindi è asintoticamente normale di media
(n - l)E[xr] = n - 1 e varianza (n - 1) var[xr] = 2(n - 1).
Se W è asintoticamente normale kW è asintoticamente normale quindi se x;;_1 è asintoticamente
normale anche 8 2 ~ n ~ 1
1 è asintoticamentex;;_
normale.
O'
n-1
E[--8
u2
2] = n- 1 * E[8 2] = u2
n - 1 2u 4 .
var[-- 2 -8 2] = 2(n - 1) =} var[8 2] =--.Sempre per Chebyscev segue la ventà della seconda.
u n-1
301
Seµ non è nota, ¾f:(X; - µ) 2 .!:.a 2

i=l
_1_
n-1
,2-
L.J
(X - X n )2 _!:,a2
i
i=l
{ ¾itl (X; - µ) 2 ha distribuzione asintotica normale

di media a 2 e varianza infinitesima come ¾
Seµ è nota, ¾f:(X; - µ) 2 .!:.a 2
i=l
Esercizio 11.12.3 Solo per studenti esperti Se X 1, X2, ... , Xn è una successione di
va indipendenti ed equidistribuite, di media µ:
D [J:'.J X1 + ... + Xn n-oo
__!:__,
a una va normale
D [J:'.J se VX;:3 la fgm di X; allora X1 + ... + Xn n-oo
__!:__,
a una va normale
'Vl D X, +X2+ ... +Xv __!:__,
µ
~ n n---+oo
X1+X2+ ... +Xn _ µ L
0D se VX;:3 la fgm di X; allora n
a/fa
-----+
n-oo
N (O, 1)
Esercizio 11.12.4 Sia XrvN(µ, a 2 ), µ e a noti. Sia X 1 , X 2 , ... . Xn un campione estrat-

to da X. Calcolare la probabilità che tutti i valori del campione superino µ. Calcolare la
probabilità che almeno una delle variabili X; > µ.
Esercizio 11.12.5 Si sommano 100 numeri positivi (ciascuno costituito da una parte
decimale e da una parte intera) arrotondando ogni addendo all'intero più vicino. Per
esempio 27.5 è arrotondato a 27 con un errore di 0.5 mentre 27.51 è arrotondato a 28
con un errore di -0.49. Siano X 1 , .... , X 100 gli errori di arrotondamento indipendenti e
uniformemente distribuiti nell'intervallo ] - 0.5, 0.5].
a) Qual è la media µ di X; e qual è la sua varianza a 2 ?
b} Qual è approssimativamente la distribuzione dell'errore totale Y = X 1 +X 2 +. +X 100
per il teorema centrale limite?
Esercizio Solo per studenti esperti Sia X= (Xi, X2, ... , Xn) un ccn da una
11.12.6
1
popolazione esponenziale di media ~. Allora:xv
[!] [TI la media campionaria X n _!:...,~

À 2 . 20
[!J [TI ¾I: XJ ha distribuzione asintotica normale di media À2 e varianza -- 4
nÀ
ìvl f"""i;,l 1 '-' 1 2 t: l
~~ n L.(Xj - ~) ~ À2
Esercizio 11.12.7 Sia X,...., N(µ,a 2 ); sia X1,X2, ... ,Xn un campionamento da X.
Siano al solito Xn = Ì:
naria.
:i
e S~ = n~ 1 Ì:~=l (X; - .X) 2 la media e la varianza campio-
xv La prima è vera per la legge debole. La seconda è vera per il TCL considerando che E[XJ]
2 24 4
var[X]
J
+ E 2 [X]J = -À2 e che var[X 2]
J
= E[X J4 ] - E 2 [XJ2 ] = -À4 - -.
À4
1 1
La terza è vera perché posto (X 1 - '>,'
)2 = Y1 è I:(X 1 - '>,')2 = ¾ ¾I: Y1 che converge in probabilità
. .. 1 1 1
e qmnd1 m legge a E[Y1] = E[(X 1 - -)2] = var[(X 1 - -)] = 2
À À À
00 :1;nµ "'N(0, 1)
00 Xn-µ "'N(0 1)
u/.,/n '
Esercizio 11.12.8 Siano assegnate n va di Bernoulli X; di parametro À;. La va Y =

I:; X; ha una distribuzione che è:
00 binomiale se le n va hanno tutte lo stesso parametro À; = À
binomiale se le n va hanno tutte lo stesso parametro
00 { À; = À e se sono indipendenti
asintoticamente una Poisson di parametro nÀ se sono indipendenti,
00 hanno lo stesso parametro À; = À, n ~ 20 e p ::; 0.05
asintoticamente N(n>-, nÀ(l - >-)) se sono
00 {
indipendenti di parametro À; = À e n abbastanza grande
Esercizio 11.12.9 Sotto quale condizione una va X di Poisson di parametro À può

essere approssimata da una N(>-; >-)?
Esercizio 11.12.10 La somma di n va indipendenti X; da una popolazione di Poisson

di parametro À è:
V F una Poisson di parametro À
V F una Poisson di parametro nÀ
V F una N(0, l)
V F una N(>-, >-)
V F approssimativamente una N(n>-, nÀ)
Capitolo 12
... .finora sei stato bersagliato dalla malasorte: la vita agiata,
infatti, mette l'uomo a dura prova. Sappiamo resistere alle sventure,
ma è la felicità che ci corrompe.
Sono sicuro che veglierai sui tuoi sentimenti di lealtà, .fedeltà,
amicizia, importantissimi per l'animo umano; ma chi ti circonderà
ti tenterà con l'adulazione, la lusinga e, funesto
per l'amore sincero, l'interesse personale.
Oggi ti sto parlando con la massima franchezza, ma molti altri
in futuro parleranno più volentieri con la tua fortuna che con te ...
Cornelio Tacito (54/55-120} - Storie 1,15
dal discorso dell'imperatore romano Galba al _figlio Pisane
Stimatori e stime
Lo statistico può praticare, nel suo lavoro, tre diversi approcci.

1) Riduzione dei dati. Dopo aver eseguito una rilevazione di dati (che perciò si cono-
scono in modo certo) si vuole ridurli a certe caratteristiche, frequenza, media, varianza,
box-plot, che ne permettono una visione globale. È come per un geografo che, volendo
avere un'idea di un territorio, non lo percorra a piedi ma se ne procuri una visione a
"volo d'uccello". Questo approccio è quello della statistica descrittiva: prende atto dei
dati, non fa previsioni ma constatazioni legate a quanto si sta osservando.
2) Previsioni probabilistiche. Per qualche ragione si conosce "a priori" come è distri-
buita la probabilità su eventi riguardanti un certo esperimento (si conosce cioè lo spazio
campionario e la distribuzione di massa sugli eventi elementari). Con queste informazioni
si valuta la probabilità che certi risultati legati all'esperimento in esame si verifichino.
In base ai risultati trovati si prendono opportune decisioni. Questo approccio è quello
"probabilistico".
3) Stima dei parametri da un campione tratto dai dati. Può capitare che, pur
conoscendo la distribuzione di probabilità sugli eventi, questa conoscenza non sia com-
pleta: per esempio di una binomiale di parametri ne p, di una poissoniana di parametro
À, di una normale di parametri µ e a 2 , potrebbero non essere noti i valori di p, À, µ, a 2 .
Potrà cioè capitare che la fd di Xi dalla popolazione assegnata abbia una forma nota
ma dipenda da un parametro incognito 'IJ,cioè fxi = fxi (·; 'IJ), o da una funzione di un
parametro incognito g('IJ), cioè fxi = fxi(·;g('IJ)). Per esempio
304 CAPITOLO 12. STIMATORI E STIME
densità cli Poisson

f (x; 19) = ,9x:,-" g(19)=.19
cli parametro 19in cognito
densità uniforme
J(x; g(19)) = ¾I10,,1
J(x) nell 'intervallo [O, 19]
g(19) =-¾
densità normale
J( x,g
. (19)) _- ~,9
1 exp ( -~ (x - 3) 2 )
cli scarto non noto a = 19
g(19) =-¾
A volte i parametri incogniti potranno essere 2, per esempio:
1 1 (x - µ) 2 _ 1
f(x;h(19),k(µ)) = ~ · ::;iexp(- 2 ),(h(19) = ::a,k(µ) = µ).
V 21r u 219 u
Un parametro incognito nella fd significa che la funzione peso P dello spazio di probabilità
(O, A, P), dipende da un parametro non noto 19.
Nasce l'esigenza di ricavarli mediante osservazione, di farne cioè una stima. Si potrebbe
voler stimare la probabilità p che in un certo anno in Italia un bambino nasca maschio
o (che è lo stesso), la percentuale dei maschi sulla totalità dei nati), oppure l'altezza dei
giovani nati nel 1978, oppure ancora la probabilità che una certa moneta sia bilanciata.
Queste operazioni di stima avvengono utilizzando uno stimatore del parametro sconosciu-
to, cioè una funzione di un campione casuale estratto dalla popolazione che si vuole
esaminare. Trovato lo stimatore ne si calcola il valore osservando il campione estratto: a
questo punto ci si chiede quale probabilità si ha che questo valore possa "degnamente"
sostituire il valore incognito cercato.
12.1 Statistiche, stimatori, quantità pivotali

Definizione 12.1.1 Una va T = Tn = T(X 1, ., Xn) che dipenda dal campione (X1, ., Xn)'
e che non dipenda da alcun parametro incognito, si dice statistica.
Oss. 1 Attenzione: in generale la distribuzione di una statistica dipende dal parametro

incognito della popolazione.
Definizione 12.1.2 Sia (X 1 , ... , Xn)' un campione casuale di va equidistribuite le cui

distribuzioni dipendono da un parametro incognito 19 e sia T( 19) una funzione di questo
parametro. Si dice stimatore di T(19) una qualunque statistica T = Tn = T(X1, ., Xn)
che venga utilizzata per stimare T(19). Eventualmente, se si vuole stimare 19 allora T(19) =
19.
Teoricamente qualunque statistica può essere usata come stimatore di un parametro

incognito 19;sarebbe comunque assurdo utilizzare come stimatore di 19una statistica che
non abbia la sua stessa dimensionalità.
In generale una successione di stimatori {Tn} varia semplicemente al crescere della dimen-
sione n del campione: T1 = T1(X1); T2 = T2(X1, X2); Tn = Tn(X1, ., Xn)- Le funzioni Tn
saranno le stesse per ogni n. Per esempio potrebbe essere: T 1 = X 1 ; T 2 = x 1 2 ; !x
Tn = x,+,:,+Xn; la funzione è T(•) = I:~, media aritmetica delle X; (vedi media
campionaria).
305
Oss. 2 Quando ci interessa solo l'aspetto funzionale di T = T(X1, ... , Xn) e non le sue
implicazioni probabilistiche penseremo a T( ·, ... , ·) semplicemente come a una funzione
di n variabili reali.
Definizione 12.1.3 Se indichiamo con (x 1 , ... , Xn)' il valore del campione (X 1 , ... , Xn)'
risultante da una osservazione sul campione stesso allora t = T(x1, ... , Xn) si dice stima
dir) (o diT(())).
Quindi avremo i seguenti simboli: T (o Tn, latina maiuscola) che indica la va stimatore
e anche la funzione di n variabili e t (latina minuscola) che indica il valore di T sul
campione effettivamente osservato (xi, x2, ... Xn)'.
Alcuni esempi di statistiche

Esempio 12.1.4 La somma campionaria: I: X;= X1 + ... + Xn.
Esempio 12.1.5 La media campionaria:
- - 1 1~
X= Xn = -(X1
n
+ ... + Xn) = - ~X;
n
(12.1)
i=l
Può servire a stimareµ= E[X].
Esempio 12.1.6 Lancio di una moneta. Si deve valutare p = {probabilità che esca
testa}. Il campione casuale è fatto di n va di Bernoulli che possono assumere solo i
valori l o O. La media campionaria X n = ¾I::7= 1 X; ci dà la frequenza dell'uscita
di T in n lanci. Se, lanciando n volte la moneta, otteniamo k teste e (n - k) croci,
allora il valore assunto dalla media campionaria è ~. Quindi lo stimatore è: Tn =
Tn(X1, .. , Xn) = -;;I::7=
1 X;, mentre la sua stima è: ~-
Esempio 12.1.7 Nascite. La situazione è la stessa del caso precedente, con l = {nascita
di una femmina}.
E semp10. 1 2 .1. 8 Qua li d'i queste va X n, s2 , Xn-l2 = (n-21)s2

o- , tn-1 = (X-µ)
S/fo so-
no stimatori (puntuali} di media o varianza (considerate incognite) di una popolazione
N(µ, a 2 ), X; rv N(µ, a 2 ), ricordando che uno stimatore non deve dipendere dal parametro
da stimare?
I> Xn lo è della media;
1> S 2 lo è della varianza;
n-l
1> x;,_ 1 = -- 2 -S 2 non lo è per la varianza (perchè dipende da a 2 incognita);
1> tn- l = e;~

(J
non lo è per la media (perchè dipende da µ incognita)
Esempio 12.1.9 {O, 1,0,0,0, 1,0, 1, 1,0,0} sono i risultati ottenuti in 11 lanci indipen-
denti di una moneta. Calcolare i valori di X, S 2 , x;,_
1 , t su questo campione:
X -- IT
4 - 1 '-'n
- IT L..i=l X i,
. s2 -
-
1
11-1
(4 -
11 . m - IT5 - n-1i ("'nL..i=l x2 i -
16 ) - 28 -
·
Se nx2)
facciamo l'ulteriore ipotesi µ = 0.5, presupponendo si tratti di una moneta bilanciata
t = (4 I~
28/110
= -0.896 ex;, 1 ---+ (ll-~l/}1110 = 10.18 (a 2 = (0.5) · (0.5) = 1/4).
-
Osservazione: Le distribuzioni dipendenti da parametro che affronteremo godono di

certe "condizioni di regolarità", per altro molto ampie e soddisfatte da moltissime altre
distribuzioni.
Alcuni esempi di quantità pivotali
Definizione 12.1.10 Se si estrae un campione casuale (X1, ... , Xn)' da una popolazione
di parametro ,,J e se la va Y = Y(X1, ... , Xn; 73)dipende da ,,J ma la sua fdr non dipende
da ,,J, allora Y si dice quantità pi votale o pivot.
Per campionamento da N(µ, a 2 ) vediamo i seguenti tre esempi di pivot.
t di Student:
t = (X - µ)
S/fo
Chi-quadrato di Pearson:
Xn-1
2 = °"(Xi - X) = (n -
L.,
n
O'
- 2
a2
l) 82
i=l
Normale standard:
X-µ
Z=--
a/fo
12.2 Correttezza
Definizione 12.2.1 Uno stimatore T si dice corretto se E,9[T]= ,,J {il parametro che
si sta cercando). Uno stimatore non corretto si dice distorto.
Esempio 12.2.2 Se il parametro incognito è la media, la media campionaria è un suo
stimatore corretto.
Esempio 12.2.3 La varianza campionaria (corretta):
52 = 52 = _l_ ~(Xi - X)2 = _l_ [~ x2 -nx2] (12.2)

n n-lL., n-l L., '
i=l i=l
può servire a stimare a 2 = var[Xi] quando non è nota µ. 5 = J n~ 1 [I:~=l X'f - nX 2]
si dice deviazione standard campionaria.
Oss. 3 Talvolta viene de.finita varianza campionaria (non corretta) la va
5* 2 = 5~2 = ~ f)xi - X) 2 .
(12.3)
n i=l
Si preferisce la definizione in 12.2 perché E[S 2] = a 2, cioè la media dello stimatore S 2 è
uguale alla varianza della popolazione. Calcolarla per esercizio_!
1 E[S' 2] = (n~l) E [ 'Ì:;X; - n.X 2] = (n~ i) { 'Ì:;E[X;] - nE[X 2]} =
tt
i=l t=l
= (n~l) 1 ( var[Xi] + µ3.J- n ( var[X] + µ})} = (n~l) {t (0'2 + µ2) - n (:: + µ2)} = ...
Se 8 2 viene da una N(µ; 0'2 ) allora il conto si fa più semplicemente:
E [(n-.V 0
82 ] = E[x~_ 1] =, ..
307
Oss. 4 Sia (Xi, ... , Xn)' un campione casuale estratto da una popolazione di media µ
nota e varianza a 2 incognita. Come stimatore di a 2 si usa la statistica
S0
2
= -1 ~ 2
~ (Xi - µ) .
n i=i
La statistica S5 è uno stimatore corretto di a 2 .
Si noti che quando µ è incognita S5 non è una statistica e pertanto non può essere usato
come stimatore di a 2 .
Oss. 5 Come la varianza campionaria è uno stimatore non distorto della varianza della
popolazione, così si può dimostrare che la covarianza campionaria è uno stimatore non
distorto della covarianza della popolazione. Consideriamo un campione bivariato estrat-
to dalla popolazione (X, Y)r, dove X e Y sono due variabili aleatorie con covarianza
cov[X, Y] = E[(X - E[X])(Y - E[Y])]. Allora la covarianza campionaria è
n~lt(xi-Xn) (Y;-Yn)
i=i
ed è uno stimatore corretto di cov[X, Y].
Esempio 12.2.4 Supponiamo di estrarre un cc2 da una popolazione di media non nota
µ. Dire quali dei seguenti stimatori sono corretti per la media:
a) Y2 = tXi + ½X2
Sì, infatti: Eµ[Y2] = Eµ [tXi + ½X2] = tEµ[Xi] + ½Eµ[X2] = + tµ ½µ µ
=
b) Y2 = max[Xi, X2].
La risposta è negativa. Mostriamolo prima con un esempio.
Sia Xi (i= 1, 2) una va distribuita uniformemente su {O, 1, 2}. Sia Y2 = max(Xi, X2).
Dalla distribuzione congiunta del vta (Xi, X 2)' si ricava la ldp di Y2.
{Y2 = O} se {Xi= O,X2 = O}
{Y2 = l} se {Xi= l,X2 = O} U {Xi= O,X2 = l} U {Xi= l,X2 = l}
{Y2 = 2} se {Xi= 2, X2 = O}U{Xi = 2, X2 = l}U{Xi = 2, X2 = 2}U{Xi = 1, X2 = 2}U
{Xi= O,X2 = 2}
1 1 1
P[Y 2 =O]= 9;P[Y2 = l] = 3 9;P[Y2 = 2] = 5 9
1 10 13 1 2
Ora Eµ[max(Xi,X2)] = 3 + 9 = 9 -/=3 + 3 = Eµ[Xi] quindi Y2 non è uno stimatore
corretto di µ.
Più in generale poiché nel caso del cc X i e X 2 sono indipendenti ed equidistribuite la fd
di Y2 = max(Xi,X2) è data da 2Fx(x)fx(x) dove Fx(·) e fx(·) sono rispettivamente
la fdr e la fd della va Xi (i= l, 2). È allora evidente che in generale:
E[Y2] = J~;: 2xF(x)f(x)dx-/= J~;:
xf(x)dx = E[Xi] = µ.
Esempio 12.2.5 Se I:7=iai = l, allora Q = I:7=iaiXi è uno stimatore corretto della

media delle Xi (che sono equidistribuite e indipendenti).
Definizione 12.2.6 Si dice asintoticamente corretto uno stimatore Tn tale che
lim E,9[Tn] = lim E,9[Tn(Xi, ., Xn)] = 'IJ. (12.4)

n---+oo n---+oo
È immediato verificare che se uno stimatore Tn è corretto (per ogni n) allora è anche
asintoticamente corretto.
12.3 Stime asintotiche
Abbiamo definito t e x2 solo per campionamenti da popolazioni normali. Nella pratica
se si ha un campione abbastanza grande da poter considerare che la distribuzione di Xn
sia quasi normale, allora si può mostrare che si è autorizzati a ritenere (';;~ approssi-
mativamente una N. Vediamo a questo proposito il seguente teorema che ci permetterà
di giustificare un risultato ancora migliore.
Teorema 12.3.1 di Slutsky. Se Xn---+ X in legge e se Yn---+c (costante) in probabilità

allora:
1} YnXn---+ cX in legge
2) Yn + Xn---+ c + X in legge.
La dimostrazione del teorema è omessa. Presentiamo invece la seguente importante

conclusione che si ricava dal teorema di Slutsky. Ricordiamo che la varianza campionaria
(corretta) S;,, = n~l I:~=1 (Xi - Xn) 2 = n~l [I:~= 1 X;-nX;,,] da una popolazione X
di momento secondo E[X 2 ] finito, converge in probabilità alla varianza a 2 di X, cioè
T
S;,,
---+ var[X].
Lemma 12.3.2 Siano Xn e S;,, da popolazioni di momento secondo finito. Allora:

fo(Xn - µ) _CJ fo(Xn - µ) ~
~
N(O, 1) in legge come anticipato all'inizio di questa
Sn Sn Cl
sezione.
12.4 Consistenza
Definizione 12.4.1 Si dice consistente uno stimatore Tn che gode della proprietà di
convergere in leggen al valore del parametro incognito, cioè tale che
lim P11[ITn-
n-oo
i?I< s] = 1. (12.5)
Per decidere se uno stimatore è consistente è importante la seguente condizione sufficiente:
Teorema 12.4.2 Se uno stimatore asintoticamente corretto Tn ha varianza che tende a

O per n---+ oo, cioè lim var,1[Tn] = O allora è consistente.
n-oo
Esempio 12.4.3 Data una bernulliana di parametro 1?consideriamo lo stimatore Tn =

n
'-"' 2X·
L..M·
i=l
Tn è efficiente? No perché E,1[Tn] = 2 n~l nE[Xi] = 2~n:1 ; Tn non è corretto e quindi
neppure efficiente.
Tn è consistente? Si perché: lim E,1[Tn] = lim 22n+'9l= 1? quindi è asintoticamente
n---+oo n---+oo n
corretto; inoltre var,1[Tn] = (2 n4+nl)2 var,1[Xi] ----+
n---++oo
O.
Concludiamo che Tn è consistente grazie alla condizione sufficiente.
IIIn realtà la definizione esatta sarebbe: converge in probabilità. Ma si può dimostrare (vedi capitolo
17) che la convergenza in probabilità a una costante equivale alla convergenza in legge alla stessa costante.
309
12.5 Stimatore di una distribuzione
Gli stimatori presentati affrontano (e risolvono) il problema di stimare il valore 0 di un
parametro incognito da cui dipende la fdr Fx(x;T(0)) di una va X. Si suppone che la
forma analitica di Fx è nota ma non è noto il valore 0. Supponiamo invece che non sia
nota neppure la forma analitica della fdr Fx (x) della popolazione. Vediamo come si può
definire uno stimatore di Fx(x). Prendiamo un campione casuale X= (Xi, ... ,Xn) e
osserviamo i dati (x1, ... ,xn)-
Definizione 12.5.1 Funzione di ripartizione campionaria: (o empirica) (fdrc)

è, Vx E R, la funzione
numero dei dati osservati ::; x
Fn(x;X) = Fn(x) = ----------- (12.6)
n
Esempio 12.5.2 1} Si sono eseguite 60 osservazioni di una certa grandezza, ottenendo
i valori 2, 6, 10 rispettivamente 12, 18, 30 volte: = 0.2; = 0.3; = 0.5 !~ !~ ~g
x<2
2 :S X < 6
Feo(x) -{ ~: 6 :S X < 10
X~ 10
Il suo gra,fico è:
1 . ---------------------------------------------------------------
'
.5 ______________________________
.,. _____ ,9
'
.2 ___________
.., ____ 6 '
'
--------0-----0----------,---------
2 6 10
Oss. 6 Fn(x; X) è una statistica, cioè una funzione del campione casuale, quindi una
va.
Oss. 7 I possibili valori di Fn(x) sono (k/n) (O :S k::; n). Inoltre:

1) O :S Fn (X ) :S 1 { Fn(x) = O x < min(x1, ... ,xn)
Fn(x) = 1 X~ max(x1, ... , Xn)
2) Fn(x) è non decrescente
3) Fn(x) è continua da destra
Fn (x; X) costituisce un'approssimazione di F(x): infatti, fissato x, Fn (x; X) dà la fre-

quenza osservata dell'evento {X :S x}, mentre F(x) dà la probabilità dello stesso evento.
Supponiamo che X(i) siano le n osservazioni riordinate in modo crescente e sia fn((X(i); X)
il numero delle osservazioni X(i)· Si può immaginare il grafico di fn((x(i); X) e di Fn(x; X)
nel modo seguente (si osservi che le osservazioni X(i) sono in generale, di meno delle
osservazioni Xn):
J;,(x, X) numerodi volte che è stato osservato x(

J;,(x(i) X) = n
1
. !
:
•
---]
F/x,X.) ~
..,:
----- r-
Per trovare la sua distribuzione procediamo così: per ogni osservazione X; definiamo la
sueguente va:
Q; = /(-oo,x] (X;)= { ~ ::
X; >x
X; :S X
Si ha che: P[Q; = l] = P[X; :S x] = F(x).

Allora
n n
N(x) = LQi = L/(-oo,x](X;)
i=l i=l
dà il numero degli X; :S x e, poichè le Q; sono va di Bernoulli di parametro E[Q;] = F(x),

N(x) ha distribuzione binomiale, cioè:
P[N(x) = k] = ( ~ ) [F(x)]k [l - F(x)t-k
N(x)
Fn(x; X) è la media campionaria delle Q;, cioè è Fn(x; X) = quindi
n n
P[N(x) = k] = P [Fn(x;X) = ~].
Poichè E[N(x)] = n · F(x), E [ N~x)] = E [Fn(x; X)] = F(x) (quindi Fn(x; X) è uno
stimatore corretto di F(x)).
Dalla legge debole dei grandi numeri, per n grande segue che:
Vi, "ix; P [1LnQi - E[Q;] I< é]= P [1N~x) - F(x) I< s] = P [IFn(x; X) - F(x) I< s]---+1
(12.7)
N
cioè -1:.2.= Fn(x; X) tende in probabilità a F(x), quindi Fn(x; X) è anche consistente.
n
311
12.6 Efficienza
Introduciamo i seguenti nuovi concetti.per rispondere a domande di questo tipo: 1)
quando uno stimatore si può considerare migliore di un altro? 2) per stimare la media è
migliore x 1 ":3 1
2x 2 oppure 2x 1 3x ? 3) cosa significa migliore?
O
Definizione 12.6.1 Il numero E,9[(Q - 1?)2] si dice errore quadratico medio di Q

rispetto a 1? {lo indicheremo con MSE 19(Q)).
Definizione 12.6.2 Dati due stimatori Q e T di un parametro 1?, Q è detto più effi-
ciente di T se vale la disuguaglianza:
(12.8)
per ogni valore possibile di 1?. Q è più efficiente di T se ha MSE minore o al più uguale
a quello di T.
Definizione 12.6.3 Se uno stimatore Q è tale che MSE 19(Q) ::; MSE 19(T) per ogni
altro stimatore T e per ogni valore di 1?, allora Q si dice stimatore ottimale di 1?.
La ricerca degli stimatori ottimali è un'impresa delicata, che richiede strumenti mate-
matici avanzati. Inoltre tale ricerca ha senso solo se si precisa una classe di stimatori
(soddisfacienti a certe condizioni) all'interno della quale avviene la ricerca. Non ha senso
ricercare uno stimatore ottimale tout court come mostra la seguente osservazione.
Consideriamo lo stimatore T = 1?0 assegnato qualunque sia il campione. MSE,9(T) =
E,9[(1?0 -1?) 2] è uguale a O per 1? = 1?0 . Per uno stimatore S preferibile a T si dovrebbe
avere O :S MS E,90 (S) :S MS E,90 (T) :S O. Ma 1?o era arbitrario quindi se esistesse uno
stimatore S di 1?ottimale fra tutti gli stimatori si dovrebbe avere '71?,MSE,9(S) =O(*).
Se non si precisano perciò condizioni sugli stimatori di un parametro tra i quali vogliamo
definire l'ottimalità l'unico ottimale possibile è sempre quello definito da (*).
Una classe interessante all'interno della quale può avvenire la ricerca di uno stimatore
ottimale è definita dalla seguente importante proprietà.
Si osservi la seguente relazione:
BIAS
,...~
E,9[(Q -1?)2] = E,9[Q 2] - 21?E,9[Q]+ 1?2 = var,9[Q] + {1?- E,9[Q]} 2 (12.9)
Può sembrare che E,9[(Q -1?)2] sia minimo (rispetto a 1?) quando il BIAS 1?- E,9[Q]
è minimo. Vediamo che ciò non è vero per un campionamento da una normale. Sia
S 2 la varianza campionaria: E[S 2] = a 2 per cui il BIAS è nullo e MSE 172(S 2) =
2 2 2
E 172[{ S - a } ] = var 172[S ] = ~~:. Prendiamo ora S* 2 = ¾I:~=l (X; - X) 2. Sappiamo
2
che S* 2 non è corretto perché E 172[S* 2] = E 172[ n~ 1S 2] = n~ 1a 2. Quindi, per la 12.8
MSE 172(S* 2)=E 172 [(n~ 1S 2 -a 2) 2] =var 17 2 [(n~ 1S 2 -a 2)]+{E[(n~ 1S 2 -a 2)]} 2 =
= (n-1)21L+(n-la2 - a2)2 = n2-2n+l 1..L+ 174= var 2[S2]- 3n-1174 < MSE 2(S2)
n n- 1 n n n- 1 ri"T u n- 1 ri"1 u
Nella classe degli stimatori corretti, MSE,9(Q) = E,9[(Q -1?)2] = E,9[(Q - E,9[1?])2]=
var,9[Q]; per cui la 12.8 si scrive var,9[Q] :S var,9[T].
Esempio 12.6.4 Siano X; e Xn due stimatori della media incognita µ di una popo-
lazione di varianza nota a 2 . Poiché E[Xi] = E[Xn] = µ sono entrambi non distorti.
MSEµ(X;) = a 2 mentre MSEµ(Xn) = ~. Quindi Xn è più efficiente di X;.
Esempio 12.6.5 Consideriamo gli stimatori: Q 1 = x 1 "3 2X e Q 2 = 2x 1 0
tx3 2, dove X 1
e X 2 hanno mediaµ e varianza a 2 .
a) Sono corretti per la media?
Sì, infatti: Eµ[Q1] = Eµ [x1 "3 2x = ½Eµ[Xi] + tEµ[X2] = µ0
]
Eµ[Q 2] = Eµ [ x 2 1 3 t
x ] = ¾Eµ[Xi] + ¾Eµ[X2] = µ
2
b) Quale dei due è più efficiente?

varµ[Qi] = ½varµ[Xi] + varµ[X2] = &a ! 2
varµ[Q2] = (~ + is) a 2 = ~~a 2
Poichè ! > ~5 ::::} varµ[Q1] > varµ[Q2], quindi Q2 è più efficiente di Q1.
Esercizio 12.6.1 Sia (X 1 , ... Xn) un ccn da una popolazione di mediaµ e varianza a 2 .
Calcolare l'efficienza di Xn rispetto a Xn-l·
Definizione 12.6.6 Se uno stimatore corretto Q è tale che var,9[Q] :S var,9[T] per ogni
altro stimatore corretto T e per ogni valore di 73, allora Q si dice stimatore a varianza
uniformemente minima {UMVUE) di 73.
Teoremino 12.6.7 Nella classe degli stimatori corretti per una popolazione N(µ, a 2 )
con µ e a 2 incogniti X e S 2 sono gli stimatori ottimali rispettivamente per la µ e a 2.
Abbiamo già detto della difficoltà nella ricerca degli stimatori ottimali. Se restringiamo
la nostra attenzione alla classe di quelli corretti quelli ottimali sono gli UMVUE. In
questa classe cercare un ottimale si riduce a cercare un UMVUE. Vedremo che tra
gli stimatori corretti, se valgono certe ipotesi di regolarità, ampiamente soddisfatte, è
possibile stabilire un confine inferiore per la loro varianza. Potremo perciò essere sicuri
di usare uno stimatore buono quando la sua varianza sarà vicina a tale confine. A tale
scopo premettiamo la seguente:
Definizione 12.6.8 Data una va X la cui fd f (x; 73) dipende da un parametro incognito
73, si dice quantità di informazione di Fisher la I(73) = E,9[{; 19 lnf(X;73)} 2].
Definizione 12.6.9 Uno stimatore corretto Q di 73si dice efficiente se var,9[Q] = nl~'9).
Esempio 12.6.10 Sia data una popolazione bernoulliana di parametro (incognito) 73.
Calcoliamo I(73). Osserviamo innanzitutto che è f(x; 73)= 73x(l - 73)1-x; x = O, l.
ln(f(X, 73)) = X · ln(73) + (1 - X)· ln(l - 73); d~ ln(f(X, 73)) = Abbiamo ¾- t::_~
.
ottenuto la va:
(K _ l-X)_ { i} con probabilità 73 (se X = l}
,9 1-'9 - ;::_~ con probabilità (l - 73) (se X= O)
Segue che:
(x l-x) 2 { -;b1 conprobabilità 73 (seX=l}
19 - 1 -'9 = (l-'9) 2 con probabilità (1 - 73) (se X = O}
Quindi:E,9 [ { d~ ln(f(X, 73))}2] = E [{ j - i~~}2] .

Ora E 19[X] = 73;E 19[X 2] = var 19[X] + E 2[X] = 73(1- 73)+ 732 = 73;E 19[(1- X)2] =
= E,9[l + X 2 - 2X] = 1 + 73- 273= 1 - 73.
. [X 2 (1-X): X-X 2 ] _ 1
Da cui E,9 "JT + (l-'9)- - 2 19(l-'9) - '9(l-'9).
1 1 73(1-73)
Oss. 8 -- = ---------~ = ---
nI(73) nE,9 [ L~ln(f(X, 73))}2] n
313
Esempio 12.6.11 Consideriamo ora Xn = I:~- Sappiamo che Xn è uno stimato-
i
,9(1-,9) __ l_
re corretto per la media iJ. Poiché var,9[I:: ~] n - nJ(,9)
concludiamo che X n è efficiente.
Enunciamo ora l'importante
Teorema 12.6.12 (Rao-Cramer ). Data una va X di densità f (x; iJ) il cui supporto
non dipenda da iJ. Sotto ampie ipotesi di regolarità su f(x; iJ) (che valgono per tutte le
densità viste finora, vedi [MGBJ) se Q(X1,X2, ... ,Xn) è uno stimatore corretto di iJ
allora:
1 1
var,9[Q] ~ nI(iJ) = nE,9[{~lnf(X;iJ)}2]
(12.10)
Sotto le stesse ampie ipotesi di regolarità se Q è uno stimatore corretto per g( iJ) allora
la 11.6 si scrive:
[g'(iJ)]2 [g'(iJ) ]2
var,9[Q] ~ nI(iJ) = nE,9[{~lnf(X;iJ)}2]
(12.11)
Oss. 9 Se oltre alle ipotesi di regolarità previste dal teorema di Rao-Cramer per la den-
sità f(x; iJ) (in particolare che il suo supporto non dipenda da iJ) si chiede un po' di più
sulla sua derivabilità, allora vale la seguente:
(12.12)
Esempio 12.6.13 Supponiamo di avere un dado truccato e una va X che descrive il

risultato di un lancio. Le determinazioni di X sono ovviamente gli interi compresi tra l
e 6. Supponiamo che la sua fd sia la seguente:
f( x·iJ) ={ iJ sex= 1,2,3,4,5 (12.13)

' 1 - 5iJ se x = 6
Cerchiamo uno stimatore efficiente per iJ. Cominciamo a osservare chef (x; iJ) può essere
scritta anche nel modo seguente:
iJ ) l{l,2,3,4,s}(x)
ijl{l,2,3,4,5}(x1{1- 5iJ)l-I{l,2,3,4,5}(x) = ( l - SiJ . (1- 5iJ)J{l, 2 , 3 ,4 ,5,6 }(x)
(12.14)
dove I (x ) - { 1 se x = l, 2, 3, 4, 5 ·
{l, 2 ,3 ,4 ,5 } - O altrove '
Qui di seguito indicheremo J{l, 2 ,3 ,4 ,5}(x) semplicemente con J{l, 5}(x).
Calcoliamo la quantità di informazione di Fisher per 12.14
l{ls}(x) } ( )
ln(f(x; iJ)) = ln {( 1_19 519) ' · (1 - 5iJ) = J{l, 5} (x) · ln 1_19
519 + ln(l - 5iJ) =
= J{l, 5}(x) [ln iJ - ln(l - 5iJ)] + ln(l - 5iJ).
J19ln(f(x; iJ) = I{l,5}(x) [ ½+ 1_\,9] - 1_\,9 = I{l,5}(x) [ '9(1~5'9)] - 1-\,9
[J11ln(f(x; 1?)]2 = If1,5} (x) [ 11(1~511)

r + (1-2:11)2- I{l,5} (x) 11(1~~11)2.
ln(f(X;1?)]2] = [11(1~511JrE11[If1,5}(X)]+
E11[[a'111 (12.15)
2
+E11[(1_ ; 11)2] - 19(1~~19)2 E11[I{l,5}(X)]
La va I{l, 5}(X) ha solo due determinazioni con i seguenti pesi:

I (X) -{ 1 se X= 1,2,3,4,5 con P[I{l, 5}(X) = l] = 51?
{l, 5} - O se X= 6 con P[I{l, 5}(X) =O]= 1- 51?
E11[I{l,5} (X)]= 51? ma anche E11[If1,5} (X)]= 51? per cui
var11[I{l,5}(X)] = E11[If1,5}(X)] - EJ[I{l, 5}(X)] = 51?- 251?2 = 51?(1- 51?)
Da quanto appena detto la 12.15 precedente diventa:
2
[ 19(1~519)]5 1?+ (1-2:11)2 - 19(1~~19)2 ' [½- 10] + (1-2:11)2=
51?= 19(1~~19)2
5 { 1-1019 5} 5 1-519 5
= (1-519)2 -19- + = (1-519)2 -19- = 19(1-519)'
eonc l udiamo
. h 1 19(1-519)
c e: n/( 19) = -n- 5-.
Ora sia (Xi, ... ,Xn) un ccn dalla popolazione di densità 12.13. Lo stimatore Q~ =
I:~=l Ip,s~(X;) non è corretto per 1? perchè E11[Q~] = 51?. È invece corretto lo stimatore
Qn = I:~=l lp,sJ~X;)/ 5 la cui var11[Qn] = 25~2 var11[I: /{1,5}(Xi)] = 2gn · 51?(1 - 51?) =
1
n/(19).
Quindi lo stimatore Qn oltre che corretto è quindi efficiente.
Oss. 10 Il confine inferiore di Rao-Cramer è un confine inferiore e non l'estremo infe-
riore per la varianza di uno stimatore corretto, nel senso che esistono stimatori ottimali
( e quindi corretti e di varianza minima) la cui varianza non raggiunge il confine inferiore
di Rao-Cramer.
Vediamo cosa succede quando le ipotesi sulla distribuzione non sono soddisfatte. Par-
tiamo da Y2 = max(X1,X2), dove (X1,X2) è un cc2 da una popolazione distribuita
uniformemente in [0,1?], cioè Vi,i = 1,2, fx;(x) = ½,O:S x :S 1?; Fx;(x) = ~I[o,11](x) +
/(11,+oo)(x). Ora jy 2(x) = 2Fx;(x)fx;(x), i = 1 oppure i = 2 indifferentemente. Più
2
precisamente jy 2(x) = 2 · ~ · ½· l10,111(x)e E11[Y2]= l~: xjy 2 (x)dx = 21: ; 2 dx = tl?,
per cui Q = f Y2 è uno stimatore corretto di 1?.
var11[Q]= E11[Q ] - EJ[Q] = l~:ax)
2 2 • jy 2 (x)dx -1? 2 = ~ 1: ~dx -1? 2 = 192
8 .
. 1 1 1 192 192
Calcoliamo ora 2/( 19) = 8 [ 1 2] = 2 > 8 = var11[Q].
2E11[{819lnf(X;1?)}2] 2E11 (-,9)
Quindi il confine inferiore di Rao-Cramer per la popolazione la cui fd è f x (x) = ½,
O :S x :S 1?non è rispettato dalla varianza di Q ma ciò non contraddice il teorema 12.6.12
perché il supporto della fd dipende da 1?.
12.7 Stimatori per via analitica

In questo paragrafoIII esporremo delle riflessioni su una funzione g(u) sviluppabile, in un
intorno di u 0 , in serie di Taylor, con formula arrestata al 1° ordine, cioè tale che:
IIIGli argomenti qui esposti sono ripresi, sviluppandoli, nel capitolo 17, pagrafo 17.7.
315
g(u) = g(uo) + g'(u)lu=uo (u - uo) + o(u - uo).
g(uo) + g' (u) lu=uo(u - uo) è perciò tanto migliore, quanto più
L'approssimazione g(u) '.::::'.
piccolo è (u - uo).
Sia ora X una va e g(X) una sua funzione sviluppabile in un intorno di uo = E[X].
Allora:
g(E[X]) + g'(u)lu=E[X] (X - E[X])
g(X) '.::::'.
L'approssimazione è tanto migliore quanto più piccolo è (X - E[X]) cioè quanto più
piccola è var[X]. Allora poiché E[g(X)] = E [g(E[X]) + g'(u)lu=E[X] (X - E[X])] è:
E[g(X)] '.::::'.
g(E[X])
e l'approssimazione è tanto migliore quanto più X è vicina a E[X], cioè quanto più piccola
è la sua varianza. L'approssimazione è perfetta se var[X] = O cioè se X = e è degenere.
In questo caso, e solo in questo caso, E[X] = e, g(X) = g(c) e quindi E[g(X)] = g(E[X]).
Geometrica
Prendiamo per esempio la media campionaria della va geometrica X n stima la media !
p
quindi 1 è uno stimatore di p. Consideriamo la funzione g(u) = .!_e scriviamo il suo
Xn u
sviluppo in serie di Taylor nell'intorno di uo arrestato al primo ordine. Se (u - uo) è
abbastanza piccolo:
g(u) '.::::'.
g(uo) + g'(u)lu=uo (u - uo) = g(uo) + - : 2 1u=uo (u - uo).
- 1 1 -
Se prendiamo u = X n e uo = - allora =- = g (X n) e g (uo) = p mentre la relazione
P Xn
precedente diventa:
1 '.::::'.p+- 1 I (Xn-!)=p-p2(Xn-!)
Xn Xn 2 Xn=.!p P P
cioè 1 è quasi la trasformata lineare p - p 2 (X n - ! ) di X n.

Xn P
- 1 - 1
L'approssimazione è tanto migliore quanto più piccolo è (Xn - -). Poiché E[Xn] = -,
p p
(X n - E[X nD è tanto più piccolo quanto più vicina a O è
_ 1L 1 1-p
var[X n] = var[- X;] = 2 n var[X] = -- 2
n n np
cioè quanto più grande è n.
p - p 2(X n -
Quindi se X n è quasi normale anche g(X n) '.::::'. ! ) è quasi
p
normale (a patto
che X n - ! sia piccolo). Poiché X n è quasi N ( ! ;1- ; ) g( X n) è quasi normale di media

p p ~
2 - 1 2- 1 4 - 4l-p
p - p (E[Xn] - -] =pedi varianza var[p - p (Xn - -)] = p var[Xn] = p - -
p p np 2
p2(1- p)
n
1
Perciò =- è asintoticamente normale, asintoticamente corretto e consitente.
Xn
Esponenziale
.
P ren d iamo .
mvece 1a va esponenzia. 1e. X n .
stima -l , qum
. d'i =-l .
stima "·' C onsi'd enamo
.
À Xn
la funzione g( u) = ~ e scriviamo il suo sviluppo in serie di Taylor nell'intorno di uo
u
arrestato al primo ordine.
g(u) '.::::'.
g(u 0 ) + g' (u)lu=uo (u - uo) = g(uo) + - : 2 1u=uo(u - uo)
- 1 1 -
Se prendiamo u = X n e uo = A allora =- = g(X n) e la relazione precedente diventa:
Xn
- 1 - 1
L'approssimazione è tanto migliore quanto più piccolo è (Xn - A). Poiché E[Xn] = A'
- - - 1
(X n - E[X nD sarà tanto più piccolo quanto più vicina a O sarà la var[X n] = -- 2 cioè
nÀ
quanto più grande è n.
Poiché X n è quasi normale (via Tcl) anche 1 '.::::'.
À - À 2 (X n - ~), quasi trasformazione
Xn À
- - 1
lineare di X n quando X n è vicino a A (e quindi quando la sua varianza è vicina a O), è
quasi normale.
1
Perciò =- è asintoticamente normale, asintoticamente corretto e consitente.
Xn
Poisson
Prendiamo ancora X rv Pois(À). X n stima À e, via Tcl, X n è asintoticamente normale,
corretto e consistente.
Bernoulli
Prendiamo infine una va di Bernoulli X di parametro p. X n stima p e, via Tcl, X n è
asintoticamente normale, corretto e consistente.
Binomiale
Analogo discorso per una va binomiale X rv B(m,p) di parametro p. Xn stima mp e,
via Tcl, X n è asintoticamente normale, corretto e consistente.
Oss. 11 Importante. La consistenza di alcuni stimatori qui citati può essere decisa
con i teoremini del paragrafo 11. 7. Per esempio per quanto riguarda la distribuzione
di una va geometrica X, poiché per la legge debole dei grandi numeri X n .I..+µ x = !
p
allora g(Xn) = 1 .I..+g( ! ) = p, quindi è consistente. Stessa cosa per l'esponenziale:
Xn p
- T l 1 T l
Xn-----+ µx = - allora g(Xn) = =------+ g(-) = À, quindi è consistente.
À Xn À
317
12.8 Metodi per la ricerca di uno stimatore
In pratica finora abbiamo visto solo due stimatori: la media campionaria Xn = I:;,,Xi
e la varianza campionaria S2 = I: (:~~x)2 Abbiamo visto che sono stimatori non
distorti di µ e a 2 . Non abbiamo però ancora visto come si va alla ricerca di uno stima-
tore. Esporremo brevemente solo due metodi: quello dei momenti e quello di massima
verosimiglianza.
Metodo dei momenti

Supponiamo di avere un ccn X 1, ... , Xn prelevato da una popolazione che ha una certa
distribuzione F,9 che dipende da un parametro incognito iJ. Supponiamo che iJ si possa
esprimere come funzione della media µ della popolazione, cioè iJ = g(µ). L'idea del
metodo dei momenti è quella di approssimare µ con Xn = I:~ xi e quindi di stimare
iJ = g(X). Più in generale supponiamo che non sia possibile esprimere iJ come funzione
solo di µ, come capita, per esempio, nel caso di una popolazione normale di cui non
conosciamo la varianza a 2 . In casi come questo il metodo dei momenti procede così. Si
considerano i momenti E[Xk], k ~ l, della distribuzione della popolazione e si verifica la
possibilità di esprimere iJ in loro funzione: iJ = g(E[X], E[X 2 ], .. , E[Xr]). Le quantità
Ah = Li/f;k = l, .. , r vengono dette momenti campionari e sono utilizzate per
stimare E[Xk]. Uno stimatore di iJ sarà: il= g(M1, ... , Mr),
Osservazione: I momenti campionari esistono sempre. I momenti veri non è affatto
detto.
Esempio 12.8.1 Supponiamo di voler stimare sia la media µ che la varianza a 2 uti-
.
lizzan do un ccn d a una popo lazione
. norma l e. P oic a 2==E[X]
. h,e: { µ E[X 2] _ E[X]2 , con i'l
d d . . . h { µ = g(E[X]) E[X] =
meto o ei momenti si a: a2 = g(E[X], E[X2]) = E[X2] _ E[X]2
Usiamo: M 1 = I:~Xi per stimare E[X]; M 2 = I:'nxf per stimare E[X 2]. Quindi:
'
µ= ~ n =X,
{ a,2 = ~
I: X2 - (I:~Xi) 2 = ==-----'-'--
I: X2 -nX 2 _ I:-(Xi-X) 2 __ 5•2.
n n n ~ n
(*)
n.b.: È noto che f (X; -
i=l
X) =
2 f: X'f
i=l
- nX 2 quindi(*).
Metodo della massima verosimiglianza

Avevamo già dato un accenno di metodo di massima verosimiglianza nell'esempio delle
trote nel lago del capitolo 2. Definiamolo con precisione.
Definizione 12.8.2 Si dice funzione di verosimiglianza (fdv) e la si indica con

L(iJ;x1, .. ,xn) la densità congiunta fx,,x 2 ,.,xn(x1, .. ,xn;iJ) di n va X1, .. ,,Xn pensata
come funzione di iJ. Se le n va rappresentano un ccn estratto da una popolazione la cui
densità congiunta è nota a meno di un parametro iJ allora L(iJ;x1, .. ,xn) = fx,(x1;iJ) ·
· · · · fxn(xn;iJ).
Mettiamoci nel caso che le va siano discrete; ciò aiuta l'intuizione. Nel caso discre-
to L(iJ;xi, .. ,xn) rappresenta la probabilità che il vta (Xi, .. ,Xn)' assuma il valore
(xi, .. , Xn)', cioè la probabilità di osservare (xi, ... , Xn) quando il parametro incognito
ha valore iJ.
Definizione 12.8.3 Come stima di massima verosimiglianza di iJ si intende il valore

{) = iJ(xi, ... , Xn) che rende massima L( iJ;xi, ... , Xn)-
Definizione 12.8.4 Lo stimatore di massima verosimiglianza (MLE) è invece la

statistica È>= iJ(X i, ... , Xn).
Per quanto riguarda la stima {J i valori (xi, ... , Xn) sono fissati e rappresentano le
determinazioni di (Xi, ... ,Xn) osservate sul campione.
Nella ricerca del massimo di L(iJ; Xi, .. , Xn) è utile tenere presente che L(iJ; Xi, .. , Xn) e
ln[L(iJ;xi, .. ,xn)] hanno il massimo nello stesso valore fJ. Quindi a volte cercheremo
il valore che massimizza ln[fx,(xi;iJ) · ... · fxn(xn;iJ)] invece di quello che massimizza
fx,(xi;iJ) · ... · fxn(xn;iJ).
Esempio 12.8.5 Cerchiamo lo stimatore MLE per il parametro p di una distribuzione

di Bernoulli. Supponiamo di eseguire al solito n esperimenti di Bernoulli, ciascuno con
probabilità p di successo. In questo caso abbiamo una ccn (Xi, ... , Xn) : Vi, P[Xi =
l] = p = l - P[Xi = O]; P[Xi = x] = px(l - p)i-x; x = O, l
Poichè le Xi sono indipendenti, si ha che (xi = O, l, i= 1, ., n):
fx,,,,Xn (xi,., XniP) = P[Xi =xi,., Xn = XniP] =
=px'(l-p)i-x, .. ,pxn(l-p)i-xn =pLXi(l-p)n-I;xi (®).
Per trovare il valore di p che rende massima (®), passiamo ai logaritmi:
ln[fx,,.,Xn (xi,., XniP)] = iti Xi· ln(p) + (n - iti xi) ln(l - p)

Derivando si ha:
d lnfx,.x
[
i=
(xi, .. ,,XniP) l =---i=i
Xi (n -
i=i
i=
Xi)
-d
p "n p l-p
Il valore che annulla la derivata è perciò il valore p tale che:
I:17,1 Xi= (n-~}fi 1 Xi) cioè p = I:;'~,Xi = Xn (valore di Xn sul campione) e lo stimatore
è P = Xn, Si può infatti verificare che è un massimo per la funzione in esame.
Esempio 12.8.6 Un produttore di chip per la memoria RAM di un computer ha un

processo produttivo per il quale p è la probabilità che un chip sia accettabile. Se da un
test eseguito su 1000 chips se ne sono trovati 921 accettabili, allora la stima MLE per p
è:
n
I: Xi
i=i
p-------
A 921 092 1
- n -1000- ·
Esempio 12.8. 7 Sia data una popolazione con distribuzione di Poisson di media À in-
e->-,\ xi
cognita. Consideriamo un ccn (Xi, ... , Xn), dove ogni Xi ha densità -- 1 -. Per
Xi,
e-,\Àx, e-,\ÀXn e-nÀ,\LXi
l'indipendenza delle Xi, si ha: fx,,,,Xn(xi, .,Xni À) = -- 1 - • .. , • I
Xi, Xn, Xi!"· Xn!
319
n n
Allora: log[fx,,.,Xn (xi, ... Xni >..)]= -n>..+ I: Xi ·ln À-ln c dove c = IT(xi!) non dipende
i=l i=l
da À. Derivando:
n
I: Xi
d ln [fx,,.,Xn ( X1,
d).. ., Xni À )] = -n i=l
+ -À-
n
I: Xi
Il valore di À che annulla questa espressione è i=In = Xn e si verifica
. che è un massimo.
f Xi
Se in quest'ultima sostituiamo ai valori osservati Xi le va Xi otteniamo i=~ = Xn che
è lo stimatore MLE di À.
Supponiamo, per esempio, che il numero di persone che entrano nello spaccio di una
manifattura di scarpe sia una va X con distribuzione di Poisson di media À. Ricordiamo
che P[Xi = x] = e-:r
è la probabilità che entrino nello spaccio X persone in un processo
di Poisson con media giornaliera À. Se dopo 20 giorni di controlli siano state contate
857 persone entrate nello spaccio, allora la stima MLE di À (media giornaliera) è: À =
LI~)
20
Xi -
-
857 - 42 85
20 - . .
Torniamo allo stimatore X n e vediamo le sue proprietà.
Poichè À è la media della distribuzione si sa che X n è corretto. Vediamo se è efficiente.
I(>..)= E>-[{;>-lnf(X; >..)}2] = -E>-[,t; lnf(X;>..)] = -E>-[-i] = pE>-[X] = fo = ½-
Quindi il confine inferiore di Rao-Cramer risulta essere nl(.\) = ~.
Poichè var,9 [X n] = ;b var,9 [I:Xi] = ;b · nÀ = ~ si conclude che X n è efficiente.
Esempio 12.8.8 Vediamo cosa succede con una va normale con media µ e varianza a 2
ignote. Supponiamo di avere un ccn (X1, ... , Xn) da questa popolazione:
fx,,,,xn(x1,.,xn;µ,a) = i=l rr
n 1
av27fexp
[-(xi-µ)
2a2
2]
Passando ai logaritmi si ha: ln[fx,,.,xn(x 1,.,xn;µ,a)] = -~ln21r-nlna- I;,_,2(;2-µ)2
Per trovare µ e a che massimizzano, occorre risolvere il sistema:

a [f ( .
8µ 1og X,,,,Xn X1, ., Xn, µ, a -
)] _ I::i(xia2 - µ) _- 0
{
(+) a n I:i(xi - µ) 2
/)17log[fx,,,,xn(x1,-,xn;µ,a)]=-;+ a3 =0
I::i Xi
Px:,-
A
Ri,alvewl, (+) ,i ha,

{
: : µ)']
,;,
Si può veri.ficare che i valori trovati rappresentano effettivamente un punto di massimo.
Se in queste ultime sostituiamo alle osservazioni Xi le va Xi otteniamo gli stimatori
MLE diµ e a rispettivamente.
Oss. 12 Attenzione: lo stimatore MLE per a è à = [ I:(Xni-µ)2] 1/2 -- [I:(Xin-Xn)2] 1/2
diverso dalla deviazione standard campionaria, che è invece: S = [.._....

L,
- )2]1/2 .
(X~: t n
Esempio 12.8.9 Per mostrare che l'MLE della media non è sempre la media cam-
pionaria Xn, consideriamo il seguente esempio. Supponiamo di avere un ccn da una
popolazione distribuita uniformemente di parametro iJ con iJ incognito, cioè tale che la
! 0<x<iJ
fd definita su tale popolazione è f (x; iJ) = { altrove- 8
; iJ > O. Tale popolazione
. iJ
ha media 2 .
n n
Per trovare l'MLE di iJ partiamo da L(iJ;x1, ... ,xn) = ITf(x;;iJ) = IT-¼I10,t9](x;).
i=l i=l
Ora l10,t9](x;) = 1 sse Vi, O::; X;::; iJ cioè, detti y 1 = min(x;) e Yn = max(x;), sse O::; y 1
e Yn ::; iJ. Pertanto il valore di iJ che rende massima la L(iJ; x1, ,xn) deve superare la
massima osservazione fatta (altrimenti L = O perchè se una delle osservazioni Xk cade
oltre iJ, il fattore k-esimo I 1o,t9] (xk) = O, vedi ,figura) e deve essere il più piccolo di tali
valori altrimenti L rimpicciolisce (perchè L è inversamente proporzionale a iJ).
e -------~
Basta che una delle due
osservazioni x 1 o x 2 cada
fuori dall'intervallo (O,0)
perché la L sia nulla.
9 XJ
Cioè 8 = max(X 1 , .. , Xn) è lo stimatore MLE della media iJ in questo caso.
Proprietà degli stimatori MLE

Per quanto riguarda gli stimatori di massima verosimiglianza, sotto opportune ipotesi
generalmente soddisfatte, si può affermare che:
• uno stimatore MLE è asintoticamente corretto
• uno stimatore MLE è consistente
Sotto ipotesi di regolarità (soddisfatte nella maggior parte dei casi) vale il seguente:
Teoremino 12.8.10 Se esiste uno stimatore efficiente per g(iJ) (iJ parametro incognito),
questo è l'unico stimatore MLE per g(iJ).
Vale inoltre l'utilissimo:
Teorema 12.8.11 (principio di invarianza (pdi}). Se T è uno stimatore MLE di

iJ allora g(T) è uno stimatore MLE per g(iJ).
Teorema 12.8.12 Se f(·; iJ) è la fd di una popolazione di parametro incognito iJ e se

Tn = Tn(X 1, ., Xn) è lo stimatore MLE di iJ per un ccn, allora, per n grande,
a= iJ
Tn ~ N(a, b), con: { b _ 1 __ 1_
- nE~[{!;i-Inf(x;t9)} 2] - nl(t9)
cioè Tn ha distribuzione asintotica normale N (a, b) (o che Tn è asintoticamente normale);
inoltre Tn è asintoticamente corretto (E[Tn] ----+ iJ).
n-+oo
321
Il teorema 12.8.12 dice che, se Tn è Io stimatore MLE di un parametro 73,la sua fdr non
è quella di una N(a, b), ma può essere approssimata da quella di una N(a, b). Se diciamo
Frn la fdr di Tn e F la fdr di N(a, b), questo concetto si scrive dicendo che:
(12.16)
o, ragionando in termini di standardizzata di Tn (essendo (·)la fdr di N(O, 1)):
p [( < Tn~ a::; ç] ~ (ç)_ (() (12.17)
Sussiste il seguente teorema, analogo a (12.8.12).
Teorema 12.8.13 Se la fd f (·; 73) di una popolazione soddisfa certe condizioni di rego-
larità e se È>n= È>n(X1 , ... , Xn) è uno stimatore MLE di 73la va
(12.18)
Il risultato ce lo aspettiamo, infatti in certe condizioni di regolarità È>n- 73è asintotica-

mente una normale centrata, cioè di media O, e inoltre ~ ha varianza 1 per ogni
var(E>n)
n.
Teorema 12.8.14 (importante). Detto Ò'~ uno stimatoreMLE di var(È>n) la seguente

relazione:
(12.19)
sostituisce la 12.18 del teorema precedente.
Un po' ingenuamente si potrebbe dire che, se per n grande à~ approssima var(È>n), allora
~ e è~ tendono ad avere approssimativamente la stessa fdr.
VO'n
Esempio 12.8.15 Sia f(x;73) = )Jexp(- fe)/10,+oo)(x); 73> O (~)

a) trovare lo stimatore MLE di 73.
b) tale stimatore è corretto?
c) trovare la relazione tra 73parametro della fd (~) e 73' parametro della fd:
h(x;73) = ¼,exp(-f,)110,+oo)(x); 73' > O.
Soluzione. a) Dato un ccn (X 1 , X2, ., Xn) dalla popolazione (~) la funzione di verosi-
miglianza è L(73, XI,., Xn) = 73-n/ 2 exp(- fe I: x;)fon (;iç_n)(dove Dn = [O,+oo) da rr=l
cui '
ln(L(73, X1, ., Xn) =-~In 73- )J 2(x; che ammette come massimo T = ( ¾ 2(x;) 2
per cui lo stimatore è Tn = T(X 1 ,X 2 ,,,Xn) = (¾I:,x,) 2
b} Poiché la (~) è la fd di una esponenziale di parametro À = )J che ha media ½e

2
varianza -lz-si ha: E,1[Tn] = E,1[(¾ I:;X;) ] = var,1[(¾ I:;X;)] + EJ[(¾ I:;X;)] =
~ I:var,1[X;] + 73= *+ 73-/-73.

Si conclude che lo stimatore Tn non è corretto.
c) Poiché per gli stimatori MLE vale il pdi dalla relazione ,,J' = vi§ si ha che T~ = vTn,
è lo stimatore MLE per ,,J'.
Esempio 12.8.16 Consideriamo una popolazione binomiale B(3, 'IJ) cioè con fdd data
da
f(x;'IJ)= ( ! ),,Jx(l-'IJ) 3-xf{o,1,2,3}(x) (&).
a) esiste uno stimatore efficiente per 'IJ?
b} qual è lo stimatore MLE di '13'= 1 ~t9?
1
Soluzione. a) Consideriamo lo stimatore Tn = - I:; X;. Poichè le X; sono distribuite
3n
secondo la(•) E,9[X;] = 3'13e var,9[X;] = 3'13(1- '13). Quindi Tn è corretto. Infatti:
-LX;
E,9 [ 1
3n
i
l 1 n
= -I:E,9[X;]
3n
i=l
='IJ.
3- 0 } sex=
ln{(~)'IJ0 (1- '13) O
. 1
_ { ln{(r)7J (1-'13) 3- 1}sex=l
Ora ln(f(x,'13)) - ln{G}7J2(l - '13)3-2}sex= 2
ln{G}7J3(1- '13) 3- 3} sex= 3
3-x l{o,1,2,3}(x)} =
= ln{ ( : ) '/Jx(l - '13)
={in(:) +xln'IJ+(3-x)ln(l-'IJ)}/{o,1,2,3}(x).
;t9ln(f(x; '13)= { ~ - ~=~} I{o,1,2,3}(x) = { t9(~l~)}

I{o,1,2,3}(x).
E,9 [[ft9ln(f(X; '13}]2]= E,9 [X2 ~ 6'/JX + 9'132]= 2 1 {E,9[X2] - 18'132+ 9'132}=
,,J (1 - 7J)2 ,,J (1 - 7J)2
= 1 {E [X2] - E 2[X]} = var,9[X] = 3'13(1- '13) = 3
'132(1_ 7J)2 t9 t9 '132(1_ 7J)2 '132(1_ 7J)2 '13(1_ '13)'
1
Calcoliamo la varianza di Tn: var,9[Tn]= var,9[- I:, X;]= g::3
1 3n'IJ(l - '13).La varianza
3n ' n
di Tn raggiunge il confine inferiore di Rao-Cramer, quindi Tn è efficiente.
n.b.: Abbiamo utilizzato il seguente fatto per I:7=1 X;. Ciascuna X; è una B(3, 'IJ) con
fgm [(l - '13)+ 7Jet]3. Per un noto teorema la fgm di una somma di n va indipen-
denti {che in questo caso sono anche equidistribuite) è il prodotto delle singole fgm.
Perciò mL x.(t) = [(l - '13)+ ,,Jet]3 n che è la fgm di una B(3n, '13). Da questo segue
immediatamente che E,9 [B(3n, '13)]= 3n'IJ e var,9[B(3n, '13)]= 3n'IJ(l - '13).
b) Poichè Tn è efficiente (e dato che valgono le ampie ipotesi di regolarità richieste dal
teor.12.8.10) Tn è uno stimatore MLE. Per Tn vale perciò il pdi per cui uno stimatore
MLE di
,,J' = _1_ è T' = _1_ = 1
l+t9 n l+Tn l+l 3n "C""
L.,i
X
i
Esempio 12.8.17 Da una popolazione normale di media nota µ e varianza incognita a 2

si estragga un ccn (Xi, .., Xn),
1
a) Si dimostri che S5
= - I::7-i(X; - µ) 2 è uno stimatore MLE per 'IJ= T(a) = a 2.
n -
b} trovare uno stimatore MLE per la varianza di SJ.
323
Soluzione. a) Se indichiamo con iJ la varianza incognita della popolazione la funzione di
verosimiglianza è data da:
L (iJ,. X1, ., Xn )-IJn
-
( .. )-( v"2'm9
i=l f x,, iJ -
1
exp -I:(x;-µ)2
2 ,9
)n
.
ln(L(iJ;x1, .,xn)) = -~[ln27r + lniJ]- ì:(x 219 µ) 2
-2..ln[L(iJ·x X )] - _!!; . .l + l. I:(x;-µ) 2 - Q{::} i}- '-'n (X;-µ) 2 - 52
8t9 , 1, ·, n - 2 t9 2 t92 - - L..i=l n - O·
Per il pdi S 0 è uno stimatore MLE di O'.
b) Ora, ricordando come è stata introdotta la distribuzione chi-quadro, è facile vedere che
nS5 _ '-'n 2 d are ch e ~,
nS5
~ - L..i=l
(X;-µ)
v,§
.
e ricon come somma d'i N2(0 , l ) , e, una Xn.
2
nS 2
Sappiamo che var,9[-f-l = var,9[x;,] = 2n.
nS5 2 2
var,9[~]
n2
= 'J'2"var,9[S0 ] {::} var,9[S0 ] = n2t9
2
= iJ.
1
Poichè S5 è uno stimatore MLE per iJ, dal pdi segue che (S5)2 = S15 è uno stimatore
2S 4
MLE per iJ2 e che - 0 è uno stimatoreMLE per iJ'.
n
Quando non esiste uno stimatore MLE

Si consideri una va X discreta finita la cui ldp è data da:
lxi 2- lxl
f(x;0) = (;)2 (1-0)-2-;x = -2,0,2 e0 E 8.
Si considerino distintamente i due casi
1
a) e= (O,2)
Vediamo se esiste lo stimatore 0 MLE di 0.

Innanzitutto mostriamo che f (x; 0) è una ldp.
0 0
f(-2;0) + f(0;0) + f(2;0) = 2 + (1-0) + 2 = 1.
1 1
0 - Ì:lx;I -[2n-Ì:lx;I]
La funzione di massima verosimiglianza è L(x1, ... , Xn; 0) = (2)2 (1-0) 2
da cui:
1 1
lnL(x1, ... ,xn;0) = 2 Ì: I Xi I (ln0 - ln2) + 2[2n - Ì: I Xi l]ln(l - 0).
.
Questa f unzione ì:=I Xi
cresce fino a 0* = --- I e poi. d ecresce per cm. 0* = ---
ì:=I X; I e' l' umco
.
n n
massimo.
Nel caso a) poiché può essere Ì: I Xi I > ~ lo stimatore 0 MLE non esiste.
n 2
Nel caso b) lo stimatore 0 MLE esiste ed è:
se 0* '.S -
0*
se 0* 2: -
12.9 Riepilogo sul concetto di stimatore
asintoticamente corretti
IStimatori I ~-----~
corretti
e onsistenti
Data una popolazione e un ccn (X 1, ... , Xn) estratto da essa, si dice statistica una
funzione g(X1, ... , Xn) che dipende dal campione ma non dipenda da alcun parametro
incognito eventualmente presente nella distribuzione della popolazione. Una statistica
usata per stimare un parametro si dice stimatore.
Le proprietà richieste a uno stimatore in ordine di importanza sono:
1) Consistenza (convergenza in probabilità al parametro);
2) Correttezza (media uguale al parametro);
3) Efficienza (tra più stimatori corretti, quello che ha varianza minima).
Il metodo dei momenti e quello di massima verosimiglianza sono due metodi per cercare
uno stimatore.
Qualità degli stimatori

Sotto opportune ipotesi, generalmente soddisfatte, nella figura ?? sono evidenziate le
relazioni tra le varie qualità degli stimatori.
Parametro da stimare 73di una popolazione con densità f (x; 73). Il ccn è ( X 1, ... , X n) e
lo stimatore T(X1, ... , Xn) = Tn,
11 STIMATORE CORRETTO 11: Uno stimatore è corretto se E,1[Tn]= 73.
Il STIMATORE ASINTOTICAMENTE CORRETTO 11:Uno stimatore Tn è asintoti-
camente corretto se: lim E,9 [Tn(X1, ... , Xn)] = 73.
n-oo
IlSTIMATORE CONSISTENTE Il: Uno stimatore Tn è consistente se:
lim P,1[ITn- 731< s] = 1 cioè se Vs> O,:ln: n ~
n-oo
n, P,9[ITn(X1, ., Xn) - 731< s] = 1 - s.
Ricordiamo che una condizione sufficiente affinchè Tn sia consistente è:
1) Tnsia asintoticamente corretto;
2) lim var,9[Tn] = O.
n-oo
IlSTIMATORE OTTHvIALE Il:Uno stimatore Q in una certa classe si dice ottimale se
VT di quella classe e '7'73MSEq(73)::; MSEr(73)
325
11 STIMATORE EFFICIENTE 11: Uno stimatore Tn è efficiente se:
1) Tn è corretto;
1
2) var,9[Tn] = [
n · E,9 ( ;t9log(f(X; 2]·
19)))
Il STIMATORE PIU' EFFICIENTE Il:
Dati due stimatori Q e T di 19appartenenti a
una certa classe, Q è più efficiente di T se:
(©)MSEQ(19) = E,9 [(Q-19) 2 ] ::; E,9 [(T-19) 2] = MSEr(19)
Se Te Q sono corretti, la(©) diventa: var,9[Q]::; var,9[T].

Esercizio 12 .10.1 Uno stimatore corretto è necessariamente
V~VI F:FI efficiente ciaé raggiunge confine inferiar, di dWUguaglianw di Raa Cramer
consistente
asintoticamente corretto
Esercizio 12 .10.2 Uno stimatore consistente è necessariamente
V~Vl:F corretto
con varianza che tende a O per n --+ +oo
Esercizio 12.10.3 Sia X una popolazione con densità f x (x; 19). Sotto ampie ipotesi
uno stimatore MLE Jn di 19 è:
[!J [TI tale che E[Jn] = 19
[!] [TI tale che x-+oo
lim E[Jn] = 19
[!] [TI sempre migliore di ogni stimatore ottenuto con il metodo dei momenti
[!] [TI tale che lim P(IJn -191 > s) = O
n-+oo
[!] [TI dotato della proprietà: g(Jn) è uno stimatore MLE per g(19)
Esercizio 12.10.4 Siano X; osservazioni da una popolazione normale X di media µ e
varianza a 2 incognite e S,; = n~l I:;(X;-Xn)2,S5 =¾I: ;(X;-µ) 2 . Apporre i corretti
52
Q = (n - I)-% è una quantità pivotale
2 a
(n - l )2sn "'Xn-2 l
2 a
117111?1 So ( o-2 )
~~ n 2 "'N µ,,:;:
a
Esercizio 12.10.5 Uno stimatore non distorto per 19 è efficiente quando:
V~ I F: I raggiunge il confine inferiore della disuguagliama di Raa Cramer
tra tutti gli stimatori non distorti per 19ha la varianza più piccola
ha varianza più piccola di ogni altro stimatore di 19
Esercizio
V~ § 12.10.6 Se X è una
X 2 è uno stimatore
X 2 / 0' 2 è distribuita
singola osservazione da una popolazione N(O, 0' 2 )
corretto per 0' 2
come una XI
X/ O" è una quantità pi votale
Esercizio 12.10.7 Uno stimatore Tn di un parametro iJ è asintoticamente corretto se

00 lim E(Tn) = O
n---++oo
00 lim E(Tn) = iJ
n---++oo
0 0 "in E(Tn) = iJ
0 0 'vé > O lim P(I Tn - iJ I> é) = O
n-+oo
0 0 lim var(Tn) = O
n---++oo
Esercizio 12.10.8 Sia Xi una va casuale da una popolazione bernulliana di parametro

incognito p. Indicare con una crocetta gli stimatori corretti per p:
T 1 -_ 3X1 -X?+Xs
~
3
T2 = max[X1, X2]
T3 = ~X1 + ½X2
T4=yX1+X2
Esercizio 12.10.9 Sia X un ccn da una fx(x; >.)= ~~ e->-110,1, ...](x)

0 0 La statistica Xn = ¾I:~=lXi è uno_stimatore corretto della media À
0 0 La statistica S 2 = n~ 1I:~=l(Xi - Xn) 2 è uno stim. corretto della media À
ìvl ìpl { La statistica a.X":+(3S2 è uno stimatore corretto della media À
L....:..JL....:_J per ogni valore di a e (3.
Esercizio 12.10.10 Uno stimatore della varianza di una va di Bernoulli è necessaria-

mente
F corretto
consistente
asintoticamente efficiente
raggiunge il confine inferiore di Rao-Cramer
Esercizio 12.10.11 Uno stimatore MLE è sempre

F corretto
1--.w..,-,-..,
efficiente
consistente
normale
asintoticamente normale
Esercizio 12.10.12 Sia Xrvfx(x;iJ). Uno stimatore MLE Jndi iJ è:

O0 tale che E[l?n]= iJ
[}]O in generale, migliore 1v di ogni stimatore ottenuto con il metodo dei momenti
0 D tale che lim P(IJn - iJI> é) = O
n-+oo
'vé > O
IV Per migliore intendiamo uno stimatore con migliori proprietà. Da questo punto di vista la correttezza
asintotica, la consistenza, la asintoticità a una distribuzione normale, fanno preferire, in generale, un
MLE a uno stimatore ottenuto col metodo dei momenti.
327
Esercizio 12.10.13 Data una qualunque popolazione la cui distribuzione dipende da un
parametro 0 incognito, indichiamo con Q una statistica e con q una sua determinazione,
cioè la stima. Allora:
V F la statistica è una variabile aleatoria
la statistica è una quantità pivotale
una quantità pivotale è una va che non contiene il parametro incognito
la stima q è una variabile aleatoria
uno stimatore di 0 è una statistica Q
l
Esercizio 12.10.14 Data la densità di probabilità f(x,0) = 0I1o,2 01(x);0 > O, indichia-
mo con L(X, 0) la funzione di verosimiglianza, dove X= (Xi, X2, ... , Xn) è un campione
casuale di dimensione n. In questo caso lo stimatore di massima verosimiglianza della
media 0:
;1 è la media campionaria X n
Rispondere agli stessi quesiti con f(x,0)
l
si trova tra le soluzioni di 0L(X, 0) = O
non esiste perché il supporto della densità f dipende 0
è uguale a ½max[X1, ... , Xn]
= l0I1-0,01(x);0 >O
Esercizio 12.10.15 Uno stimatore corretto per 0 si dice efficiente quando:

V la sua varianza raggiunge il confine inferiore di Rao-Cramer
F la sua varianza è più piccola di quella di ogni altro stimatore corretto per 0
F la sua varianza è infinitesima come 1/n quando n--+ +oo
F la sua varianza è infinitesima quando n--+ +oo
F ha varianza più piccola di ogni altro stimatore di 0
Esercizio 12.10.16 Uno stimatore corretto di un certo parametro incognito di una data
popolazione
V F ha sempre varianza che tende a O per n ----+ +oo
V F è necessariamente consistente
V F è una variabile casuale
V F è una quantità pivotale
V F è necessariamente asintoticamente corretto
Esercizio 12.10.17 Sia X una va da una popolazione f x (x; >.) = :; e->-I{o,i, ...}(x)
dove À > O non è noto. Siano T 1 (X) = X e T2(X) = 1 due stimatori di À basati sulla
scelta di un particolare campione di dimensione 1.
~
T1 è corretto
F T 2 è corretto
F T 1 ha un errore quadratico medio inferiore a quello di T 2 per VÀ
con lo stesso campione T1 è anche lo stimatore
ITJ[TI { di massima verosimiglianza di À
con lo stesso campione T1 è anche lo stimatore
ITJ[TI { determinato col metodo dei momenti di À
Esercizio 12.10.18 Siano X; n osservazioni da una popolazione f (x, 0) di parametro
incognito 0. Dato uno stimatore Tn = T(X 1 , .• ,Xn) mettere il corretto valore di verità
alle seguenti affermazioni
OJ[TI se lim E[Tn] = O allora Tn è asintoticamente corretto
n---++oo
OJ[TI se lim E[Tn] = 0 allora Tn è asintoticamente corretto

n---++oo
può non esistere lo stimatore di massima verosimiglianza per 0

BaEE sotto le usuali larghe ipotesi se Tn è MLE allora è consistente
Esercizio 12.10.19 Data una popolazione con densità f(x; i?) essendo i? un parametro
incognito da stimare. Sia (Xi, X2, .... , Xn) un campione casuale di dimensione n da
f(x;i?). Sia Yn = Y(Xi,-,Xn) uno stimatore di i?. Dire quale o quali delle seguenti
I
affermazioni sono vere sotto ampie ipotesi: uno stimatore
F
F
F
corretto è asintoticamente corretto
corretto è efficiente
efficiente è corretto
consistente è asintoticamente corretto
incognito da stimare. Sia (Xi,X2, .... ,Xn) un ccn da f(x;i?). Sia Yn = Y(Xi,-,Xn)
uno stimatore di i?. Dire quale o quali delle seguenti implicazioni, riguardanti le proprietà
dello stimatore, sono vere sotto ampie ipotesi:
uno stimatore corretto è più efficiente di uno distorto
uno stimatore MLE è consistente (almeno in ampie ipotesi}
esistono stimatori consistenti che sono asintoticamente corretti
uno stimatore MLE può non esistere
Esercizio 12.10.21 Sia P = Xn = '2:,nXilo stimatore MLE del parametro p (p non

troppo vicino a O e 1) di una popolazione di Bernoulli X. Allora:
O] [TI P(l - P) è uno stimatore MLE della varianza della popolazione p(l - p)
O] [TI Z = ~ è approssimativamente una N(O, 1)
P-p
Z = è approssimativamente una N(O, 1)
Vf5(i;;,f5)
incognito da stimare. Sia (Xi,X2, .... ,Xn) un ccn da f(x;i?). Sia Yn = Y(Xi,-,Xn)
uno stimatore di i?. Dire quale o quali delle seguenti affermazioni, sono vere sotto ampie
ipotesi: uno stimatore
F corretto è consistente
consistente è corretto
asintoticamente corretto è consistente
efficiente allora è consistente
asintoticamente corretto e con varianza infinitesima è consistente
Esercizio 12.10.23 Usualmente lo stimatore di massima verosimiglianza di un para-
metro À di un campione casuale Xi, X2, ... Xn estratto da una popolazione di densità
f (x; ..\) si ottiene:
V~ I F: I derivanda ri,pvtta a ,\ la funrianv di vvro,imiglianw
applicando il metodo dei momenti
utilizzando la distribuzione x2
Capitolo 13
Oh Dio, potrei star chiuso in un guscio di noce
e credermi re dell'infìnito ...
ma faccio brutti sogni.
William Shakespeare (1564-1616} - Amleto
Il leone e il vitello
giaceranno insieme
ma il vitello
dormirà ben poco.
Woody Allen (1935}
Stima intervallare
Stima. intervalla.re da. una. popolazione esponenziale di para.metro 6

...
A
x~f(x;i:n = lle- 1 X I [O, +00)
(X) r(o)=l/8 P,[S1(T(ll)<S2]='Y
etatlstlche { 81 ( X 1 ' · 'X,.)

S2(X1,, ,X,.)
valori oaervall {o • s1( X1 , , , x,.)

delle etatlstlche o • s 2 ( x 1 , • , x,.)
E [X]=l/llL.(6)
f!!J.o-----~f---iD s:2
S1C>-----ID S2
S10-- ..t~----D s2
S1C i D s2
eeegulte M ouervazlonl
S10-----S-1_0 _____.
__t'='-D_S=2---------1D S2
di dimensione n, Il 1OOyl".
s 1o f D s2 degli M Intervalii corrtepondentl
s1c I o s2
s1o----a s2
contiene Il parametro T(fJ)
510 T D S2
Definizione 13.0.1 Dato un ccn (X 1, ., Xn) estratto da una densità f(x; i?) si consi-
derino le due statistiche S1 = S1(X1, .. ,,Xn) e S2 = S2(X1, ... ,Xn) tali che P[S1::;
T(i?)::; S 2] = ì,' O< ì < l; ì indipendente da i?. L'intervallo aleatorio [S1,S 2] si dice
intervallo di confidenza al lOOì % (Ic) del parametro r('I?). -y si dice livello di
330 CAPITOLO 13. STIMA INTERVALLARE
confidenza 1.
Oss. 1 [Si, S2] è un intervallo aleatorio ed è il vero Ic. Per ogni osservazione (xi,., Xn)
di dimensione n, l'intervallo non più aleatorio (s1, s2), dove s; è il valore di S;(X1, ., Xn)
sull'osservazione (x1, .,xn), viene ancora impropriamente chiamato Ic.
Si potrebbe pensare che aumentando il livello di confidenza migliori la precisione nella
stima di T(i?). In realtà accade il contrario come mostra l'aneddoto seguente:
Livello d i Ampiezza
Il sig.'I\1b i chiede a
Ri spo sta confidenza intervallo
un idrauli co : avrò il mio
delll ' idrauli co vo luto d a di
rubinett o rip a rato entro
'I\1b i confidenza
1 anno? Non ci so no dubbi. 99.99999% 1 anno
1 me se? Qua si ce rt a mente . 95 % 1 mese
1 se ttimana? È prob ab ile. 50 % 1 se ttimana
1 giorno? No n ne so no sicuro. 25% 1 giorno
1 ora? P enso di no. 0 ,1% 1 ora
Si vede perciò che se si vuole sicurezza (alto livello di confidenza) si diminuisce in

precisione (grande intervallo di confidenza).
La ragione che ci spinge a introdurre gli le dipende dal fatto che, trovato uno stimatore,
non ci aspettiamo che il suo valore calcolato sul campione sia "esattamente" uguale al
parametro cercato, ma che gli cada vicino. Il livello 'Y di confidenza ci assicura che, con
probabilità pari a 'Y, il valore vero del parametro ignoto appartiene all'lc trovato. A
volte però non interessa che T(0) stia entro i confini di un intervallo ma che, per esempio,
T(0) ~ k con probabilità assegnata. Ecco dunque la definizione seguente.
Definizione 13.0.2 Sia (X 1 , ... ,Xn)' un ccn estratto da una densità f(x;0). Si con-
sideri una statistica S 1 = S 1(X 1, ... , Xn) tale che P[S 1 ::; T(0)] = "(; O < 'Y < l; 'Y
indipendente da 0. L'intervallo aleatorio [S 1 , +oo) si dice intervallo di confidenza
con limite inferioreII (lower bound) al 1001% del parametro T(0) mentre se fosse
P[S 1 ~ T(0)] ="(;O< 'Y < l; 'Y indipendente da 0 allora l'intervallo aleatorio (-oo, S 1]
sarebbe un intervallo di confidenza con limite superiore (upper bound).
Importante: La tecnica che useremo per trovare un intervallo di confidenza è quella che
utilizza la quantità pivotale.
13.1 Intervallo di confidenza per µ di N (µ; <5

2)
(<52 nota)
Intervallo di confidenza bilatero
Sia X una va da una popolazione normale di media incognita µ e varianza nota a 2 .
Supponiamo di estrarre un ccn da tale popolazione. Cerchiamo un le al 100"( % per
1Alcuni testi usano una diversa notazione. Più precisamente parlano di intervallo di confidenza al
100(1 - a) per cento definendo e, coefficiente di significatività.
IIL'intervallo di confidenza con limite inferiore (o superiore) si definisce anche intervallo unilaterale
destro ( o unilaterale sinistro).
331
µ utilizzando come stimatore la media campionaria X n · L'intervallo cercato sarà del
tipo [Xn - ò, X n + ò]. Ciò significa che IX n - µI < ò. Sappiamo che se la popolazione
è normale , X n ha distribuzione normale. Quindi la quantità pi votale: Z = ': ;":;'*
è una
N(0, 1). Allora [Xn - ò, Xn + ò] è un le perµ se e solo se a, [°:;rn- °:;rn

+ a] è un
"intervallo di confidenza" per O. Fissato il livello di confidenza ì è facile calcolare a.
Infatti: P[l°:;rnl::;
a]= P[Xn - aa/yn::;µ::; Xn + aa/yn] = 2(a)- l = ì da cui
(a)= 1 t e a= -1(1t (cioè 1' 1t quantile della N(0; 1).
1 1) 1 -
Xn-ù µ Xn+o Xn-µ

--,--'----a
o µ~+ a
_X_n_-
__
a I .Jn al.Jn
Figura 13-1 :
Possiamo allora affermare che il lO0ì % degli intervalli
X -~-1(l+ì)<µ<X +~-1(l+ì) (13.1)

n vn 2 - - n vn 2
contengono il parametroµ cercato. Oppure che c'è una probabilità pari a ì o che siamo
confidenti al l00ì% che la media µ appartenga all'intervallo
[X nvn
_ ~-1( 1 + ì)· X + ~-1( 1 + ì)]
2 ,nvn 2.
Gli estremi dell'intervallo 13.1 prendono i seguenti nomi:
X - ~- 1(!.±1.) limite di confidenza inferiore

n fo 2
X + ~- 1 ( 1+1 ) limite di confidenza superiore
n fo 2
Oss: Un modo suggestivo di scrivere l'intervallo 13.1 è il seguente:
(13.2)
il che ci fa intuire, la filosofia "utilizzata" per trovare l'intervallo di confidenza della media
di una popolazione normale (ma anche, più avanti della media di una popolazione non
normale e della varianza di una popolazione normale). Questa filosofia è strettamente
legata al concetto di stima. Se stiamo stimando un parametro cercheremo di trovare un
intorno "piccolo" del parametro stesso,diciamo (µ - ò, µ + ò), dove lo stimatore abbia
una elevata probabilità (diciamo ì) di finire. La dimensione dell'intorno è conseguenza
del valore della confidenza 'Y· È evidente che far finire lo stimatore vicino aµ equivale a
far finire la standardizzata dello stimatore : / ~ "vicino" a O.

Attenzione: in altri testi per indicare i quantili della N(O; 1) si usa il simbolo Za con
a tale che a = P[N(O; 1) ~ Za] (cioè alla destra di Za c'è una massa pari ad a). Gli
intervalli si scrivono con il livello di significatività a = l - 'Y invece che con la confidenza
'Y· Si vede facilmente che Za = -1 ('Y)e anche Za /2 = -1 ( 1 ; 'Y). Con questa notazione
l'intervallo in 13.1 diventa:
Non useremo mai questa notazione.
Intervallo di confidenza con limite inferiore o superiore
A volte non interessa una stima intervallare del parametro con due limiti, superiore e
inferiore. Può essere che uno solo basti. Se per esempio ci preoccupa il fatto che µ (che
non conosciamo) sia troppo bassa vorremo essere confidenti al 100"(% che µ appartenga
a un intervallo illimitato a destra ma inferiormente limitato a sinistra (cioè che sia
più grande del limite sinistro con probabilità "f). Per trovare un intervallo siffatto
partiamo da Xn - ò::; µ, (ò > O)o, equivalentemente, da:/~ ::; a, a> O. Allora:
X-µ
P[ O'/fo::;a]= 'Y::::}a= -1 ('Y).
Xn - 8 µ
Da questa si ricava la formula per l'intervallo di confidenza con limite inferiore (o

unilaterale destro, figura qui sopra):
Con un ragionamento analogo si ottiene l'intervallo di confidenza con limite supe-

riore (o unilaterale sinistro):
(13.3)
333
Esempio 13.1.1 Una centrale del latte deve decidere da chi acquistare i contenitori
di cartone per vendere il prodotto. Uno dei parametri di decisione è la robustezza dei
contenitori. La resistenza alla pressione delle pareti è perciò un parametro importante. Si
sa che è ragionevole considerare tale resistenza ben rappresentata da una va X (espressa
in kg/cm 2 ) normalmente distribuita di media incognita µ e devianza a = 3 (kg/cm 2 ).
Per stimare µ un tecnico del controllo qualità della centrale sceglie un cc25 e trova che
Xn = 31 (kg/cm 2 ), valore della media campionaria sull'osservazione fatta. Si cerca un
intervallo di confidenza al g5% perµ.
Soluzione. Sappiamo che Xn - ~- 1 ('1'!
1)::; µ::; Xn + ~- 1 (1'!
1). Quindi:
3 3
x nv25
_ ---1(0.95±1)
2
<µ <x +
--nv25 ---1(0.95+1)::::}
2
1.96 1.96
::::}31 - 3 · - 5 <- µ <
- 31 + 3 · - 5 ::::}29.824 -< µ <
- 32.176 (.)
a
L 'accuratezza dell'intervallo (.) è fa -1( ~). Quindi possiamo essere confidenti al
95% che l'errore massimo Err = max[lxn - µI] che si commette assumendo Xn come
valore diµ è al più uguale a ~- 1('1'!
1) = 1.176 (kg/cm 2 ).
a. q,-1 ( ì'+1)) 2
Ponendo n = ( Err 2 si vede immediatamente che volendo un errore massimo
Err pari a 0.5 (kg/cm 2 ) dobbiamo scegliere un campione di dimensione n = ( (1.i.~

3) 2 =
138.29 '.:::'.
139.
Potrebbe essere più ragionevole preoccuparsi che la media µ non sia inferiore a un certo
valore con probabilità 'Y· Allora, invece di un intervallo bilatero bisognerebbe cercare un
intervallo con limite inferiore. Poiché la forma di questo tipo di intervallo è data da
sempre con 'Y = 0.95 avremmo a= -1(.95) '.:::'.

1.645. Nel nostro caso si ha:
Xn - 1.645 · 3/5::; µ (con limite inferiore)
31 - 1.645 · 3/5 ::; µ {limite inferiore)
13.2 Intervallo di confidenza per µ di N (µ; <52 )

( <52 ignota)
Sia X ,....,N (µ, a 2 ) dove µ e a non sono noti. Funziona tutto come nel caso precedente ma,
questa volta, la quantità pivotale è t = ~/;: è una t-Student con n - l df. Estratto
un ccn da N(µ, a 2 ) sappiamo che la quantità pivotale, cioè
dove indichiamo con tn- 1(ì) il 'Y- quantile di t-Student cioè quel numero tale che alla
sua sinistra sotto la curva t con (n - 1) df è cumulata una massa pari ad 'Y·
Dalla 13.4 si ha con facili conti che P[X - tn-1(1!1') fa::;µ::; X+ tn-1(1!1')7n] = 'Y·
Si conclude che
- l+'Y
Xn - tn-1(- 2 -\lri::;
s µ::; Xn
- + tn-1(- l+'Y-\tn
s (13.5)
2
rappresenta un le al 1001% per il parametroµ di una N(µ, 0' 2 ) con µ e O' ignoti.
Figura 13-2:
Attenzione: in altri testi per indicare i quantili tn- l ( ·) della t-student con n - l
df si usa il simbolo ta,n-l con a tale che a = P[tn-l ~ ta,n-1] (cioè alla destra di
ta ,n- l c'è una massa pari ad a). Gli intervalli si scrivono con il livello di significatività
a= 1- 'Yinvece che con la confidenza 'Y· Si vede facilmente che ta ,n-l = tn-l (ì) e anche
ta/2,n-l = tn- l ( 1 ; 'Y). Con questa notazione l'intervallo in 13.5 diventa:
- O' - O'
X n - ynta;2,n-1 ::; µ ::; X n + ynta;2, n - l
Intervallo di confidenza con limite inferiore o superiore
Partendo da P[t ::; a] = P[;;fo ::; a] = 'Y, con a= tn-1("1) si ricava un intervallo con
limite inferiore mentre se si parte da P[t ~ a] = P[;;fo ~a]="( con a= tn-l (1- 'Y) =
-tn-l (ì) si ricava un intervallo con limite superiore cioè:
X - tn-1(ì)S/yn::; µ (limite inferiore) µ::;X+ tn-1(ì)S/yn (limite superiore)

(13.6)
per la media µ di una popolazione normale.
Esempio 13.2.1 Tra i compiti dell'EPA (Environmental Protection Agency), ente ame-
ricano per il controllo dell'ambiente, c'è quello di controllare la presenza di sostanze tossi-
che nelle acque di laghi e fiumi degli Stati Uniti. Una delle più comuni misure di tossicità
per ogni inquinante è rappresentato da quella concentrazione dell'inquinante stesso che
uccide la metà degli individui della specie test presente nel liquido in un tempo prefissato
(normalmente 96 ore). Questa misura è contrassegnata col simbolo LCSO {lethal concen-
tration killing 50%). Utilizzando una certa specie di pesci come specie test e il DDT come
335
inquinante in 12 diversi rilevamenti sono stati osservati i seguenti valori di LC50 (in par-
ti per milione): 16, 5, 21, 19, 10, 5, 8, 2, 7, 2, 4, 9. Si vuole stimare, con una con,fidenza di
livello 'Y = 0.9, il valor medio di LC50 per il DDT supponendo che la distribuzione dei
valori LC50 sia normale.
lettum n. Xi (x i - Xn? lettum n . X; (x; - x,i)~

1 16 49 7 8 1
2 5 16 8 2 49
3 21 144 9 7 4
4 19 100 10 2 49
5 10 1 11 4 25
6 5 16 12 9 o
x 12 = 9; s 2 = 41.2727; s = 6.4244; 1 t 1 = 0.95; t 11(0.95) = 1.796. Con questi dati, da

s s 6.4244
13.5 si ha: x12 - t 11(0.95) ;-;-;:;-< µ < x12 + t 11(0.95) ;;-;:;i 9 - 1.796 ;-;-;:;- ::; µ ::;
V 12 - V 12 V 12
6.4244
9 + 1.796 yl2 ; 5.6692 ::; µ ::; 12.331.
Se fossimo stati solo preoccupati di non stimare la media con un valore troppo basso
avremmo cercato un intervallo unilatemle con limite inferiore e da p [:>rn
::; tn-l ('Y)]=
'Y avremmo avuto P [µ~ Xn - }r,tn-1b)]

Om tn-1b) = t11(0.9) = 1.363, cioè:\;~ 4 = 1.8546.
P [µ~ Xn - \;~ 4 t 11(0.9)] = 'Y, ossiaµ E [9- 1.8546 · 1.363, +oo) = [6.4722, +oo) con
confidenza del 90%.
Esempio 13.2.2 Il segnale tmsmesso da un tmsmettitore è disturbato da voltaggi di

rumore dovuti all'agitazione termica degli elettroni. Sia v il voltaggio in ingresso. Sup-
poniamo che il voltaggio X in uscita sia una va X= v + Y, dove Y rv N(O;0.1) rappre-
senta il disturbo aleatorio che deteriora il segnale trasmesso. Ovviamente X rv N(v, 0.1),
ax = 0.32. Per permettere a chi riceve il segnale X di stimare con maggiore precisione
il voltaggio v tale segnale viene lanciato 10 volte. I valori ricevuti sono: 3.08; 2.19; 3.23;
2.79; 2.11; 3.64; 2.86; 3.14; 3.75; 2.59.
Partendo dalla standardizzata dello stimatore diµ, Z = ~;/fa' costruiamo un inter-
vallo di confidenza per µ al 95%. Poichè Xn = 2.94, supponendo che i valori ricevuti
siano indipendenti ( come è ragionevole), l'intervallo di confidenza è:
[2.94 - 1.96 0.32 0.32]

vTii'2.94 + 1.96 vI5 = [ ]
2.7417, 3.1383.
Siamo perciò sicuri al 95% che il valore trasmesso stia tra 2.7417 e 3.1383.
Se la varianza a 2 non fosse nota, la quantità pivotale sarebbe stata t = ~77n'
e avremmo
avuto:
Si può calcolare facilmente che

'-"' _ )2 '-"' 2 _ )2
s2 = L..(x; - Xn = L.. X; - lO(xn = 0.3::::} s = 0.5477.
9 9
Dalla tabella della t con n = 10, df = 9 e , = 0.95 si ha tn-l (1!") = tg(0.975) = 2.262.
L'intervallo perµ è: [2.94 - 2.262°ffo 7 , 2.94 + 2.262°ffo 7 ] = [2.5482, 3.3318].
Questo intervallo è leggermente più ampio dell'intervallo trovato precedentemente quando
abbiamo usato Z invece di t. Ciò è dovuto a due ragioni: la prima che la S 2 campionaria
è 0.3, più grande della varianza a 2 = 0.1 data per nota nell'ipotesi precedente. Il secondo
motivo è che la t ha una varianza maggiore della gaussiana N(O, 1) e questo fatto è
una seconda ragione di aumento della dispersione intorno a zero e, di conseguenza, di
ampiezza dell'intervallo di con,fidenza.
13.3 Intervallo di confidenza per <52 di N(µ; <52 )
(µ ignota)
Supponiamo che X rv N(µ, a 2) conµ e a 2 ignote. Consideriamo un ccn (X1, ., Xn)' e sia
S 2 1a varianza
. . . . t o ch e Xn-
Abb. rnmo vis (n -a l)S 2 '
camp10nana. 2
l = 2 e una ch.1-qua d ro con
(n - 1) df. Quindi la sua distribuzione non dipende da parametri incogniti per cui la va
(n -
a
;)S 2
è una quantità pivotale. Indichiamo con x;_ (a) 1 = l'a - quantile F-}
Xn-1
(a)
di x;_
1 , cioè l'ascissa tale che alla sua sinistra sotto la curva x;_ è concentrata
1 una
massa pari ad a.
P[ 2 (1-,,) < (n-l)S 2 < 2 (1+")] - 2 1
Xn- l 2 - ------;:;:r- - Xn- l 2 - 'Y
9 P[ 1 > 2 ->-~-]-
2 ( 1- ')') -
(Y
(n-l)S 2 (1+1') -
Xn-1 2 Xn-1 2
'Y?
(n - l)S 2 2 (n - l)S 2
9 P[ 2 ( .!=.:r)?: a ?: 2 ( 1±:r) = 'Y-
Xn-1 2 Xn-l 2
Concludiamo che
(n - l)S 2 2 (n - l)S 2
(13.7)
2 ( .!.±J:
) <5:a <5: 2 ( .!=.J:
)
Xn-l 2 Xn-l 2
è un intervallo di confidenza al 100, per cento per a 2 (caso a) della figura 13-3.
b)
1 -y y
.1.::.L+ r = .1....±:i..
x\.1~ 2+ )
x',..1(1 -rJ
2 2
Figura 13-3:
Attenzione: in altri testi per scrivere i quantili della x;_ invece del
1 simbolo x;_1(-)
che usiamo qui, si usa il simbolo ,n- i dove a = x; P[x;_?: x; 1 ,n- 1 ] ( cioè x;, n- l
337
rappresenta l'ascissa del punto alla cui destra c'è una massa pari ad a). Per gli intervalli
si fa riferimento al livello di significatività a = 1 - 1 invece che a quello di confidenza 1 .
Si vede facilmente che x;,n- x;_
l = 1 ( ì) e anche 12 l = x; ,n- x;_
1 1 ). Con questa
1( ;
notazione l'intervallo in 13.7 diventa:
-'-( ::; a2 ::; (n - l)S 2

n~2_-_1..;,.)_s_2
2
Xa:j2,n-l X1-a,/2,n-1
Importante: se la media è nota lo stimatore e la quantità pivotale da usare sono:
l n
S5= - L(X; - µ) 2 ;
n i=I
Intervallo di confidenza con limite superiore
L'intervallo con limite superiore (caso b) della figura 13-3) si ottiene da P[(n -
a
;)S>
2
x;_ 1 (1- 1 )] = 1 . Trattandosi di stimare la varianza (che importa sia piccola con una certa
confidenza), in genere non interessa l'intervallo con il limite inferiore, che si ricaverebbe
(n - l)S 2
da P[
a2 ::; x;_ •
1 (ì)] = 1 , ma 11seguente
2 (n - l)S 2
a < 2 intervallo con limite di confidenza superiore (13.8)
- Xn-1(1 - ì)
che garantisce al 1001 % che la varianza non supera il limite superiore.
Esempio 13.3.1 Un ricercatore deve calcolare la variabilità di uno strumento costruito

per misurare il volume di una sorgente sonora. A tale scopo esegue tre misure (indipen-
denti) dello stesso suono e rileva i valori 4.1, 5.2, 10.2. Volendo una stima della variabi-
lità a 2 con una con,fidenza del 90% si ipotizza una distribuzione normale di media ignota
dei valori rilevati. Sotto questa ipotesi e considerando che il valore osservato di S 2 è
l+ì 1-ì
82 = 10.57, n = 3, - 2 - = 0.95, - 2 -
= 0.05, X§(0.95) = 5.99, X§(0.05) = 0.103. Dalla
282 2 282 2 · 10.57 2 2 · 10.57 2
13. 7 si ha X§(0.95 ) :=;a ::; X§(0.0 5); 5 _99 :=;a ::; 0 _103 ; 3.5292::;a ::; 205.24. Un
intervallo molto ampiom data la piccola dimensione del campione.
Esempio 13.3.2 Nel lavoro di laboratorio è importante tenere sotto controllo la varia-
bilità delle letture delle quantità in esame rilevate dai singoli campioni. Supponiamo
allora che nello studio della quantità di calcio presente in un certo tipo di acqua mine-
rale sotto esame vengano effettuati 6 rilevamenti (indipendenti}. In parti per milione
questi rilevamenti hanno dato i seguenti valori. 9.54, 9.61, 9.32, 9.48, 9.70, 9.26. Allora,
'
volendo un le per a 2 al 90% si ha: x 6 = 9.485,
- 82
l+ì
= 0.02855, n = 6, - 2- = 0.95,
1- ì 58 2 58 2
- 2- = 0.05, xi(o.95) = 11.1, xi(o.05) = 1.15 da cui ~---<a 2 < ~---·
xi(o.95)- - xi(o.o5)'
5 · 0.02855 5 · 0.02855
ll.l :=;a2 ::; 1.15 ; 0.01286:=;a2 ::; 0.12413.
mn termine ampio può interpretarsi come il fatto che l'ascissa destra dell'intervallo è superiore a 5 -10
volte l'ascissa sinistra. Nell'esempio precedente l'ascissa destra è addirittura 58 volte l'ascissa sinistra.
13.4 Osservazioni importanti
Sulle notazioni
Per evitare confusioni con le notazioni di altri testi si ricordi che:
N(O; 1) tn
ì - quantile - (ì) tn(ì)
1---~"'-11--~~---r'c'-n-'-----i
peso a sinistra dix (x)
~-~~~~~~~~~~
t;;:1 (x)
X .< X
Figura 13-4:
Sull'unicità dell'intervallo di confidenza

Si osservi il grafico (fig. 13-5) che si riferisce alla ricerca di un intervallo di confidenza
bilatero con l'utilizzo della t e della x2 :
Come si vede non c'è univocità di scelta: se le aree [!J sono uguali alle@ entrambi
gli intervalli (ti, t2) e (a, b) nel caso della t-Student e (x;,_
11 , x;,_1 2) e (a, b) nel caso
della x2 individuano lo stesso peso di probabilità Ì· Senza più sott~lineare la cosa noi
sceglieremo gli intervalli che hanno per estremi i ì-quantili
- tn-Ji(-y) I'[(n+l)/2] (13.9)

Ì - y'7rnI'(n/2) [(t2 /n)+i] (n+l)/2 dt
-oo
Per la Z e la t tali quantili rendono mediamente minima l'ampiezza degli intervalli

corrispondenti. Per la x2 è semplicemente la più comoda (su MGB la scelta ottimale in
questo caso).
339
r-
,,, {~1--vl 1 (.1..:!:.l:.I- 1 2

,. n-1'· 2 '.I - "- n-1,1 X n-1 2 '.I - X n-1,Z
x'n . 1, 1
Figura 13-5:
13.5 Intervallo di confidenza asintotico

per il parametro 0 di una popolazione
L'idea che sta sotto agli intervalli di confidenza asintotici è la seguente. Sia X una
va su una popolazione secondo la densità .f (·, 0) dove 0 è incognito, e siano Tn =
Tn(X1, X2, ... , Xn) e Vn = Vn(X1, X2, ... , Xn) due successioni di stimatori tali che Tn - 0
Vn
si comporti asintoticamente come una N(O, 1). Allora un intervallo di confidenza asinto-
tico (o approssimato) di livello I per 0 è il seguente:
r,n --l(l+ì)V, n <0<T,

_ _ n +-l(l+ì)V,. n (13.10)
2 2
Un caso particolare della 13.10 è quello in cui Tn è asintoticamente normale di media 0.
Se si indica con lT;,(0) la sua varianza (lT;,(0) dipende da n e può dipendere anche da 0)
T, - 0
allora lTnn
(0 ) è asintoticamente una N (O, 1) (cioè è "asintoticamente" pi votale) e da
-- 1 ( 1 +1)< Tn-0 <-i(ì+l) (l 3 .ll)

2 - lTn(0) - 2
si può ricavare un intervallo di confidenza asintotico se la 13.11 si può risolvere rispetto
a 0.
Vale la pena di ricordare che quando Tn è uno stimatore MLE di 0 non solo ci si trova in
un caso particolare della situazione precedente (vedi capitolo 12, proprietà degli stimatori
MLE) ma si può ricavare un intervallo di confidenza asintotico anche da
-- i ( ì + 1) < Tn - 0 < _

1 ( ì + 1)
(13.12)
2 - Cln(0) - 2
a patto che à'~(0) sia uno stimatore MLE della varianza lT;(0) di Tn,
Un altro caso particolare di 13.11 è rappresentato dal risultato del TCL: se Xn è la
media campionaria di una popolazione di media µ e varianza lT 2 allora
--1(-Y+l)< Xn-µ <-1(-Y+l) (13.13)

2 - (Tifo - 2
se (T è nota, ci permette di ricavare un intervallo di confidenza asintotico di livello 'Yper
µ.
Infine, per il teorema di Slutsky enunciato nel capitolo 12, se X n e S~ sono rispetti-
vamente media e varianza campionaria di una popolazione di media µ e varianza lT 2
allora
(13.14)
ci fornisce un intervallo di confidenza asintotico di livello 'Y per µ.

Oss.: Nella 13.14 se n::; 120 è sempre più prudente prendere il quantile tn-l ( .!.:p)invece
di cp-1(')'!1).
Va comunque anticipato che, nei casi che tratteremo, Tn sarà quasi sempre X n, la media
campionaria, utilizzata come stimatore della media 0 incognita di popolazioni X dei tipi
di quelle presentate nei capitoli 6 e 7. In questi casi la varianza della popolazione è
una funzione della media, tranne che per la normale, come è evidenziato nella tabella
seguente, scritta pensando alle distribuzioni espresse nella loro forma canonica:
distr ibuzione media vananza

bernoulli 0 0(1 - 0)
binomia le n0 n0(l - 0)
Poisson 0 0
geometrica l/0 (1 - 0)/ 02
uniforme continua in O,0 0/2 0 2 / 12
esponenziale l/0 1/ 0 2
gamma r/0 r/0 2
normale µ (T2
Vediamo alcuni esempi.
Bernoulli
1 p=P[X=l]
SiaXrvB(l,p);X= { O l-p=P[X=O] e sia X = (Xi, .. , Xn) un ccn da
- ~X;
B(l,p). p = Xn = -- rappresenta uno stimatore della media della popolazione di
n
Bernoulli X.
Vediamo la cosa in un modo leggermente diverso. Supponiamo di considerare un insieme
(col linguaggio della statistica descrittiva chiameremmo questo insieme "popolazione")
di oggetti o individui, ciascuno dei quali può avere oppure non avere una certa qualità
(favorevoli o contrari, maschi o femmine, buoni o difettosi, bianchi o neri, etc.). Interpre-
tiamo, al solito, X come una va che codifica, in un generico individuo estratto a caso da
questa "popolazione", la presenza della qualità, prendendo il valore 1, o la sua assenza,
prendendo il valore O. Volendo stimare la proporzione p della popolazione che possiede
la qualità in esame si deve stimare la media p della va di Bernoulli X.
341
Dal TCL sappiamo che la distribuzione di p è approssimativamente normale di media
.
superiori
p(l - p)
p e vananza --'----'-.
L' . . ' b
w
appross1maz10ne e uona se contemporaneamente
n
a 5. In questo caso Z =
p(l-p)
n
np e nq sono
è approssimativamente
costruire un intervallo di confidenza al 1001 per cento per p procediamo

una N(O, 1). Per
come al solito:
P [
l
w-::;A-
p(l-p)
n
+l
a ~ P[IZI::; a]= 1 = 2(a)- 1::::}a= -1(-1 -)
2
(13.15)
(-1(,,!1) lo si ricava dalla tabella in appendice 2). Procedendo nei conti si arriva a:
(13.16)
Purtroppo gli estremi dell'intervallo nella 13.16 dipendono dal parametro incognito p.
Ci sono tre possibilità:
~(1-p)
7--..;:
p=l/2
1) Nella relazione p- -1( 14l)Vp(l~p) ::; p ::; p + -1( 14l)Vp(l~p), compare p(l - p ),
.
una para blo a ch e raggmnge 1·1suo massimo
. m. p = -1 , qum·d·vp(l-p)
::; 1;;;; · p ur
1
2 n 2vn
non conoscendo p, e scendendo in precisione, possiamo ottenere il seguente intervallo, al
1001 % per p:
A--1(1+1)_1_< < A+-1(1+1)_1_

p 2 2,/n - p - p 2 2,/n
2) Si consideri che per una Bernoulli risulta = n~l S; I:~=l(X;-Xn) 2= n~l I:~=l(X;-
2X;p + p2) o= n~l (np- np2) = n':':1fi(l- p).
X;:=X;
Allora per 13.14 un intervallo di confidenza è:
3) Infine poiché p è uno stimatore MLE di p, per il pdi Vp(l: p) è uno stimatore
MLE di vp(l: p). Da 13.12 si arriva a:
p [p- -le; l)vp(l: p)::; p::; p + -1(/; l)vp(l: p) l~ ì
da cui si ottiene un intervallo di confidenza approssimato (o asintotico):

A_ -1(/ + l)vf>(l - f>)< < A+-1(/ + l)vf>(l - f>) (13.17)

p 2 n _p_p 2 n
Oss.: Come si vede l'intervallo 13.17 per n grande è sostanzialmente uguale a quello
trovato nel caso 2).
Oss.: Con conti analoghi si ottiene un intervallo di confidenza (approssimato o asintotico)
unilaterale al 100 1 per cento per p:
(limite inferiore) f>- -1(ì)Vf3(1;;,f3) ::; p

(13.18)
(limite superiore) p ::; f>+ -1(ì)V f3(1;;,f3)
Infatti detto per esempio U l'estremo dell'intervallo di confidenza sinistro si ha:
ì = P[p::; U] = P[w::;
f>-U
p(l-p)
n
p-p
w]::::}
p(l-p)
n
wp-U
p(l-p)
n
= -1(1- 1 ) = --1(ì) da cui
Detto invece L il destro si ha
1 =P[L:=;p]=P[~?:. f>-p ]::::} f>-L =- 1(ì)dacui

p(l;;,p) Jp(l;;,p) Jp(l;;,p)
Esempio 13.5.1 Dal 1870 al 1900 sono nati in Svizzera 1359671 maschi e 1285086
femmine, per un totale di 2644757 bambini. Cosa si può dire della probabilità p di
nascita di un bimbo maschio?
Soluzione. p = X n = 135~671 = m~~;~ = 0.5141. Poichè n = 2644757 è molto grande, si
può approssimare con la normale. Se 1 = 0.95, -1( ~) = -1(0.975) = 1.96; troviamo
un intervallo di con,fidenza del parametro p al 95%.
Poiché -1(1.±.!)Vf3(l-f3) = 1. 960·6971~ O 0008 si ha·
2 n v'2644757- · ' ·
(t>=r=-1crt1)Jp(l;;,p)) = o.5141 ± 0.0008 = { ~:~~!~
Allora, con probabilità 1 = 0.95, possiamo avere .fiducia che la probabilità di nascita di
un maschio sia compresa tra 0.5133 e 0.5149.
Esempio 13.5.2 Supponiamo che il WWF sia interessato a conoscere la percentuale

degli italiani favorevoli all'ipotesi che almeno il 10% del territorio nazionale venga pro-
tetto. Si vuole conoscere questa percentuale con un errore che non supera 5 millesimi. Se
indichiamo con p questa percentuale, allora ogni italiano si comporta come una va di Ber-
noulli {indicatore); in,fatti, scelto un italiano a caso, se pensiamo l = {sono favorevole}
e O= {sono contrario}, si ha che: P["sono favorevole"]= P[X = l] = p.
È chiaro che si potrebbe conoscere esattamente p solo intervistando tutti gli italiani,
operazione praticamente impossibile. Scegliamo un ccn X 1 , .,Xn e sia, al solito, Xn =
n
I: ~ la media campionaria. Come nell' esempio precedente X n rappresenta anche la
i=l
343
frequenza (la percentuale) di coloro che sono favorevoli all'ipotesi rispetto al totale degli
intervistati.
Si vuole che s = IXn - PI::;
0.005, cioè Xn - 0.005::; p::; Xn + 0.005, una valutazione
di p con un errore al più di 5 millesimi. Per ottenerla, come vedremo, occorre agire sulla
dimensione del campione.
Oss.: La terminologia corretta è: "occorre agire sulla dimensione del campione in modo
che l'intervallo cada sopra p" e non "in modo che p cada dentro l'intervallo" (perchè p è
fisso, l'intervallo è aleatorio).
Limitandoci a un campione vogliamo che: P[IX n - PI ::; 0.005] ~ 0.95 il che equivale a
(scriviamo CJinvece di jp(l - p)):
P [IXnCJ/fo,
p- I< 0.005 fo]
= P [-0.005 fo <XnCJ/fo,
- 0.95.
- 17 17 - - 17 -
Mentre la distribuzione della va X n - p dipende da parametri ignoti la va : /:;:,, per

il TCL, è asintoticamente una N(O, l), quindi è asintoticamente una quantità pivotale.
p [I:1:;:,I::;0.005 ';; J ~ 0.95 = ì {::} 0.005 ';; ~ - ci'Y)= - (0.975) =
1 1 1.96
cioè fa~ CJ· 200 · 1.96 (vedere figura) e notare che: 0.005 = 2 0i J.
y = 0.95 y
0.005 fi =- 1;rJ=©-

1( 1 (0.975)
Essendo CJlo scarto quadratico medio di una va di Bernoulli, abbiamo già visto che
CJ2= p(l - p)::; ¼-Anche se non conosciamo CJ,possiamo affermare che:
vn~ 21 · 200 · 1.96 ~ CJ· 200 · 1.96 ===;, n ~ (1.96) 2 · 100 2 = 38416.
Bastano perciò 38416 persone a darci un'informazione "quasi certa" (95% di probabilità}
su una popolazione di 56 milioni. È sorprendente ( e ovvio al tempo stesso per come è stato
ottenuto n} a questo punto che n rimane uguale a 38416 anche se il test avvenisse sulla
popolazione degli Stati Uniti, che ha 250 milioni di abitanti, o della Cina, che ne ha più
di un miliardo. Bisogna però osservare che l'unico vero problema è la scelta del campione.
Questa scelta deve essere fatta in modo che le X; siano "veramente" indipendenti affinchè
il campione sia "veramente rappresentativo" dell'intera popolazione.
Esempio 13.5.3 È facile rispondere alla seguente domanda. Se un partito politico vuole
sapere .fin dai primi minuti successivi alla chiusura dei seggi la percentuale dei voti che gli
spetterebbero con una probabilità del 95%, sapendo che la media delle schede scrutinate
in mezz'ora è di 125 schede a seggio, da quanti seggi elettorali (opportunamente scelti nel
territorio nazionale} deve prelevare i dati relativi a questa prima mezz'ora di scrutini?
Risposta:
38416
""""i25~ 308 seggi.
Senza utilizzare le proprietà degli stimatori MLE, risolvendo algebricamente la 13.16 si

può ottenere un altro intervallo di confidenza. Per i conti vedere la 13.23.
Binomiale di parametri 50 e p cioè B(50, p)

Una binomiale di parametri n e p può essere vista come somma di n Bernoulli. Quindi
da un punto di vista teorico stimare il parametro p di tale binomiale equivale a stimare il
parametro p della Bernoulli sottostante. Concretamente però se abbiamo una popolazio-
ne binomiale non disponiamo, ai fini del campionamento, di tale Bernoulli. L'intervallo
di confidenza, in questo caso, va scritto con la media campionaria della binomiale. Sup-
poniamo per esempio di avere una B(50,p) e di estrarre un campione di dimensione
m.
Xm approssima E[B(50,p)] = 50p; quindi ~; approssima p.
Quindi 50~; (1- ~;) approssima var[B(50,p)] = 50p(l - p).

Segue che, asintoticamente,
Xm - E[B(50,p)] I Xm - E[B(50,p)]
::; -1 ( 1 t"Y) con probabilità I e anche:
I Jvar[B(50,p)]/m -
{50~(1-~)}/m
Km._ E[B(50,p)]
50 50 ::; cp-1 et')')
~ {50~(1- ~)} /m
L'intervallo bilatero di confidenza (asintotico) di livello I di p è
Kw.(1 - Km.) X 1+ Kw.(1-Kw.)

50 50 < < + -1(--')
____!2::_ 50 50
50· m _ p _ 50 2 50-m
Si osservi che è lo stesso intervallo di confidenza che si troverebbe nel caso di una Bernoulli
di parametro p con un campionamento di taglia 50 · m.
Geometrica
Osserviamo che la va Y geometrica ha legge py(k) = pqk-l mentre la X = Y - l,
geometrica traslata ha legge Px(k) = qkp. Le leggi contengono lo stesso parametro p. La
geometrica ha media i
mentre la geometrica traslata ha media La varianza invece 1;P.
è la stessa 7. Cerchiamo allora un IC asintotico per p utilizzando la geometrica. Lo
345
1
stimatore MLE della media ¼è X n. Allora è stimatore MLE di p.Per il TCL
Xn
- I
Xn--
P è asintototocamente N(O, 1).
- )
n
(½f) 1(1 - 1) Xn(Xn - 1) All ora
Infatti var[X n] è = P P _P_ , e il suo stimatore MLE è: -----.
n n n
Xn _ <J>-Iet'l)JXn(Xn -1)::; ~::; Xn + <J>-Iet'l)JXn(Xn -1),
n p n
Da cui l'Ic asintotico di livello I cercato 1v:
Poisson
Per una va di Poisson di parametro À, si ha che X n è lo stimatore MLE di À. Inoltre:
var [Xn]= ¾>-;quindi :n è lo stimatore
L'intervallo di confidenza asintotico di livello I è allora:
MLE della varianza dello stimatore di À.
(13.19)
Anche in questo caso, come già fatto con la distribuzione di Bernoulli, si può procedere,
senza utilizzare le proprietà degli stimatori MLE, direttamente via TCL grazie al quale
~À è asintoticamente N(O, 1). Basta ora risolvere algebricamente rispetto a À la
Vn
disequazione
lxffn
->-1::;- et Poniamo per semplicità di scrittura a = -1 et
1 1 ). 1 )
ed eleviamo al quadrato entrambi i membri. Si ha: (X

-
:/n>-) ::;a
2
2 che conduce alla
disequazione di secondo grado n>-2 - >-(2nXn + a 2 ) + nX! ::; O la cui soluzione
(2nX n+a 2 )-v(2nX

2n
n+a 2 ) 2 -4n 2X 2
::; À::;
(2nXn+a 2 )+V(2nXn+a
2n
2 ) 2 -4n 2X 2
(13.20)
dà l'lc asintotico di livello I cercato.

Come osservato in Wilks, S.S. (1938). Shortest Average Confidence lntervals from Large
Samples. Annals of Mathematical Statistics 9, 166-175, l'intervallo in 13.20 è migliore di
quello in 13.19.
IV Se X è la geometrica e Y è la geometrica traslata allora vale Yn = Xn - l. Sostituendo Yn+ l a

X n nella espressione dell'lc trovato si ha:
1 1
---------;:=====~P~---------;:=====
Yn+l + q,-1(1t")V(Yn;,l)Yn Yn + 1--1(1t")V(Yn;,l)Yn
che rappresenta la forma dell'lc scritto per la Y.
Esponenziale
Per una va esponenziale di parametro À la media ½è stimata dalla media campionaria V
- I
- - 1 - 1 Xn-x
Xn, Ora E[Xn] = - e var[Xn] = -- 2 . Per il TCL -- 1 - è asintoticamente normale
À nÀ foA
di media O e varianza 1. Da cui:
Da questa relazione si ricava l'intervallo di confidenza asintotico bilatero di livello I per

À.
1 (l--l-_ 1 (1+ 1 ))::;A::; 1 (l+-l-_ 1 (1+ 1 ))

Xn fo 2 Xn fo 2
Ma si può evitare di ricorrere alla asintoticità ragionando nel modo seguente.
Ricordiamo che una va X con fd data da:
À Àr
fx(x;r,À) = r(r)(,\xr-le-Àx/[0,+oo)(X) = r(r)Xr-le-ÀxI[O,+oo/X)
dove r > O, À > O si dice avere una distribuzione gamma e si indica con il simbolo
r(r,À).
Qual è la distribuzione di Y = 2-\r(n, A) con n intero?
È noto che:
l y
Y = aX ===} fy (y) = j;'j f x C;)
Allora
f
, 2AI'(n,A) (Y ) -- l f ( Y )-
2,\. I'(n,A) 2,\ -
I Àn ( Y )n-I
2A I'(n) 2A e
-lyI
2
( )_
[O,+oo)Y -
-(l)n
- 2
I
I'(n)Y n-1
e -½y
- I[o,+oo)(y )--r (n,2
·1)- -r (2n_l)_
2'2 -X2n2
Applichiamo questo risultato alla ricerca di un intervallo di confidenza bilatero di livello
1 per il parametro À di una popolazione exp(A).
Sappiamo che
e da quanto abbiamo appena visto,
Quindi
cioè:
v Poiché X n è uno stimatore MLE di µ = ½,allora uno stimatore MLE di À è -}
n
. Per l'lc usiamo
però X n perché la sua distribuzione asintotica è immediata.
347
2 (1-~) 2 (l+~)
P[X2n -2- < À < X2n -2- ] =
2I:Xi - - 2I:Xi 'Y
e l'IC di confidenza bilatero di livello 'Yrisulta:
2 (1-~) 2 (l+~)
X2n -2- < À < X2n -2-
(13.21)
2 I: Xi - - 2I:Xi
Rispetto all'IC di confidenza asintotico presentato nel mio testo
1 (1- _l_-1( 1 + 'Y)) ::; À::; 1 (1 + _l_-1( 1 + 'Y))

Xn fa 2 Xn fa 2
l'intervallo in (13.21) non è asintotico, quindi garantisce una migliore precisione. Si os-
servi che, tecnicamente, all'intervallo in (13.21), non si arriva attraverso uno stimatore di
À, ma solo attraverso una va, 2,\ I: Xi, che coinvolge À, di cui si conosce la distribuzione.
Uniforme continua f (x; 13)= ½I[o,JJ(x)

Sappiamo dall'esempio 11.4.13 che in questo caso lo stimatore MLE di 0 è YM =
max(X1, .. , Xn), Per la ricerca di un le si procede direttamente perché si conosce la
distribuzione di YM. Infatti
FyM(x;0) = P[YM ::; x] = P[X1 ::; x I\ X2::; x I\ ... I\ Xn::; x] = IJP[Xi::; x] =
Fn(x; 0) = 0: I[o,0](x) + I[e,+oo](x).
d n-l
Da cui fyM(x;0) = dxFn(x;0) = nFn- 1 (x;0)f(x;0) = \n I[o,e](x).
y: è una quantità pivotale in quanto la sua distribuzione non dipende da 0. Infatti:

YM (0yr n
P[ 0 ::;y] = P[YM ::; 0y] = rjr>I[o,eJ(0y) + l[e,+oo](0y) = Y l[o,1J(Y) + /[1,+oo](Y) =
FYM.(y).
0
YM
Imponendo P[b::; - 0 ::; a] = 0.95 = FYM_(a) - FYM_(b) = an - bn, a patto che a e b
0 0
rimangano compresi tra O e 1.
Per un intervallo di confidenza di livello 0.95 basta che a e b siano scelti in modo che
an - bn = 0.95
O::; b ::; a ::; 1
Noi ci proponiamo di trovare a e b sotto i vincoli (-") e (-"-") in modo che d = a - b sia
mm1mo.
Dalla (-") si ha an = 0.95 + bn da cui a= {1/0.95+ bn ed= {1/0.95+ bn - b.
Si tratta allora di trovare il minimo di d sotto i vincoli d ~ O (che è sempre soddisfatta)
e {1/0.95+ bn 9, cioè b::; v1o.i)5.
Cominciamo a vedere la derivata prima d' di d: d' = ( b ) n- l - 1 < O.
{Y0.95 + bn
Perciò d ha un massimo in b = O e decresce fino al valore limite ammissibile di b = v1o.i)5.
Perciò b = v1o.i)5è il minimo che ci interessa. In corrispondenza di b = v1o.i)5è a= l.
L'intervallo ( v1o.i)5,1) è quello cercato da cui segue che l'intervallo di confidenza di livello
0.95 cercato è:
YM 1 0 l YM
b<-<a::::;--<-<-::::;-YM<0<--
- 0 - a - YM - b - - v1o.i)5
Un altro intervallo di confidenza per la proporzione p
Dalla 13.16 si può ottenere anche da questa un altro intervallo di confidenza per p nel
modo seguente. Consideriamo le disequazioni:
cioè lft-pl::; a W , che elevando a quadrato diventa

n
2
(l+~ )p2 - (2p+~ )p+p 2
n
2
::; O.
a2
a2 a4 a2
(2ft+ - ) ±
4-p +-2 - 4-p 2
L'equazione n
di 2° grado associata ha radici date da -----~-----,,----- n n n
a2
2(1 + -)
n
che ci porta all'intervallo:
2np + a2 - aJ4np - 4np 2 + a 2 2np + a 2 + aJ4np- 4np 2 + a 2

------'-------<p<------'------- (13.22)
2(n + a )
2 - - 2(n + a2)
La 13.22 si può anche scrivere:
a2 a '{ a2 a2 a '{ a2
p +- - - p(l - p) + - p +- +- p(l - p) + -
2n fa 4n < < 2n fa 4n
~ _p_ ~ (13.23)
l+- l+-
n n
Lo studente è invitato a riflettere sul fatto che, trascurando termini infinitesimi di ordine
1
superiore a fa si arriva a:
che è esattamente la stessa già ottenuta in 13.17.
13.6 Intervallo di confidenza

per la differenza VI di due medie
(popolazioni normali)
Vediamo ora un problema nuovo. Supponiamo di avere due popolazioni normali, rispet-
tivamente N(µ 1,a-i) e N(µ 2,a-~). Prendiamo un campione (X1, ... ,Xn)' dalla prima
popolazione e un campione (Y1 , ... , Ym)' dalla seconda. Sappiamo che X = I:?~, xi e
Y = L~ Yi sono due stimatori MLE di µ 1 e µ 2 rispettivamente.
VIVedere anche nella parte Aggiunte in Appendice.

349
Caso di medie non note e varianze note.
Si può mostrare che (X - Y) è un MLE per (µ 1 - µ 2 ).
Se vogliamo un intervallo di confidenza per (µ 1 -µ 2 ), abbiamo bisogno della distribuzione
di (X - Y). Poiché X e Y vengono da popolazioni normali e poiché la somma di va nor-
mali indipendenti è normale, anche (X -Y) è normale e (X - Y) rv N (µ µ
1 - 2 , :} + ~) .
Quindi:
X -Y- (µ 1 - µ)2
-----;:::== =-- - rv N(O, 1) e un intervallo di confidenza al 100')'% è dato da:
. /5.
V n
+~
m
P [--1('Y+ 1) < X -
2
y - (µ1 - µ2) < -1('Y+
. ; o-r+ O"§ 2
l)l= 'Y (13.24)
V n m
Ossia:
1 'Y+ l)~i - + -(T~ < (µ - µ 2) < -X - -Y + -1('Y+

-X - -Y - -(-- -- l)~i - + -(T~ (13.25 )
2 n m 1 2 n m
mentre, per un intervallo unilaterale (per esempio con limite superiore) si ha :
(13.26)
Se le popolazioni non sono normali e i campioni sono grandi l'espressioni 13.24, 13.25,
13.26 valgono ancora ma in senso asintotico.
Esempio 13.6.1 Supponiamo che un produttore di processori per computer voglia inve-
stigare la differente velocità di esecuzione di un programma test da parte di due diversi
tipi di processori (A e B). L'ipotesi del costruttore è che, per entrambi i processori, il
tempo di esecuzione sia normalmente distribuito con media incognita, rispettivamente µ A
e µB, e varianza nota, rispettivamente lTA = 1.10 ms e lTB = 1.5 ms (ms = millisecondi}.
Per confrontare la velocità media di esecuzione dei due processori il costruttore esegue il
programma su n = 10 processori del tipo A e su m = 20 del tipo B e osserva i seguenti
tempi di esecuzione {in ms):
TIPO A: 500;498;499;501;499;502;501;501;500;499
TIPO B: 493;497;493;492;494;496;496;494;492;493
496;495;494;496;493;491;492;495;495;493
Per ipotesi il tempo di esecuzione del generico processore di tipo A è una va. X; rv
N (µA, lT~ = 1.21), con media non nota µ A mentre per il tipo B la va è Y; rv N (µ B, lT~ =
2.25). Si chiede di determinare:
a) Un intervallo di confidenza bilatero al 95% per (µA - µB);
b) Un valore k tale che si possa asserire con il 95% di confidenza che (µ A - µ B) < k.
Soluzione. a) Sappiamo che: p [--l crt1) < )( - y - (µ A - µ B) < -lcrt1)] = ')'

VlT~/n + lT1/m
1(14l) = 1.96 e VlT~/n+lT1/m
Se 'Y = 0.95 {::} - = y,-
1-ii_
1_+_22-,i-
5 = 0.48322 e
{ X= 500
Y= 494
Quindi, dato che:
1)ja~/n
X - Y - <J?-1(-Y~ + a~/m < (µA - µ3) + a~/m
< X - Y + <J?-1(ì'~ 1)ja~/n
avremo: 5.05289 < (µA - µ 3 ) < 6.947108.
Si può perciò essere con.fidenti al 95% che il tempo medio di esecuzione del processore di
tipo A supera quello del processore di tipo B di una quantità compresa tra i 5.52 e 6.48
ms.
l
b) Devo trovare un intervallo di confidenza unilaterale con limite superiore:
p [<J?-1( 1 - 'Y) < X - y - (µ A - µ 3) = 'Y{::}(µ A - µ 3) < X -Y +<T?-1('Y)Va~/n + a~/
ja~/n+a~/m
Nel nostro caso 1 = 0.95 ::::}<J?-1(1 ) = -<J?- 1(1 - 1 ) = 1.64. Quindi (µA - µ 3 ) <
6 + 1.64 · 0.48322 = 6.792478 L'intervallo è perciò: (-oo,6.792478).
Caso di medie e varianze non note

Supponiamo di essere nella condizione di dover valutare la differenza tra le medie di due
popolazioni normali di cui non si conoscono le varianze ai
e a§. Viene naturale sostituire
· · · 2 '-'n
le vananze nspett1vamente con: S = L..i=l
1
(X -X) 2
~- l e S = '-'m
2
L..i=l
(Y-Y) 2
;,,_ 1
2 e, per ottenere
un intervallo di confidenza, utilizzare la quantità:
(13.27)
Per trovare un intervallo di confidenza, occorre però conoscere la distribuzione di 13.27

.
e questa non d eve d 1pen d ere d a a 1 e a2, e·1 sono d ue casi:. { a) = aa2
b) ala1 =I= 2
Lo facciamo più dettagliatamente perchè ci permette di vedere (o rivedere) alcune cose

importanti. Innanzitutto, utilizzeremo come quantità pivotale per l'intervallo di confi-
denza (o, in seguito, nei test d'ipotesi, per determinare la regione critica) la seguente:
t= (X-Y)-(µ 1 -µ 2) dove: s = /(n-l)Sr+(m-l)S~
Spj(l/n) + (1/m) P V n +m - 2
La tè una t-Student con (n + m - 2) = df. Vediamo perché.
. . 2 (n - 1) (m - 1) , 2 . .
Per 11Teorema 10.8.7. S 1 -- 2- + S2 2 e Xn+m- 2 • Per 11teorema 11.8.10.
a
-.,.._., a ....__,,_.,
X~-1 X~-1
(X - Y) - (µ1 - µ2)
aj(l/n) + (1/m) (13.28)
[(n - l)Sr + (m - l)S~]~
n+m-2
è una t con (n + m - 2) df. Si vede che la 13.28 si può scrivere:
(n - l) Si + (m - 1)S~
n+m-2
V+1.
n
..!.
m
(13.29)
351
Per determinare l'intervallo di confidenza si usa la va seguente, nota come statistica di

Behrens-Fisher,
(X - Y) - (µ1 - µ2)
t = -=======-
v(Sfln) + (SVm)
(13.30)
che ha (approssimativamente) una distribuzione t-Student con df = min(n - 1, m - 1).

Nella letteratura si trovano altre valutazioni per i df della statistica di Behrens-Fisher.
Ne riportiamo una. Posto
li
(~+!f
= -,,...-'-----,,----;,---,,... (13.31)
(Sr/n) 2 + (SVm) 2
n-l m-1
si prende df uguale all'intero più vicino a v.
Esempio 13.6.2 In un'azienda che produce marmitte catalitiche per automezzi superio-
ri alle 3, 5 ton si vogliono confrontare due modelli di marmitte, A e B, che utilizzano
catalizzatori diversi per l'abbattimento dell'ossido di azoto (NOx)-
Allo scopo si mettono in prova n = 8 marmitte di tipo A e m = 8 marmitte di tipo B.
Per l'NOx si rilevano i seguenti dati di emissione (espressi in centigrammi/kWh)
MARMITTA A : 91.41; 91.51; 91.44; 91.81; 91.67; 91.83; 91.86; 92.31

MARMITTA B : 93.76; 94.22; 93.67; 93.91; 93.94; 93.34; 93.6; 93.56
Detta X la va che misura le emissioni della marmitta di tipo A e Y la va che misura
le emissioni della marmitta di tipo B si ha: x =
I:x·
T1
= 91.73; s~ = 7 I:(xi - x) 2 =
0.087; y = I:8Yi = 93.75; s1= ~7 I:(Yi - y) 2 = 0.074.

Si vuole determinare un intervallo di confidenza al 90% della differenza della media delle
due popolazioni di marmitte, supponendo che le popolazioni abbiano la stessa varianza.
Soluzione: usiamo la quantità pivotale tp =
(X - Y) - (µ A - µ B)
sP
M+
con
.! 1...
n m
SP =
V(n - l)S 2
A
+ (m - l)S B.
2
tP è una t-Student con df dato da p = (n + m - 2).
n+m-2
L'intervallo di confidenza bilaterale è X - Y - t14 ( --y~l )Sp J¼+ ¾ < (µ A - µ B) <
- - + t14(.::r..._)S
X - Y +l Ml 2 - +- P n m
Nel nostro caso si ha: n = 8, m = 8, M = 0.5.
sP = V7 · s~ s1
+ 7 · = V7 · 0.087 + 7 · 0.074 = 0 _284
14 14
1 + ì'
ì' = 0.9::::} -2- = 0.95::::} t14(0.95) = 1.761
L'intervallo è: [(91.73 - 93.75) - 1.761 · 0.284 · 0.5] < (µA - µ 3 ) < [(91.73 - 93.75) +
1.761 · 0.284 · 0.5] da cui: -2.27 < (µ 1 - µ 2 ) < -1.77.
Possiamo avere una confidenza del 90% che le emissioni delle marmitte del tipo A siano
più basse di quelle delle marmitte di tipo B.
Esempio 13.6.3 Un costruttore di motori per scooters ha problemi con l'inquinamento
acustico causato dai suoi motori. Progetta e costruisce un nuovo motore che dovrebbe far
meno rumore. Per fare dei confronti prende un campione di 41 motori del nuovo modello
e confronta la media dei decibels di questo campione con la media di un campione di 65
motori del vecchio modello. Ecco i risultati del test (X i media campionaria, xi: media
campionaria osservata, Si deviazione e si deviazione osservata):
Dim. del campione Xi in decibels si in decibels

Modello vecchio 41 72 9.2
Modello nuovo 65 84 11.6
Si chiede un intervallo di con,fidenza al 95% Per la differenza delle medie.

.
Slo uzione. N on conosciamo
. 'd'l i a quan t't'
a 1 e a 2 qum · tl (Xi-X 2 )-(µ
i a piva a e -----====---
1 -µ 2)
§1. + s?
n1 n2
è approssimativamente una t-Student con 40 df (vedi 13.30}. Poiché il campione è
"grande" decidiamo di usare i quantili della N(O, 1) invece di quelli della t 40 .
2 2
L'intervallo cercato è: (x 1 - x2) ± -1 (' 1+2 1 ) ~
n1
+~n2
'Y = 0.95 e, al solito, -1 (-Yt1 ) = 1.96. Si ha: (72 - 84) ± 1.96 (l~t + (94;l2 =
-12 ± 3.99 Siamo perciò sicuri al 95% che la differenza (µ 1 - µ 2 ) si mantiene tra -15.99
e -8.0l decibel.
Se avessimo calcolato i df con (13.31} avremmo trovato:
2 (9.2) 2 ) 2
( (11.6)
65 + 41
V = -'------,,-----,,-- = 98.528
( (11.6) 2 )2 ( (9.2) 2 )2
65 + 41
64 40
Anche in questo caso saremmo stati fortemente motivati a utilizzare quantili della
N(O; 1).

Esercizio 13.7.1 Nella ricerca dell'intervallo di confidenza per la media di una popola-
zione normale (varianza non nota) usiamo t = ~/~ con (n - 1) gradi di libertà (df)
ma, con campioni di dimensione n ~ 30, quando è richiesta una precisione dell'ordine
di 10- 2 , usiamo la tavola della distribuzione normale. Perché?
[!] [TI il calcolo dei gradi di libertà di t è difficile se n è grande
ìvl ìpl { le cifre necessarie al calcolo dell'intervallo
L..:..J L....:_J non sono previste nelle tavole della t
r-y-i ìpl a questi livelli di precisione le curve della normale e della t
L..:..J L....:_J con df ~ 30 praticamente coincidono
r-y-i ìpl { è difficile calcolare X n ( e quindi S2 , varianza
L..:..J L....:_J campionaria} per grandi campioni
353
Esercizio 13.7.2 Un intervallo di confidenza al 100,% per un parametro incognito ma
fi,~vto tE
~ è: un intervallo in cui il parametro 0 cade con probabilità ,
m un intervallo in cui 0 cade con probabilità (l - ,)

un intervallo che ha probabilità pari a , di contenere 0
il complementare di intervallo che ha probabilità l - 'Y di non contenere iJ
Esercizio 13.7.3 Siano X; n osservazioni indipendenti da una popolazione normale X

di mediaµ e varianza a 2 incognite. Sia 5 2 = n~ 1 I:~=l (X;-.X) 2 (varianza campionaria)
e 85=¾I: ;(X; - µ)2_YII
CI] [I] Q = (n - l) ~ è una quantità pi votale
CI] [I] (n - l)~ '""x;,_
1
[Ij[}J n#,._,
N(µ,:)
P(x;,_1 < = P(x;,_1 >
;I
Inoltre l'intervallo fiduciario ( n-q2 1 5 2 , n- 1 5 2 ),
q,
dove q1, q2 q1)
q2 ) -_ !.=..::t.VIII
2
è un intervallo fiduciario al 100, % per a 2
F è il più piccolo intervallo fiduciario al 100, % per a 2
F è il più piccolo intervallo fiduciario al 100(1 - ,) % per a 2
F è un intervallo fiduciario al 100( 1 - 'Y) % per a 2
;I
Esercizio 13. 7.4 La t di Student per la ricerca di un intervallo di con,fidenza per la
media non nota di una popolazione (momento secondo finito) si applica esclusivamente
a popolazioni normali quando si conosce la varianza
F a popolazioni normali ( o quasi normali} quando non si conosce la varianza
F a qualunque popolazione quando il campione è numeroso
F a popolazioni normali solo se il campione è numeroso
Esercizio 13.7.5 Siano X; n osservazioni indipendenti da una popolazione normale X

di media µ e varianza a 2 incognite. Siano 5 2 = n~ 1 I:~=l (X; - .X)2 la varianza cam-
pionaria, 5* 2 = ¾I:~=l (X; - .X)2 lo stimatore di massima verosimiglianza per a 2 e
I = ( 15 2,n,;; n~
1 5 2 ) un intervallo dove q1, q2 sono tali che P(x;,_1 < q1) = P(x;,_1 >
= ~- Allora 1x
q2)
CI] D
Q = (n - l)~ è una quantità pivotale
D [I] I è un intervallo fiduciario al 100 1 ; ' % per a 2
B s2 2
(n - l)a'2 '""Xn-l
5* 2 è uno stimatore consistente per a 2
s2
VII;,%~ N(l,¾) via TCL.
VIIIvedere Osservazione su unicità dell'intervallo di confidenza.
IX 8*2 = ¼
I:~=l (Xi _ .X)2 = n~ 182
S' 2 (n 1)S 2 2 S' 2 S' 2
~ = ~ ~ Xn-l' Segue che E[~]= n- le var[na- ] = 2(n - 1). Da ciò si deduce che
E[8* 2] = n~ 1 ,,-2 e var[8* 2] = 2C:: l) ,,-2 . Quindi 8' 2 è asintoticamente corretta con varianza infinitesima
da cui ..
Esercizio 13. 7 .6 La va t = xS/fon - µ dove, al solito, X n è la media campionaria e S 2 =
I: (X~=;
l n
2
la varianza campionaria,
è interviene nella stima intervallare:
ìvl della varianza a 2 (nota la mediaµ) con campione
f""'"i;,l {
~~ numeroso da una popolazione di distribuzione qualunque
ìvl f""'"i;,l { della media µ (nota la varianza a 2 ) con campione
~~ numeroso da una popolazione di distribuzione qualunque
della media µ (nota la varianza a 2 ) con campione
piccolo da una popolazione normale
della media µ (non nota la varianza a 2 ) con campione
{ piccolo da una popolazione normale
r-y-i f"pl della mediaµ (non nota la varianza a 2 ) con campione grande
~ L:_J da una popolazione qualunque di varianza finita
Suggerimento: mettere "F" (falso) nelle affermazioni precedenti se ci sono costruzioni
basate su altre va che danno luogo a stime intervallari preferibili.
Capitolo 14
E se non puoi la vita che desideri
cerca almeno questo
per quanto sta in te: non sciuparla
nel troppo commercio con la gente
con troppe parole in un viavai frenetico.
Non sciuparla portandola in giro

in balìa del quotidiano
gioco balordo degli incontri
e degli inviti,
.fìno a farne una stucchevole estranea.
Costantino Kavafis {1863 - 1933)
Verifica delle ipotesi
Fare congetture su fatti che non sono noti con certezza fa parte della vita di tutti i giorni
sia per quanto riguarda sia il lavoro sia il tempo libero. Dovete cambiare l'auto? Se
scegliete di acquistare il modello A significa che, più o meno consciamente, ritenete vera
l'ipotesi: "il modello A è, compatibilmente con le mie possibilità di spesa, migliore di
tutti gli altri modelli sul mercato". Per giungere a questa decisione avrete raccolto
una documentazione e avrete provato vari modelli presso diversi concessionari. Avrete
cioè eseguito un test. Nella decisione a favore della vostra ipotesi vi può capitare di
commettere un errore: accettare come vera un'ipotesi che in realtà (ma voi non
lo sapete) è falsa ( errore del II tipo). Se invece all'ultimo momento, appena prima di
firmare il contratto e staccare l'assegno, doveste cambiare improvvisamente idea, l'errore
che potreste commetere è di un altro tipo: rifiutare come falsa un'ipotesi che in
realtà (ma voi non lo sapete) è vera (errore del I tipo).
Ciò di cui parleremo nella verifica delle ipotesi riguarda situazioni simili a questa. Le
nostre ipotesi non faranno però riferimento a modelli di auto ma a distribuzioni di pro-
babilità con riferimento a due problemi diversi. Nel primo è conosciuta con certezza la
funzione che descrive la fdr (o la fd) di una distribuzione ma non si conosce il o i para-
metri che la definiscono completamente (come accadeva con gli intervalli di confidenza);
avanzeremo e saggeremo congetture sui valori di questi parametri e parleremo di test
parametrici.
Nel secondo caso faremo invece ipotesi sulla funzione stessa che descrive la fdr e parleremo
di test non parametrici.
356 CAPITOLO 14. VERIFICA DELLE IPOTESI
14.1 Test parametrici
Altri approfondimenti e visioni sui test di ipotesi parametrici nel capitolo 17.
Esempio e:?
Introduciamo i concetti relativi ai test parametrici con un esempio. Certe colture del-
l'azienda farmaceutica STOMAL si sviluppano solo se la temperatura ambiente è di 12
gradi C. In un locale dell'azienda destinato a ospitare queste culture è appena stato
installato un impianto di condizionamento. La ditta FAFRED che lo ha installato ga-
rantisce che la temperatura generata dal suo impianto è modellata da una va gaussiana
X rv N(l2, 16) di media 12° e scarto 4°. Un tecnico della STO MAL vuole valutare o
testare l'affermazione della FAFRED. Crede alla gaussianità della temperatura, crede al
valore dello scarto (chissà perché? ma a noi non interessa perché!) ma vuole verificare
la media. A questo scopo utilizza un procedimento statistico, chiamato test d'ipotesi.
Il procedimento consiste innanzitutto nel fissare due ipotesi, l'ipotesi nulla che si indica
con Ho e l'ipotesi alternativa che si indica con Ha oppure con H1, Del modo con cui si
scelgono queste ipotesi discuteremo anche in seguito: per esempio si può scegliere come
H 0 quelle che sembra debba essere vera, oppure H 0 potrebbe anche essere quella che
si vorrebbe rifiutata dal test. La cosa importante è che si decida quali sono le ipotesi,
prima di guardare i dati che vengono raccolti nel procedimento. Dunque non c'è un
solo modo per scegliere: la scelta dipende dal problema che si sta affrontando. Per ora
accontentiamoci di vedere come agisce il tecnico della STOMAL. Le ipotesi che formula
sono le seguenti:
{ Ho : 0 = 12, (0 = 0o) ipotesi nulla

Ha : 0 =I,12, (0 =I,0o) ipotesi alternativa
Il tecnico cioè deve decidere se accettare Ho, cioè che la temperatura X rv N(l2, 16)
oppure rifiutare Ho per accettare l'alternativa Ha, cioè che X rv N(0; 16) con 0 =I, 12.
Osserviamo che l'ipotesi Ho : 0 = 12 si dice semplice perché prevede un solo valore per
la media 0, mentre Ha : 0 =I-12 si dice composta perché include più di un valore per
il parametro, anzi, ne include infiniti: 0 > 12, che potrebbero far "cuocere" le colture e
0 < 12, che potrebbero non essere sufficienti a farle "fiorire".
Per decidere, il tecnico preleva la temperatura nell'ambiente in 36 istanti diversi della
giornata (un cc36). La verifica delle ipotesi procede supponendo che l'ipotesi nulla H 0 sia
vera, cioè che 0 = 12. Scelto X 36, media campionaria, come stimatore di 0, intuitivamente
sembrerebbe ragionevole accettare H 0 se X36 (valore osservato di X 36) fosse uguale a 11 o
13.5, cioè fosse "vicino" al valore ipotizzato della media; sembrerebbe invece ragionevole
respingerla se avessimo trovato X36 = 7.5, cioè distante da 12. Infatti 11 e 13.5 ci sembrano
valori probabili se 0 = 12, mentre 7.5 ci sembra molto improbabile. Questo tipo di
ragionamento è un po' ingenuo, intuitivo. Formalizziamolo. Viene istituita una regione,
che chiamiamo Regione Critica e indichiamo con RC, tale che se il valore osservato X36
dello stimatore X 36 appartiene a questa regione, si rifiuta H 0 , altrimenti la si accetta.
In questo caso tale regione si può pensare determinata da un valore e tale che se {X 36 <
12 - e} U {12 +e< X36} (o, analogamente se IX36 - 0ol > e), cioè se X36 si discosta
"tanto" da 12, si deve rifiutare H 0 . I punti di confine 00 ± e della RC si chiamano valori
critici.
L'errore del I tipo è caratterizzato dalla probabilità che IX 36 -0o I > e quando l'ipotesi
nulla Ho è vera, cioè P0=12 [ { X 36 < 0o - e} U { X 36 > 0o + e}]. Usiamo la distribuzione
di X 36, media campionaria ottenuta da una popolazione normale di media 0 incognita e
357
varianza lT3(= 16 nota. X 36 rv N (0, ~~) e, se H 0 è vera, X 36 rv N ( 12, ~) è normale
con media 12 e scarto quadratico medio lTx 36 = r Terminologia:
stimatore pivot, intervalli di confidenza statistica test, test d'ipotesi

z = x36 - 12 (14.1)
2/3
x36 - 12
Invece di ragionare in termini di X 36, consideriamo la statistica test Z =
2/3
Poichè la media di X 36 è 12, la media di Z è O, e i valori di X 36 "distanti" da 12
corrispondono ai valori di Z "distanti" da O, cioè IX 36 - 121 > e {:}I Z I> 2; 3 .
- - e e
P0=12[{X36 < 12-c}U{X36 > 12+c}] = P[I Z I> 213 ] = 2(1-( 2/ 3 )) e i suoi valori,
a seconda dei valori di e, si trovano tabulati in Appendice 2.
e e
Se, per esempio, 213 = 1.96 dalla tabella di Appendice 2, P[I Z I> 213 ] = 0.05 (a) in
figura). I valori ±1.96 sono i valori critici di Z (e analogamente 10.693 = 12 - ~1.96 e

2 -
13.307 = 12 + 3 1.96 sono i valori critici di X36 (b) in figura).
@ regione critica
.95
----+----+------+----z
- 196 o 196
U ti·1·
1zzand o ----
X 36 - 12 a bb'iamo ncavato
. una RC* per 1a stat1st1ca
. . test d a cm. possiamo
.
lTx36
risalire alla RC per lo stimatore. Chiameremo indifferentemente regione critica sia la
RC* ottenuta dalla statistica test che la RC per lo stimatore.
Invece di fissare e e di trovare successivamente la probabilità dell'errore di I tipo, si può
fare il contrario. Si fissa la probabilità dell'errore del I tipo 1 - ì e si impone:
x36 - 12 e e
P[I 2/3 I> 2/3] = P[I Z I> 2/3] = 1- ì
da cui si ricava
_c_=- 1(l+ì)
2/3 2
La regione critica per la statistica test è:
mentre quella per lo stimatore è:
2 -1 l+ì' 2 -1 l+ì'
(-oo; 12 - 3<J? (- 2 -)] U [12 + 3<J? (- 2 -); +oo)
Vediamo tre diverse RC per tre diversi fissati valori dell'ampiezza 1 - ì' del test.
1 - ì' = 0.1 ===} ì' = 0.9 ===} l; ì' = 0.95 ===} <J?-1 (0.95) = 1.645
1- ì' = 0.05 ===} ì' = 0.95 ===} l + ì' - O 975

-2--. ===} <J?-1 (0.975) = 1.96
1 - ì' = 0.01 ===} ì' = 0.99 ===} l + ì' - O 995

-2--. ===} <J?-1 (0.995) = 2.576
Le corrispondenti RC per la statistica test sono
( -oo; -1.645] u [1.645; +oo)

(-oo;-1.96] u [1.96; +oo)
(-oo; -2.576] u [2.576; +oo)
che corrispondono agli eventi
x36 - 12 < -1. 645 u x36 - 12 > 1.645

2/3 _2/3
x36 - 12 x36 - 12
2/3 < -1.96 u 2/3 > 1.96
x36 - 12 _ 2 76 x36 - 12 2 76
2/3 < ·5 u 2/3 > ·5
e per lo stimatore sono
(-oo; 12 - t 1.645 = 10.903] u [13.097 = 12 + t 1.645; +oo)

( -oo; 12 - t 1.96 = 10.693] u [13.307 = 12 + t 1.96; +oo)
(-oo; 12 - t2.576 = 10.283] u [13.717 = 12 + t2.576; +oo)
che corrispondono agli eventi:
- 2 2 . -
X 36 < 12 - 3 1.645 = 10.903 u 13.097 = 12 + 3 1.645 < X 36
- 2
X 36 < 12 - 3 1.96 = 10.693 u 13.307 = 12 + 32 1.96 < -X 36
- 2 2 -
X 36 < 12 - 3 2.576 = 10.283 u 13.717 = 12 + 3 2.576 < X 36
7.5 Il 13.5
--~------•
.-----+-----
· ~-+
1 -y = O.I
1-y = 0.05
J - '! = 0.01
----------·--- -O ---O----<J---+----1------0----0- --0 ---
/f!. 283 I 0.69J I 0.903 12 13.097 13.307 13.717
Come si vede dalla figura, delle tre presunte letture dello stimatore, il valore 7.5 è nelle
RC per ognuno dei livelli 1 - ì' fissati; 11 è nella regione di accettazione per ognuno degli
1 - ì' fissati; 13.5 è nella RC per due dei livelli fissati 1 - ì' = 0.05 e 1 - ì' = 0.1.
359
Quale livello scegliere per il test? A questa domanda risponde parzialmente questa altra
tecnica che prevede di fissare una specie di RC senza utilizzare il livello di significatività
ma utilizzando il valore osservato della statistica test (RC per la statistica test) o il
valore osservato dello stimatore (RC per lo stimatore).
La tecnica che andiamo ora a esporre si chiama tecnica del p - value che consiste nel-
l'utilizzare i valori osservati dello stimatore o della statistica test per trovare i confini
della RC. In questo esempio (test a due code) cominciamo ad applicare la tecnica del
p - value determinando la RC per la statistica test. Quasi tutti i software statistici non
lavorano con i livelli di significatività del test ma con il valore del p - value.
Da questo specchietto vediamo i valori osservati della statistica test in corrispondenza
dei tre valori ipotizzati per lo stimatore:
A B c
stimatore Xn 7.5 11 13.5
statistica test z -6.75 -1.5 2.25
In questo caso i confini della RC (che sono 2 perché la regione critica è a due code) si
ricavano dai valori osservati della statistica test.
I Caso A I
Il valore osservato della statistica test è a sinistra dello O. Questo è uno dei due confini.
L'altro è il suo simmetrico rispetto all'origine, cioè 6.75. Il p - value è il peso che la Z
individua sulla
RC = (-oo; -6.75) U (6.75; +oo)

È facile convincersi che, detto (lzl)il peso a sinistra del modulo del valore osservato z,
è (dimostrarlo per esercizio):
p - value = 2 - 2(lzl)
Dunque:
(6.75)= 0.999999999992608 ===} p - value ~ O
Caso B I
Il valore osservato della statistica test è a sinistra dello O. Questo è uno dei due confini.
L'altro è il suo simmetrico rispetto all'origine, cioè 1.5. Il p - value è il peso che la Z
individua sulla
RC= (-oo;-1.5)U(l.5;+oo)
(l.5) ~ 0.9332 ===} p - value ~ 2 - 2 · 0.9332 = 0.1336

Caso C
Il valore osservato della statistica test è a destra dello O. Questo è uno dei due confini.
L'altro è il suo simmetrico rispetto all'origine, cioè -2.25. Il p - value è il peso che la Z
individua sulla
RC = (-oo; -2.25) U (2.25; +oo)

(2.25)~ 0.9878 ===} p - value ~ 2 - 2 · 0.9878 = 0.0244

Le osservazioni ipotizzate erano 7.5; 11 e 13.5. Per il primo il valore molto piccolo del
p-value suggerisce fortemente di rifiutare. Anche per il terzo, facendo riferimento a una
regola standard che noi adotteremo nel corso e che suggerisce di rifiutare se p-value <
e accettare se p - value > 0.2, decidiamo di rifiutare 1 . 0.1
Rimarrebbe comunque il dubbio per il valore 11, che potremmo sia accettare che rifiutare.
In conclusione:
7.5 11 13.5
1- 1 = 0.1 rifiuto accetto rifiuto
1- 1 = 0.05 rifiuto accetto rifiuto
1 - 1 = 0.01 rifiuto accetto accetto
p-value rifiuto non so rifiuto
Importante
Come già detto, i valori del livello significatività più comunemente usati sono
1-,=0.l
1- 1 = 0.05
1 - 1 = 0.01
e quelli di riferimento per il p - value sono:
p - value > 0.2 p - value < 0.l
È molto importante ricordare che questi valori sono quelli di riferimento nel nostro corso.
Nel mondo reale, i valori di riferimento sono fissati in dipendenza del problema, e non
sono obbligatoriamente quelli che utilizziamo nel corso. Potrebbe cioè capitare di essere
spinti ad accettare con un p - value = 0.05 oppure cercare una RC avendo fissato un
livello di significatività pari a 0.4. Naturalmente l'impianto tecnico rimane lo stesso e non
dipende dai valori di riferimento.
Probabilità dell'errore di II tipo

La probabilità dell'errore del secondo tipo è il peso che c'è sulla regione di accettazione
RA quando l'ipotesi nulla è falsa. Rimando al capitolo 17 per gli approfondimenti. Si
cominci comunque a notare che, quando Ha è composta la probabilità di errore di II tipo
non è un numero ma una funzione.
Errori e ipotesi
In un test d'ipotesi sia Ho l'ipotesi nulla e Ha l'ipotesi alternativa. Allora:
colonna I colonna II colonna III colonna IV

Ho Ha Rifiuta Ho Non rifiuta Ho
V F errore del I tipo decisione corretta
F V deci sione corre tta errore del II tipo
10sservazione importante: il limite p - value = 0.l non sta scritto sulle tavole della legge. Altri
considerano infatti i seguenti confini: p - value < 0.05 rifiuto; p - value > 0.l non rifiuto.
361
Caso generale
Dopo aver visto un esempio di come si ragiona nell'ambito di un test parametrico
per la media di una popolazione normale, riprendiamo i concetti esposti nell'esempio
generalizzando.
Ipotesi nulla e alternativa
Supponiamo di avere una popolazione distribuita X rv f (x, 0), dove 0 E 8 definisce

l'insieme dove può variare il parametro 0. Un'ipotesi Ho specifica che 0 E 80 mentre
l'alternativa Ha (o H1) specifica 0 E 8a (o 0 E 81) con l'ipotesi naturale che 8on8a = 0
e l'intesa, un po' meno naturale, che non necessariamente 80 U 8a = 8.
Definizione 14.1.1 H 0 si dice ipotesi nulla mentre Ha (o H 1 ) si dice ipotesi alter-

nativa. Se 8 0 si riduce a un sol valore, l'ipotesi Ho si dice semplice, composta nel
caso contrario. Discorso analogo per 8a e la relativa ipoesi Ha,
Chi ha il compito di definire le ipotesi non può prescindere da convinzioni, consce o

inconsce, su ciò che è vero riguardo alla popolazione sotto test. La scelta di quale
ipotesi vada considerata nulla e quale alternativa è perciò una questione delicata perché
è influenzata da giudizi a priori. L'ipotesi nulla è quella considerata vera nel test e
identifica quei valori del parametro che si vogliono mettere sotto verifica. In generale è
meglio specificata dell'alternativa e spesso è un'ipotesi semplice.
Test e Regione critica
Occorre definire una regola che ci consenta di decidere se rifiutare Ho (e accettare

Ha) oppure se accettare Ho (e accettare Ha), Si prende un ccn Xn dalla popola-
zione X rv f(x, 0) e uno stimatore per il parametro 0 incognito (una statistica) Y =
Y(X1, X2, ... , Xn) = Y(Xn). La fdr di Y dipende da 0. Sulla base dell'osservazione ~n
(valore di Xn) si tratterà di decidere se il valore y = Y(Xn) ci deve motivare ad "accet-
tare" Ho cioè a credere 0 E 80 o a rifiutarla, cioè a credere 0 E 8a, La ragione delle
virgolette sul verbo accettare saranno chiarite più avanti.
Nel caso che la densità della popolazione dipenda da due parametri incogniti, X rv
N(µ, lT 2 ), µ e lT ignote, ad esempio, noi ci limiteremo comunque a saggiare un'ipotesi su
uno solo dei due parametri.
Definizione 14.1.2 L'insieme dei valori che ci motivano a rifiutare Ho si dice regione
critica {RC). Se il valore Y(xn) cade nella RC rifiutiamo H 0 .
È uso chiamare regione critica anche quella regione C dello spazio euclideo IRn costitui-
ta dall'insieme dei valori (x 1 , x2, ... , Xn) tali che Y(xn) ERC, cioè quella C tale che
(x1, X2, ... , Xn) E C ?Y(Xn) ERC.
Importante Poiché Y(Xn) è una va, Y(Xn) ERC è un evento rappresentato da quel
sottoinsieme di O il verificarsi del quale fa sì che Y ERC. Ha perciò senso calcolare
Pe[Y(Xn) ERC] e questa probabilità dipende da 0 E 8, spazio del parametro.
La RC sarà perciò determinata da un valore c tale che se {X n < Bo- c} U {Bo+ c < X n}
(o, analogamente se IXn - Bai > c) si rifiuta Ho. I punti di confine Bo± c della RC si
chiamano valori critici.
Errori di I e II tipo e Potenza del test
La bontà di un test dipende dalla frequenza con cui ci evita errori. Gli errori sono stabiliti
dalla seguente definizione e sono, evidentemente, incompatibili.
Definizione 14.1.3 In un test si possono commettere due tipi di errore:
I tipo rifìutare Hol Ho è vera

(14.2)
II tipo accettare Ho I Ho è falsa
Gli errori si accompagnano alla loro probabilità.
Probabiltà dell'errore di I tipo P[rifiutare Hol Ho è vera]

Probabiltà dell'errore di II tipo P[accettare Hol Ho è falsa]
(14.3)
Oss. 1 La probabilità di errore del primo tipo è un numero solo se 8 0 = {0 0 }, ipotesi

nulla semplice, altrimenti è una funzione di 0 E 8 0 . Lo stesso dicasi per la probabilità di
errore di II tipo.
Tipi di ipotesi
Gli obiettivi del nostro corso ci inducono a limitare lo sviluppo della verifica delle ipotesi
esclusivamente ai casi seguenti, dove l'ipotesi nulla è semplice e l'alternativa è composta
ed entrambe riguardano un solo parametro incognito da cui dipende la densità di una
certa popolazione:
0 =/-Bo • test a 2 code

Ho: 0 = Bo Ha: { 0 > Bo -" test a 1 coda destra (14.4)
0 < Bo A test a 1 coda sinistra
Ribadiamo che le ipotesi esposte in 14.4 non sono le uniche possibili. Si potrebbe, ad
esempio, esaminare anche Ho : 0* ::; Bo ::; 0** contro Ha : 0 < 0*, o più in generale
Ho : 0 E 80 e Ha : 0 E 8a. Da qui in poi però ci limiteremo all'esame di ipotesi del tipo
14.4 dove, al più, l'ipotesi alternativa sarà semplice: Ha : 0 = Ba.
Rientrano nella nostra casistica anche l'ipotesi nulle composte del tipo
Ho: 0::; Bo(-") oppure Ho: 0 ~ Bo(&). (14.5)

Quello che importa in questi casi non è tanto che y (stima di 0) possa superare, anche
di molto, 00 (caso &) o che possa esserne molto al di sotto (caso -"), ma che y non
renda plausibile l'ipotesi Ha. Esula dagli scopi di questo testo entrare nei dettagli dei
problemi che insorgono se si considerano ipotesi nulle del tipo 14.5. Più sotto motiveremo
brevemente cosa ci autorizza a ridurci sempre a ipotesi nulla semplice anche nel caso 14.5.
Riassumiamo quanto detto. La RC si determina attraverso uno stimatore per 0 Y =
Y(X1, .. , Xn) funzione di un ccn estratto dalla popolazione. Si calcola il valore y di Y
su tale campione. Si hanno i seguenti possibili casi:
Caso• se y < A•, 1 oppure y > A•,2 (RC) si rifiuta Ho

Caso-" se y > A.., (RC) si rifiuta Ho (14.6)
Caso & se y < A1,,(RC) si rifiuta Ho
363
che, quasi sempre, potranno essere espressi così:
Caso• se y < Bo - B•,1 oppure y >Bo+ B•,2 (RC) si rifiuta Ho

Caso-" se y >Bo+ B.., (RC) si rifiuta Ho (14.7)
Caso & se y < Bo - B. (RC) si rifiuta Ho
Cosa determina le quantità A..,, A., A•, 1 e A•,2 (o le B..,, B., B•, 1 e B•,2)? Sono possibili
diversi approcci che dipendono dagli obbiettivi del test. Un modo è quello di determinare
l'ampiezza del test che viene definita nella successiva sezione.
Ampiezza del test

Se l'ipotesi nulla non è semplice, la probabilità dell'errore del I tipo di rifiutare Ho
quando è vera non è univocamente definita perché è funzione di uno dei possibili valori
del parametro 0 in 80. Il concetto seguente introduce un "equivalente" dell'errore del I
tipo che vale sia nel caso di ipotesi nulla sia semplice che composta nei casi -" e & .
Definizione 14.1.4 Si definisce ampiezza del test (o ampiezza dell'errore del I tipo):
Ho
1 - 'Y=P00 [rifiutare Hai H o è vern]=1ry(0o)=P00 [Y(X n) E R G] semplice
1 - 'Y= sup Pe[rifiutare H ai H o è vera]= sup 7ry (0)= sup Pe[Y(X n) E R G] composta
0E 8 o 0E 8 o 0E 8 o
(14.8)
Si può anche definire l'errore del II tipo nel modo seguente:
Ha
I /3=Pe. [accettare Hol Ho è falsa]=l - 7ry(0a)=P0 [Y(Xn) iRC]
0 semplice (14.9)
I (3(0) =Pe[accettare Hol Ho è falsa]=l - 7ry(0)=Pe[Y(Xn) iRC] composta
Useremo, come in molti altri testi, indifferentemente la dicitura ampiezza del test e livello
di significatività. Sottolineiamo inoltre che l'ampieza del test è spesso indicata con a
invece che con 1 - 'Y. Abbiamo preferito la notazione 1- 'Yper mantenere un'affinità con
i simboli della stima intervallare del capitolo 13 che utilizzeremo in seguito.
L'uso che faremo dell'ampiezza del test riguarda la determinazione della RC. Si fissa a
priori il valore dell'ampiezza 1 - 'Y (solitamente uguale a 0.1, 0.05, 0.01) quindi si cerca
come deve essere RC affinché sup Pe[Y(Xn) ERC] = 1 - 'Y·
0E8o
Oss. 2 Ricordiamo ancora che nel resto del capitolo 8 0 = {0 ::; 00 } oppure 8 0 = {0 ~
Bo}. Si potrebbe mostrare che in tutti i casi che esamineremo se 8a = {0 > Bo} allora
sup Pe[Y(Xn) ERG] = P00 [Y(Xn) ERG] cioè si ha il sup in Bo. Analogamente se
0~0o
8a = {0 < Bo} allora sup Pe[Y(Xn) ERG]= P00 [Y(Xn) ERG] cioè ancora si ha il sup
0?_
0o
in 00 . Questa osservazione ci autorizza ad affermare che il caso di ipotesi nulla composta
del tipo 14. 5 conduce alle stesse identiche conclusioni della corrispondente ipotesi nulla
semplice.
Il p-value
Definizione 14.1.5 In un test d'ipotesi il p-value viene determinato prendendo come
confine ( o come uno dei due confini nel caso di un test bilatero) della regione critica il
valore osservato della statistica test. Cioè è il peso di probabilità che c'è sulla regione
critica se tale regione è determinata come appena illustrato_ll
Per ulteriori spiegazioni sul p-value vedere più avanti il paragrafo sul riepilogo dei test
parametrici.
Comunque il significato del p-value si può enunciare anche nel modo seguente: il p-value
è la minima probabilità concentrata sulla RC che fa sì che il valore Yp(~n, 0o) della
statistica test calcolata in base all'osservazione ~n sia un valore critico. Indicata con
F(z) la fdr di Yp(Xn, 0o) la figura è esplicativa di ciò che accade:
F(z)------~ F(z)
F(z) .------~
p-value = l - F(z) p-value = 2 -2F(z) p-vaiue = F(z)

Iper z in test a I coda destraI Iper z in test a 2 code I Iper z in test a I coda sinistrai
Passi di un test d'ipotesi

La procedura di verifica delle ipotesi che abbiamo delineato nelle pagine precedenti si
riassume nei seguenti passi.
1) Identificare l'ipotesi H 0 e la sua alternativa Ha,
È il punto più delicato. Va osservato che le due ipotesi non sono trattate allo stesso
modo. Ciò è vero in generale ma la "mancanza di simmetria" tra Ho e Ha appare ancora
più evidente avendo limitato i tipi di ipotesi che vogliamo trattare a quelle definite in
14.4. Ho è specificata in modo preciso (0 = 0o) mentre l'alternativa è lasciata nel vago
(0 =f.0o oppure 0 > 0o e 0 < 0o).
L'errore del I tipo fissa la probabilità di sbagliarsi a rifiutare H 0 quando H 0 è vera.
rifiuto HolHo VERA equivalente accetto HalHa FALSA
rifiutare l'ipotesi "nulla" quando è vera equivale

ad accettare l'ipotesi "alternativa" quando è falsa
Dal momento che controllo la probabilità dell'errore del I tipo, controllo automaticamente
anche la probabilità di non rifiutare HalHa FALSA, cioè
I P[rifiuto H 0 I H 0 vera] = P[accetto Ha I Ha falsa].
Se Ha non è semplice non posso calcolare l'errore del II tipo.

Come si fissa l'ipotesi alternativa? Uno dei modi potrebbe essere quello di scegliere come
ipotesi alternativa quella che è più pericoloso accettare quando è falsa, perché controllo
la probabilità di questo evento
IIIn un test d'ipotesi il p-value è il più piccolo valore dell'ampiezza 1 - -y che permette di rifiutare
l'ipotesi Ho con riferimento al valore che lo stimatore usato nel test assume sul campione osservato.
365
accettare HalHa FALSA
Questa idea si presta a una efficace interpretazione in campo giuridico.
Esempio del Processo giudiziario
Ha: IMPUTATO COLPEVOLE
Ho= ,Ha:IMPUTATO INNOCENTE

Errore del I tipo
Rifiuto HolHo VERA cioè CONDANNO IMPUTATO INNOCENTE

oppure, equivalentemente:
accettare HalHa FALSA cioè CONDANNO IMPUTATO INNOCENTE

Dunque, in generale,
Ha è l'ipotesi che è più pericoloso accettare come VERA quando è FALSA.

E, di conseguenza,
Ho è semplicemente la negazione dell'ipotesi alternativa.

2) Scegliere uno stimatore del parametro incognito. Il valore dello stimatore
sul campione osservato è la stima del parametro. Nell'esempio e?, per una verifica diµ
abbiamo scelto lo stimatore X n da cui ottenevamo come statistica test ": ìfo con a nota
eµ= 12, che era il valore da verificare. °:/:;/1è una Z rv N(O, 1). Come vedremo, dalla
scelta dello stimatore e dalle conoscenze sulla distribuzione della popolazione dipende la
scelta della statistica test. Parleremo di Z-test, di t-test o di x 2 - test a seconda che si
usi la Z"" N(O, 1), la t di Student o la x2 come statistica test.
3.1) Scegliere l'ampiezza del test (per trovare la RC). Se si parte dall'ampiezza
del test in generale si sceglie 1 - 1 ::; 0.10; però, poichè 1 - 1 è la probabilità di un errore
del I tipo, tale scelta dipende da quanto è grave un errore del I tipo. Più grave è questo
errore, più piccolo dovrebbe essere 1 - 1 (o più piccola la RC) perché devo diminuire la
probabilità di rifiuto di Ho quando è vera (o accettare Ha quando è falsa).
L'ampiezza della RC dipende da 1 - 1 . La RC rappresenta la regione dei valori che,
se assunti dallo stimatore in corrispondenza di un campione, ci motivano fortemente a
respingere H O per Ha. La determinazione della RC avviene usando la statistica test.
3.2) Determinare l'ampiezza del test (se si è fissata la RC). Il peso su RC
dipende dalla ampiezza della RC stessa.
3.3) Determinare il p-value.
3.4) Fare eventualmente valutazioni sull'erroremdi II tipom
4) Prendere una decisione. Se si è scelta la strada 3.1) oppure 3.2) e se lo stimatore
(calcolato sul campione, cioè la stima del parametro) cade nella RC, si deve rifiutare
H 0 , altrimenti non la si deve rifiutare con probabilità di errore definite dalla teoria. Se
si è scelta la strada 3.3) si fa un'osservazione e, in base al valore del p-value si decide se
rifiutare o accettare Ho.
mvedere il capitolo 17.
Oss. 3 Se il valore osservato dello stimatore non cade nella RC sono possibili due scel-
te: 1) accettare H 0 e terminare le indagini, 2) partire dalle informazioni ottenute che
ci hanno motivato a non rifiutare Ho per indagini ulteriori. In generale "accettare" è
sinonimo di non ri,fiutare.
Test e informazioni sulla popolazione

Esaminiamo le situazioni che si presentano con maggior frequenza. Nella preparazione
di un test d'ipotesi il nostro comportamento, come nel caso degli intervalli di confidenza,
è determinato dalle informazioni di cui disponiamo sulla popolazione. Studieremo casi
analoghi a quelli già visti per gli intervalli. La suddivisione dei casi sarà leggermente
diversa perché unificheremo i test con campioni di grande dimensione a quelli sulle po-
polazioni normali intendendo che, se la popolazione di partenza non è normale, la RC è
trovata con ragionamenti asintotici.
Campioni di grande dimensione: test per la media di una popola-

zione (varianza nota, momento secondo finito)
µ#µo •
Ha: { µ>µo -"
µ<µo &
Stimatore Xn, statistica test Z = X;/-:J/i, 0 ;

Z ,.__,
N(O, 1), oppure Z ~ N(O, 1) grazie al
teorema centrale, a seconda che la popolazione sia normale oppure no.
Abbiamo la regione critica scritta per la statistica test:
• RC= {Xn-:
fo
µo ::; -<J?-l('Y!l)} U {Xn-: µo~
fo
<J?-l('Y!l)}
RC= {Xn-: µo ~ <J?-1(,)}

fo
RC= {Xn-: µo ::; <J?-1(1- ì) = -<J?-1(1)}
fo
(14.10)
la regione critica scritta per lo stimatore:
•
Ha:µ>
Ha:µ<
µ0
µ0
"'
(14.11)
La RC sarà da considerarsi ottenuta per approssimazione via teorema centrale nel caso
di popolazioni non normali.
Stiamo effettuando uno Z-test. In questo caso per i più usati livelli di significatività del
test ecco lo specchietto dei valori critici per Z.
367
significatività 1 - 'Y 0.10 0.05 0.01
test a una coda ±1.28 ±1.645 ±2.326
test a due code ±1.645 ±1.96 ±2.576
Nei test a 2 code si usano ovviamente entrambi i valori critici col segno "+" e "- 11 • Nei
test a una coda si usa il segno "+" nei test a una coda destra (-") e il "- 11 in quelli a
una coda sinistra (& ) .
L'esempio e:?iniziale illustra uno Z - test a 2 code. Vediamo altri esempi.
Esempio 14.1.6 In un Corso di laurea in Matematica, un gruppo di studenti decide

di sostituire l'esame di Statistica e Calcolo delle probabilità con l'esame (più facile) di
Algebra II. L'ipotesi del professore che tiene il corso di Statistica è che la scelta degli
studenti dipenda da una loro attitudine alla matematica inferiore alla media. Fa allora
svolgere a 49 studenti tra quelli che hanno scelto la nuova materia (Algebra II) un test
il cui punteggio medio risulta essere 67.5. In passato tali test avevano dato risultati con
media 70 e deviazione standard 10. I risultati ottenuti sono sufficienti a fargli accettare
la sua ipotesi?
Sceglie un livello di signi.ficatività del 2% e decide che la deviazione standard degli studenti
che hanno espresso la scelta per Algebra II sia ancora 10. Inoltre ipotizza che i punteggi
siano distribuiti normalmente. Detta µ la media della popolazione dei punteggi ottenuti
dagli studenti che hanno scelto Algebra II, il professore di Statistica ipotizza µ < 70
contro l'ipotesi µ ~ 70, cioè: { Z:'.~ ~ ~~ ; livello di significatività: l - 'Y = 0.02;
Z = 3:;;;J= ~/ff9'Nelle ipotesi fatte Z"' N(0, 1).
lii regione critica
.02
q,-1 (. 02) = -2. 055
Il valore osservato di Z è z = ~1}ff9

= -1.75. Poichè tale valore sta al di fuori della
RC (vedi figura), il professore non ri,fiuta H 0 •
Ilp-value è però uguale a (-1.75) = l-(l.75) = 1-0.9599 = 0.0401, un vaolre non
piccolissimo. I sospetti del professore di Statistica non sembrano perciò così infondati.
Gli esempi e:?e 14.1.7 riguardanti l'ambiente condizionato per dimagrire e le attitudini
degli studenti di Matematica rientrano in • e &. Vediamo un esempio di -"·
Esempio 14.1.7 L 'Environmental Protection Agency (EPA) negli USA fissa i limiti
della concentrazione nell'aria degli inquinanti rilasciati da varie industrie. Supponiamo
che le parti per milione (ppm) ammesse del vinil-cloride sia in media di 55, in un raggio
di 2 miglia intorno all'impianto di emissione. Per testare che un certo impianto chimico
rientri negli standard, i tecnici dell'EPA fanno a caso 100 letture in orari differenti,
effettuate, come prevede la legge, in un raggio di 2 miglia intorno allo stabilimento. Viene
rilevata una concentrazione di 60 ppm. Si sa che le concentrazioni hanno, in generale,
una deviazione dalla media di 20 ppm e questa viene ipotizzata come scarto vero della
popolazione. Ci si chiede: questo stabilimento vìola la legge?
Soluzione: { Ho : µ::; 55
Ha:µ> 55 (questa è l'eventualità temuta) ; 1- ì = 0.0 5
La statistica test è Z = X; 1~o ~8;= 5
1~ . Avendo assunto H 0 vera, Z è N(O, 1). Il
valore Z osservato è z = ~~;{5
'.::::'.
2. 5. Poichè il valore z osservato supera il valore critico
= 1.645 (tale evento si veri.fica con probabilità 0.05), l'EPA rifiuta H 0 in.favore
-1 (0.95)
di Ha con probabilità al più pari a 0.05 di sbagliare, cioè conclude che è probabile al g5%
che l'impianto sia fuori legge. Il valore critico per X n è 58.3.
Se osserviamo la figura è evidente che, al variare di 1- ì si sposta la RC e che per certi
valori, in questo caso molto piccoli, di l - ì l'osservazione fatta finisce fuori dalla RC.
/T\ '>l_:~=~::.-::
LU~~ ,,-,-·" 1.28 l.645 2.326
Ci poniamo allora la seguente domanda: qual è il minimo valore di 1- ì per cui l'ipotesi
nulla può essere rifiutata? Cioè: qual è minP[Z = Xn/~o > 2.5] = 1- ì, il p-value?
1-1' a n
La risposta è abbastanza semplice: poiché dalle tabelle della Appendice 2 si sa che
(2.5)= 0.9938 segue che l - ì = 1-0.9938 = .0062. Tale valore è il p - value cercato.
Test per la media di una popolazione normale (varianza ignota)

µ#µo •
Ha: { µ>µo -"
µ<µo &
Sia X ,....,N(µ, a 2 ) la popolazione con µ e a non noti. Estratto un ccn da N(µ, a 2 )
sappiamo che il pivot t = 1;~ è una t-Student con n - l df .
•
(14.12)
Ricordiamo che tn-l (a) è l'a - quantile di t - Student cioè quel numero tale che alla sua
sinistra sotto la curva t con (n - 1) df è cumulata una massa pari ad a.
Oss. 4 Se nell'esempio e:?(pag. 354) a fosse stata incognita sarebbe stato corretto usare
la t-student. Poichè n > 30, qualora le approssimazioni siano compatibili con la pre-
cisione richiesta dagli obbiettivi della ricerca (vedi Appendice 3), per la determinazione
369
della RC si può, utilizzare la tabella di Z, invece di quella di t-Student. Fino all'inizio
di questo secolo si usava la tabella di Z anche per n piccoli. Fu William S. Gosset (ve-
di nota storica alla fine del capitolo 11} a fare notare per primo l'errore in un articolo
pubblicato sotto il falso nome di Student nel 1908. La ragione del falso nome stava nel
fatto che Gosset era impiegato alla birreria Guinness di Dublino, dove si occupava di
analisi statistiche basate su piccoli campioni ottenuti durante la lavorazione del luppolo.
La birreria Guinness si opponeva al fatto che i suoi impiegati pubblicassero i risultati
dei loro lavori scienti.fici, così Gosset optò per il falso nome. Il suo articolo contestava
il lavoro di due ricercatori che, analizzando l'influsso di una sostanza soporifera su 10
pazienti, eseguivano inferenze utilizzando la tabella della normale. Indicata con X la va
utilizzata per codificare il numero medio di ore di sonno in più, questi erano i risultati in
esame:
Numero medio di Numero me dio di

P azien t e P azien t e
ore di sonno in più ore di sonno in più
1 - 1.9 6 4.4
Xn = 1.41
2 0.8 7 5.5 da cui: {
s = 2.644
3 1.1 8 1.6
4 0. 1 g 4.6
5 - 0.1 10 - 2
La sostanza si sarebbe dovuta considerare efficace se la media µx delle ore di sonno

aggiuntive registrate sui pazienti fosse stata maggiore di O. Quindi furono formulate le
due ipotesi:
H 0 : µ::; O
{
Ha:µ> O
L'ipotesi più impegnativa era stata formulata come alternativa. Lo stimatore scelto
era X n (la media campionaria della media di ore di sonno in più} la statistica test
z* = sJ)n, dove µ = O corrisponde all'ipotesi nulla e S/,/n è la deviazione standard
campionaria.
Ragionando (in modo errato) come se s7Jn
fosse N(O, 1), fissando un livello di si-
gnificatività l - ì = 0.05, si ha una RC determinata dal valore critico -1 (0.95) =
1.645.
Nel nostro caso: Z* = [~ìfo] _ '.::::'.
1.686 > 1.645 cade nella RC;
µ=0,S=2.644,xn=l.4l,n=l0
quindi rifiutiamo H 0 •
Gosset (alias Student) sottolineò questo errore, suggerendo di usare al posto delle tabelle
della gaussiana quelle di una nuova curva che battezzò t-Student con (n - 1) gradi di
7
libertà. Con la t = 8 fo la R C si determina usando la tabella di Appendice 3 ( e non
di Appendice 2). La RC è data da: P[t > t 9 (ì)] = 1 - ì; t 9 (0.95) = 1.833. Poichè il
valore di t' in corrispondenza del campione è 1.686 e non cade in RC, non rifiutiamo H 0
e quindi rifiutiamo che la sostanza soporifera sia effettivamente efficace. Con Z* come
test il valore critico sarebbe stato 1.645, e quindi le nostre decisioni sarebbero cambiate.
Esempio 14.1.8 Un fabbricante di gelati sostiene che il suo prodotto contiene 500 calo-
rie per 500 grammi. Per provare questo fa analizzare 25 confezioni da mezzo chilo e su
. . { x = 511 calorie
questo campione ottiene: s ~ 23 calorie . Si chiede un livello di signi.ficatività
del 2% (cioè di con,fidenza del 98%).
Soluzione.
{
H0 : µ = 500
Ha : µ =/-500
Xn - 500
test bilaterale; lo stimatore è Xn, la statistica test è t = ---- La sua determi-
S/yn
n- 5 oo '.:::'.2 .39 (df = 24) . I valori critici sono
nazione calcolata sul campione è: t' = 523/v'25
evidenziati in figura:
lerratol
• regione critica
....-1 ~ 1
..., ( 2 ) =lfl- (. 99)=2. 32
Z= Xn-µ
o/.fn.
11=
.981 2.39
1- )' =. 02
t= Xn-µ
s/.fn.~.!!',!!-..§l_§l~_!--_J__......,_muhll:a...
m regione critica Icorretto I t ( l? )=t (. 9 9 ) = 2 . 4 9 2
Xn - 500
I gra,fici mostrano che se avessimo usato lo Z-test considerando --~~ come una
S/yn
N(0, 1), avremmo ottenuto un risultato opposto a quello corretto.
Suggerimento: Vedere anche l'esercizio 0.2.27 nel capitolo Esercizi.
Test per la media di una popolazione di Bernoulli

Vediamo ora come funziona il test d'ipotesi per la proporzione p di una popolazione.
Supponiamo di estrarre un ccn da una popolazione infinita e sia X;,....,B(l,p) la va che,
su ogni esemplare estratto prende, al solito, il valore 1 per indicare la sua appartenenza a
una classe o il valore O per indicare la non appartenenza. f5 = X n = Ì: nx i rappresenta uno
stimatore della proporzione della popolazione che sta nella classe (o anche, uno stimatore
della probabilità p = P[X; = l], media della va di Bernoulli X;).
Abbiamo già visto che la distribuzione di fJè approssimativamente normale di media p e
p(l - p)
vananza --- se p non è troppo vicino a O o a 1 e se n è grande (np e nq maggiori
n
di 5). Segue che Z = ~ è approssimativamente una N(0, 1). Consideriamo i
p(l-p)
n
seguenti test:
P =/-Po •
Ho: P = Po Ha: { P > Po -"
P < Po &
Utilizzando la statistica test Z = fJ- Po

----;=== possiamo calcolare che, asintoticamente:
JPo(l:;po)
371
Ha :p-/-po • RC={IXn-Pol ~q,-l('Y~l)Vpo(l~po)}

Ha: P > Po -" RC= {Xn ~Po+ q,-l('y)Vpo(l~po)} (14.13)
Ha: P < Po & RC= {Xn::; po - -1 (-y)VPo(l~po)}
Esempio 14.1.9 Supponiamo di voler sapere la proporzione p dei cittadini favorevoli

all'uso dell'energia nucleare. Per far questo prendiamo un campione di ampiezza n della
popolazione, intervistiamolo e annotiamo il numero I:7=1 Xi dei favorevoli. E' importante
osservare che P[ cittadino favorevole al nucleare] = p. I:7=1 Xi è la somma di n va
di Bernoulli, per cui la sua distribuzione è binomiale con media np e varianza npq (p
incognito). Dal teorema centrale limite sappiamo che Z = I:,~np = C~-p è
npq pq/n
approssimativamente N (O,1) (affinchè Z ~ N (O,1) è sufficiente (lo abbiamo già visto)
che np e nq siano almeno cinque).
Formuliamo le seguenti ipotesi:
H 0 : p = 0.20
{
Ha :p-/-0.20 .
Se supponiamo vera H 0 , np e nq = n(l - p) devono essere almeno cinque: quindi n deve

essere scelto in modo che ~~ ~ 5 e ~~ ~ 5. Basta n ~ 25.
Fissiamo l - 1 = 0.05. Cerchiamo la RC, cioè un k tale che P[I Z I~ k] = 0.05.
Sappiamo che k = l.96 : -1.96 < (~) < 1.96 e, se H è vera, essendo p
0 = 0.20,
pq/n
q = 0.80, n = 25, otteniamo: (0) = {1.08 < I:xi < 8.92}.
Se il numero I: Xi dei favorevoli su un campione di 25 è compreso nell'intervallo (0)
non rifiutiamo Ho,
Esempio 14.1.10 I promotori di un referendum vogliono fare un test per verificare se

la maggioranza degli aventi diritto al voto è favorevole al referendum stesso. Viene scelto
un campione di 100 votanti e 56 si dichiarano favorevoli. Sia p la proporzione (lO0p la
percentuale} dei favorevoli sul numero totale dei votanti.
Eseguiamo i soliti passi di un test d'ipotesi:
1} Decidiamo le ipotesi:
{ Ho : p::; 0.5
Ha: p > 0.5
2) fissiamo la sign~ficatività l - 1 = 0.05;

3) utilizziamo come statistica test la standardizzata di I:7=1 Xi, cioè Z = I:.~np =
I:. X;- 50; Xi ,.__,B(l, 0.5); 4) otteniamo la RC da: P[Z > k] = 0.05; 5} poiché z =
56 ;g0 = 1.2 cade fuori dalla RC (vedi figura) non rifiutiamo H 0 e concludiamo che non
abbiamo elementi sufficienti a pensare che i favorevoli superino il 50% dei votanti .
. 05
.Ei X;- np 56-!iO 1. 65

{npq_
Z =-!i-=1.2
R regione critica
Calcoliamo il p - value: qual è minP[Z =

l--y
~
poqo/n
> 1.2] = 1 - ì? Trattandosi ancora
di uno Z - test usiamo la tabella della normale e, poiché (l.2) = 0.8849, otteniamo
1 - ì = 1-0.8849 = 0.1151, che è il p - value relativo alla osservazioni fatte.
Poiché il p - value ha un valore "alto" (supera cioè i valori di signi.ficatività più usati
che sono 0.1, 0.05, 0.01} Ho è accettabile. Siamo allora motivati a non ri.fiutarla.
Confronto tra il test d'ipotesi per la media di una popolazione

qualunque (varianza nota, campione grande) e per la proporzione
di una popolazione di Bernoulli
Paran:1etro
µ p
da stimare
xi deve
Stimatore
-
Xn p =Xn I va lere 1 sui
l
\ favorevoli
Statistica z -_ -Xa-/,/n
n- 1-'o z=
-
Xn - po
te s t VPo(l - po)/n
le di X ± 
- 1(1+-Y)____'è_
n 2 vn p ± 
- l(~)vfi(l;,,fi)
live llo ì
R e per te s t
X n _< µ O - 
- 1('Y+1
2
)~..jn X 2 ..jn X n -> p O + if!- 1(-Y
+l)V
2
Po(ln- po)
0 P = Po
Oss. 5 (importante) L'ampiezza dell'intervallo (Xn-kfo, Xn+kfo) di accetazione

dipende anche da n: si può allora fare in modo, agendo su n, che l'intervallo di variabilità
diµ abbia un'ampiezza che non superi un valore .fissato, per esempio 2· 10- 3 (cioè k fo =
10-3;.
Il test x2 per la varianza di una popolazione normale

Supponiamo che X,...., N(µ,a 2) conµ e a 2 ignote. Consideriamo un ccn (X 1 ,.,Xn) e
2
. S 2 1a varianza
sia . . .
camp10nana. Abb' iamo visto
. ch e Xn-
2
l = (n-l)S è una c h'1-qua d ro
2
(J
con (n - 1) df. La sua distribuzione non dipende da parametri incogniti per cui la va
(n ~~)S
2
è una quantità pivotale. Indichiamo, al solito, con x;,_(a) = X~,n-l
1 = F;~ 1 (a)
373
l'a - quantile di x;,_
1 , cioè l'ascissa tale che alla sua sinistra sotto la curva x;,_è 1
concentrata una massa pari ad a. Consideriamo, in questo caso, il seguente test:
Ho: a2 = a5
(n - l)S2 IV
Utilizzando la statistica test -'---~- abbiamo:
a5
(]'2 2 (1--y) 2 2 (l+-y)
• RC= { s2 <
-
RC:::: {S2 > a5x;,-1(ì)}
oXn-1 -2-
(n - 1)
s2 > O'oXn-1 -2- }
- (n - 1)
(14.14)
- (n - 1)
RC= {S2 < a5x;,-1(l -
- (n - 1)
r\
Esempio 14.1.11 Una macchina è stata progettata per riempire automaticamente di
latte contenitori in cartone da 1 litro, cioè 1000 millilitri (ml}. Ovviamente la quantità
non è esatta ogni volta e c'è uno scarto quadratico medio di 2.95 ml da 1000 nel processo
( così afferma il costruttore). Per verificare questo valore si scelgono 28 confezioni a caso
(tra quelle riempite) e di ciascuna si misura l'esatto contenuto di latte.
Soluzione: intanto si ipotizza che la quantità di liquido X introdotta nel contenitore sia
X rv N( µ, a 2) misurata
. in m.l All ora: 1) { Ha a2 =
Ha :: a2 =/-2_952
2 _95 2 ,
. 2) 1 - ì -- O.O5,. 3)
nS 2
usiamo la statistica test -- 0 in quanto è ragionevole ritenere di conoscere la media,
a5
cioèµ= 1000; 4) questo campione risulta avere s 0 = 3.7659. Si richiede di trarre delle
conclusioni con il 95% di confidenza; 5) RC a due code e, dato che non c'è simmetria
intorno all'origine, si procede così:
m regione critica
l-1
l-1 T= .025
T= .025
)' =.95 45.63
1-"
X!(-fl=I5 .3
2
la RC è fatta di quei valori tali che: x 228 ::; 15.3 e 2
x28 ~ 44.5 (figura); 6) ns
~
28},-;~y
92 = 45.63, che è nella RC; 7) rifiutiamo H •
0
p-value Siamo nel caso di test a due code e ancora si utilizza una x 2 come statistica
test. In questo caso il p-value rappresenta il valore dell'area indicata nella figura alla
ns 2
pagina seguente; se il valore osservato --J
della statistica test cade dopo la mediana di
ao
n8 2
IV Se la media µ, della popolazione fosse nota, --f ~ x~ sarebbe la statistica più opportuna.
ao
ns 2
x;,,n(l - 9n)3 = 27.339, detta w la massa a sinistra di
2 ---J,
ao
il p-value è 2(1 - w). Se
ns5
~ cadesse a sinistra della mediana = 27.339, il p-value sarebbe 2w:
o
I p-va/ue per 1est a 2 code della varian:zaI
p-value = 2. - 2.M
2.M - 1
xz
n
Oss.: Se avessimo usato (n-0'~ 82 ,.__, x;,_ nella ,figura al posto

1 della x;,ci sarebbe la
x;,_ 1·
Nel nostro esempio si ha:
2
s5 7ns (*) X§8 (0.986) (**) p-value=2(l-0.986)
3. 7659 45.63 45.63 0.028
(*) cade a destra della mediana della x~8 che è in 27. 339
(**) 0.986-quantile della X§s, valore ottenuto per interpolazione
Questo valore del p - value (che fa sì che la stima sia un valore critico) non è molto
alto. Infatti è compreso tra due livelli di significatività standard 0.01 e 0.05. Continuiamo
perciò a rifiutare Ho ma non con grandissima evidenza. 2(1 - 0.986) = 0.028
Osservazione Vale comunque la pena di osservare che un test sulla varianza è teso
a verificare che a 2 non superi un certo limite, cioè interessa di più un'ipotesi del tipo
Ho: a 2 = a5 (e quindi Ho: a 2 ~ a5) contro Ha : a 2 < a5 che non Ho: a 2 = a5 contro
Ha : a 2 =/-a5. Infatti se, come spesso accade, l'ipotesi nulla è quella che si vorrebbe
ri.fiutata, si vorrebbe di conseguenza non rifiutata l'ipotesi alternativa che afferma che la
varianza della popolazione è minore del valore ipotizzato vero. Interessa insomma che la
varianza sia piccola.
Se in questo caso fosse: H 0 : a 2 = 2.95 2 contro Ha : a 2 < 2.95 2 (che è quello che
il produttore vorrebbe confermato), ancora l - 'Y = 0.05, la RC sarebbe a una coda
sinistra ricavata da P[x 2 < c] = 0.05 ===} c = X§s(0.05) = 16.93. Il valore osservato è
::7s5
ua
= 45.63 > 16.93. Si rifiuta Ha. Il p-value è x;,(-l1(::7s5)ua
> 0.975 quindi non si
rifiuta Ho alla grande, dando torto al produttore.
Test per confronto medie e varianze di gaussiane e per proporzioni

Questi argomenti sono trattati nel capitolo 17.
Test d'ipotesi e intervalli di confidenza*

C'è uno stretta relazione tra regione critica e intervalli di confidenza (le). Per convincersi
di ciò pensiamo alle regioni di accetazione (Ra) dell'ipotesi nulla Ho invece che a quella
di rifiuto.
375
Test per la media di una popolazione normale nota la varianza v ; significa-
tività 1 - 'Y·
1) due code Ho:µ= µo VS

RC
RA
2) coda dx
RC
RA
3) coda sx
RC
RA
In conclusione
Ho:µ= µo sse µ 0 appartiene all'IC bilatero di livello 'Y

Ho:µ::; µo sse µ 0 appartiene all'IC con limite inferiore di livello 'Y
Ho : µ~µo sse µ 0 appartiene all'IC con limite superiore di livello 'Y
Ma sconsiglio di ricorrere agli IC per risolvere un test a meno che nel fare i conti non
abbiate già trovato un IC prima di affrontare il test stesso.
V Nel caso non si conosca la varianza in tutte le formule scritte, la varianza 0-5 viene sostituita dalla
varianza campionaria 8 2 mentre i quantili q,- l (-) vengono sostituiti dai quantili della tn-1 (-).
Test per la varianza di una popolazione normale ignota la media VI; signi-
ficatività 1 - 'Y·
1) due code VS
RC
{ (n - 1)8 < 1 - 'Y) U (n - 1)8 2 >

2 2 ( 2 ( 1 + 'Y)}
2 - Xn- l 2 2 - Xn- l 2
ao ao
RA
2 (1-'Y) (n-1)8 2 2 (l+'Y) (n-1)8 2 2 (n-1)8 2

Xn-1 - 2- < a 02 < Xn-1 - 2- ~ X2 (1+ì') < ao < 2 (1-ì')
n-1 2 Xn-l 2
2) coda dx
RC
(n-1)8 2 2 ( )}
{ --2-- ~ Xn-1 'Y
ao
RA
{ (n - 1)8
2 2 ( )} (n - 1)8 2 < a 02
2 < Xn-1 'Y ~ 2 ( )
ao Xn-l 'Y
3) coda sx
RC
RA
(n - 1)8 2 2
{ 2 > Xn- 1 (1 - 'Y)}
ao
In conclusione
Ho: a~=a5 sse a5appartiene all'IC bilatero di livello 'Y

Ho: a~::;a5 sse a5appartiene all'IC con limite inferiore di livello 'Y
Ho: a~~ a5 sse a5appartiene all'IC con limite superiore di livello 'Y
Ma ribadisco che è sconsigliabile ricorrere agli IC per risolvere un test, a meno che, nel
fare i conti, non abbiate già trovato un IC prima di affrontare il test stesso.
VINel caso si conosca la media della popolazione in tutte le formule scritte qui la varianza campionaria
1
8 2 viene sostituita dallo stimatore
n
85
= - I:(Xi - µ,)2 , (n - 1) viene sostituito da ne i quantili non
sono quelli della X~-l ma quelli della x~-
377
Esempio 14.1.12 Poniamo direttamente a confronto la veri.fica delle ipotesi e la ricerca
di un intervallo di confidenza. Secondo la legislazione americana del 1980, il massimo
livello di inquinamento concesso ad un autoveicolo era di un residuo di 5.3 grammi di so-
stanze inquinanti scaricate in un miglio di percorso. Un costruttore afferma che la media
dei residui del modello che lui produce è al di sotto di questi standard. Un test dell'orga-
nismo federale di controllo esamina 16 esemplari di questo modello, facendoli marciare
sulla distanza di un miglio. La media degli inquinanti misurata per questo campione è 5.l
grammi, con una deviazione campionaria di 0.3 grammi. I tecnici dell'organismo federale
vogliono tutelarsi dal fatto di accettare l'affermazione del costruttore nel caso che menta
mettendo un tetto del 10% alla probabilità di sbagliarsi. Fissano perciò l'affermazione del
costruttore come ipotesi alternativa (Ha:µ< 5.3) e il livello di significatività 1-ì = 0.1.
a) Vediamo dapprima come possono agire mediante la ricerca di un intervallo di confiden-
za. Il nostro campione di 16 auto mostra una media pari a 5.l grammi e una deviazione
campionaria pari a 0.3 grammi. Cerchiamo un intervallo di confidenza unilaterale sini-
stro al 90% perµ utilizzando le 13.17. Poiché la dimensione del campione è piccola (e
la popolazione è normale o approssimativamente normale), usiamo t = ~/;:: , che ha
una distribuzione di Student con (n - l) df. L'intervallo di con,fidenza al lOOì per cento è
dato da: X +tn-1(ì)S/fo ~µdove l-ì = 0.10::::} ì = 0.90, tn-1(ì) = t15(.90) = 1.341
da cui 5.1 + 1.341 ( ~) = 5.2006 ~ µ.
Il risultato ottenuto è sfavorevole all'ipotesi H O : si decide perciò di credere al costruttore
{rifiutare H 0 cioè accettare Ha) con probabilità 0.1 di sbagliarsi (Ho vera cioè Ha falsa).
b) Vediamo ora la verifica delle ipotesi. 1) La decisione è quella di prendere come
alternativa l'affermazione del costruttore e nulla l'ipotesi contraria, cioè:
{ Ho:µ~ 5.3 .
Ha:µ< 5.3 '
. Xn-5.3 ( ) . , 1 5.1-5.3
3) usiamo t = S/fo , df = 15; t calcolata sul campione et = 0 _3/v'l6 = -2.67;
4) la RC, poichè Ha coinvolge il segno< , è a coda sinistra: Xn ::; µ 0 -

s
fotn-1(ì)
Xn-µo Xn-µo
che, in termini di statistica test, equivale a: S/fo ::; -tn-1(ì); cioè a S/fo <
-t 15(0.9) = -1.341, come mostra la ,figura:
y=.9
Xn-1' = 5.1-5. 3 =- 2 61
s/.r,,. . 3/-{ii · m
regione critica
5) il valore t' = [~; foQ] _

µ0=5. 3,S=0.3,xn=5. l ,n=l6
= -2.6667 cade nella R C e non accet-
tiamo H 0 in favore di Ha.
Per il p - value si utilizza una t - student con 15 df.
p - value = l - 0.991
5.1 -2.67 -2.67 0.009
(*) valore ottenuto per interpolazione
Anche in questo caso per rendere accettabile H 0 in base alla osservazione fatta sareb-
be necessario abbassare la signi.ficatività molto oltre l'usuale soglia 0.01 : siamo perciò
fortemente motivati a rifiutare H 0 .
Popolazione di Bernoulli
Nel caso di una popolazione di Bernulli il passaggio agli le corrispondenti non è im-
mediato. Si ricorderà che nel caso della determinazione degli le avevamo espresso tre
diverse formulazioni. Non vogliamo insistere su questo argomento. Si osservi solo che,
per esempio, dal caso (•) si ottiene una regione di accettazione data da:
che si può evidentemente esprimere anche nel modo seguente:
Da quest'ultima, con conti analoghi a quelli svolti nel capitolo 13, si può concludere che
l'ipotesi Ho non è rifiutata se e solo se il valore ipotizzato vero Po appartiene all'intervallo
di confidenza dato in 13.16.
Test d'ipotesi semplici*

Quando abbiamo parlato di verifica delle ipotesi, abbiamo esaminato le situazioni indicate
in 14.4 e 14.5. In questi casi l'ipotesi alternativa Ha è composta perché non prevede una
sola possibilità per 0 ma infinite (0 i- Bo,0 > Bo o 0 < Bo).
Ci proponiamo qui di studiare il caso in cui le ipotesi siano entrambe semplici, cioè:
Spieghiamoci con un esempio che riguarda un gioco a dadi dove la regola stabilisce che
perdo tutte le volte che esce la faccia 1 mentre vinco in tutti gli altri casi. Dopo 100 lanci
la faccia 1 si è presentata 27 volte; mi sarei aspettato invece che uscisse intorno alle 16
volte, dal momento che P[faccia= l] = ¼,in ipotesi di dado bilanciato. Mi viene allora
il sospetto che il dado sia uno di quelli truccati che fanno uscire la faccia 1 una volta su
quattro, cioè tali che P[faccia= l] = ¾- In questo caso su 100 lanci l'l dovrebbe uscire
25 volte. Perciò:
{ Ho : P[facc~a = l] = 1/6 = 0.167 = Po

Ha : P[faccia = l] = 1/4 = 0.25 = Pa
La popolazione è bernoulliana, fatta di {l} e {O}, dove la percentuale "pJ di {l} è la
probabilità che a un lancio esca 1. La proporzione p può essere stimata dalla media
379
(o proporzione) campionaria I:~ Xn di n va di Bernoulli Xi Xi O;1 con
P[Xi = l] =p e Xn ~ N(p; p(l;;-p)).
Stabiliamo la strategia.
Accettiamo H 0 se '2:,nXi= Xn::; S Rifiutiamo H 0 (accettiamo Ha) se '2:,nXi= Xn > S
Nel nostro caso n = 100. Fissiamo la soglia S = 0.20. Se X n >S = 0.20, cioè I: Xi > 20
(quindi 1 esce più di 20 volte), rifiutiamo p = i· La regione critica è dunque fissata:
(0.20, +oo ). Sotto ipotesi H 0 , (cioè p = Po = 0.167 e a = Vp(i~ci)0.037)

= calcoliamo
la probabilità dell'errore del primo tipo, passando alla statistica test: Z = X 0~0~·~
0 67 :
P[Xn > 0.20IHo] = P[Z > 0 ·20 o~i/ 67 = 0.892] = 0.187.
Si noti che il valore di soglia S fissato determina la probabilità dell'errore del primo tipo
1 _,,vn_
L'errore del secondo tipo consiste nell'accettare H 0 quando è falsa (o, che è lo stesso,
rifiutare Ha quando Ha è vera). Indichiamo con (3 la probabilità dell'errore del secondo
tipo. Quando l'ipotesi alternativa è composta (3 è in generale una funzione e non un
numero. Se, sono semplici sia l'ipotesi nulla sia quella alternativa , anche /3è un numero
e lo si può calcolare. Considerato che, sotto ipotesi alternativa Pa(l-pa) O 043
100 = ' '
abbiamo (figura):
/3 = P[Xn ::; 0.20IHa] P[xu-o, 25 < 0.20 - 0.25] P[Z < -1.163] = 1 - P[Z <
0.043 0.043
1.163] '.:::'.
0.123.
~= 0.123; probabilità dell'errore del 2° tipo J -y = O.187; probabilità de/l 'errore del / tipo
0
µa = 0.25
---RC
C'è una scelta migliore del valore di soglia 0.2 che abbiamo fissato? 1Iigliore nel senso
che diminuisca la probabilità di errore sia del 1° che del 2° tipo.
VIIN aturalmente la soglia 8 può essere trovata partendo dal valore di 1- "Y.Da P [ VXn -po
Po(l-po)
> a] =
n
1-"Y, cioè a= q,- 1 ("1)si ricava 8 = po+ J po(l,:;-po) q,-l ("Y),Adesso occorre calcolare (3 = P [Xn :S 8IHa]
e quindi (3 = p [ Xn-Pa < S-Pa ] ,

JPa(l:pa) - JPa(l:pa)
Ipotizzando 1-"Y = 0.1 nel nostro caso risulterebbe 8 = 0.214 e (3 = P[x6.o~:i 25 :CC::-0.83] = 1-P[Z <
0.83] = 0.2033.
Se si prende S = 0.22, cosa succede? Le due gaussiane rimangono centrate sulle loro
medie 0.167 e 0.25. Cambiare il valore limite, spostandolo, per esempio, a destra, significa
spostare a destra la retta verticale tratteggiata. Così facendo, come è ovvio, diminuisce
1 - 'Yma aumenta j3.
Spostando il valore limite non si può diminuire contemporaneamente 1 - 'Y e j3.
L'unico modo per diminuire 1-"( e j3 è quello di aumentare la dimensione n del campione.
Infatti, come mostra la seguente figura, se si aumenta n, le campane si stringono perché
a2 -
diminuisce la varianza - della media campionaria Xn.
n
l -y: probabilità dell 'errore del 1° tipo
Fissato n come si sceglie il valore limite migliore? Per questa scelta si può utilizzare il
lemma di Neyman-Pearson (vedi per esempio: [MGB] in bibliografia).
Vediamo un altro esempio.
Uno stabilimento è specializzato nella produzione di un unico tipo di transistor. Un
cliente deve acquistare una partita costituita da un numero molto elevato di questi tran-
sistor e ritiene, giustamente, che la percentuale dei pezzi difettosi in essa contenuta
uguagli la probabilità p che un transistor prodotto dallo stabilimento sia difettoso. Per
salvaguardare i propri interessi decide di fissare la seguente strategia: dette
Ho : p = 5% e H1 : p = 8%
la merce viene accettata se i dati suggeriscono che l'ipotesi Ho sia vera, viene rifiutata
se invece i dati suggeriscono che è vera H1.
Per la verifica di queste ipotesi cliente e stabilimento decidono insieme di esaminare 400
transistor e di fissare il valore critico a k = 6%, in modo tale che, indicando con Pn la
percentuale di pezzi difettosi del campione, si accetta la partita se Pn ,::;k, la si rifiuta se
Pn > k.
Oss.: soglia fissata in base all'intuito generato dall'esperienza; le probabilità dell'er-
rore del 1° tipo e del 2° tipo si calcolano dopo che si è fissata la soglia.
Calcoliamo la probabilità 1 - 'Y di errore di 1° tipo (1 - 'Y = rischio del venditore, cioè
la probabilità che il compratore rifiuti Ho quando è vera) e j3 di errore di 2° tipo (/3 =
rischio del compratore cioè la probabilità che il compratore accetti Ho quando è falsa).
Decidiamo di fare i conti arrestandoci alla terza cifra decimale aumentando di un'unità
tale cifra se la prima cifra trascurata è maggiore di 5. Saranno utili i quantili cI>(0.909) =
0.818 e cI>(l.538) = 0.9380.
Ricordiamo che Pn coincide con Ì: nxi = X n (proporzione campionaria) rilevata sul cam-
pione. Sappiamo che la distribuzione di X n è approssimativamente normale con media
381
p e scarto Vp(I;;_p)
(p incognita). Si è stabilito di accettare Ho se '2:,nXi= Xn,::; 0.06, e
di rifiutarla (cioè di accettare Ha) se '2:,nXi= Xn > 0.06.
Nel nostro caso n = 400. Per calcolare il rischio del venditore assumiamo che l'ipotesi
Ho sia vera, cioè che
p = o.o5;CJ= y~
400 = 400
= o.on
_o._05_._o_.9_5
La standardizzata, in questo caso è:
z = Xn-0.05
0.0ll
{Xn::; 0.06 quando Ho è vera} ~ Z< 0.0 6 - 0.0 5 = 0.909

- 0.0ll
Utilizzando i quantili si ha:
P[Xn,::; 0.06 I Ho]= P[Z,::; 0.909 I p = 0.05] = 0.818
da cui
1- 'Y= 1- 0.818 = 0.182

errore di 1° tipo.
Per calcolare il rischio del compratore assumiamo che l'ipotesi Ha sia vera, cioè che
p = o.o8;CJ= y~
400 = 0.08 · 0.92
400
= 0.013
La standardizzata, in questo caso è:
z = Xn-0.08
0.013
- 0.06-0.08
{Xn _::;0.06 quando Ha è vera} ~ Z,::; 0 _013 = -1.538.
Utilizzando i quantili si ha:
P[Xn,::; 0.06 I Ha]= P[Z,::; -1.538 I p = 0.08] =

= 1 - P[Z _::;1.538 I p = 0.08] = 1- 0.938 = 0.062
da cui
(3 = 0.062
probabilità dell'errore di 2° tipo.

Oss.: provate a procedere in due altri modi:
1) fissate la probabilità dell'errore del 1° tipo 1 - 'Y = 0.05 e trovate la soglia e la
probabilità (3 dell'errore del 2° tipo.
2) fissate la probabilità dell'errore del 2° tipo (3 = 0.05 e trovate la soglia e la probabilità
1 - 'Ydell'errore del 1° tipo.
Riassunto dei test parametrici
Test per la media: campioni di grande dimensione, varianza nota
Ho:µ= µ0
Test a due code (•)
N(O;IJ
Per rifiutare lo stimatore X n deve cadere lontano da µ 0 a destra o a sinistra mentre

X-µ
la statistica test Z = ; 1,jn ° deve cadere lontano da O a destra o a sinistra. Se la
popolazione X non è normale Z è una statistica asintotica e anche la regione critica deve
essere considerata come asintotica.
Test a una coda (.ft) e(•)
N(O; I)
Per rifiutare, lo stimatore X n deve cadere lontano da µ 0 . Se la coda è a destra (.ft)deve
cadere lontano a destra mentre la statistica test X;/~o deve cadere lontano da O,
sempre a destra. Se la coda è a sinistra (•) deve cadere lontano a sinistra mentre la
statistica test X;/~o deve cadere lontano da O, sempre a sinistra. (.ft)
Per determinare il p - value ci si comporta diversamente a seconda che il test sia a due
o a una coda. Se il test è a due code poi occorre distinguere se il valore osservato della
statistica test cade a destra o a sinistra di O.
383
p - value per test a due code (•)
N(O;I)
x- ~•o
x-µ (jtvn
p-vaJue = 2[1 - <l>(--- 6 ,)j
u/v,i'
Se x;1--;_o cade a sinistra di O è
( Xn - µo)
p- value = 2<1> a/y'ri, ;
.
se mvece
Xn -
aI vn
µo
cade a destra
. ,
d1 o e
p - value = 2 [ 1 - ( x;1--;_o)]

.
p- value per test a una coda (.ft) e(•)
N{O:!)
()
X· flo
p-value =I - $(---)
r:Jl'ln'
Abbiamo:
p-value=<f>( a/vn
Xn - µo
); test a coda sinistra
x -µo
p - value =l - (; / vn) test a coda destra.
Test per la media: popolazione normale, varianza ignota

Per rifiutare, lo stimatore X n deve cadere lontano da µ 0 a destra o a sinistra mentre la

· · test Z
stat1st1ca = Xn
5I
- vn
µo d eve ca d ere 1ontano d a O a d estra o a sm1stra.
· ·
Test a una coda (-")e(•)
0.4 I ,,., x-µo o.;

Slvn
/I
1.,.,(1 -y ) ,,,.i(y)
Per rifiutare, lo stimatore X n deve cadere lontano da µ 0 . Se la coda è a destra (-" )deve
cadere lontano a destra e 1a statistica

. .
test 5I vn deve cadere
Xn - µo
lontano da o, sempre a
destra. Se la coda è a sinistra (•) lo stimatore Xn deve cadere lontano a sinistra e la

X-µ
1fa
statistica test ; O deve cadere lontano da O, sempre a sinistra.
,,,_,x-~'o 11
,;
S/1/ri
_1 x- ~10
I 11
.J(-; ,r.:-)
s yfl
x-µ (i
slvn
x-µ
p-va/ue =2[/ - r ·\. 1(._'ì/y;f.JJ
Come nel caso della varianza nota, abbiamo:

385
Xn - µo -1 (Xn-µo)
se 8 / fa cade a sinistra di O p- value = 2tn-l s/fa ;
se x;1--;_o cade a destra di O p-value=2 [ l-tn-l

-1 (Xn-µo)]
s/fa .
p - value per test a una coda (-") e (•)
,,,_, x-~'o o.~
S/1/n
Abbiamo:
-1 (Xn - µo)
p - value = tn- l 8/ fa ; test a coda sinistra
-1 (Xn-µo)
p- value = l - tn-l s/fa test a coda destra.
Test per la varianza: popolazione normale, media ignota

Oss.: Se la media fosse nota lo stimatore sarebbe S5
= ¼I:~=l (X; - µ) 2 e la statistica
nS 2
test ---,}- '""x;,, per il resto tutto funzionerebbe nello stesso modo.
ao
W=~ -X
1
O'o2 n-I
11-
J 11-l- f!/!I'/
X z (.L;,:i..)
11-I 2
(n -I>S2
cr/
med(x 2,,_[)
(n -ns 2 (n -ns 2
(j 2
o cr/
Figura 14-1 :
Per rifiutare, lo stimatore S;, = S;, = n~ 1 I:~=l (Xi - Xn) 2 deve cadere lontano da 0-5a
(n- l)S 2
destra o a sinistra mentre la statistica test W = -~~- rv X~- 1 deve cadere lontano
0-5
da n - l a destra o a sinistra.
Test a una coda (.ft) e(•)
w= r,,-ns
cr/
2~x,,_Ji
1 -y
Per rifiutare, lo stimatore S;, = S;, = n~ 1 I:~=l (Xi - Xn) 2 deve cadere lontano da 0-5.
(n - l)S 2
Se la coda è a destra (.ft)deve cadere lontano a destra e la statistica test W = 2
ao
deve cadere lontano da n - l, sempre a destra. Se la coda è a sinistra (•) deve cadere
· · (n - l)S 2
1ontano a sm1stra e 1a stat1st1ca
. . test W = 2
d eve ca d ere 1ontano d a n-1, sempre
ao
a sinistra.
387
.
P er d etermmare ·1
1 p- va l ue vm , se (n - 2l)s2 cade a sinistra della mediana med(x;,,_ 1) ~
a-o
n(l - ~)3 è
9
= 2x n-1 (n- l)s 2

P -value 2 (- 1)(---)·
2 '
a-o
(n - l)s 2
se invece--~- cade a destra di med(x;,,_ 1) è
0-5
p-value=2 [1-x;,,_/-l((n~;)s 1 2
)].
p - value per test a una coda (-") e (•)
c«-nt
cr/
p-1 1a/11
e = x1
- ~
<·1)(.:iJl.dli..)
1
p -value = 1 . ,,1
~~
(-J/( C,1 -1),~ )
O"o cr01
Abbiamo:
(n - l)s 2
P - value = x n-1
2 (-l)(--~-)·
2 '
test a coda sinistra
a-o
(n - l)s 2
p- value = l - x;,,_( )
1 -l (
a-o
2 ); test a coda destra.
14.2 Test non parametrici
Definizione 14.2.1 Test di buon adattamento È un qualunque procedimento che

permette di verificare quanto bene un certo insieme di osservazioni (x 1 , ... , Xn) si adatti
VIII Abbiamo indicato con x;,_1 (-y) il punto dell'asse alla cui sinistra c'è 'Y di peso, cioè x;,_1 (-y) è il
-y-quantile della x;,_ mentre x;_
1, (n - ; )s 1 (-l) (
2
) indica il peso che c'è alla sinistra di (n - ; )s 2 .
ao ao
Attenzione a non far confusione tra i due simboli: x;,_1 ('Y) è il punto alla cui sinistra l' area sotto la
2 . . 2 (-1)((n-l)s2) 2
Xn-l e pan a 'Y, Xn-l 2 indica invece il valore dell'area sotto la Xn-l alla sinistra di
ao
(n - l)s 2
ag
a una determinata fdr F* (x), ipotizzata vera. In altre parole è il test {non parametrico)
che verifica l'ipotesi nulla H 0 : F(x) = F*(x) contro l'ipotesi alternativa Ha: H 0 è falsa.
Invece di un adattamento a una fdr si può fare un test con una fd ipotizzata vera. Ciò
è possibile particolarmente con distribuzioni discrete, come è illustrato nella successiva
sez10ne.
Test di Pearson ( o test chi-quadrato)

Supponiamo di avere una situazione analoga a quella presentata con la distribuzione
multinomiale dell'esempio 4.5.3 del capitolo 4, cioè di essere di fronte a un esperimento
che presenta le seguenti caratteristiche:
1) gli s risultati possibili {Ti} (i = 1, ... , s e s 2". 2) costituiscano una partizione
dell'evento certo, cioè UTi = D; i=/-j, TiTj = 0; Vi, P[Ti] > O;
2) siano 7ri = P[Ti]; I:I=l 7ri = 1, le probabilità teoriche di ciascun esito.
Se ripetiamo n volte l'esperimento e osserveremo N 1 volte l'esito T 1 , N2 volte l'esito
s
T2, ... , N 8 volte l'esito T 8 • Ovviamente I: Ni = n. Le Ni sono statistiche campionarie
1
perché dipendono dal campione scelto. Detta ni la determinazione osservata di Ni i
valori ni rappresentano le frequenze osservate dell'esito Ti.
n
Osservazione importante: il Test di Pearson non richiede il concetto di variabi-
le aleatoria. Può perciò testare la distribuzione di probabilità su eventi Ti, partizione
dell'evento certo n, utilizzando solo il linguaggio degli spazi di probabilità.
Esempio 14.2.2 Sia X una va X, Ji s insiemi numerici disgiunti e Ti = {X E Ji i

risultati. Gli intervalli Ji debbono rappresentare un insieme esaustivo di alternative per
quanto riguarda la realizzazione di X. Dette (x 1 , ... ,xn) le osservazioni di X relative a
un campione casuale, si pone: Ni = "numero delle osservazioni E Ji ".
Consideriamo la statistica test:
X;_1 = t
k=I
(Nk - n. 7rk)2
n · 7rk
= n. t(
k=I
J::f;
- 7rk) 2
7rk
(14.15)
Il valore osservato della statistica test
x2 =~ (nk - n · 7rk) 2 = n.""' (~ - 1rk) 2 (14.16)

s- l L.., n · 7fk L.., 7fk
k=l k=l
dà una misura della dispersione esistente tra le frequenze osservate nk e le frequenze
n
teoriche attese 7rk. Si può dimostrare che, sotto H 0 , X;_ 1 è asintoticamente (per n --+
+oo) una chi-quadro:
x;_l ~ x;-l con df = (s - 1).

Osservazione importante. Potrebbe essere che si voglia testare il buon adattamento
dei dati osservati alla distribuzione di una popolazione la cui funzione di ripartizione (o
funzione di densità) dipenda da parametri riassunti da un vettore 8 =
(01 , ... ,0rf- In
389
questo caso i valori 7r i dell'ipotesi nulla vengono calcolati utilizzando la fd della popo-
lazione e, quindi, dipendono da quei parametri. Potrebbe essere che tali parametri (per
esempio la media) vengano ricavati dai dati osservati attraverso i loro stimatori MLE
e= (01,.. ,,Br)T basati su X1, ,Xn (per esempio la media campionaria osservata).
00
•
Ciò ha una conseguenza sul numero dei gradi di libertà della statistica test
2
X2
s-1-r
=X*2 =""""
(N; -
s-1
s
L....,
~
n1rk(8))
~
k=I n1rk(8)
Se il numero dei parametri della popolazione utilizzato per il calcolo dei Jr; e
ottenuto dai dati osservati è r allora vale
Noi comunque utilizzeremo invece, anche sbagliando leggermente,
P[x;_ 1 _r 2".t] = n---++oo

lim P[X;~ 1 2".t], cioè x;~1 ~ x;-i-r·
A questo proposito vedremo l'esempio 14.2.6.
Tornando al test di Pearson possiamo riassumere che si svolge nei seguenti passi:
1) Si calcola l'eventuale r dell'osservazione importante precedente; potrà essere r = O
or> O.
2) Si fissa l'ipotesi Ho : \iiP[T;] = 1r;;I:;=l Jr; = 1 e l'alternativa Ha : 3h, P[Th] -/- 7rh
3) Si fissa il livello di significatività del test 1- ry e si determina 1 (ry) (o x;_
1 _r(ry)): x;_
df = s-1 oppure df = s-1-r
y 1-
4) Quindi si osservano i dati (n1, ... , n 8 ) e si trova il valore x;_ o x;_ r) assunto
1 ( 1_ da
X;_1 (o da x;~l-r) sull'osservazione.
5) Allora:
5.a) Se x;_ 1 > x;_1 (ry) (oppure x;_
1 _r > x;_1 _r(ry)): si rifiuta Ho con probabilità 1-ry
di commettere errore;
5.b) Se x;_ 1 .S x;_ 1 (ry) (oppure x;_
1 _r .S x;_
1 _r(ry)): i dati osservati sono compatibili
con l'ipotesi Ho.
In pratica l'approssimazione asintotica è:
a) buona se \ii, n1r; 2".5; (i= 1, ... , s);
b) appena soddisfacente se \ii, n1r; 2".~ (i = 1, ... , s).
Esempio 14.2.3 La teoria di Mendel classifica i piselli in quattro gruppi, secondo la

forma (lisci e rugosi) e il colore (verde e giallo), con le seguenti proporzioni:
lisci rugosi lisci rugosi
gialli g/16 3/16 dove i gruppi S; sono definiti da: gialli T1 T2
verdi 3/16 1/16 verdi T3 T4
Si sono osservati n = 556 piselli, ottenendo, per la quattro classi, i seguenti valori:
n1 = 315 - .2.
1r 1 - 16
{ n2 = 108 . I valori teorici, stabiliti da Mendel, sono: { 1r2 = 1r3= 1~
n3 = 101 -.l. 16
7f 4 -
n4 = 32
Dunque:
2 L4 (nk - n. 7rk)2
= 0.47.
X4_1 =
k=l
n · 7rk
Con l - 'Y = 0.05 si ha: x§('Y) = X§(0.95) = 7.81, quindi i dati si accordano bene al
modello di Mendel.
Esempio 14.2.4 Si è lanciato 96 volte un dado, ottenendo le seguenti frequenze d'uscita
delle facce (1, ... , 6) :
n4 = 20
n5 = 26
n6 = 19
Si postula che il dado sia regolare, cioè lfi1r; = ¼ . Calcolando XL

1 si trova xg= 16.
Poichè x~('Y) = x~(0.99) = 15.1, si conclude che il dado non è regolare con 1'1% di
probabilità di sbagliare.
Esempio 14.2.5 Un'azienda usa quattro linee di produzione per assemblare le parti di
un cambio per auto. Le linee sono (almeno teoricamente) equivalenti, quindi producono
la stessa percentuale di cambi che necessitano di manutenzione durante il periodo di
garanzia. L'azienda vuole fare un test per stabilire se effettivamente le quattro linee si
equivalgono.
Su cinque turni di lavoro al giorno, la linea l è usata per due turni, mentre ogni altra
linea è usata per un solo turno. Si decide di prendere i primi 100 cambi difettosi e si
attribuiscono questi pezzi difettosi alle varie linee. Si trova:
linea 1 2 3 4
cambi difettosi 53 18 14 15
L'ipotesi H 0 è che le linee sono equivalenti; quindi, poichè su 5 turni la linea l è usata per
due turni (mentre ogni altra linea un turno solo), le proporzioni (in ipotesi di equivalenza)
1 = 0.4 1 = 0.2
dovrebbero essere: { ½= 0 _2 ½= 0 _2
Detta perciò 1r; la percentuale dei cambi difettosi della linea i, si ha:
7f1 = 0.4 1f3 = 0.2
Ho : { O2 O 2 Ha : H 0 non vera
1r2 = · 1f4 = ·
Il livello di significatività richiesto è 10%, cioè si decide di rishiare di rifiutare l'ipotesi
H 0 con il 10% di probabilità di sbagliare {l - "( = O.l}. Il campione ha dato il seguente
risultato:
(n k - n1rk)'
Linea nk n1rk nk - n7rk
n1rk
1 53 40 13 4, 225
2 18 20 -2 0,2 00
3 14 20 -6 1,8 00
4 15 20 -5 1,25 0
. 2 4 (nk - n-1rk)2
n = 100::::} df = (4- 1) = 3::::} x 4 _ 1 = L k =l ----- = 7.47 5
n · 7rk
Poiché X§(0.9) = 6.25 la regione critica è RC:=. (6.25, +oo). 7.475 E (6.25, +oo) per-
ciò la decisione è di rifiutare H 0 perché l'osservazione suggerisce che le linee non sono
equivalenti.
391
Esempio 14.2.6 All'inizio degli anni '60, per l'arco di un triennio, sono stati registrati
1623 incidenti stradali capitati a 708 guidatori di autobus di una società di trasporto
pubblico nell'Ulster (Irlanda del Nord} [Cresswel i, Froggatt, The Causation of Bus
Drivers Accidenta, New York, 1963}.
I dati rilevati sono stati riportati nella tabella:
incidenti autisti osservati con incidenti autisti osservati con

o 117 6 21
1 157 7 7
2 158 8 6 (14.17)
3 115 g 1
4 78 10 3
5 44 11 1
I risultati oscillavano da 117 guidatori che non avevano avuto incidenti a 1 guidatore che
ne aveva avuti 11. Una prima semplice verifica per stabilire se fosse ragionevole ritenere
che gli incidenti si distribuivano in modo completamente casuale tra i guidatori o se ci
fosse qualche guidatore più portato ad averne passa per lo studio del seguente modello.
Si supponga che gli incidenti che possono capitare nell'arco di 3 anni a un generico
guidatore si distribuiscano ubbidendo alle seguenti regole:
i) il numero medio di incidenti nell'intervallo [O,1] sia costante e sia un numero reale
li> o
ii} P[esattamente l incidente nell'intervallo di ampiezza h] = vh + o(h)
iii} P[2 o più incidenti nell'intervallo di ampiezza h] = o(h);
iv} Gli incidenti in intervalli di tempo non sovrapposti si verificano in modo indipendente
l'uno dall'altro.
Sia ora X la va che conta il numero di tali incidenti (quelli che possono capitare a un
guidatore nel periodo di 3 anni e seguono i}, ii}, iii), iv)) e indichiamo con À il numero
medio di incidenti in tale periodo.
a) Scrivere la legge di probabilità f x (x, >.) di X.
X= 0,1,2,3, ...
b) Si mostri che effetivamente À = E[X]
+oo Àx +oo Àx +oo Àt

E[X] =L e->-x, = e->. L ( _ )' = e->.À L 1 =À
x=0 X. x=I X l ' t=0 t.
e) Si disponga di un campione di dimensione n da X. Si trovi, motivando, lo stimatore

di massima verosimiglianza per À.
e-).ÀXi
Sia (X 1 , ... , Xn) un campione casuale di dimensione n da X dove Xi rv -- -; Xi E
Xi,1
e->.Àx 1 e->.Àxn
{N U {O}}. La funzione di verosimiglianza è L(>.;x 1 , .. , Xn) = --- ·
x1! Xn!
e-n>.>.Lxi
X1! .. ,xn!
n n
Allora: ln[L(>.; x 1, .. , Xn)] = -nÀ + I: Xi· ln À- ln c dove c = IT(xi!) non dipende da À.
i=l i=l
n
I: X;
Derivando: d1ln[L(>.;x 1 , .. , Xn)] = -n + i=~ . Il valore che annulla questa derivata è
n
I: Xi
À = i=l= Xn e si verifica che è un massimo.
n
Pertanto lo stimatore MLE di À è:
, -
À=Xn=--
I:X;
n
d} Per ottenere una stima >.di À si ritenga che i 708 guidatori osservati costituiscano un
campione casuale da X. Utilizzando lo stimatore MLE di À e i dati della tabella 14.17
verificare che tale stima vale 2.29.
Nel nostro caso n = 708; I: x; = 1623 = numero di incidenti accaduti ai guidatori in
3 anni
,\. = I: X;
= 1623 = 2 _29
n 708
e) Si supponga ora che il valore di À del modello vero sia quello della stima. Verificare
che la probabilità che a un guidatore non capiti nessun incidente in 3 anni è pari a O.I.
-2.29 (2 29)0
P[X =O]= e ~! . = 0.1
f) In base alle ipotesi fatte fino a questo punto la va X segue la legge di probabilità
f x (x; 2.29). Volendo ora eseguire un test di buon adattamento per verificare se accettare
o meno le ipotesi fatte, i 708 guidatori vengono suddivisi nelle seguenti classi:
T1 O incidenti T5 4 incidenti
T2 1 incidente Ts 5 incidenti
T3 2 incidenti T1 6 incidenti
T4 3 incidenti Ts più di 6 inciden ti
Indicando con Nk il numero di guidatori con k - l incidenti {k = 8 fa eccezione: in

questo caso Ns rappresenta il numero di guidatori con più di 6 incidenti) completare la
seguente tabella con le frequenze relative osservate e quelle ipotizzate in base al modello
per le classi Tk.
ni/7 O8 = 0.165 P[X =O]= 1r1 = 0.101

n2/7O8 = 0.222 P[X = l] = 1r2 = 0.2 32
n3/7 O8 = 0.2232 P[X = 2] = 1r3 = 0.266
n4/7 08 = 0.1624 P[X=3]=1r4 = 0.203
n 5/7 08 = 0.1102 P[X = 4] = 1r5 = 0.116
n6/708 = 0.0621 P[X = 5] = 1r6 = 0.0 53
n1/7 08 = 0.0297 P[X = 6] = 1r7 = 0.02
ns/7 O8 = 0.0254 P[X > 6] = 1rs = 0.009
Totale 1 1
g) Questi dati sono serviti per il calcolo di x;_= 65.443

2 valore osservato sul campione
(& )2
della statistica test X;_ 2 = n · Ls
n - 7rk , dove s = 8, n = 708 e i gradi di libertà
k=l 7rk
393
sono s - l - p dove p è il numero di parametri della legge di probabilità ipotizzata ricavati
dai dati (p = l nel nostro caso). Qual è la distribuzione di 2 X';_
chi-quadrato con 6 gradi di libertà.

h} Il valore x;_
2 = 65.443 è ampiamente nella regione critica per i test di livello di
significatività l - 'Y = 0.1; 1 - 'Y = 0.05; 1 - 'Y = 0.01 e infine l - 'Y = 0.005. Quale
conclusione si deve trarre da questi risultati?
Rifiuto delle ipotesi fatte. Tra l'altro il p - value è circa 3.5 · 10- 12 quindi l'ipotesi è
assolutamente da scartare.
Test di Kolmogorov-Smirnov
Consideriamo ora la statistica di Kolmogorov:
Dn = Dn(X1, ... , Xn) = sup I Fn(x; X) - F(x) I (14.18)

xEffi.
che misura la massima deviazione di Fn(x), funzione di ripartizione campionaria definita

a pagina 307, da F(x). Se F(x) è la fdr della va X da cui il campione X per la costruzione
di Fn(x; X) è tratto, allora vale:
Teorema 14.2. 7 ( Cantelli-Glivenko) P[ lim Dn

n-oo
= O]= 1
Definizione 14.2.8 La funzione di Kolmogorov è data da:
Si osservi che 1x
A causa della lenta convergenza della serie nelle vicianze dell'origine, questa approssima-
zione però vale solo per À > O.7.
Indichiamo con ..\1'il 1- quantile relativo alla distribuzione di Kolmogorov cioè il valore
..\1'tale che: K(..\1') = T
. . +oo 2 2 +CX) 2 2 . . .
IX Fissato À > O pomamo: I: (-1Jk- 1 , e- 2 k >- = I: (-l)k-l, ak con ak = e- 2 k >- • Siamo d1 fronte
k=l k=l
a una serie numerica a termini di segno alterno con ak > ak+l, quindi convergente. Perciò arrestando
la somma al primo termine (per k = O) l'errore che si commette non supera, in valore assoluto, il primo
termine trascurato:
1='
k=l
(-l)k-1,e-2k 2 >.2 = e-2>. 2 -e-2·2 2 ->.2 +e-2 3 2 ->.2 -e-2·4 2 ->.2 + ·,, (-l)k-1,e-2k 2 >.2 +,,, ~ e-2>. 2
e il modulo dell'errore non supera e- 2 ·22 >-2 . Ma per À :CC::0.7 questa informazione serve a poco perché
l'errore e- 2 ·22 ·>-2 supera 10- 2 , quindi è "grande".
fdr: K('A) fd: K'(ì,.,)

1 ----------------------------
I quantili della K(>-.)sono tabulati in Appendice 7.

Vale il seguente:
Teorema 14.2.9 (Kolmogorov): Se F(x) è continua, allora, per À > O:
lim
n---+oo
P[yn · Dn _::;>-.]= n-oo
lim P[Dn _::; ~]
y n
= K(>-.)
Oss. 6 Il teorema appena enunciato afferma che yn · Dn ~ K(>-.).Si noti perciò che la
distribuzione asintotica di Dn non dipende da F(x).
Oss. 7 Se F(x) fosse discontinua, si potrebbe dimostrare che la distribuzione limite

dipende dai salti di F(x).
Il test di Kolmogorov-Smirnov misura l'adattamento della Fn(x; X) a una fdr conti-

nua F* (x) tramite la statistica di Kolmogorov Dn. Si vuole verificare se la fdr (incognita)
della popolazione X è una certa F*(x). Si estrae dalla popolazione un campione casuale
(X1, ... , Xn) con n grande e si determina Fn(x; X), funzione di ripartizione campionaria.
Poi si calcola il valore d~ della statistica test
D~ = sup I Fn(x;X) - F*(x) I

xEIP:
sul campione osservato (xi, ... ,xn),
Oss. 8 Se X(j), j = l, ... , n sono le osservazioni ordinate in ordine crescente allora
sup I Fn(x;X)- F*(x) I

xEIP:
è raggiunto in uno dei punti x(j)· Infatti consideriamo, a titolo di esempio, l'intervallo
[x(i-1),X(i)), dove adesso i= 2, 3, ... , n. Come si evince dalla figura
]) 2) 3)
x*
X X X X X X
(i-i) (i) (i-I) (i) (i-I) (i)
395
i casi 1}, 2} e 3} mostrano tutto quello che può accadere tra un'osservazione e l'altra,
dove Fn(x;X) è costante e F*(x) è crescente.
Per esempio, nel caso 1}
in [x(i-1), x*) I Fn(x;X) - F*(x) I= Fn(x;X) - F*(x)

in [x*,x(i)) I Fn(x;X) - F*(x) I= F*(x)- Fn(x;X).
È elementare convincersi del fatto che
sup I Fn(x;X) - F*(x) I= Fn(X(i-l);X)- F*(x(i-1))

xE[x(i-1),x•)
sup I Fn(x;X)- F*(x) I= Fn(x(i-l);X)- F*(x(i))
xE[x•,x(i))
In conclusione abbiamo:
sup I Fn(x) - F*(x) I= max [I Fn(X(i-1)) - F*(x(i-1)) I; I Fn(X(i-1)) - F*(x(i)) I]

[x(i-1),X(i))
oppure, indicando con sx e con dx rispettivamente gli estremi sinistro e destro dell'in-
tervallo [x(i-l), X(i))
sup I Fn(x)-F*(x) I= max[I Fn(sx) -F*(sx) I; I Fn(sx) -F*(dx) I]

[sx,dx)
Più precisamente, posto
n+l
'vi=l, ... ,n+l;Ai-1=[x(i-1),x(i)); U Ai-1=lR
i=l
dove X(o) = -oo e quindi Ao = (-oo;x(1)) e X(n+l) = +oo e quindi An = [x(n);+oo),
n+l
dopo aver osservato che LJAi-1 = JR, si arriva alla situazione seguente:
i=l
An-1 A,,
Dopo aver osservato che
Fn(X(o)) = Fn(-oo) = O;F*(x(o)) = F*(-oo) = O;F*(x(n+l)) = F*(+oo) = 1
abbiamo, per i= 1
sup I Fn(x) - F*(x) I= max [I Fn(X(o)) - F*(x(o)) I; I Fn(X(o)) - F*(x(l)) I]

xEAo
per Vi = 2, ... , n
sup I Fn(x) - F*(x) I= max [I Fn(X(i-1)) - F*(x(i-1)) I; I Fn(X(i-1)) - F*(x(i)) I]

xEAi-1
per i= n + l
Ci sono dunque 2n -1 confronti da fare perché il confronto in Ao è già eseguito in A 1 . Per

esempio per n = 5, avendo osservato X(i),x( 2),X(3),x( 4),x( 5), per cercare il sup i valori
da esaminare sono:
1Fn(x(o)) - F*(x(o))I IFn(x(o)) - F*(x(l))I

IFn(x(l)) - F*(x(l))I IFn(x(l)) - F*(x(2))1
1Fn(x(2)) - F*(x(2))1 1Fn(x(2)) - F*(x(3))1
1Fn(x(3)) - F*(x(3))1 1Fn(x(3)) - F*(x(4))1
1Fn(x(4)) - F*(x(4))1 1Fn(x(4)) - F*(x(5))1
1Fn(x(5)) - F*(x(5))1 1Fn(x(5)) - F*(x(6))1
dove:
IFn(x(o)) - F*(x(o))I = IFn(-oo) - F* (-oo)I = O;
IFn(x(o)) 1 ))1 = IFn(-oo) - F*(x(l))I
- F*(x( = F*(x(l))
1Fn(x(5))- F*(x( 6))1 = 1Fn(x( 5))- F*(+oo)I = O.
È ragionevole aspettarsi che l'ipotesi fatta (la fdr di X è F* (x)) sia falsa se
d~ = sup I Fn(x;~) - F*(x) I

xEIP:
è troppo grande, diciamo d~ > e , con e opportunamente scelto. La scelta di e si
esegue con il solito criterio. Si fissa l'ampiezza del test (solitamente si sceglie 1 - 1 =
0.2, 0.15, 0.1, 0.05, 0.01).
Allora, per n grande se H 0 è vera si ha:
P[foD~::; .\] ~ K(A-y) =ì ovvero P[foD~ > A-y]~ 1- 1 .
Se fod~, valore osservato della statistica foD~, supera il 1 -quantile della K, cioè se
fod~ > si rifiuta l'ipotesi che X abbia la fdr = F* (x), Naturalmente non si può
À-y
avere la certezza di non esserci sbagliati: l'ampiezza 1 - 1 del test qualifica, al solito, il
rischio di errore nel rifiutare F*(x) quando tale F*(x) è la vera fdr di X, cioè l'erore di
I tipo.
Essendo 1- 1 la probabilità dell'evento { foD~ > À-y},si sbaglierà nel rifiutare F*(x)
all'incirca nel 100(1 - 1 )% dei casi,
Se invece fod~ ::; À-y , si dice che i dati osservati sono compatibili con l'ipotesi F* (x ),
ovvero i dati non mostrano significative deviazioni rispetto ai valori attesi con l'ipotizzata
F* (x). Al solito si può pensare che fod~ ::; À-y non autorizzi a concludere che F* (x)
sia la vera fdr, ma solo a non rifiutarla, Diamo una interpretazione geometrica alla
condizione P[foD~ ::; À-y]= r·
397
1 . ---------------------------------------------------------
.-----------------;
~~~~~~~ ~ ~ ~ ~ -:----_-_-_-_-_-
_-_-_-_-_-_-_-_-_-_--~------
---------_f_}_
-~----------.
----- ------------:------------------i i
Dal punto di vista analitico essa significa:
Fn(x; X) -
À1'
fa ::;F * (x) ::; Fn(x; X)+
À1'
fa \lx E R (14.19)
(il primo estremo è O se Fn(x) - fa< O; il secondo estremo

À
è 1 se Fn(x) + fa> 1).
À
In altri termini, qualunque sia la vera fdr F*(x) (purchè continua), essa è contenuta nel
dominio aleatorio definito dalla 14.19, con probabilità ì (detto anche fascia fiduciaria
della fdr di X al l00ì%). Se si è disposti a rischiare molto poco nel rifiutare F* (x) (cioè
se 1 - ì è molto piccolo), allora la fascia fiduciaria risulta molto grande ( À1' è grande).
Si osservi che d~ ::; ~ significa semplicemente che l'ipotizzata fdr di X appartiene alla
fascia evidenziata nella figura qui sopra. Si noti che, quanto più piccolo è 1 - ì, tanto
più grande è À1' (cioè l'ampiezza della fascia fiduciaria), quindi tanto meno significativo
è il test.
Riassumendo, per realizzare un test di Kolmogorov-Smirnov:
1) fisso 1- ì e trovo la fascia fiduciaria al l00ì% ; essa è indipendente dalla distribuzione
di X, nel senso che, qualunque sia la fdr di X, essa è contenuta in tale fascia con
probabilità ìi
2) formulo l'ipotesi F*(x) circa F(x) e calcolo d~. Allora, se:
2.a) I d~::; ¾ IF*(x) cade nella fascia fiduciaria e i dati sono compatibili con l'ipotesi.
Questo non significa che il modello sia corretto cioè che la vera F(x) sia uguale alla F*(x)
con probabilità 1 (o con certezza);
2.b) I d~ > ¾I F*(x) non è interamente contenuta nella fascia. Rifiuto allora F*(x)
con probabilità 1 - ì di sbagliare.
I valori ~ sono tabulati in Appendice 7.
Esempio 14.2.10 Una macchina produce cuscinetti a sfera. La misura x del loro dia-
metro è una va X che si può pensare distribuita normalmente. Si formula l'ipotesi che
X ,....,N(2, 1/3). Si eseguono 80 misure e supponiamo che risulti d80 = 0.17. Scelto
< 1.36
1- ì = 0.05, si trova (Appendice 7/1): d80 ior.;0.17 > 0.1520.
v80
>
Quindi si rifiuta l'ipotesi con 5% di probabilità di sbagliare.
Osservazione. = 0.01 (cioè si vuole rischiare l'errore solo con

Se si sceglie l - ì
probabilità pari a l %), sarebbe da veri,ficare il confronto d80 ~ ~ = 0.18224. Poiché
0.17 < 0.18224 si sarebbe conclusa la compatibilità dell'esperimento con l'ipotesi.
Esempio 14.2.11 Un programma per generare numeri casuali è sottoposto a test. Si ge-
nerano n = 15 numeri casuali e si verifica con Kolmogorov-Smirnov se seguono la distri-
buzione uniforme in (O,1). Ecco la tabella raccolta, dove (vedi capitolo 1} f A.frequenze
assolute osservate, F Ac le frequenze assolute cumulate osservate, mentre le frequenze
relative cumulate osservate sono rappresentate dalla fdr campionaria
Fn(x) = numero di osservazioni ::; x

n
e F* (x) è la f dr attesa (ipotizzata vera) dove i = 2, 3, .. . , n, n + l.
sx dx FAc Fn{sx) F*{sx) F*{dx) IFn{sx)-F*{sx) I IFn(sx) -F *{dx)I
- CX) 0.025 o o o 0.025 0.000 0.025
0.025 0.07 1 0.067 0.025 0.07 0.042 0.003
0.07 0.16 2 0.133 0.07 0.16 0.063 0.027
0.16 0.367 3 0.200 0.16 0.367 0.040 0.167
0.367 0.371 4 0.267 0.367 0.371 0.100 0.104
0.371 0.44 5 0.333 0.371 0.44 0.038 0.107
0.44 0.599 6 0.400 0.44 0.599 0.040 0.199
0.599 0.606 7 0.467 0.599 0.606 0.132 0.139
0.606 O.702 8 0.533 0.606 0.702 0.073 0.169
0.702 O.791 9 0.600 0.702 O.791 0.102 0.191
0.791 O.799 10 0.667 0.791 0.799 0.124 0.132
O.799 0.809 11 0.733 0.799 0.809 0.066 0.076
0.809 0.818 12 0.800 0.809 0.818 0.009 0.018
0.818 0.86 13 0.867 0.818 0.86 0.049 0.007
0.86 0.87 14 0.933 0.86 0.87 0.073 0.063
0.87 += 15 1 0.87 1 0.130 0.000
La fdr ipotizzata vera è quella di una distribuzione uniforme tra (O;1) cioè:
{ Ho:
F*(x) = xl(o,l)(x) è un buon modello per i numeri generati
Ha: Ho è falsa
Il livello di significatività del test è l - 'Y = 0.01. In grassetto è segnato il valore in

corrispondenza del quale è raggiunto D~ = sup I Fn (x; X) - F* (x) I . Tale valore è di5 =
xEIR
0.199. Dalla tavola dei quantili della funzione di Kolmogorov per n = 15 e 1- 'Y= 0.01 il
À
confine di rifiuto è (Appendice 7/1} ~ = 0.404. Perciò non si rifiuta l'ipotesi nulla.
V 15
Esempio 14.2.12 Si consideri la tabella sottostante dove sono segnate le distanze in
giorni tra terremoti di magnitudo superiore a 7.5 della scala Richter e con almeno 1000
morti che chiameremo "grandi terremoti". Dal 16 dicembre 1902 (4500 morti in Turke-
stan) al 4 marzo 1977 (2000 morti in Vrancea, Romania} sono stati registrati 63 "grandi
terremoti". Le distanze in giorni tra l'uno e l'altro sono indicati dalla seguente tabella
( che si legge per righe orizzontali}:
840 157 145 44 33 121 150 280 434 736 584 887 263
1901 695 294 562 721 76 710 46 402 194 759 319 460
40 1336 335 1354 454 36 667 40 556 99 304 375 567
139 780 203 436 30 384 129 9 209 599 83 832 328
246 1617 638 937 735 38 365 92 82 20
(14.20)
399
Interpretiamo questi dati come campionamento di un tempo di attesa di un successo (il
veri.ficarsi di un terremoto) da una distribuzione geometrica di parametro p. Ricaviamo
p dai dati osservati:
media - I; dati osservati - 26907 - 433 98 ===} p = __ l_ = 0.0023.

- 62 - 62 - . 433.98
Indichiamo con X la va che conta i giorni d'attesa per avere un terremoto. Con questa
visione sarà ragionevole aspettarsi che i dati provengano da una distribuzione geometrica
(tempo d'attesa del primo successo) di parametro p calcolato dai dati.
Facciamo un test chi-quadro di buon adattamento dei dati osservati a questa geometrica.
Troviamo le classi in cui suddividere i giorni d'attesa. Solitamente si scelgono s classi
Ci in modo che su ognuna ci sia la stessa percentuale di peso calcolata rispetto alla
distribuzione teorica ipotizzata.
Scegliamo allora 10 classi in modo che ci sia circa 0.1 di peso su ogni classe, cioè 1r i ~ 0.1.
Essendo n = 62, ciò basta a garantire che n1ri ~ 5. Per trovare i limiti delle classi
ricordiamo che, se p è il parametro della geometrica allora la funzione cumulativa ha la
seguente espressione:
F[k] = P[X ::; k] = 1 - qk
Essendo p = 0.0023 e q = 0.9977, cerchiamo i limiti delle classi ki in modo che
F(ki) - F(ki-I) ~ 0.1 oppure F(ki) ~ F(ki-I) + 0.1
F(w) =l · - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - · F(/000)
0.9000/
0.9 F(699)
0.8000
0.8 0.6001 F(523) ...
0.7 F(398) ..
0.700/
0.6 F(302)
0.5011
0.5 F(222) ..'"
0.4 0.4002
F(/55) ..
0.3002
0.3
F(97) f
0.2 0.2002
O.I
!.ftKf
rI
46 97 155 222 302 398 523 699 1000
ln(l - a)
Ovviamente se F(k) = 1- qk = a ===} k= lnq ·
':::::ki classi c i JA osservata di Ci F(k i) 7r i n1ri

1 45.7562 gg s; 46 10 0.1005 0.1005 6.231
2 96.9073 46 < gg s; 97 4 0.2002 0.0997 6.1814
3 154.8977 97 < gg s; 155 6 0.3002 0.1 6.2
4 221.8426 155 < gg s; 222 4 0.4002 0.1 6.2
5 301.0216 222 < gg s; 302 4 0.5011 0.1 6.2
6 397.9289 302 < gg s; 398 7 0.6 0.1 6.2
7 522.8642 398 < gg s; 523 5 0.7 0.1 6.2
8 698.9506 523 < gg s; 699 8 0.8 0.1 6.2
9 999.9722 699 < gg s; 1000 9 0.9 0.1 6.2
10 +oo gg > 1000 5 1 0.1 6.2
Per esempio la f attesa 1r8 per la classe C8 è uguale a

P[523 < X s; 699] = P[X s; 699]-P[X:::; 523] = [(l-q 699 )-(l-q 523 )] = 0.09993 é:::: 0.1.
Impostiamo il test. I casi possibili sono s = 10, n = 62. Considerato che un parametro
(p) per calcolare le frequenze attese è stato ricavato dai dati, la statistica test (asintotica)
è
x s-1-1
2 = n.""(Nk
s
n -
L..,
k=l 7rk
1rk
)2
= 62. 0.113352 = 7.027824
Supponiamo che il livello di significatività sia 0.01. Lo 0.99 quantile della x~è 20.1 quindi
non si rifiuta. Per quanto riguarda il p - value, con un computer si può calcolare
1 - x~(7.027824) = 0.5336 = p - value

che ci motiva fortemente a non ri.fiutare.
Ora effettuiamo un'altra verifica. Ci domandiamo: considerando il periodo da O a 26907
giorni è lecito pensare ai terremoti come a successivi arrivi di un processo di Poisson
di parametro À? In questo scenario il tempo passa da discreto a continuo. Inoltre, se
così fosse, i tempi di interarrivo tra un terremoto e l'altro dovrebbero essere distribuiti
come una esponenziale di parametro À, cioè se X è il tempo (esponenziale) di interarrivo
allora:
X rv Exp(À).
Questa esponenziale "mima" la geometrica precedentemente analizzata. È quindi ragio-
l 1
nevale prendere come media A della esponenziale, la media p
della geometrica, cioè
porre
À = p = 0.0023.
Il parametro À rappresenta anche il numero medio di arrivi, nell'intervallo unitario, del
processo di Poisson che, ed è quello che stiamo testando, dovrebbe modellare gli arrivi
dei terremoti.
La tabella (unità di misura: giorni} osservata di questi tempi di interarrivo è la 14.20.
L'ipotesi nulla è:
{ Ho:
F*(x) = J;Àe->-tdt; À = 0.0023 è un buon modello per i numeri generati
Ha: Ho è falsa
I dati tabellati ed elaborati sono i seguenti divisi in 7 tabelle Ti per esigenze grafiche dove
Fn(xo) = O:
401
sx dx FAc Fn(sx) F*(sx) F*(dx) IFn (sx) -F*(sx) I IFn(sx) -F *(dx)I

- 00 9 o o o 0.020 o 0.020
9 20 1 0.016 0.020 0.045 0.004 0.029
20 30 2 0.033 0.045 0.067 0.012 0.034
30 33 3 0.049 0.067 0.073 0.017 0.024
33 36 4 0.066 0.073 0.079 0.008 0.014
36 38 5 0.082 0.079 0.084 0.003 0.002
38 40 6 0.098 0.084 0.088 0.015 0.010
40 44 7 0.115 0.088 0.096 0.027 0.019
44 46 8 0.131 0.096 0.100 0.035 0.031
46 76 9 0.148 0.100 0.160 0.047 0.013
76 82 10 0.164 0.160 0.172 0.004 0.008
82 83 11 0.180 0.172 0.174 0.008 0.007
83 92 12 0.197 0.174 0.191 0.023 0.006
92 99 13 0.213 0.191 0.204 0.022 0.009
99 121 14 0.230 0.204 0.243 0.026 0.013
121 129 15 0.246 0.243 0.257 0.003 0.011
sx dx FAc Fn (sx) F *(sx) F *(dx) IFn (sx) -F *(sx)I IFn(sx) -F *(dx)I

129 139 16 0.262 0.257 0.274 0.006 0.011
139 145 17 0.279 0.274 0.284 0.005 0.005
145 150 18 0.295 0.284 0.292 0.011 0.003
150 157 19 0.311 0.292 0.303 0.020 0.008
157 194 20 0.328 0.303 0.360 0.025 0.032
194 203 21 0.344 0.360 0.373 0.016 0.029
203 209 22 0.361 0.373 0.382 0.012 0.021
209 246 23 0.377 0.382 0.432 0.005 0.055
246 263 24 0.393 0.432 0.454 0. 039 0.060
263 280 25 0.410 0.454 0.475 0.044 0.065
280 294 26 0.426 0.475 0.491 0.049 0.065
294 304 27 0.443 0.491 0.503 0.049 0.060
304 319 28 0.459 0.503 0.520 0. 044 0.061
319 328 29 0.475 0.520 0.530 0.044 0.054
328 335 30 0.492 0.530 0.537 0.038 0.045
sx dx FAc F,.,,(sx) F *(sx) F *(dx) IFn(s x)-F *(sx)I IFn(sx) -F *(dx)I

335 365 31 0.508 0.537 0.568 0.029 0.060
365 375 32 0.525 0.568 0.578 0.043 0.053
375 384 33 0.541 0.578 0.587 0.037 0.046
384 402 34 0.557 0.587 0.603 0.029 0.046
402 434 35 0.574 0.603 0.631 0.030 0.058
434 436 36 0.590 0.631 0.633 0.041 0.043
436 454 37 0.607 0.633 0.648 0.027 0.041
454 460 38 0.623 0.648 0.653 0.025 0.030
460 556 39 0.639 0.653 0.722 0.014 0 . 0 82
556 562 40 0.656 O.722 0.725 0.066 0.070
sx dx FAc Fn{sx) F*{sx) F*{dx) IFn{sx) -F *{sx)I IFn (sx)-F*{ dx)I
562 567 41 0.672 O.725 0.729 0.053 0.056
567 584 42 0.689 O.729 0.739 0.040 0.050
584 599 43 0.705 O.739 O.748 0.034 0.043
599 638 44 O.721 O.748 0.769 0.027 0.048
638 667 45 0.738 O.769 0.784 0.032 0.047
667 695 46 0.754 0.784 O.798 0.030 0.044
695 710 47 0.770 0.798 0.805 0.027 0.034
710 721 48 0.787 0.805 0.810 0.018 0.023
721 735 49 0.803 0.810 0.816 0.006 0.012
735 736 50 0.820 0.816 0.816 0.004 0.004
736 759 51 0.836 0.816 0.825 0.020 0.011
759 780 52 0.852 0.825 0.834 0.027 0.019
780 832 53 0.869 0.834 0.852 0.035 0.016
832 840 54 0.885 0.852 0.855 0.033 0.030
840 887 55 0.902 0.855 0.870 0.046 0.032
887 937 56 0.918 0.870 0.884 0.048 0.034
937 1336 57 0.934 0.884 0.954 0.050 0.019
1336 1354 58 0.951 0.954 0.956 0.003 0.005
1354 1617 59 0.967 0.956 0.976 0.012 0.009
1617 1901 60 0.984 0.976 0.987 0.008 0.004
1901 +oo 61 1 0.987 1 0.013 o
Dal momento che abbiamo ricavato un parametro (>-.)dai dati non possiamo usare la
tavola dei quantili della Kolmogorov (Appendice 7/1} ma dobbiamo utilizzare la tavola
1.06
dei quantili in Appendice 7I 3. Lo 0.95-quantile in questo caso è ~ = 0.1346.
v62
Poiché d62 = 0.082 non si rifiuta a livello l - , = 0.05. Dalla stessa tabella, poiché
0.86
0.082 < ~ = 0.109 il p - value è superiore a 0.2. Questa è un'altra ragione per non
v62
rifiutare.
Il grafico che riassume la funzione di ripartizione dell'ipotesi nulla e quella della campio-
naria è il seguente:
1,0
---
0,8
0,6
0,4
0,2
0,0
403
Il test qq-plot di normalità
Dal test di Kolmogorov-Smirnov si può ricavare un test grafico detto del q-q plot
(quantili contro quantili plot) spesso utilizzatoper testare se una popolazione ha
una distribuzione gaussiana.
Vediamo come funziona. Consideriamo sempre n osservazioni indipendenti X 1, ... , Xn
di una variabile X di legge F(x) e sia Fn(x) = Fn(x;X) la funzione di ripartizione
campionaria (si ricordi che Fn è una va). Se indichiamo con X(1) < X(2) < · · · < X(n) i
valori osservati, riordinati in modo crescente, allora, fino a X(i) compreso, cadono i punti
e quindi Fn(X(i)) = !...
n
Abbiamo visto (paragrafo 12.5) che, al crescere di n, Fn(x) si
avvicina (in probabilità) a P[X::; x] = F(x). Ma il teorema 14.2.7 garantisce che Fn(x)
converge uniformemente a F(x) con probabilità 1. Quindi i punti Fn(X(i)) si avvicinano
a F(x(i)) non solo in probabilità.
Ipotizziamo che X rv N(O; 1) e indichiamo con la sua funzione di ripartizione. Cam-
pionando da X, nelle ipotesi fatte, al crescere di n, Fn(x) si deve avvicinare a P[X ::;
x] = (x).
i
Per n grande Fn(X(i)) =-
e (x(i))sono vicini.
n
Dunque, indicando con q= -1(q) il q-quantile
della legge normale standard (cioè il
= q), poiché e -1 sono
numero che ha alla sua sinistra una massa pari a q, (q)
continue, si può scrivere
cioè se !..
e 
(X(i)) sono i ~ X(i) = -1 ( 
vicini anche -1 ( _ni) = (X(i))) sono vicini.
n n
Ipotizzando dunque che X rv N(O; 1), se in un piano cartesiano si riportano i punti
(
i, x (i)) questi devono stare approssimativamente (per n grande) su una retta. Se ciò
n
non accade si mette in dubbio l'ipotesi che la legge di partenza sia una N(O; 1).
Ripetiamo questo ragionamento ipotizzando, più in generale, che X rv N(µ; a 2 ) e indi-
chiamo con µ,0'2la sua funzione di ripartizione. Questa volta, al crescere di n, Fn(x) si
deve avvicinare a P[X::; x] = µ,0'2(x).
i
Perciò se plottiamo (x(i), -1 2( - ) ) li troviamo ancora sulla bisettrice del 1° e 3° qua-
/L,O' n
drante (modo a). Se invece, in difficoltà a trovare i quantili della 
/L,0'2
(x) vogliamo
ricorre alle tavole della N(O; 1) procediamo nel modo seguente
Se è la fdr della normale standard, si ha:
= P[X::; x] = P -a-::;
µ,0'2(x) [X-µ -a-x-µJ (x-µ)
-a-=.
Per n grande Fn(X(i)) =; =

e µ,0'2(X(i)) 
(x<,~-µ) sono v1cm1.
La relazione col quantile allora diventa
i
-~ (X(i)
~-- - µ)'
n a
quindi X(i) ~ ai +µ

n
Nell'ipotesi perciò che X rv N(µ; lT2 ), riportando in un piano cartesiano i punti (
i, x(i))
n
questi devono approssimativamente stare sulla retta X(i) ~ lT<l>i + µ (modo b). Se ciò
n
non accade si mette in dubbio l'ipotesi che la legge di partenza sia una N(µ; lT 2 ).
Supponiamo di voler verificare se i seguenti dati vengono da una popolazione N(2, 1.8 2 ) :
-1.45 -1.3 -1.08 -0.43 -0.42 -0.25 0.52 0.59 0.61 0.8 0.96 1.04 1.17
1.71 1.78 1.8 2.13 2.39 2.58 2.68 2.85 2.98 3.69 3.89 4.07 6.12
Eseguendo i conti come qui esposto si hanno le seguenti figure (a sinistra modo a e, a
destra, modo b): si accetta perciò l'ipotesi nulla.
~ 7
"'
t.i
'<::,
6
Il
b =a ~'/b = aa + µ
~ 5
4 4
,.
'
'
l
3
/·
2 •
-3 ,.,,.,~ 1 3 -3
,>,,~- -2
-I
-2
Lo stesso procedimento si può utilizzare per testare che una va segua una legge F(x).
1) Si ipotizza (ipotesi nulla) che il campione casuale di dati provenga da una popo-
lazione di F(x).
2) L'ipotesi alternativa è che la popolazione di provenienza non abbia legge F(x).
Indicando con çq il q-quantile della F(x) (cioè çq = p- 1 (q)), si plottano i punti
(çi,X(i))- Se questi stanno sulla bisettrice del 1° e 3° quadrante si accetta l'ipotesi
n
nulla, altrimenti la si rifiuta.
Il qq-plot fornisce un test qualitativo per verificare l'ipotesi nulla. Se la nuvola di punti
si discosta abbastanza da una retta si rifiuta l'ipotesi nulla e si accetta come plausibile
l'ipotesi di provenienza da una legge diversa da F(x).
Un altro test di normalità

Tra i test di ipotesi non parametrici c'è un interessante e pratico test che permette di
decidere ragionevolmente se una popolazione è distribuita normalmente. Per illustrare il
test occorre premettere due semplici definizioni del momento terzo e quarto standardizzati
relativi alla distribuzione di una va X:
j3 _ µ 3 _ E[(X - µ)3]
1 - (T3 - [E[(X _ µ) 2]]3/2
405
µ4 E[(X - µ)4]
/32 = (T4 = [E[(X _ µ)2]]2
/31 caratterizza la skewness (asimmetria) della distribuzione nel senso che, se una distri-
buzione è simmetrica intorno alla sua media µ allora /31 = O. Valori (31 =/-O indicano
presenza di skewness e quindi assenza di normalità.
Inoltre per la distribuzione normale (32 = 3 e quindi (32 =/-3 indica assenza di normalità.
Per la stima di questi due momenti Pearson suggerisce le seguenti espressioni
"""' - k
d ove M k' L..(X; -
= ------; Xn) k > l e' I·1 momento camp10nano
· · centra 1e d"1 or d"me k , X-ne ' 1a
n
media campionaria e S~ è lo scarto campionario non corretto.
Teorema 14.2.13 Se X è una popolazione normale allora:
M' 6 M' 24
B1 = -S •33 Rj N(O· -) B2 = - 44 Rj N(3· -)
n ' n S;, ' n
o, equivalentemente:
M'
_4_3
B2 - 3 S•4
-- = N (O·1)
f-! '
.:::..n....__ Rj
f!
L'ipotesi nulla del test di normalità è ora Ho : {X ha una distribuzione N(µ, lT 2 )}.
Immaginiamo un test di livello 1 - 1 .
Se l'ipotesi nulla è vera per n grande vale
Siano ora m 3,m 4 es~ i valori osservati di M 3, M~ e S~,.e di conseguenza bi e b2 i valori

m'
_3
m'
____:!__3
oose~ti dspettivamente di B, e B,. Se ~e '~ cadono ent,=bi dentm l'intecvallo
[-<J>-1 (!.:p'-),<fi-
1 (!.:p'-)]non si rifiuta l'ipotesi Ho altrimenti si rifuta.
Per esempio sia dato un campione di dimensione 1000 da una popolazione di distribuzione
ignota. Ecco i dati riassuntivi del campione: Xn = 2.075, s~ = 3.9418, m 3= 6.2014, m 4 =
110.6019, 1bi1J6/nl = 1.3012, 1(b2- 3)/v'247°nl = o.3650,, 1
= o.9, <1>- ct'Y)= 1.645.
Allora lbi/ J67'nl < 1.645 e I(b2 - 3)/ v'247'nl < 1.645. Accetto. Se cerco i p-value per
IBi/ J67nl e I(B2 - 3)/ v'247'nl ottengo rispettivamente 0.1912 e 0.7151.

Supponiamo invece di avere un altro campione sempre di dimensione 1000 con i se-
guenti dati riassuntivi: Xn = 0.168, s~ = 2.9535, m 3 = -0.3229, m 4 = 204.9518,
lbi//67'ril 0.1618, l(b2 - 3)/J2J/nl= 1.979, , = 0.9, <r1( 1~,,) = 1.645. Allo-
ra lbi//67'ril::;1.645 e I(b2- 3)/J2J/nl> 1.645. Rifiuto. Se cerco i p - value per
IBi//67'rile I(B2- 3)/J2J/nlottengo rispettivamente 0.8715 e 0.0477.
Oss. 9 Si noti che, quando i due test vengono usati insieme, il livello di significatività
del test congiunto non è più l - 1 . Infatti consideriamo i due eventi
Per un livello di ciascun test pari a l - 1 si ha P[J 1 = 1 e P[ h] = 1 . Usando i due test

congiuntamente per note disuguaglianze si ha: P[J 1 ]P[h] ~ P[J 1 J 2 ] ~ 1 - P[Jf] -
P[Jf] (vedi al paragrafo 2.4) e in conclusione 1 ~ P[J 1 J 2 ] ~ 21 - 1. Per il livello del
test perciò vale: 2(1- 1 ) ~ 1- P[J 1 h] ~ 1- 1 . La vera signi.ficatività del test è compresa
tra 2(1 - ,) e l - 1 e si potrebbe mostrare che è prossima a 2(1 - ,).
Oss. 10 Spesso in econometria si usa la seguente statistica:
che, per quanto detto, in ipotesi nulla, rappresenta la somma di due va indipendenti
asintoticamente N(O; 1) al quadrato. Quindi JB è asintoticamente una va chiquadro
con 2 gradi di libertà. L'ipotesi nulla X rv N(µ; a 2 ) implica che contemporaneamente
l 'assimetria sia nulla e la curtosi sia uguale a 3. Tale ipotesi viene rigettata per valori
di JB troppo grandi.
Test di indipendenza
Un test molto interessante riguarda la possibilità di sottoporre a verifica l'indipendenza
di due variabili aleatorie X e Y.
Supponiamoche i possibili valori della X siano divisi in k classi e quelle della variabile
Y in h classi. Si estragga da (X, Y)T un campione di dimensione N e indichiamo con
N;j la frequenza assoluta osservata e con 'Trij la frequenza relativa attesa (o probabilità
congiunta) della classe (i,j) dove 1::; i::; k; l::; j::; h. Le due tabelle (di contingenza) a
doppia entrata:
X\Y l h X\Y l h
1 N11 N1h 1 7r11 7r1h
N;i 'Trij
k Nk1 Nkh k 7rkl 7rkh
raggruppano le frequenze assolute osservate e le frequenze assolute attese. La quantità

h
R; = I: N;j rappresenta la frequenza assoluta osservata della i-esima classe della X
j=l
k
mentre sj I: N;j rappresenta la frequenza assoluta osservata della j-esima classe
i=l
della Y.
407
h
Analogamente ri = I: Jrij rappresenta la frequenza attesa (o probabilità) della i-esima
j=l
k
classe della X mentre Sj = I: Jrij rappresenta la frequenza attesa della j-esima classe
i=l
della Y.
Il numero di osservazioni attese della classe (i,j) è N7rij· Se c'è indipendenza Jrij = risj.
Poiché non conosciamo né ri né Sj possiamo stimarli nel modo seguente: ri = Ri
N e
S RS
Sj = -1... da cui segue che N7rij = _,_,_J
N N
RS
Supponendo l'indipendenza, ci aspettiamo che Nij sia vicino a ~ J nel senso precisato
dalla seguente statistica test:
k h (N,, _ RiS; )2
""'""' L.,
L., 'J RiS; N
i=l j=l N
che si comporta come una x2 con (k - l)(h - 1) gradi di libertà e dà un livello di

significatività del test che definisce il confine della regione critica.
Esempio 1: Il rapporto settimanale di Business Week su un campione casuale di 100
aziende scelte tra quelle che operano su un certo mercato indica quelle che fanno profitti
e quelle che perdono, e quelle che producono beni o servizi. La seguente tabella mostra il
risultato in una certa settimana. dove X può prendere i valori argomentali guadagnano
o perdita e Y servizi o beni.
X\ Y servizi beni
,........,.,,..-----,-.....,....,,,....--,
guadagni 42 18 60
perdite 6 34 40
48 52 10
N1r11 = (60. 48) - 28 8· N - (40. 48) = 19.2·

100 - . ' Jr 21 - 100 '
N1r 2 = (60. 52) = 31.2· N1r22 = (40. 52) = 20.8

1 100 ' 100
La x ha un solo grado di libertà e il suo valore osservato è:
2
(42 - 28.8) 2 (6 - 19.2) 2 (18 - 31.2) 2 (34 - 20.8) 2 _ 29 087
----- + ---- + ----- + ----- - . .
28.8 19.2 31.2 20.8
Dalla tabella della Xi, considerato che lo 0.995 quantile è 7.88 si ha che il p-value è
piccolissimo. Quindi si rifiuta.
Oss.: quando i gradi di libertà sono pochi invece della statistica sopra citata si
consiglia di utilizzare questa altra statistica (correzione di Yeats):
k h (INij - R';j I - 0.5)2

LL i=l j=l
~
N
Con questa statistica nel nostro caso si ottiene:

(142 - 28.81 - 0.5) 2 (16 - 19.21- 0.5) 2 (118 - 31.21- 0.5) 2 (134 - 20.81 - 0.5) 2
~---~--- + ~--~--- + ~---~--- + ~---~---
28.8 19.2 31.2 20.8
26.925
Anche con la correzione siamo sempre fortemente motivati a rifiutare.
Esempio 2: L'Alfa Romeo sceglie 669 clienti e chiede loro di rispondere a un questio-
nario nel quale devono definire che tipo di guidatore si sentano scegliendo tra 4 categorie
timido, aggressivo, gaudente, prestigioso (variabile categorica X).
L'inchiesta si riferisce a 3 modelli: Giulia, Alfa Sud e Alfa spider (variabile categorica
Y). Il test è fatto per vedere se c'è indipendenza tra il modo di vedersi dei clienti e il
modello acquistato.
osservato timido aggressivo gaudente prestigioso X

alfasud 22 21 34 56 133
giulia 39 45 42 68 194
spider 77 89 96 80 342
Y 138 155 172 204 669
atteso timido aggressivo gaudente prestigioso

133· 138 133· 155 133· l 72 133· 204
alfasud ~ ~ ~ ~
194· 138 194· 155 194· l 72 194· 204
giulia ~ ~ ~ ~
342· 138 342· 155 342· l 72 342·204
spider ~ ~ ~ ~
atteso timido aggressivo gaudente prestigioso

alfasud 27.435 30.815 34.194 40.556
giulia 40.018 44.948 49.877 59.157
spider 70.547 79.238 87.928 104.29
Da cui si ricava la matrice per il chi-quadro:
e·· - [(Nij -
[ tJ] - ~)2]
!!:i0..
N
-[
1.0767
0.0259
0.59
3.1260
0.00006
1,2
0001
1.244
0.741
5.88
1.32
5.66
l
Facendo i conti risulta:
k h k h (N· _ RiS; )2
L L cij = L L 'J Rist = 20.867.
i=l j=l i=l j=l --yr-
I gradi di libertà sono 6, il p-value è 0.002 per cui si rifiuta.
Esercizio 14.3.1 Consideriamo il test d'ipotesi Ho :µ = µ 0 , Ha :µ =/-µ 0 per la media di

una popolazione normale di varianza CJ2 nota, con errore del primo tipo pari a l - 'Y· Sia
[X - fo-
1 ( 1 t), X+ 1 (1!
fo-
1 )] = / un intervallo di con,fidenza al 100"( perµ.
1
[!]_O l'ipotesi Ho è rifiutata se e solo se µ 0 ,f. 11

D1J:'.Jl'ipotesi Ho è rifiutata se e solo se µ E / 0 1
D ìpl { ilinin,fluente
fatto che µ ,f. 1 oppure che µ E / è
L....:__J
0 1
sulle nostre decisioni riguardo a Ho
0 1
409
Esercizio 14.3.2 Sia X1, X2, .. , Xn un campione casuale da f x (x; >-.)= :~ e->-./{o, 1, ..}(x)
la statistica ¼I:7=1 X; serve per stimare >-.
la statistica n~ 1 I:7=1 (X; - X n) 2 serve per stimare >-.
{ la statistica ¼I:7=1 X; serve per discriminare l'ipotesi
Ho : >-.= Ào contro l'alternativa Ha : >-.= Àa
la statistica n~ 1 I:7=1 (X; - Xn) 2 serve per discriminare
{
l'ipotesi Ho:>-.= >-.ocontro l'alternativa Ha : >-.= Àa
Esercizio 14.3.3 In un test sulla media di una popolazione X di momento secondo finito
quando non è nota la varianza, la distribuzione t di Student si applica
[!]O esclusivamente se X è normale
D1J:J esclusivamente se X è normale e il campione è numeroso
D ìpl
L....=_J
{ se X è normale, qualunque sia la numerosità del campione oppure anche
ad altre popolazioni purché il campione sia sufficientemente grandex
Esercizio 14.3.4 Dati due test T1 e T2 per decidere fra l'ipotesi nulla H 0 e l'alter-
nativa Ha, semplici, con probabilità di errore di l O e 2° tipo rispettivamente uguali a
a1,f3 1,a2,f3 2 allora T1 sarà preferibile a T2 se
CTID a1 < a2 e f31 < f32 CTID
0:1 = 0:2 e f31 < h
D1J'.J 0:1 = 0:2 e f31 > f32 D1J:J
0:1 > 0:2 e f31 < f32
Esercizio 14.3.5 Sia X 1 , ... , Xn un campione da una popolazione N(µ; a 2 ), µ e a 2

incogniti; sia Xn la media campionaria e S,; la varianza campionaria corretta. Se tn(ì)
indica il ,-quantile della distribuzione t-Student con n gradi di libertà, la regione critica
per un test d'ipotesi di ampiezza a per le ipotesi composte Ho : µ ~ µ 0 contro Ha : µ < µ 0
è data da
[TI[I]
[TI[I]
[TI[I]
[TI[I]
[TI[I]
Esercizio 14.3.6 Sia X un ccn da una f x (x; >-.)= vk exp [-A (x - >-.)2]
n
la statistica n~ 1 I: X; può servire per stimare >-.
i=l
n
la statistica n~ 1 I: X; è uno stimatore corretto di >-.
i=l
n
la statistica n~ 1 I: (X;-X n) 2 può servire per stimare >-.
i=l
la statistica n~ 1 itl X; può servire per discriminare l'ipotesi
{
0 contro H 1 : >-.= >-.
Ho : >-.= >-. 1
X Se il campione è numeroso, per il teorema di Slutsky, <;;-:;,!

è asintoticamente normale. Quindi
quando il campione è numeroso siamo già in ambito normale e non ha senso usare la t.
Esercizio 14.3.7 Sia X = (X 1 , .. Xn) un campione da X e sia F*(x) la sua fdr.
Definire la funzione di ripartizione campionaria Fn(x)
Il criterio di Kolmogorov è basato sulla statistica:

D:J [TI D~ = inf IFn(x) - F*(x)I
xEIR
D:J[TI D~ = suplFn(x)
xEIR
- F*(x)I
D:J[TI D~ = inf IFn(x) - F*(x)I

xEIR
+ suplFn(x)
xEIR
- F*(x)I
Esercizio 14.3.8 Un test di buon adattamento è un procedimento che permette:

D:J[TI di trovare rapidamente un intervallo di confidenza
ìvl ìpl { di verificare quanto bene n osservazioni X1, x2, ... , Xn
L..:..J L....:_J si adattano a una fdr ipotizzata vera
D:J [TI di trovare uno stimatore corretto ed efficiente
D:J [TI di minimizzare l'errore di II tipo (3 fissato 1- 1 in un test d'ipotesi.
ìvl ìpl { di verficare se il parametro di una certa popolazione
L..:..J L....:_J ha un determinato valore ipotizzato vero
Esercizio 14.3.9 Il test x2 di Pearson o di buon adattamento è utilizzato:

V F quando non si conosce la distribuzione di una popolazione
V F quando non si conosce la varianza di una popolazione normale
V F quando non si conosce la varianza di una popolazione qualunque
V F esclusivamente per verificare ipotesi su popolazioni normali
V F esclusivamente per verificare ipotesi su popolazioni poissoniane
per verificare ipotesi riguardanti la forma funzionale
[!][TI { della distribuzione non nota di una certa popolazione
per trovare un intervallo di confidenza per la varianza
[!][TI di una popolazione normale quando non è nota la sua media
Capitolo 15
Impara dagli errori degli altri
perché non hai il tempo di farli tutti tu
Prevedere è difficile sopratutto

quando riguarda il futuro
antichi proverbi cinesi
Modelli di previsione

In generale chiameremo modello di previsione (caso univariato 1) un legame del tipo:
Y=h(x)+c (15.1)
La 15.1 esprime il fatto che un responso Y si potrebbe ottenere in modo deterministico

come funzione h di una variabile x (non aleatoria, controllata dallo sperimentatore),
disturbata però da un rumore e che contiene tutta l'alea del legame.
La funzione h può essere scelta in modo tale che sia minima la quantità 11:
E[(Y - h(x))2] (15.2)
Riprendendo quanto anticipato nel capitolo 1, h dovrà rendere minima la 15.2 sotto la
condizione di realizzare una relazione lineare tra la variabile Y detta responso, dipendente
(nel senso dell'Analisi), e casuale (nel senso della Probabilità) e una (e, per ora, una sola)
variabile indipendente (nel senso dell'Analisi) x, detta predittore, i cui valori possono
essere fissati con certezza. La relazione è la seguente:
(15.3)
1Il caso multivariato verrà trattato più avanti con una tecnica diversa.
II Dal capitolo 9, sezione Valore atteso condizionato e stima ottima) sappiamo che h(x) = E[Ylx]
e, se X è aletaoria, h(X) = E[YIX].
412 CAPITOLO 15. MODELLI DI PREVISIONE
dove x è il rappresentante dei possibili valori fissati, bo e b1 sono numeri reali non noti.
Il modello allora diventa
(15.4)
e c, che prende il nome di errore casuale o rumore, rappresenta una va di media O e
varianza a 2 . Poiché per noi sarà c rv N (O;a 2 ) il nostro modello si dirà lineare gaussiano.
Possiamo allora pensare che, fissati n diversi valori Xi di x, per ognuno di loro c'è una
va Y; (la cui alea è concentrata in c = ci) che si esprime con la relazione:
(15.5)
Ogni volta che viene fissato "con certezza" un valore Xi del predittore x la Y; risulta
composta da una parte deterministica bo+ b1 xi e da un errore aleatorio ci che concentra
in sé tutta l'alea di Y;. Utilizzando il linguaggio vettoriale, le n relazioni 15.5 si possono
riassumere con la seguente simbologia:
Y = [ln, x] [ :~ ] + e
dove
(15.6)
Oss. 1 In generale ogni rumore ci dipenderà da Xi nel senso che dipenderà dai valori di
x la varianza a 2 di ci. In tutto questo capitolo, però, ipotizziamo che a 2 non dipenda da
x (omoschedasticità) e che le ci siano incorrelate; ipotizziamo cioè che e rv N(O, a 2 In)
dove e = (c1 , ... , cn)' e In è la matrice unitaria (n x n) che ha tutti gli elementi della
diagonale principale uguali a l e quelli fuori dalla diagonale uguali a O). Da questo segue
che anche le Y; sono incorrelate.
Nella sezione successiva andremo alla ricerca del legame 15.3 che sarà definito quan-
do avremo trovato i valori bo e b1 o, meglio, le loro stime. Vedremo che le stime
rappresenteranno i valori che due stimatori b0 e b1 assumono su certe osservazioni.
Oss. 2 Per non appesantire la simbologia, indicheremo con bo e b1 sia gli stimatori
(che sono va) sia i loro valori sul campione osservato (che sono numeri). Cioè bo e b1
potranno essere, di volta in volta, a seconda del contesto, stimatori o stime dei parametri
ignoti bo e b1.
L'operazione che ci porta a ottenere la stima di bo e b1 passa attraverso il campionamento.

In corrispondenza di ogni valore fissato Xi del predittore si sarà osservata la quantità Yi,
cioè il valore che la va Y; prende in corrispondenza di Xi. Occorre prestare attenzione
a cosa significa campionare n valori di Y. In realtà non avremo l'impressione di stare
campionando, perché, durante l'analisi di un fenomeno reale (l'andamento di un indice
di borsa in un certo periodo di tempo, il peso medio del cervello di certe specie animali
in relazione al loro peso medio corporeo, il rendimento di un certo impianto chimico
in relazione alla temperatura di funzionamento), osserveremo le quantità Yi (il valore
dell'indice, il peso del cervello, la resa dell'impianto) in corrispondenza di certe quantità
Xi fissate da noi (la data, il peso corporeo, la temperatura). Utilizzando un linguaggio
più formale (matematico) si può immaginare che le cose vadano in questo modo. Si
ipotizza di conoscere b0 e b1, oltre ai valori Xi. Si immaginano le quantità osservate Yi
413
ciascuna come il risultato di un campione di dimensione 1 della va e;, quantità aleatoria
in gioco. L'esempio in figura mostra quale potrebbe essere il risultato di due diversi
campionamenti a x; fissati della resa in percentuale dell'impianto chimico dell'esempio
15.1.1. Si è tracciata la retta y = bo+ b1 x = -2.7394 + 0.483x, (cioè bo = -2.7394 e
b1 = 0.483) e si sono prese per ascisse i punti Xi = 100 + (i - 1) · 10; i= 1, ... , 10 che
rappresentano le temperature. Al primo campionamento i valori di Y che corrispondono
a Xi sono quelli della tabella dell'esempio 15.1.1 e sono stati indicati con il simbolo *·
Possiamo immaginare che, a un secondo eventuale campionamento, i valori osservati
siano invece indicati con &. I grafici delle gaussiane tracciate in corrispondenza di ogni
Xi mostrano a livello intuitivo il campo di variabilità di Y; intorno a E[Y;] = b0 + b1xi.
110 o.-------------,
90 ~b +b . Y,=b 0 +b,x,+e,
o ,x,
70
50 y = - 2. 7394 + 0.483x = IÌ0 + 'iì,x
30
10
bo
_10 10 10 10 40 50 60 10 80 90 100 110 no 130 uo 150 160 110 180 190 200
Il metodo dei minimi quadrati ci permette, date n coppie di punti (xi, Yi); i = 1, ... , n
di determinare i due valori b1 e bo in modo che le fj; = bo + b1 x; minimizzino l'errore
I:~=I (y; - fJ;)2 = (y - y)T (y - y), quadrato delle differenze tra i valori osservati di Y e i
suoi valori stimati fJo norma al quadrato IIY- 911 2 del vettore y -y = (y1 -fii, ... ,Yn -
~ )T
Yn ·
Esempio 15.1.1 Si sta valutando il rendimento di un processo chimico analizzando la

correlazione tra temperatura di funzionamento dell'impianto e il suo rendimento in ter-
mini di percentuale di prodotto fatta cento la produzione ideale totale. Le osservazioni
ricavate da una rilevazione sono nelle prime due righe della tabella:
t empera tura in Cf' 100 110 120 130 140 150 160 170 180 190
percentuale 45 51 54 61 66 70 74 78 85 89
42 49 48 59 67 72 77 82 87 92
altre rilev azioni 4O 48 43 58 63 74 78 80 87 95
41 47 55 60 65 72 75 79 86 93
N.B.: le righe 3, 4, 5 mostrano altre osservazioni, ottenute da rilevazioni successive, che

noi non utilizziamo, ma che avrebbero dato luogo ad altre rette di regressione, evidenziate
tratteggiate nella parte sinistra della fig. 15-1.
Interpoliamo con una retta le coppie di dati delle prime due righe della ta'!._ella,
3:1:tilizzando
la tecnica del paragrafo 1.11. Le motivazioni del fatto che i valori bo e b1 ottenuti
rappresentino le stime dei coefficienti bo e b1 del modello lineare che spieghi la dipendenza
della percentuale dalla temperatura, sono esposte nei prossimi paragrafi. Riassumiamo i
dati che ci occorrono (n = 10):
10 10 10
x = l45;y = 67.3; I: xf = 218500; I: yf = 47225; I: x;y; = 101570
i=l i=l i=l
10 10 10
Bxx = I: x7 - l0x 2 = 8250; Sxy = I: x;y; - nxy = 3985; Syy = I: Yl- l0y 2 = 1932.1
i=l i=l i=l
Sxy
A
b1 = -sxx
= 0.483 bo=y - b1x= -2.739.
Lo scatter plot dei dati è (a destra nella figura):
Regressio1'elineare - lmpia11to chimico

,,,,,~' 9(/
90 .V= 0.5248 x. 6. 703 ,,,,,, 85
85 y = 0.490] X - 2. /939
80 y = 0.465 X+ 2.5//9 80
75 75
70 70
65 65 y = 0.483 X - 2. 739
60 ,-:;-'
.,,,,,,
.,,,.
.,,. 60
55 ,:: -' 55
~~ ,::::::::/
50
45
4(1______________ _
100 110 /20 130 140 /50 160 170 /80 190 100 JJ0 120 130 140 150 160 170 /80 190
Figura 15-1:
Oss. 3 Per maggiore chiarezza, indicheremo le variabili (aleatorie) con le lettere maiu-
scole e i valori osservati delle variabili con le lettere minuscole. Per esempio: SxY =
I:(x; - x)(Y; - Y) mentre Sxy = I:(x; - x)(y; - y)
15.2 Varianza spiegata e varianza residua
X.
'
415
Come si evince facilmente dalla figura, vale la seguente relazione:
(y; - Y) = (ii; - y) + (y; - 'f);)
da cui si può arrivarem a:
n n n
I: (y; _ y)2 = I:('!); _ y)2 + I: (y; _ '!);)2 (15.7)
i=l i=l i=l
che in termini più suggestivi (vedi anche capitolo 17) si può scrivere così:
varianza di Y = varianza spiegata dal modello + varianza residua (15.8)
Ricordiamo che, a meno del fattore moltiplicativo n~ 1 , la quantità I::(Y; - Y) 2 rappre-

senta la varianza campionaria di Y, cioè una stima (corretta) della varianza di Y.
Oss. 4 Molto importante. Avevamo già introdotto un linguaggio vettoriale nella for-
mula 15. 6. Completiamo quella notazione con le seguenti uguaglianze:
y-y=- (Y1-Y,···,Yn-Y
- -)T ;y-y=
~ - (~ - ~
Y1-Y,···,Yn-Y -)T ;y-y=~ (Y1-YI,···,Yn-Yn
~ ~ )T
Con queste notazioni la 15. 7 si può scrivere:
(y - yf (y - Y) = (y - Y)T (y - Y) + (y - yf (y - y)
e quindi di:
IIY- Yll2 = IIY- Yll2 + IIY- 911
2 (15.9)
la cui dimostrazione diventa ovvia osservando la figura 15-4.
Naturalmente 15.9, che è scritta per una osservazione dei vettori Y, Y ~e Y, vale anche
se sostituiamo i valori osservati con le variabili aleatorie. Si osservi che Y è la proiezione
ortogonale di Y rv N(bo + b1x, a 2 In) su V generato da [ln, x] mentre di Y - Y è la
proiezione ortogonale di Y su V_!_,ortogonale a V (vedi cap. 11). Da questo segue
~ ~
anche che Y e Y - Y sono indipendenti.
Oss. 5 Se si proietta Y su ln, cioè se si suppone che il modello sia Y = bo allora Y =

Y.
La "varianza spiegata dal modello" si definisce anche "varianza dovuta alla regressione"
(cioè alla presenza del predittore x nel modello), e si indica con SSR mentre la "varianza
residua" si definisce anche "varianza dovuta agli errori" e si indica con SSE come indicato
dalla seguente:
III (Yi - fi) 2 = (iii - fi) 2 + (Yi - iii) 2 + 2(iii - y)(Yi - iii)
I:(Yi - fi) 2 = I:(Yi - fi) 2 + I:(Yi - iii) 2 + 2 I:(iii - fi)(Yi - yi)
Ora è: iii =bo+ b1xi = fi - b1i: + b1xi, Sostituendo si ha:
(iii - fi)(Yi - Yi) = b1(xi - x)(Yi - fi + b1x - b1xi) = -bi(xi - x) 2 + b1(xi - x)(Yi - fi).
Sommando:
'2 2 ' S';y S';y
I:(iii - fi)(Yi - iii) = -b 1 I:(xi - x) + bi I:(xi - x)(Yi - fi) = - - - = O
8xx 8xx
Definizione 15.2.1 Si chiamano residui le quantità
e somma dei quadrati degli errori o somma dei quadrati dei residui l'espressio-
ne:
(15.10)
Oss. 6 Scritta così SSE è una va; invece I:(Yi -fj;) 2 rappresenta una stima di SSE sul
campione osservato.
Poniamo
Syy = SSr = IIY- Yll = 2

I:(Y; - Y) 2 = I: Y;2 - nY 2
somma totale dei quadrati degli scostamenti degli Y; dalla loro media e
(15.11)
somma dei quadrati degli scostamenti dei valori del modello lineare dalla media degli Y;.
La 15. 7 si può scrivere:
(15.12)
Nella 15.12 si può pensare che SSr sia un indice della variabilità di Y e che SSR sia la
la parte di variabilità di Y spiegata dai predittori, mentre SSE è la parte dovuta agli
"errori". A proposito dei simboli SSE e SSR vedere una nota nel capitolo 17.
Una formula per S SE
A2 - A_ 2
+ b 1x
A
SSE = I:(Y; - Y;) = I:(Y; - Y - b1 x;) =

- 2 '2 2 , - S y 2 S2y
= I:(Y; - Y) + b1 I:(x; - x) - 2b1 I:(Y; - Y)(x; - x) = Syy + _x_ - 2-x-
Sxx Sxx
da cui:
SSE = SyySxx - S~y _ S b, S (15.13)

S - YY - 1 xY
xx
Una formula per S SR
15.3 Stimatori di b0 e b1 e di <52
Parametri della retta

Se nelle formule che definiscono boe b1 nel caso numerico, ottenute da coppie assegnate
(x;, y;), si sostituiscono i numeri reali Yi con le va Y; = bo + b1Xi + €;, Y; rv N(bo +
417
b1 xi, aT),r::rv N(O, aT),si ottengono gli stimatori (con il metodo dei minimi quadrati)
di b0 e b1 . Gli stimatori cercati, ricordando che I:(xi - x) = O, sono perciò:
bi = SxY = I:(xi - x)(Y; - Y) = I:(xi - x)Y; = I: xiY; - nxY

{ Sxx I:(xi - x) 2 I:(xi - x) 2 I: XT - nx 2 (15.14)
bo= Y - b1x
per cui Y= bo + b1X è lo stimatore della media di Y a X fissato.
Oss. 7 Fatta un'osservazione (xi, Yi) (i = 1, ... , n) la retta di regressione y = b0 + b1x

passa sempre per il punto (x, y) dove x è la media aritmetica dei predittori e j} è la media
dei responsi osservati.
Oss. 8 Nelle formule seguenti scambieremo spesso Yi con Y;, Yi con Y; e j} con Y a
seconda delle convenienze. Ovviamente dal punto di vista algebrico non cambia nulla e
tutte le formule continuano a valere
Correttezza di b1 e bo
( :•) Correttezza di b1
Ricordando che Y I:(xi - x) =Osi ha:

A I:(xi - x)(Y; - Y) I:Y;(xi - x)- YI:(xi - x) I:Y;(xi - x) . .
b1 = '-"'( . __ ) 2 = S = S qumd1:
L.J Xi X xx xx
1 1
+ b1xi)
A
E[b1] = -8 I:(xi - x)E[Y;] = -8 I:(xi - x)(bo =

xx xx
bo '-"' _ b1 '-"'
=-L..,(Xi-x)+-L..,(Xi-XXi=- _) b1 ('-"' 2
L..,Xi-nx _2)
=b1.
Sxx Sxx Sxx
( :•) Correttezza di bo
Distribuzione di b1 e b0
Distribuzione di b1
(15.15)
Infatti poiché b1 = I: Y;ixi - x) è la combinazione lineare di n va Y; rv N(bo + b1xi, a 2 )

xx
b1 sarà ancora una va normale di media b1 (per la correttezza di b1) e
I:(xi - x)2 2 a2
A
var[b 1] = 82 a =
xx
s·xx
Distribuzione di bo
A (]'2 I: x2
b0 ,.__,N(b 0 , -
8 xx --')n (15.16)
x2a2 _ a2
Infatti bo = Y - b1x dove b1x ,.__,N(b 1x, -8 N(bo
) e Y ,.__, + b1x, -) da cui segue
xx n
immediatamente che bo è una normale di media bo. Ora
var[b 0 ] = var[Y] + x 2 var[b 1] - 2x cov[Y, b1]
- (]'2 A x2
var[Y] = - e x 2 var[b 1] = -8 a 2
n xx
-A
Per quanto riguarda 2x cov[Y, b1] se si pone Ci = T

X·-X
xx
A
si ha b1 = I: ciY;. Da ciò segue
cov[Y, b1] = cov[I: ~Y;, I: ciY;] e per le proprietà della covarianza (capitolo 9) si ha:
n
- 1 A
cov[Y, b1] = cov[I: -Y;, I: ciY;] =

n
c· c· a2
=I:_.:.
n
var[Y;] +2 L L ...1...
n
cov[Y;, Yj] = - I: ci= O.
n
I.,;i<j.,;n
In conclusione:
var[bo] = -
a2
+ -ax2 2
= a
2 [ 1
- + -x2 ] a2
---
I:x7
n Sxx n Sxx
Uno stimatore corretto per r7 2

Abbiamo già osservato che, nelle nostre ipotesi, var[Y;] = a 2 . Siamo autorizzati da quanto
visto nei capitoli precedenti a utilizzare -( 1 ) I:(Y; - Y) 2 per stimare var[Y;] = a 2 •
n-l
Inoltre usiamo Y; =bo+ b 1 xi per stimare bo+ b1 xi = E[Y;], e Y per stimare E[Y;] non
sarà sorprendente cercare di stimare a 2 partendo da I: (Y; - Y;)2, cioè:
32 = _l_ I:(Y; - Y;)2 = SSE = MSE (15.17)

(n - 2) n- 2
Per verficare che
SSE 2
7 rv Xn-2
e che 3 2 è uno stimatore corretto di a 2 vedere il paragrafo 15.13.

Valgono anche i seguenti lemmi:
Lemma 15.3.1 SSE è indipendente da bo e da b1 .

A A - A A -xa 2 A A
Lemma 15.3.2 Poiché cov[b 0 , b1] = cov[Y - b1 x, b1] = - 8--, b0 , b1 sono indipendenti
xx
se e solo se x = O.
419
15.4 Il coefficiente di variazione r 2

Il coefficiente di variazione è definito come il rapporto tra la varianza di Y spiegata dal
modello (o varianza dovuta alla regressione) e la varianza di Y, cioè:
varianza spiegata
r 2 =-------
I:7=1(Y;- Y)2
(15.18)
varianza di Y I:7=1(Y;- Y)2
varianza spiegata varianza residua
Poiché dalla 15.8 si ha che 1 = . d' y
varianza 1
+ ------
varianza di Y
la 15.18 si può
scrivere anche:
2
r = l - -------
varianza residua I:(Y;- Y;)2
= 1 - ------
= 1 _ SSE (15.19)
varianza di Y I:7=1(Y;- Y) 2 Syy
Chiaramente O ::; r 2 ::; 1.
Più il modello spiega, più la varianza spiegata deve essere vicina alla varianza di y. Perciò
r 2 vicino a 1 è una condizione necessaria per la bontà del modello. Ma un r 2 alto non
basta a garantirne la bontà come si racconterà nel paragrafo seguente.
, 2 , SxY
Con un minimo di conti, considerato che SSE = Syy - b1 SxY, si ha r = b1 --
Syy
S;y
= '-"'(
{I:(x;-_)x)(Y;
'-"'(
- Y)}2 d
)2
. . . ·1 ffi . d' 1 .
a cm s1 ncava 1 coe ciente 1 corre az10ne:
2
SxxSyy L.. X; - X L.. Y; - Y
I:(x; - x)(Y; - Y)
r = ----;:=========
vI:(x; - x)2 I:(Y;- Y)2
(15.20)
Esempio 15.4.1 Cinque persone affette da bulimia sono state messe a dieta ferrea.
Questi i dati osservati:
X = numero di settimane di dieta 3 2 1 4 5

Y = chili persi 6 5 4 9 11
I dati plottati e la retta regressione dei minimi quadrati tra Y e X danno la seguente
figura:
12 11
10 y = 1,8x + 1,6 •
• 6
o+--~--~-----~
tettlmane
Infatti si ha:
n = 5, I: x;y; = 123, I: x; = 15, I: x7 = 55, I: Yi = 35, I: YT = 279
. , I: x;y; - nxy , _ , _
da cui b1 = '-"' 2 _ 2 ; bo = y - b1x
L..xi - nx
15 35
123 - 5 O 5 5 O A 35 15
cioè b1 = ( 15 ) 2 = 1.8; bo = 5 - 1.8 5 = 1.6
55-5 5
In base a questo modello si può calcolare per quante settimane si debba fare la dieta per
perdere 20 kg. Infatti:
20 - 1.6
Y = 1.6 + l.8x. Posto Y = 20 si ha x = ---
A A
= 10.222 settimane
1.8
Quanta parte della variazione di peso è spiegata dalla regressione, cioè cosa vale SS;?
ss
SyySxx - S;y
Da SSr = SSR + SSE ::::}SSr = SSR + S dividendo entrambi i membri
xx
per Syy otteniamo
ss
dove S R è la variazione percentuale di Y spiegata dalla regressione rispetto alla varia-
YY
ss
zione totale di Y. Si noti che S R è il quadrato di
yy
ì:=x7 - nx 2
ì:=Y;2-nY 2
SxY ì:=(x; - x)(Y; - Y)

e che ---:::===
-JSyySxx
---;::::::::===============
vì:=(x; - x) ì:=(Y;- Y)2
sarebbe uno stimatore
2
del coefficiente di
cov[X,Y]
regressione p = ---'----'-
nel caso X fosse una va.
axay
r = b1
A lf:
Il valore osservato di-----
r è:
I:x7 - nx 2
A
= b1 '-"' 2
L.. Y; - ny
_ 2 = 1.8
55-5 (1
279-5
5 )2
5
-( 35-), = 0.97619. Quindi r 2 = 0.95295.
5
Concludiamo che il 95.3% della variazione del peso è spiegata dalla dieta.
15.5 Una pulce nell'orecchio

All'inizio di questo capitolo abbiamo affrontato il seguente problema: assegnati n valori
x; di un predittore x, in corrispondenza dei quali vengono osservati i responsi Yi (x; e Yi
costituiscono una nuvola di punti (x;, y;)) si vuole trovare una funzione h(x) = bo+b1x che
"meglio" descrive il legame tra Y ex. Più precisamente abbiamo affrontato l'equazione
Y = h(x) + r::=bo+ b1x + r::

dover:: rv N(O; l) è il rumore gaussiano e rappresenta l'alea del legame e abbiamo trovato
bo e b1 in modo che risultasse minima E[(Y-(bo+b 1x)) 2 ] passando attraverso le derivate
di ì:=[Yi- (bo+ b1x)]2, somma dei quadrati degli scarti tra gli Yi osservati e i bo+ b1x;
rilevati su h(x).
Fatte tutte le operazioni si arriva al modello lineare gaussiano
421
Va bene questo modello? Come abbiamo già visto può essere utile calcolare il coefficiente
di variazione r 2 •
Un ulteriore passo può essere quello di analizzare il diagramma dei residui
's; = Yi - (bo+ b1x;) = Yi - Yi

plottandoli o contro i valori stimati fj;, cioè rappresentando su un grafico i punti (fj;, s;),
o contro gli x;, cioè rappresentando su un grafico i punti (x;,'s;)).
Le forme dei diagrammi che si ottengono in questo modo possono sostanzialmente essere
riassunte dalle quattro tipologie in figura. La 1) suggerisce che b0 +b1x è un buon modello,
la 2) e la 3) indicano invece un cattivo fit del modello ai dati e suggeriscono o l'aggiunta
di un predittore o il cambio di modello, la 4) infine suggerisce che la varianza del rumore
non è costante ma cresce con il crescere del valore dei predittori (eteroschedasticità).
3) 4)
Figura 15-2:
Per realizzare i diagrammi a volte i residui vengono standardizzati dividendoli per la

stima della loro deviazione standard, cioè per jSSE/(n - 2). Le quantità così ottenute
Y; - (bo+ b1x;)
jSSE/(n - 2)
si chiamano residui standardizzati. Se il modello è corretto i residui standardizzati sono,
approssimativamente e per ogni x;, va normali standard e sono perciò distribuiti intorno
a O secondo questa legge.
Vediamo un plottaggio di residui dall'esempio 15.1.1 che riguarda un impianto chimico.
Riportiamo la tabella già vista e aggiungiamo i dati riguardanti i valori stimati fj; e 1
residui Yi - fj;.
X = temperature in C 0 100 110 120 130 140 150 160 170 180 190
Y = percentuale 45 51 54 61 66 70 74 78 85 89
fj 45.56 50.39 55.22 60.05 64.88 69.72 74.55 79.38 84.21 89.04
s -0.56 0.61 -1.22 0.95 1.12 0.28 -0.55 -1.38 0.79 -0.04
Il plottaggio dei dati è già stato visto nella figura 15-1.

Per i residui la situazione è la seguente
Rc-1rnsioor llnu re R,earr11ione
Une-1rt!,..
Crnf1ct1del ffiiidul(R , ,s 1:) Gr11-f'iro
die-1
mildul (R v,, V)
I. S 1.5
I:,.
I. O I. O I:,.
o., I:,.
o,s I:,.
-0.5 I:,. I:,.

-I. O
,I. O
-1 ,S
·L S -l .O
90 IO-O 110 L20 13il 1-1-0 l!fl 160 L70 180 19'0 20U 40 H -1-6 -19 !2 !5 :5R 61 6,_ 67 70 7J 76 i
Il plottaggio dei residui, sia versus y sia versus x, suggerisce cha la regressione possa essere
un buon modello perché la dispersione intorno allo O non sembra evidenziare forme del
tipo 2), 3) o 4) presentate nella figura 15-2.
Se il grafico dei residui non ci convince possiamo cambiare modello. In genere è il contesto
in cui si affronta il problema o il modo con cui sono distribuiti i punti (xi, Yi) a suggerire il
modello. Si può ipotizzare un modello tipo Y =bo+b1 x + b2x 2 (vedi al paragrafo 15.10),
oppure Y= 0: + ,Bln x o, ancora, Y= 0: + (!_.Questi
X
modelli sono sempre lineari nei
coefficienti (ma non nei valori del predittore x). Si può però pensare anche a modelli dove
i coefficienti non appaiono in modo lineare. Tra tutte le situazioni possibili ci limitiamo
a ricordare le seguenti:
forma ipotizzata trasformazione forma linearizzata rumore

T=at r:: Y=lnT;x=lnt Y=lna+,Bx+lnr:: lnr::rvN(O;l)
. ...
~<0 ~=l -·· ~>l
.-·
-~······
.--
.•..
i,
_ ···
.
•
•
0<
. ~<]
..,
.• .... _
__.-·
•
·--
.. -
.•.···
-
~ ---~ ----~--- ! ... . .... . . .. ,
•
T=ae xr:: Y=lnT Y=lna+,Bx+lnr:: lnr::rvN(O;l)
.
~ <O ~ >O
•
'"_..- .
T=ae 13
x
.
-..-.-·· .
. . --~--. .
····,.
, .---- _
·~----~-
423

Y=a+,6lnt+c x=lnt Y=a+,6x+c c"'-'N(0;l)
P>O
..
•----· ···
. ~--· ~----
~
T-=a +~ lnt
~-
··· ···-~
.--~
•
forma ipotizzata trasformazione forma linearizza ta rumore
T l l
T= Y=-·x=- Y = a-,6x + e c"'-'N(0;l)
at - ,6 + et T' t
q
T=-t-
at-~
---~<0;a<0 --------p>o; a> O
Osserviamo che per procedere con la stessa tecnica già utilizzata si deve passare alla forma
linearizzata. Da questa poi, col metodo dei minimi quadrati, si ricavano i parametri che
appaiono nella forma stessa e, infine, si risale ai valori dei parametri del modello iniziale.
Esempio 15.5.1 È noto che grandi masse d'acqua presenti all'interno di un territorio
mitigano il clima delle zone circostanti. Alle ore 24.00 di un fredda notte di primavera
un gruppo di ricercatori, seguendo una direttrice rettilinea di pianura protetta dal vento,
rileva le temperature Y {in gradi centigradi C) in 1O siti che distano 500 metri l'uno
dall'altro. I dati rilevati sono i seguenti:
X 1 2 3 4 5 6 7 8 9 10
(15.21)
Y 2. 78 2.36 1.89 1.62 1.40 1.36 1.33 1.11 0.90 1.06
Nota: il valore dix rappresenta un sito a distanza dix· 500 mt dal lago; quindi x non è
un'etichetta del sito ma la sua distanza dal lago in una unità di misura pari a 500 mt.
La nuvola di punti descritta in 15. 21 potrebbe essere interpolata con un modello lineare
del tipo
Cerchiamo con la solita tecnica le stime di bo e b1 .

Sintesi dei dati
10 10
n = 10 I: x; = 385 B xx = L x; - 10x 2 = 82.5
i=l i=l
10 10
x = 5.5 L XiYi = 71.72 BxY = I: XiYi - nxy = - 15.18
i=l i=l
10 10
y = 1.58 I: y; = 28.26 Syy = I: yf - 10g2 = 3.296
i= l i=l
Stime
- SxY 52
b1 = - = -0.184 r2 = xY = 0.8474
Bxx BxxSyy
quindi Yi =bo+ b1 xi = 2.592 - 0.184xi.

Tutto lascia supporre che il modello lineare non sia poi tanto male. Come si vede in
figura (parte sinistra) i punti (xi, Yi) sembrano ben allineati.
Rcgrn~ion~· linnirc Rqi r~-uiòut lln~'lln:
V • d1 1I. f . ~ I Uiidi rq:'""~ lo~e Cninco dti rt.'liidui Ul Y•
,. .
\ 'li
,,.
,.,.
n.,o
,,, o ,.,. t---- -A.,..-A_c,. _____ __ _
,,'·', o
,.o o
..•
0,8
o., .,.,
•11.2
0
0,2
o.o .11
, ,111
~------~-----
IO 8.11 I.! 0.-4 0.6 IIJj I.lt 1.2 u U I.I Z.11 ~.l 7..l ?.ti I.Il J.a
= Yi - yi versus y desta però qualche sospetto perché sembra avere

Il grafico dei residui ii
una ben definita forma paraboleggiante.
Il contesto del problema, le esperienze precedenti, suggeriscono di provare col modello:
(15.22)
La dipendenza da f3 non è lineare. Il rumore è sempre c. Si chiede di linearizzare il
modello e di controllarne i residui.
Passando ai logaritmi la 15.22 diventa:
ln T = ln a - (3x + ln e
Posto Y = ln T, bo= ln a, b1 = -(3 il modello 15.22 ha la forma lineare seguente:
Y = bo + bix + ln e
dove si chiede che ln e rv N (O;a 2 ).
I valori stimati di b1 e bo si ottengono dalla seguente tabella (plot dei dati nella pagina
successiva):
X 1 2 3 4 5 6 7 8 9 10
Y = ln(gradiC 0 ) 1.02 0.86 0.64 0.48 0.34 0.31 0.21 0.11 -0.11 0.05
425
Sintesi dei dati
10 10
n = 10 L
i= l
xr= 385 B xx = L
i= l
x I2 - 10x 2 = 82 • 5
10 10
x = 5.5 L Xi Y i = 12 S xY = L Xi Y i - nxy = - 9.45
i= l i.= l
10 10
y = 0.39 L
i= l
y;= 2.1025 Syy = L
i= l
y;- 10g 2 = 1.1815
Stime
A SxY Sx2Y
b1 = - = -0.115 r 2 = --- = 0.9162
Bxx SxxSyy
Plot dei dati

1.2 R(.-gres:tion(' lin~are
G ran"o dei d:11i
I.O
0.8
0.6
o
0.4 o
0.2
0 1--------------~ ~ ~
-0.2
2 3 4 5 6 7 8 9 10
A
O r valori .,.,,.,,,,,1 _.. r ralorlrtlnuttl
Il coefficiente di variazione (nel piano (InT,x)) è meglio di quello precedente.

Plot dei residui
Rl-gn-i;s.ionc Hn~:ll'l' Rt'j!n$ii; Ì{mclin c,iu <'
0.2
0.2 G rafico dei r1'Sidui (H. n x) b. Gnl[kotld ~ idui ~R n. Y )
b.
b.
O.I O.I
b. b.
o 1----- 1:,----- 1:,

-~-~--- o -- -+-~~---------
b.
b.
b.
-O.I b. b.
-O.I b.
-0.2
2 3 4 S 6 7 8 9 10 -0.2 o 0.2 0.4 0.6 0.8
Sia i residui vs x che quelli vs fj si comportano meglio di prima. Decidiamo di non

rifiutare questo modello.
Possiamo tornare al modello originario ottenendo bo = ln a ::::} a = ebo e -(3 = b1 •
L'equazione di predizione è perciò:
cioè nel nostro caso T(x) = e1.02 e- 0 -115 x.

Esempio 15.5.2 Durante uno studio sull'intelligenza artificiale sono state organizzate
diverse partite di scacchi tra alcuni giocatori e un computer dove era stato installato un
software apposito. L'abilità del software nel giocare (misurata secondo un certo indice
Y) sembrava aumentare a seconda del numero delle partite giocate. Per cercare di capire
quale potesse essere la relazione tra il numero x di partite e l'indice di abilità Y si sono
inseriti i dati nella seguente tabella:
X 3 7 8 12 14 9 9 4 11 13 12 8 7 6 3
y 16 34 40 93 125 50 48 18 70 110 85 45 40 33 20
(15.23)
Troviamo b0 e b1 del modello: ~ ~ ~
Y =bo+ b1x (15.24)

Sintesi dei dati
15 10
n = 15 I: x; = 1232 S xx = L x; - nx 2 = 173.6
i= l i= l
15 10
x = 8.4 I: x ;y ; = 8544 S xY = L x ;y; - nxy = 1597.2
i= l i =l
15 10
y = 55 L Y[ = 61753 Syy = L Y[ - ny 2 = 16378
i =l i= l
Stime
La 15.24 diventa:
Y = -22.15 + 9.2x
Plot dei dati
I dati sono stati plottati nel grafico della prossima figura nel quale, oltre alla curva di
regressione lineare, sono state tracciate la curva di regressione di potenza e la curva
di regressione esponenziale, relative rispettivamente ai modelli di previsione T = atb e
T = aebx, che analizziamo qui di seguito .
140
120 espo11e11ziale
100
,; ,.::~li11eure
80 ," ._., ~pote 11zu
, ,;
,:
60 ,:.,'
#I*.,.,.
~
40
20
,;
,
o
Il s IO 15
Curva di regressione di potenza
(15.25)
427
Per trovare gli a e b occorre linearizzare 15.25:
Y = ln T = ln a + b ln t = ln a + bx
La tavola 15.23 diventa (mettiamo i dati su due righe per ragioni di impaginazione):
lnt
X = 1.10 1.95 2.08 2.48 2.64 2.20 2.20
Y =lnT 2.77 3.53 3.69 4.53 4.83 3.91 3.87
X = lnt 1.39 2.40 2.56 2.48 2.08 1.95 1.79 1.10
Y = lnT 2.89 4.25 4.70 4.44 3.81 3.69 3.50 3.00
Sintesi dei dati

15 10
n= 15 Lx;= 65.07 B xx = L x; - nx2 = 3.2565
i =l i =l
15 10
x= 2.03 L XiYi = 120.63 S xY = L x;y; - nxy= 4.0065
i- 1 i- 1
15 15
y= 3.83 L y; = 225.41 Syy = L YT - ny2 = 5.3765
i= l i =l
Stime
b= ~xY =1.23 lna='[j-b·x=l.33 a=el. 333 =3.792
Come si vede il coefficiente di variazione è migliorato. La 15.25 diventa:
f = 3. 7924t1. 23
Vediamo l'ultima ipotesi.

Curva di regressione esponenziale
(15.26)
Per trovare gli a e b occorre linearizzare la 15.26:
Y = ln T = ln a + bx
La tavola 15.23 diventa (mettiamo i dati su due righe per ragioni di impaginazione):
X 3 7 8 12 14 9 9
Y= lnT 2.773 3.526 3.689 4.533 4.828 3.912 3.871
X 4 11 13 12 8 7 6 3
Y = lnT 2.890 4.248 4.700 4.443 3.807 3.689 3.497 2.996
Sintesi dei dati

15 10
n= 15 Lx;= 1232 B xx =L x; - nx2 = 173.6
i= l i =l
15 10
x= 8.4 L XiYi = 513.5 S xY = L XiYi - nxy= 31.33
i =l i =l
15 15
y= 3.83 L YT = 225.41 Syy = L y; - ny2 = 5.748
i =l i =l
Stime
b = SxY = 0.18 ln a = y - b · x = 2.314 a= e2.314 = 10.12

Sxx
Il coefficiente di variazione è notevolmente migliorato. La 15.26 diventa:
f = 10.ll 5eo.l805x
Non è però finita. Nei tre casi analizzati dobbiamo ora controllare l'andamento dei residui
( che qui vengono plottati contro i valori stimati). Cioè plottiamo:
lineare potenza esponenziale

Yi = bo+ b1xi lnt; = lna + blnti lnt; = lna + bxi
(fji,Yi -fii) (ln t i, ln y i - ln t i ) (ln ti, ln ti - ln ti)
Plot dei residui

Sia nel caso "lineare", sia nel caso "potenza" i grafici dei residui mostrano andamenti
che fanno fortemente sospettare che non ci sia indipendenza tra il valore stimato e il
residuo corrispondente: infatti i punti sono disposti lungo un percorso paraboleggiante.
Nel caso "esponenziale" invece i residui sono meglio disposti anche se sembra di rilevare
una moderata eteroschedasticità (infatti la varianza dei residui sembra diminuire legger-
mente al crescere dei valori stimati). Dovendo scegliere, il modello esponenziale risulta
comunque essere molto meno rifiutabile degli altri due.
Non insistiamo su questo importante argomento rimandando chi sia interessato ad ap-
profondire quanto concerne queste tematiche per esempio a N.R. Draper - H. Smith,
Applied Regression Analysis, John Wiley & Sons, New York, 1966.
15.6 Inferenza su b1
L'ipotesi b1 = O ha un significato importante nella regressione. Descrive infatti il caso in
cui il responso Y non dipende dall'input x. Possiamo allora realizzare un test d'ipotesi
su b1 fissando Ho : b1 = O e Ha : b1 =JO.
, b1 - b1 ( ) l'vI . , .. d' b1 - b1
E evidente che / ~ rv N O, l . a non s1 puo ut111zzare irettamente / ~ per
Sxx
O' V O' V Sxx
fare un test perché questa quantità dipende da O' che non è nota. Per il lemma 15.3.1
b1 -~ b1 rsb1 - b1 N(O, l ) . d'1pen d ente d a -SSE- E' a 11 . d'iato
I vSxx = y .Jxx ___O' è m 2 ora 1mme
rv 2 rv Xn- 2•
O' O'
verificare che:
~ b, -b,
cr
---,,-..-- _ . /(n-2)Sxx
- V (bA b)1 t n-2 (C?)
v cr2~~~2)
SSE l - rv
è una quantità pivotale.

429
Lineare Poten1..a
G ratico dei residui (R vs Y) Grafico dei residui (R ,rs \')
20 0,40
!:,.
!:,. 0,30
!:,.!:,.
0,20
!:,.
15 !:,. 0,10 !:,.
!:,.
0, 00 !:,. !:,. !:,.
!:,.
!:,. -0, 10
IO !:,.
-0,20 !:,. !:,.~
-0,30
5 2,50 3,00 J,.50 4,00 4,50 5,00
!:,.
Esponenziale
o - 0,40
Grafico dei residui (R vs Y)
!:,.
0,30
-5 0,20
!:,.
!:,. 0,/0 !:,. !:,.
!:,. !:,. !:,.
!:,. 0,00 ~
!:,. !:,. ~
Ll
!:,. !:,. !:,.
-10 -0, JO !:,.
!:,. !:,.
-0,20
!:,.
-0,3 0
-15 -0,40
o 50 /00 150 2,50 3,00 3,50 4,00 4,50 5,00
Figura 15-3:
In ipotesi Ho : b1 = O ci si riduce alla statistica test
La regione critica per un'ampiezza del test pari a 1 - ì si ottiene da
P [I (n - 2)S xx b1 I > e] = 1 - ì cioè P[ltn-2 I < e] = ì da cui e= tn-2( l + ì ). Quindi

SSE 2
-----
IJ (n - 2)S xx A I
----
SSE
b1 > tn-2(--)
l+ì
2
.
e cioè
SSE l +ì
(n - 2)Sxx . tn- 2 (-2-) (15.27)
Dalle considerazioni fatte qui sopra sulla regione di rifiuto, nel caso di Ho : b1 = O si
ricava facilmente la regione di rifiuto di livello 1- ì nel caso Ho : b1 = /3;e Ha : b1 =/-j3, j3
non nullo. Partendo da I

V(n -SSE2)Sxx (b1 - b1) I > tn-2(-1 +
A
2-)
Ì
la Re nsulta essere:
.
SSe SSe A
----<b1 (15.28)
(n - 2)Sxx (n - 2)Sxx
mentre un intervallo di confidenza bilatero di livello I per b1 è il complementare della

Re, cioè:
SSe A 1+1 SSe

(n _ 2)Sxx < b1 < b1 + tn-2(- 2 -) (15.29)
(n - 2)Sxx ·
Se dai dati osservati, in ipotesi b1 = /3 si ricava un valore di b1 nella regione 15.28 si

rifiuta l'ipotesi nulla con probabilità 1 - 1 di sbagliare.
Se le ipotesi fossero: Ho : b1 ~ /3;e Ha : b1 < /3si avrebbe:
(n - 2)Sxx
P[
A
SSe (bi - b1) < c] = 1 - 'Y da cui c = -tn-2('Y)
e di conseguenza
Infine, sempre nell'ipotesi di test unilaterale, se si osserva un valore della statistica test
pari a ( il p-value è P[tn-2 < (]. Si rifiuta se P[tn-2 < (] è piccolo.
Esempio 15.6.1 Nell'esempio 15.1.1 si può ricavare:
1932.1 · 8250 - 3985 2 = 7.224

8250
e da questo valore otteniamo, grazie alla 15.29, un intervallo di confidenza di livello

1 = 0.95 per b1 (t 8 (0.975) = 2.306) :
7.224 7.224
0.483 - 2.306 · . 8250 < b1 < 0.483 + 2.306 · 0.459 < b1 < 0.507
8 · 8250'
Oss. 9 Considerando che

'-'"' x 2
bo ,.__,N(b 0 ; _L.._i
nSxx
0' 2 ) e ancora che
SSe
0'2
x;_ è facile
,.__, 2
concludere che:
N(O;1) (T
~ X n(n-2)Sxx
'°'. x2SSE
(bA
O-
b )
O rv
t
n-2
~
~,'
da cui si ricava un intervallo di confidenza per b0 . Non insisteremo su questo punto.

431
Esempio 15.6.2 Si ricordi l'esempio che riguarda le osservazioni di Galton del capitolo
1: come si evince dalla figura l'ipotesi di Galton è confermata se b1 < l.
padre grand e hann o fig li
b, > 1 più grand i di loro
padri gra ndi come i figli
padri gran di banno figli

più piccoli d i loro
padri piccoli han no figli

più grandi di loro
padri grandi com e i figli
padr i piccol i X padri gra ndi
padri piccoli hanno fig li

più piccoli di loro
L'ipotesi nulla e l'alternativa sono le seguenti:
b1 < 1 è quello che ci piacerebbe fosse confermato dal test. Da (C?) la statistica test è
'l suo va lore osservato, con i. d ati. riportati

1, . . ne l capito 8 . 17 1.6 (0.4646 - 1) --
. lo 1, è
1.494
-16.230. Fissiamo ì = 0.995 da cui ts(ì) = 3.355. La regione critica di livello l - ì è
data da:
(n - 2)Sxx A (
SSE (b1 - b1) < ts l - ì) = -t 8 (ì) = -3.355.
Il valore osservato è ampiamente nella regione critica. Rifiuto l'ipotesi nulla con una
piccolissima probabilità di sbagliare. Del resto il p - value si ricava da p = P[t 8 <
-16.230] = l.04436E - 07 cioè un valore che ci motiva fortemente a rifiutare l'ipotesi
nulla.
15.7 Predizione di eventi futuri

Molto spesso, noti i predittori x; e i responsi Y;, ciò che interessa è una stima Yo =
Y(xo) del responso (futuro) quando il predittore sarà xo. Da quanto abbiamo detto
in precedenza è chiaro che il miglior responso di Yo è il valor medio E[Yo]di Yo cioè
bo + b1xo. Anche se si potrebbe osservare che la media E[Yo] di Y a xo fissato è il
responso che minimizza la media dei quadrati della differenza tra predittori e responsi,
potremmo scegliere la mediana med[Yo] di Y che minimizza E[IYo- cl] cioè la media
del valore assoluto della differenza tra il predittore e il responso. Oppure si potrebbe
scegliere la moda (vedi capitolo 4) di Y, cioè il suo valore più probabile.
Nel nostro caso non fa nessuna differenza scegliere l'uno o l'altro perché il responso Yo
relativo al predittore xo è Yo rv N(bo + b1xo, 0'2 ) e per la normale media, moda e mediana
coincidono.
Ora da quanto detto in precedenza si può, con conti non difficili 1v, concludere che:
e quindi per l'indipendenza del nuovo responso Yo dai precedenti Y; si conclude che
1 (xo - x) 2
N(0,0' 2 [1 + - +
A A
Yo - bo - b1xo rv S ]) o, che è lo stesso:

n xx
Yo - bo - b1xo
~===== ,.__,
N(O, 1)
n+l (x 0 - x) 2
O' -- + -'------'--
n Sxx
Ora poiché 0' 2 non è noto occorre sostituirlo con un suo stimatore. Per l'indipendeza di
SSe da bo, b1e Y 0 concludiamo che:
Yo - bo - b1xo
---;========----
n+l
--
n
(x 0 -x)
+ -'-------'-
Sxx
2 R!¾ --
(n-2)
rv tn- 2 (C?C?)
Quindi un IC bilatero di livello I per il responso Yo = bo + b1xo + r:: relativamente al

valore xo scelto fuori dai predittori, è:
n + l + (xo -
n Sxx
x) 2 J SSe
(n - 2)
Esempio 15.7.1 Nell'esempio relativo al modello di regressione delle altezze dei figli su
quelle dei padri visto in precedenza scelto un nuovo individuo padre di altezza pari a 68
pollici abbiamo: Y0 (68) E 67.568 ± 1.05 con il 95 per cento di confidenza.
IV Infatti:
bi = - 1- Dxi - x)Y; bo = Y - b1x = ~ I: Y; - _x_ I:(xi - x)Yi = I: Yi [~ - _x_ (xi - x)]
A ,
Sxx
bo+b1xo = Y -b1x+b1xo
_ , ,
= -
1
n
I:
8xx
x - xo
Y;- --
n
Dxi-x)Y;
Sxx
n
=
8xx
I: [1 x - xo
Y; - - --(xi
n
l ,,
Sxx
- x) , cioè bo+b1xo
è la combinazione lineare di n va indipendenti Y; di media O e varianza o-2 .
Da ciò segue che var(bo + b1x 0 ) = o-2 I: [~ -
n
_x_-_x_o
8xx
(xi - x)]= 2
2 ]-
_
-0'
2 "[
L, --
1 2 --x-xo( _) (x-xo)2(xi-x)
Xi-X+------ -
n2 Sxx Six
_
- O'
2 [1 -
n
- 2 "x-xo(.
L.., --
8xx
Xi -
_) + "(x-xo)
X L, ---,,...---
Six
2 (xi-x) 2 ]-
- O'
2 [1+ ---
(x-x
-
n 8xx
0)2 ]
433
Esempio 15.7.2 Nell'esempio 15.1.1 otterremmo invece, con x 0 = 200 e 'Y O,95,
otterremmo:
-2.739 + 0.483. 200 ± 2.306 11
10 + (2008250
- 145) 2 J 7·224 . , 93 861 ± 2 654
-8- cioe · · ·
Osservazione
Si noti che la semiampiezza di questo IC
1 + 'Y
tn-2(- 2 -)
n+l
n
+ (x 0 -x)
Sxx
2 J SSE
(n - 2)
è minima quando x 0 = x e aumenta progressivamente all'allontanarsi di x 0 da x, come
mostra la figura seguente.
1
..-··
..-···
_
y ................
............
..
.l ..±:·1··-....
X1 ->·f X xn
··...___
...···
__ ··--...
··-...
La parentesi graffa indica l'ampiezza dell'intervallo di confidenza in xo.
Previsione della media e non del responso

Il modello lineare gaussiano è:
quindi
per stimare bo e b1 osservo n volte Y (cioè e) e interpolo col metodo dei minimi quadrati
i punti (xi, Yi) trovati.
Gli stimatori sono boe b1 e, di conseguenza una stima del modello è:
La stima intervallare di bo e b1 la ottengo dalla distribuzione delle quantità pivotali
(i7= ~)
bo - bo
-A /-fli-n=S=x=x
rv tn-2
(J' " 2
L...Xi
La stima intervallare di E[Y(x*)] =bo+ b1 x* relativamente al valore x* scelto fuori dai

valori fissati dei predittori la ottengo dalla distribuzione della quantità pivotale
E[Y(x*)] - bo - b1x*
----"----;========- rv tn- 2
1 (x* - x) 2
- + ...;.._-----'--
n Bxx
L'lc è
1 (x* - x) 2 ~SE
-+---
n Bxx
--
(n - 2)
15.8 Analisi della varianza:

caso univariato
Confrontiamo il modello completo
(15.30)
con il modello ridotto

y=bo+c (15.31)
Per decidere se accettare il modello ridotto o quello completo (cioè se accettare l'ipotesi
nulla Ho : b1 = O o l'alternativa Ha : b1 =JO), esaminiamo la somma dei residui nei
due modelli. SSE è la somma dei residui nel modello completo. Nel modello ridotto Y
è la proiezione di Y sullo spazio generato da ln, quindi Y = Y (vedi oss. 5). Allora
indicando con SSEo = I:(Yi - fù)2,la somma dei residui nel modello ridotto, è SSEo =
I:(Yi - fù)2 = I:(Y; -y) 2 = Syy.
Consideriamo la seguente tabella:
somme dei gradi di media dei

Fo
quadrati libertà quadrati
variab ilità sp iegata SSE 0 - SSE = SSR MSR
1 MSR = - 1-
dalla regressione = SSR = b1S xY MSE
~
:S:SE
erron SSE = Syy - b1SxY n- 2 MSE =(0
n- 2
variabi lità tota le Syy = SSR + SSE n- l
Se Ho : b1 = O è vera allora la statistica

435
Fa= (SSEo - SSE)/1

SSE/(n - 2)
segue la distribuzione di Fisherv Fi,n-2·
Rifiutiamo Ho a livello 1- 1 se il valore osservato di Fa supera F-y,l,n-2, ,-quantile della
Fi,n-2·
Ragionando come in 15.27, avremmo rifiutato se
(n-2)Sxxb
S SE l
= lv Sxx b I
MS E l > tn- 2
(l+,)
2 .
Ricordiamo che, data tm con m gradi di libertà, per il suo quadrato vale la seguente
proprietà:
t~ rv Fi,m
Quindi i due metodi sono equivalenti VI.
Oss. 10 Si osservi che, se b1 = O è vera, la regressi?..._ne

spiega poco. In questo caso b1 ,
stima di b1, sarà vicina a O ed essendo S SE = Syy - b1Sx y, la stima di S SE sarà vicina
a Syy. Quindi la stima di r 2 sarà vicina a O.
15.9 Riassunto di risultati univariati

Stimatori dei coefficienti con i minimi quadrati:
bi = SxY = I:(x; - x)(Y; - Y) _ I: x;Y; - nxY

Sxx I:(x; - x) 2 - I: x7 - nx 2
Distribuzione di b1e bo
A
N(b1, -8
b1 ,.__,
1 2
O' )
A
bo,.__,
N(bo, - 8 'O'
I: x2 2
)
xx n xx
Residui
Y; - (bo+ b1x;) = Y; - Y;
Varianza residua o somma dei quadrati dei residui (o degli errori)
v Infatti
2 1 - 2 (n - 1)8 2 S'yy . (n - 1)8 2
8 =--I:(Y;-Y) ==} ~xn_2 1.Cioè- -= ~xn_2 1.Inoltre
n-l u2 u2 u2
S'S'E 2 _ S'yy _ S'S'R 88E . 88R 2
- 2- ~ Xn-2' S'yy - S'S'R + S'S'E, - 2- - - 2- + - 2- da CUl - 2- ~ Xi·
(7 (7 (7 (7 (7
VI N(O; 1) . 2 xp1
tm = ~; elevando al quadrato s1 ha tm = _I = F1,m,
vx?n./m Xm m
Inoltre ltml 2':a <a==? t~ 2".a 2 , da cui P[ltml 2':a]= P[t~ 2':a 2 ] = P[Fi,m 2':a 2 ] = 1- 'Y
Allora a= tm(.!.:p-),a 2 = F-y,1,m e F-y,1,m = t~(11'Y).
Varianza spiegata o somma dei quadrati dovuti alla regressione
Varianza di Y
Syy = SSr = ~ - 2 ~ 2
L..,(Y; - Y) = L.., Y; - nY
-2
Formule per SSe e SSR
Ss _ SyySxx-S;y -S bA S
E - - YY - 1 xY
Sxx
Una formula per Syy = S Sr
Coefficiente di variazione r 2 e correlazione r
. 'b uz1one
D 1str1 . SSe
d'1 --
0'
E [ SSe] = 0' 2
n-2
Standardizzata di b1
Quantità pivotale per b1
Test di ipotesi su b1 di significatività 1- 1

Statistica test
(n - 2)Sxx (bA _ (3) rv
SSe 1 tn-2
Ho : b1 = (3; e Ha : b1 =J(3; regione critica
l+, SSe
(3 + tn-2(- 2 -) ---- <b1
(n - 2)Sxx (n - 2)Sxx
Ho : b1 ~ (3; e Ha : b1 < (3; regione critica

437
Ho : b1 :S (3; e Ha : b1 > (3; regione critica
Intervalli di confidenza di livello I per b1.

Bilatero:
SSe A 1+1
(n - 2)Sxx < (3 <bi+ tn- 2(-2-) (n - 2)Sxx ·
Con limite inferiore:
Con limite superiore:
15.10 Regressione multivariata lineare

Nella maggior parte delle applicazioni il responso di un esperimento può essere descritto
con più efficacia non sulla base di un singolo dato di ingresso ma di k dati. Un modello
lineare per una situazione di questo genere è il seguente (la linearità riguarda i coefficienti
bi):
l
Al solito c rv N(O, 0' 2) rappresenta l'errore casuale, Y è una va funzione dice i coefficienti
bi e O' sono da ritenersi ignoti e da stimarsi attraverso l'osservazione.
X;,1
Per la stima di b si fissano n valori [ per ciascuno dei k predittori x j; j = l, ... , k
XJ,n
(xj,i rappresenta l'i-esimo valore dello j-esimo predittore). Ciò genera un campione
Y1, Y2, ... , Yn di dimensione n dei responsi dove l'i-esimo responso Y; è legato ai k valori
Xj,i nel modo seguente:
k
Y; = bo+ b1x1,i + b2x2,i + ... + bkxk,i + ci =bo+ I: bjXj,i + ci, (15.32)
j=l
Riterremo che la varianza 0"7degli ci sia la stessa per ogni i (come accadeva nel caso
univariato). Dalla 15.32 abbiamo:
k
E[Y;] = bo+ b1X1,i + b2X2,i +,,, + bkxk,i =bo+ I: bjXj,i
j=l
1C
Y;
•''
A !X1.2 :
Y41< -----------::,~:---'
X 2,4 X 2.3
YI X
I ,'
//
X Y3 /
,
,,, I ,.
:----------- x,.,: ,.,,,.
I : _,I'
________ ..
-{,,.
......... ~ I'\ ,..
' Y = bo +b1X1+ b 2X2

• Y;
Nella figura un'immagine geometrica del problema nel caso di due predittori, cioè del
modello:
Rispetto al caso univariato abbiamo qui un piano di regressione invece della retta di
regressione. Fissiamo per esempio n = 4 valori per ognuno dei k = 2 predittori. Siano
x1,;,x2,;;i = 1,2,3,4 questi valori e siano y;;i = 1,2,3,4 i valori osservati dei corri-
spondenti responsi. Nello spazio IR3 avremo quattro punti (x1,i, x2,i, y;); i = 1, 2, 3, 4 da
interpolare col piano 7r di equazione Y = bo + b1x1 + b2x2 i cui coefficienti b; sono de-
terminati col metodo dei minimi quadrati. I punti (x1,1,x2,1,Y1) e (x1,3,x2,3,y3) sono
risultati sotto 7r mentre (x1,2,x2,2,Y2) e (x1,4,x2,4,y4) sono sopra. I punti (x1,1,x2,1,Y1),
(x1,3, x2,3,y3), (x1,2, x2,2, Y2) e (xi,4, x2,4, y4) stanno ovviamente sul piano 7r.
Non insistiamo su questo punto. Per la nostra trattazione la rappresentazione geometrica
più indicata sarà un altra che illustreremo dopo aver introdotto un conveniente linguaggio
matriciale.
Scriviamo in forma compatta la 15.32, osservando che, posto k + l = p, la matrice
XI , l Xk,l
XI ,2 Xk,2
X·.J,i ]- I 1 X1
XI,n Xk,n
è la matrice dei valori dei predittori. Y = (Y1 , ... , Yn)T è il vettore dei responsi,
(n,l)
b = (bo,b1, ... ,bk)T è il vettore incognito dei coefficienti, è = (c1, ... ,cn)T è il
(p,l) (n,l)
439
vettore del rumore. Ovviamente 1 = (1, 1, ... , lf e Xi= (xi,l, Xi,2, ... , Xi,n)T.
Y1 1 XI,l Xj,l Xk,l bo c1

Y2 1 Xl,2 Xj,2 Xk,2 b1 c2
Y=
Y; 1 XI,i X·.J,i Xk,i bi
+ éi
Yn 1 X1,n Xj,n xk,n bk €n

= lbo + X1b1 + · · · + bjXj + · · · + bkXk + è
La riga i-esima di X contiene, oltre al valore 1 in prima posizione, i valori i-esimi dei
k predittori, quelli legati alla componente Y; di Y.
Riassumendo (p = k + l):
Y=Xb+c
(n,1) (n,p)(p,l) (n,1)
Per come abbiamo costruito le cose vale l'ipotesi ipotesi gaussiana:
cioè Unè la matrice identica):
cov[ci, c1] =O
le éi sono gaussiane indipendenti, con media O e varianza 0' 2
Osservazione:
1) si fissa X e si osserva Y (attraverso e); non si osservano be 0' 2 ;
2) X, b, 0' 2 sono numeri, e è aleatorio e di conseguenza lo è Y;
3) i parametri ignoti sono le componenti di b :,__0'2.
Per trovare lo stimatore dei minimi quadrati b di b utilizziamo il metodo geometrico
descritto a pagina xxxiii VII dell'Appendice 1. Da quanto là affermato segue il:
VII Gli stimatori bo,b 1 , ••• ,bk dei parametri bo,b 1 , ••• ,bk sono i minimi della funzione L che rappresenta
la somma dei quadrati delle differenze tra i responsi Y; e i loro valori attesi. cioè:
n 2 n k . 2
L = I: ei = I: (Y; - bo - I: b1xj)
i=l i=l j=l
Appplicando il metodo differenziale, si tratta di trovare le soluzioni di:
àL . . àL
- =O \fi; i= 1, ... , n; - =O
àbo àbi
L = I:~=léf = eTe = (Y-xb)T(Y-xb) = yTy _ bT xTY - yT xb+bTxTxb = yTY-2bTxTY +
,,__,..--,
scalari
bTxTxb.
Il sistema è equivalente alle seguenti k +l condizioni scritte in forma matriciale:
àL
àb = -2xTY + 2xT xb = O
la cui soluzione è:
b= (xT x)- 1 xTY

ammesso che l'inversa (XTx)- 1 esista (il che accade nei casi non degeneri).
Volendo si potrebbe riscrivere il tutto in forma scalare. Il lettore può farlo per esercizio.
Teorema 15.10.1 (:•) Lo stimatore col metodo dei minimi quadrati di b è il vettore b
tale che
Vb: ( X
(n,p)(p,l)
b f ((n,1)
Y - X b
(n,p)(p,1)
)= O ,
(1,1)
cioè il vettore b che rende minimo IIY- Xbll2 - Risultavm
b = (XT X )-lxT Y
(p,l) (p,n)(n,p) (p,n)(n,1)
Xb è la proiezione ortogonale di Y sullo spazio vettoriale generato dalle colonne della

matrice X.
Il valore stimato di Y attraverso il modello è allora:
che in forma scalare si scrive:
' k '
Yi = bo+ I: b1x 1,i
j=l
Osservazione: L'esistenza di (Xrx)- 1 è garantita dall'ipotesi fatta che le colonne della

matrice X siano linearmente indipendenti (per cui deve essere n 2".k + l).
Il vettore
s=Y-Y,
è detto vettore dei residui. Indichiamo con SSE la somma dei quadrati dei residui:
n
ssE = IIY- xf;11= IIY- v11= llsll = 2)si) 2 .
2 2 2
i=l
La matrice
trasforma il vettore Y nel vettore
Y = x (xrx)- 1 xr Y = PY.
(n,p) (p,p) (p,n)(n,1)
ed è la matrice di proiezione ortogonale sul sottospazio V generato dalle colonne di X.

Ricordiamo allora che In - P è la matrice di proiezione sul sottospazio V_!_ortogonale a
V. Infatti
(In - P)Y =Y - PY =Y - Y = s.
Si conclude che le proiezioni di Y su V e su V_!_coincidono con Y e s.
VIII Poiché y - Xb deve essere ortogonale al piano 1r 1 n x dei vettori Xb deve valere \fb; (Xb)T(Y -
Xb) = 0 cioè \fb; bT(XTY - XTXb) = 0, il che può a~venire se e solo se XTY - XTXb =0 da cui
b = (xTx)- 1xTy_
441
Rivediamo geometricamente quanto esposto nel caso n = 3 e k = l.
Ricordiamo che (capitolo 10) la proiezione di un vettore Y sullo spazio E generato dal
vettore unitario (13 in questo caso) è il vettore (Yn, Yn, Yn)'.
Come si evince dalla figura 15-4, Y = PY è la proiezione di Y sul piano generato da
coli (X) = 13 e da col2 (X) = Xi; Y n è la proiezione di Y sullo spazio E generato da
coli (X) = 13.
Inoltre IIY-Ynll
Syy; llv-vf SSE
2= IIY-YnfSSR. = e = Come si vede Syy =
SSR + SSE.
\ ~ Y-r
:I /~-~
Sn, =IIY- YII'
ss, = IIY-r 11 '
l,,,/
r
',,, { =:cip!, (X)
SS, = 11Y - Y Il'
i :~~
-l/ :,-
_.---~-'.---' Y= bocoli(X) +b1col1 (X) = Xb
I X :
......_ ..
_,,.,/
....~ .., '
·, ,,
,
',
:
'
/
',
",~
----- ----------------------- ______
,,, x 1 = col, (X)
x/ ------------------------------------____
______ 1_••• ~
_____
Figura 15-4:
( :•) Osservazione importante: Per quanto detto Y - Xb = Y - Y è ortogonale

a Xb = Y. Segue che (Y - Xb)TXb =Oda cui:
IIY-Xbll 2 = (Y-Xb)r(Y-Xb) = (Y-Xb)rY-(Y-Xb)rxf; = yry - f;rxry_
In definitiva:
(15.33)
Partendo da 15.33 possiamo ricavare:
SSE=Y T
Y-nYn--
2 (~T
b X Y-nYn -2) T
e ricordando che Syy = SSR + SSE e che Syy = yTy - nY! si arriva a:
(15.34)
Proprietà del modello gaussiano
Ecco dunque il nostro modello lineare multivariato:
Al solito, per la stima di b passiamo a:
Y=Xb+e (15.35)
(n,1) (n,p)(p,l) (n,1)
Il seguente teorema enuncia alcune proprietà delle quantità coinvolte nella 15.35.
Teorema 15.10.2 (:•) Per il modello lineare gaussiano,

i) Y ,.__,
N(Xb; a 2 In)-
ii) brvN(b;a 2(xrx)- 1).
iii) Y ,.__,
N (Xb; a 2 P).
iv) Y - Y = i rv N(O, a 2 (In - P)).
v) i e Y sono indipendenti.
vi) i e b sono indipendenti.
Dim: Poiché Y, b, Y, i, dipendono linearmente dal rumore e, anch'essi hanno legge
(congiuntamente) gaussiana. Per determinarne le varie leggi basta calcolare il valore
atteso e la matrice di covarianza, usando le regole di calcolo formale per i vettori gaussiani
del capitolo 1O.
i) Y = Xb +e::::} E[Xb + e] = Xb, Cy = var[Y] = var[Xb + e] = var[e] = a 2In e il
primo punto è dimostrato.
ii) b = (xrx)- 1xry::::} E[b] = E[(xrx)- 1xrv] = (xrx)- 1xr E[Y] =
= (xrx)- 1xrxb = b.
Poi per la legge di propagazione della covarianza si ha:
var[b] = var[(XTX)- 1XTY] = (XTX)- 1XTvar[Y]((XTX)- 1XT)T =
= (Xrx)- 1XT(a 2 In)X(Xrx)- 1 = a 2 (XTX)- 1 e il punto ii) è dimostrato.
l
I punti iii) e iv) si dimostrano in modo analogo.
Per dimostrare i punti v) e vi) si ricorda che i e Y sono congiuntamente gaussiane e
ortogonali (capitolo 11, pag. 289 e seguenti), quindi indipendenti. Invece
cov[i1,bi] cov[i1,b2] . . . cov[i1,bp]
~ ~ cov[i2,bi] cov[i2,b2] . . . cov[i2,bp]
cov[e, b] = [ . .
(n,p) : :
cov[?n,biJ cov[?n,b2] cov[in,bp]
= cov[è, b] = cov[(/n - P)Y,(XTX)- 1XTY] = (In - P) cov[Y, Y]((XTX)- 1XT)T =
= (/n-P)(a 2In)X{(xrx)- 1V = a 2(In-P)X{(XTX)T}- 1 = a 2(In-P)X(xrx)- 1=
= a 2(X(xrx)- 1 - (X(xrx)- 1xr)x(xrx)- 1) =
= a 2( x (xrx)- 1 - x (xrx)- 1(xrx)(xrx)- 1= o .
(n,p) (p,p) (n,p) (p,p) (p.p) (p,p) (n,p)
Osserviamo che l'uguaglianza E[b] =b mostra che b è uno stimatore corretto di b.
La legge di SSE e la stima di r7 2 •

Consideriamo ancora il nostro modello lineare multivariato:gaussiano:
443
e il modello associato per la stima di b:
Y=Xb+e,
(n,l) (n,p)(p,l) (n,l)
con n casi e k + l parametri, e la matrice X con le colonne linearmente indipendenti.
Teorema 15.10.3 Per il modello lineare gaussiano risulta (p = k + l)
In particolare risulta E[ S SE] = (n - p )a-2 .

Dim:
1) Il sottospazio V delle combinazioni lineari delle colonne di X ha dimensione p;
2) il sottospazio V _j_ ortogonale a V, ha dimensione n - p;
3) Xb è combinazione lineare delle colonne di X quindi Xb E V;
4) In - P è la matrice di proiezione ortogonale su V_j_. Segue che Un - P)Xb = O.
5) Applichiamo il teorema di Cochran al vettore Y rv N(Xb, a-2 In), Chiamiamo
A = P il proiettore su V e P2 = (In - P) il proiettore su V_j_. Ricordiamo che IX
µ = Xb E V ===} P 2 µ = O. Poiché:
SSE = llill 2 = ll(In - P)Yll 2,
ss
si conclude che la variabile aleatoria ---f (T
a-2 x~-p
ha la legge X~-p, SSE ,.__,
L 'ultima affermazione del teorema segue dal fatto che il valore atteso della legge X~- P è
pari a n - p.
Lo stimatore naturale (e corretto) per il parametro a-2 , varianza del rumore e, potrebbe
essere
l n
- """"E:2
n L.., '
i=l
varianza campionaria da s; = Yi - riga;(X)b rv N(O; a-2 ). Ai fini della determinazione

di un valore di a-2 però s non può essere utlizzato perché non conosciamo b. Prendiamo
allora una stima del rumore che è fornita dai residui s
= Y - Xb da cui ricaviamo il
seguente stimatore per a-2 :
n
cLs? =e. ssE
i=l
con la costante C scelta per avere la correttezza. Poiché per il teorema precedente,
E[SSE] = (n - p)a-2 , lo stimatore corretto per a-2 sarà
~2
~
V
--- SSE
- '
n-p
IXµ = Xb E V perché V è generato da [ln, x1, ... , xk].

Test e intervalli di confidenza per i parametri bi.
Consideriamo ancora il nostro modello lineare multivariato:gaussiano:
e il modello associato per la stima di b:
Y=Xb+e,
(n,l) (n,p)(p,l) (n,l)
con n casi e p = k +l parametri, e la matrice X con le colonne linearmente indipendenti.

Ricordiamo che
è lo stimatore di b.
Numeriamo da O a k le k + l righe e colonne della matrice (Xrx)- 1 e indichiamone con
Cij l'elemento di posto (i+ l,j + 1) (i,j = O, 1, ... , k). Cioè:
posizione 1 2 i+ 1 k +l
1 coo CQl CQk
2 ClQ Cn Cl k
j+l Cij
k+l CkQ Ckl Ckk
Allora
~ 2 b; - b;
b; rv N(b;, Cl C;;) ===} ,;;:;-:--: rv N(O, 1).
ClyCii
Inoltre, poiché la statistica
~2
(J =--=--
ll?ll2 SSE
n-p n-p
è uno stimatore corretto di CJ2 , risulta
&2 SSE 2
CJ2 (n - p) =7 rv Xn-p·
Sappiamo che è e b sono indipendenti, e perciò lo sono anche b; e & 2 . Sappiamo che
dividendo una N(O; 1) per Jx;,-p/(n- p) otteniamo una t-Student con n- p gradi di
libertà. Facciamolo:
Questo risultato permette di costruire intervalli di confidenza e test per b;.

445
Intervallo di confidenza di livello 'Y per bi; i= O, 1, ... , k
Quanto detto appena sopra implica che
' l+'Y~ ' l+'Y~

bi - tn-p(- 2-)av"4i ~bi~ bi+ tn-p(- 2-)av"4i
è un intervallo di confidenza bilatero di livello 'Yper bi.
Test su bi,i > O

Ci occupiamo della verifica dell'ipotesi
Ho: bi= O;Ha : bi-/- O

Accettare questa ipotesi significa ammettere che il predittore i-esimo non influenza la
variabile risposta Y. Se vale Ho, allora la statistica test è (p = k + 1)
Si rifiuta l'ipotesi a livello 1 - 'Yse la statistica test è troppo grande in valore assoluto, e
precisamente se
I > tn-p (.!±1)

I~
bi;,:;-:-: 2 .
ayCii
In modo analogo si eseguono test per ipotesi del tipo Ho : bi ~ (3.
Test e intervalli di confidenza per a 2 •

A questo punto si conclude facilmente che un intervallo di confidenza di livello 'Y per a 2
l
è dato da (p = k + l):
(n - p)&2 (n - p)&2
[ 2 l+'Y' 2 1-"( .
Xn-p(- 2 -) Xn-p(-2-)
(n-p)&2
Utilizzando la statistica test --.,,...-- possiamo, per esempio, eseguire il seguente test
a5
di livello 1 - 'Y :
La regione critica in questo caso è:
2 2
&2 < aoxn-p (.!.=..:i:)
2 2 2
&2 > aoxn-p (.!±1)
2
- n-p - n-p
2
L e propneta · · test (n-p)&
· 'dll e a stat1st1ca
2
·
possono ovviamente essere ut1·1·
1zzate anc h e
ao
per un test del tipo: Ho : a 2 = a5; Ha : a 2 > a5.
15.11 Analisi della varianza
Abbiamo visto che, per ogni i,
bi - bi
Ti= ~ r,:;-:-: rv tn-p•
CTy cii
Consideriamo le ipotesi Ho : bi = O;sotto queste ipotesi la formula precedente diventa:
bi bi
Ti=--=-
~
&V'-T1, (J-bi
I risultati di una regressione si possono presentare nella forma tabellare seguente:
predittore Stima sqm di bi t p

Intercetta ,bo Clb o = &y1c;;;;-To Po
~
X1 b1 (Jb1 = &~ TI PI
x k bk (Jb k = &..;e;; Tk Pk
dove, per ogni i il valore Pi indica il p-value per la verifica dell'ipotesi Ho : bi = O e sqm
è lo scarto quadratico medio.
Spesso viene riportato anche il valore r 2 del coefficiente di variazione che ha la stessa
espressione formale del caso univariato, cioè:
2 = _ SSE = _ 8.02 = O 729

r l Syy l 29.6 .
e la tabella ANOVAx.
15.12 Tabella ANOVA

Consideriamo ancora il modello multivariato lineare
(15.36)
Siano dati i vettori 1 e x1, · · · , Xi,··· , Xk dei k predittori, linearmente indipendenti, di

dimensione n con le solite ipotesi gaussiane e rv N(O, CJ2 In),
Test Ho : bi = O;i > O

Per questo test rimandiamo a 15.10.
Xda ANalysis Of VAriance.

447
Test Ho : b1 = b2 = · · · = bk = O
Vogliamo confrontare il modello completo 15.36 con il modello ridotto Y = b0 + s. In
questo caso siamo fuori dalla regressione e il modello di Y è quello semplice della va. Se
(15.37)
rifiutare questa ipotesi significa accettare che, per almeno un j > O,bi =/-O quindi:
Ha = esiste almeno un j > O tale che bj =/-O.
Se Ho è vera allora (via terorema di Cochran) SSR/<J 2 rv x%mentre gia sappiamo

Q . d" l . . F, SSR/k MSR l
ch e Ss E I <J rv Xn-p·
2 2
um 1 a stat1st1ca o = SSE/(n _ (k + l)) MSE segue a
distribuzione di Fisher Fk,n-(k+I)· Fissato un livello del test pari a 1- 1 si rifiuta Ho se
Fo > F"f,k,n- (k+I).
Osservazioni
1) Rifiutare Ho non significa accettare il modello completo, ma significa accettare il fatto
che Y dipende da almeno un predittore.
2) Come nel caso univariato osserviamo che SSEo = Syy quindi SSE - SSEo = SSR.
La tabella ANOVA di questo caso è:
som1ne gradi di media

variazione dovuta Fo
dei quadrati libertà dei quadrati
M8R
alla regressione SSE - SSE 0 = SSR k A1S R = SSR
k
MSrc
agli error i SSE n - (k+l) !VISE -- SSE
n - (k+I)
totale Syy n- 1
dove, al solito
p = k + l, SSR = .;rxry - nY2, SSE = yry - .;rxry e Syy = SSR + SSE.
Altri test
Ritorniamo ancora a:
Y=Xb+e,
(n,l) (n,p)(p,l) (n,1)
Abbiamo appena esaminato l'ipotesi che nessuno dei k predittori influenzi il responso,
cioè Vi 2".l; bi = O. Ci proponiamo ora di verificare se r predittori xii, xh, ... , Xjr non
influenzano il responso Y, (1 < r < k), cioè Ho : bii = bh = ... = bir = O. I casi r = l e
r = k sono già stati esaminati.
Y = bo+ b1X1 + ... + bj, Xj + ... + bj 1 2 Xjz + ... + bjrXjr + ... + hxk
'--v-' '--v-' '--v-'
bh =0 bh =0 b)r =0
Vogliamo cioè decidere se un modello ridotto è più adeguato di quello completo a spiegare
i dati osservati. Riscriviamo il modello in modo che gli r predittori che si vogliono scartare
siano gli ultimi, cioè quelli dal posto k - r + l in poi.
r
L'ipotesi nulla diventa:
Ho : bk-r+1 = bk-r+2 = · · · = bk = O
contro l'alternativa:
Ha : esiste almeno un bj con k - r + l ::; j _::;k : bj =f.O.

Dividiamo il vettore dei coefficienti di regressione in due parti,
b1 e b2 .
(k-r+l,1) (r,1)
Ancora per stimare b passiamo al modello vettoriale.

Riscriviamo la matrice X, permutando le sue colonne in corrispondenza dei cambiamenti
in b:
X =[ X1 IX2]
(n,k+l) (n,k- r+l) (n,r)
Abbiamo:
e l'ipotesi nulla diventa:
Ho: b2 =O
Per il modello completo sappiamo che
SSE yry _ .;rxry

MSE = n- (k + l ) n-(k+l)
Sotto l'ipotesi H 0 , a causa della riduzione del modello, abbiamo:
Lo stimatore dei minimi quadrati per b1 è
Il test avviene confrontando la somma dei quadrati dei residui proveniente dal modello
completo SSE con la somma dei quadrati dei residui proveniente dal modello ridotto
SSEo·
= IIY- Y Vi generato da
l
SSEo X1b1f è la distanza di dallo spazio
1
X1 = [ 1 ;_:_=::~
=[1 X1 Xk-r ] .
(n,k- r+l) i·· Xk-r,n
Poiché Vi e V abbiamo
449
cioè
La somma dei quadrati dei residui del modello ridotto èx 1 :
Si può decidere di scegliere il modello completo (e quindi di rifiutare H 0 ) se la differenza

SSEo - SSE è "grande" rispetto a SSE (cioè se SSEo » SSE) e quindi se la norma dei
residui è peggiorataXII. Introduciamo allora la quantità
F = (SSEo - SSE)/r
SSE/(n - (k + 1))
P er 1·1 teorema d'1 eoc h ran gia

.' . h SSE
sappiamo c e 7
2
rv Xn-(k+I)
h SSEo
ec e~
2
rv Xn-(k- r+l).
Se vale l'ipotesi Ho alloraxm:
SSEo - SSE e SSE sono indipendenti.
Si conclude che F segue una legge Fr,n-p·
F = (SSEo - SSE)/r ,.__,

Fr,n-(k+I) (15.38)
SSE/(n - (k + 1))
Rifiuteremo l'ipotesi se F prende valori "troppo grandi", cioè se F > F"f,r,n- (k+l) se il
livello fissato del test è 1 - 'Y.
Compiliamo la tabella ANOVA in questo caso:
so mme gradi cli med ia

Fo
dei quadrati libert à dei quadrati
:,:,Eo- ::i::iE
Re siduo re gress ione SSE r
s u l , x1 , ··· ,x k
SSE n - (k + 1) n - (k+l) SSE
n - (k+l)
Re siduo re gress ione SSE0
SSEo n -( k - r +l) n - (k - r +I )
s u 1, XJ, "' , X k - r
Re gre ss ion e su SSEQ- SSE
SSEo - SSE r r
X k - r +I , ... ,Xk
=YTY-bfXfY
XIIsi ricordi che S'yy = S'S'E - S'S'R per il modello completo e S'yy = S'S'Eo - S'S'Ro per il modello
ridotto. Quindi S'S'Eo -S'S'E = S'S'R-S'S'Ro· Perciò se S'S'Eo -S'S'E è grande anche S'S'R-S'S'Ro è grande,
il che significa che la variabilità spiegata dalla regressione nel modello completo S'S'R è più grande di
quella spiegata dalla regressione nel modello ridotto S'S'Ro· Quindi è chiaro che Ho (cioè modello ridotto)
va rifiutata.
XIIIa >be X~ indipendente da XE ==} X~ - XE = X~-b
Oss. 11 Il caso 15.37 equivale al caso appena esaminato ove si ponga r = k. Infatti se
r = k è b1 = b2 = · · · = bk = O e si ha:
X1= [
(n,1)
l
l
l (Xfxi)-1= ~;
;Vi, Y; =bo+€,;
1
n
X[Y = L Y;; b1 =; (Xfxi)- XfY=Y n;
( 1,1)
ssEo= llv-vll IlY

2
= (n,1)
- X1h1ll
(n,l)
2 ~
= L..,(Y; -
- Y n)
2
= Syy
Come applicazione di quanto detto si consideri attentamente il seguente
Esempio 15.12.1 Una neolaureata in ingegneria gestionale, appena assunta nell'azien-

da multinazionale Negroni_ is _ Better che cura un certo numero di distributori automatici
per bevande analcoliche in giro per la città, è stata incaricata di formulare un modello che
permetta di predire il tempo necessario all'incaricato per servire una di queste macchine.
Il servizio comprende il riempimento della macchina con le lattine mancanti e un mini-
mo di altra manutenzione, pulizia e raccolta del denaro. La ragazza formula innanzitutto
l'ipotesi che il tempo di servizio dedicato a un distributore dipenda in modo lineare dal
numero di lattine rimpiazzate. A questo fine la ragazza tra tutte le macchine ne sceglie
a caso 25. Per ognuna di queste misura il tempo di servizio {in minuti} e il numero di
latt ine rimpiazzate. E cco i dati raccolti
tempo di numero di tempo di numero di
oss. oss.
consegna, y lattine , x consegna, y lattine , x
1 9.95 2 14 11.66 2
2 24.45 8 15 21.65 4
3 31.75 11 16 17.89 4
4 35.00 10 17 69.00 20
5 25.02 8 18 10.30 1
6 16.86 4 19 34.93 10 (+)
'l 14.38 2 20 46.59 15
8 9.60 2 21 44.88 15
g 24.35 9 22 54.12 16
10 27.50 8 23 56.63 17
11 17.08 4 24 22.13 6
12 37.00 11 25 21.15 5
13 41.95 12
La sintesi dei dati raccolti è la seguente: Lx; = 206; I: xy = 2396; L Yi = 725.82; L Y[ =
27178.53; I: x;y; = 8008.47; x2 5 = 8.24; fi2 5 = 29.033.
Si consideri un modello lineare con intercetta della forma
Yi = bo+ b1x; + €;
con i = l, ... , 25 sotto le ipotesi gaussiane ( cioè E[e] = O, V ar[e] = <J2 I 25 dove al solito
I 25 è la matrice identica 25 x 25).
451
a) Si trovino, in base ai dati sopra esposti, le stime bo e b1 dei coefficienti bo e b1 .
b1= Sxy = I: XiYi2- nx2g'j}25= 8008.47 - 25 · 8.24 · 29.033 = 2027.7 = 2.9027

Sxx I: Xi - nx2 5 2396 - 25 · 8.24 2 698.56
bo= 'j}25- X25· b1= 29.033 - 8.24 · 2.9027 = 5.1148

b) Si calcoli il coefficiente di correlazione.
Sxy
r - ____,,===
- JSxxSyy.
Sxy e Sxx li abbiamo dal punto precedente.
Syy = L YI- 25 · 'Y25= 27178.53 - 25 · 29.033 2 = 6105. 7
2027.7
r = ---;:::::::::::::::::============
= O.98183
y698.56 · 6105.7
e) Qual è la percentuale della variazione dei tempi di consegna spiegata dal modello?
r 2 = 0.98183 2 = 0.96399, quasi il 96, 4%.
d} Verificare l'ipotesi Ho : b1 = O contro l'alternativa Ha : b1 =f.O con un'ampiezza del

test pari a 0.1 (può essere utile il quantile t 23(0.95) = 1.714)
Sappiamo che in ipotesi Ho è:
Inoltre SSE = Syy - b1SxY = 6105.7- 2.9027 · 2027.7 = 219.90.

Il valore della statistica test sul campione è:
23 · 698.56
219.90 2.9027 = 24.812 >> t23(0.95).
Rifiutiamo H 0 con ampio margine.

e) Si calcoli SSR
Allora sul campione osservato è:
SSR = 2.9027 · 2027.7 = 5885.8.

L'ulteriore ipotesi formulata dalla ragazza prevede che il tempo di servizio sia anche
influenzato dalla lunghezza del percorso che l'addetto deve seguire nel portare a termine
il servizio stesso. Formula perciò un secondo modello di questa forma:
Per la stima dei coefficienti si tiene conto delle 25 osservazioni e si passa a:

Y - bo +b,x, +b,x,+ e - [1 lx,lx,] [ :: ] + e.

L'ipotesi è sempre gaussiana. Per il primo predittore (numero di lattine) i valori osservati
sono quelli esposti sopra ment re per il secondo predittore (la lunghezza del percorso) i
valori osservati , misurati in piedi, sono i seguenti:
percorso misurato percorso misurato
oss. oss.
in metri , x2 in metri , x2
1 15 14 150
2 33 15 108
3 36 16 62
4 165 17 80
5 89 18 120
6 60 19 180 (++)
7 113 20 176
8 16 21 162
9 30 22 85
10 90 23 87
11 91 24 30
12 124 25 120
13 120
In fo rma matriciale la situazione sintetizzata da (+) e (++)è la seguente
Y=
( 24;45
995 ) '
21.15
X=
(: ,': 8
5
15 )
Da cui:
l
25 206 2491
xrh [ 206 2396 23163
2491 23163 318417
l
0.21514 -0.007502 -0.001137
(XTX)-'- [ -0.007502 0.001668 -0.0000626
-0.001137
xry = [
-0.0000626
725.82
8008.47
82491.36
l 0.0000166
Dopo l'esecuzione della regressione le stime dei parametri e la somma di quadrati residua
sono risultati
0.21514
[ -0.007502
-0.001137
-0.007502
0.001668
-0.0000626
-0.001137
-0.0000626
0.0000166
l[ l [ l725.82
8008.47
82491.36
2.253288
2.745094
0.04175
SSE = lly- Yr= lly- Xbr

= yTy - bTXTY = 115.06
453
MSE = SSE = 115.06 = 5.23
n- 3 22
b - b SSE
f) Ricordando che _:_. d:
Cly Cii
rv tn- (k+l)
2
dove & = (
n- k+l
) (dove k = 2 e n = 25 e
i = O, 1, 2 e Cii è l'elemento di posto (i+ 1, i+ 1) della matrice (XTX)- 1J eseguire un test

al livello di significatività a= 1 - 'Y = 0.1 per l'ipotesi Ho : b2 = O, contro Ha : b2 =/-O.
Può essere utile sapere___ che l. 717 è lo 0.95 quantile della t 22.
La statistica test è ~ rv tn-(k+l) = t22-

C22
CJ
Si rifiuta se il valore della statistica test osservato è esterno all'intervallo
l+'Y
( -t22(-2-), l+'Y)
t22(-2-) = (-t22(O.95), t22(O.95)) = (-1.717, 1.717).
Nel nostro caso i valori osservati sono:

~ ~2 115.06
b2 = 0.04175; C22= 0.0000166; Cl = '.22 = 5.23
0.04175
quindi la statistica test osservata vale: ---;::====== = 4.4808. Si rifiuta.
y5.23 · 0.0000166
g) Qual è in questo caso la probabilità dell'errore del I tipo?
0.1
h} Quanto valep-value? {Può essere utile il fatto che 4.4808 è ilO.99991 quantile della
t 22 ). Che conclusioni possiamo trarre dal suo valore?
Poiché il valore ossevato della statistica test è 4.4808 e P[t 22 _::;4.4808] = 0.99991 il
p- value è 2 · (1- 0.99991) = 0.00018, un valore molto piccolo che ci motiva fortemente
a rifiutare.
k) Avendo già rifiutato Ho : b2 = O sarebbe inutile testare l'ipotesi Ho : b1 = b2 =
O contro l'alternativa Ha : uno almeno dei bi diverso da O. Facciamolo lo stesso per
esercizio.
2
SSR = brxry _ nY 2 = 27063.471- 25. ( 72~/ 2 ) = 5990.9
ssE = yry _ .;rxry = 115.06

MSR SSR/k 59~0·9 2995.5
Fo = MSE = SSE/(n - (k + 1)) = 11g206= 5.23 = 572.75
Fissiamo l'ampiezza del test: l-"( = 0.05. Con Excel possiamo calcolare F0 .95 ,k,n-(k+l) =
F 0.95,2,22 = 3.44 ( dalle tabelle in fondo al testo avremmo potuto solo concludere che
Fo.95,2,24< Fo.95,2,22< Fo.95,2,20 cioè 3.4 < Fo.95,2,22< 3.49.
L'ipotesi H 0 è chiaramente da rifiutare. Il che comunque non significa che il modello
Y =bo+ b1 x 1 + b2 x 2 + E: sia quello adeguato a descrivere Y.
La tabella ANOVA , tenuto conto che p = k + l, è:
variazione somme gradi di media
Fo
dovuta a dei quadrat i liber tà dei quadrati
regressione
5990.9 k= 2 MSR = 2995.5 :~: = 572.75
SSR
errori
SSE
115.06 n - (k + 1) = 22 MSE = 5.23
totale Syy 6106 n - l = 24
dove MS R = §.§.E.. '1S E = n- SSE
k , 1, (k+l) ·
i) Sempre per esercizio testiamo di nuovo l'ipotesi H 0 : b2 = O contro l'alternativa
Ha : b2 =f.O non procedendo come in f) ma utilizzando la tecnica del F - test parziale
15.38.
Il modello ridotto è:
Lo stimatore dei minimi quadrati per b1 è

~ -1
b1 = (X T1Xi) T
X 1Y
Nel nostro caso abbiamo:
~bi = [ bo
b1 l[ 2.253288 ]
2.745094 ; Xi =
(::)
SSEo = IlY-X1b1 ~ Il=Y T Y-b ~T
1X T1Y
Y TY = 27178.532; X T1Y = [ 725.82 ] ~T T = 23619.481

8008 .47 ; b 1X 1Y
SSEo = 27178.532 - 23619.481 = 3559.1

quindi SSEo - SSE = 3559.1- 115.06 = 3444; k = 2;r = 1
(SSEo - SSE)/r 3444 3444
Fo = SS E /( n - (k + l )) = ni.06
~
= --
5.23 = 658.51.
Fr,n- (k+1) = F1,22

Fo ,.__,
Fissiamo il livello del test in l - 1 = 0.05. Il quantile F 0 .95 , 1,22 = 4.3. L'ipotesi Ho è
rifiutata.
j) Il modello di regressione può essere utilizzato per calcolare il valore del responso Yn+l
in un (n + l) - esimo valore dei predittori. Se per esempio si vuole ipotizzare, in base al
modello, quale valore il responso potrebbe avere in corrispondenza dei valori dei predittori
(xn+1,1,Xn+1,2), (n+l = 26 nel nostro caso) ci si dovrebbe accontentare di una sua stima
In questo caso un intervallo di confidenza bilatero di livello I per Yn+l è dato da:
Y26 - t22( l; )J&

1 2 (1+x~+l (XT x)- 1xn+1) ~
~ Y26 ~
Tenuto conto che il massimo valore per x 1 è 20 e per x 2 è 186 trovare, in base al modello,
un intervallo di confidenza di livello 0.95 per il responso in x 26 , 1 = 25, x 26 ,2 = 186.
Vengono dati i valori x~+ 1(Xrx)- 1xn+l = 0.451 e y26 = 78.646,t 22(0.975) = 2.074
455
Si ha:
78.646 - 2.074)5.23 · (1 + 0.451)::; Y26::; 78.646 + 2.074)5.23 · (1 + 0.451)

78.646 - 2.074 · 2.7548::; Y26::; 78.646 + 2.074 · 2.7548
78.646 - 5. 7135 ::; Y26 ::; 78.646 + 5. 7135
72.933 ::; Y26 ::; 84.36

1) Se p = k +l = 2 ricaviamo dalla forma matriciale il modello lineare semplice
Y =bo+ b1x + r::

che viene messo in forma matriciale per la stima dei coefficienti bo e b1 ottenendo
Y=Xb+r:: (15.39)
l, l, l
((n,l) (n,2)(2,1) (n,l)
se k+ I - 2 alloca h [ : :~ Y -[ : b - [ :: ] ,e -[ ~~ e la 15.39
diventa:
Ci ,.__,N(O; 1) i= 1, ... ,n
2) Scriviamo xrx
-I:xi ] e quindi:
n
4) Troviamo xry
5) Scriviamo lo stimatore b = (xrx)- 1 xry
__, I:x2 x
nSxx Sxx
x 1
Sxx
da cui:
~ I:x 2 x - I:x 2 - nx 2 + nx 2 x
bo = --' I:Y; - -I:xiY; = Y ' - -I:xiY; =
nSxx Sxx Sxx Sxx
- x - - ,
= Y + -(nxY - I:xiY;) = Y - xb1
Sxx
~ -x l I:(xi - x)Y; SxY
b1 = -S I:Y; + -S I:xiY; = S = -S
xx xx xx xx
Osservazione
y = py = Xb = X(xrx)- 1 xry è la proiezione di y sullo spazio generato da X;
dim(PY) = 2
6) ScriviamoXIV
ssE = yr Y - f,T xr Y
(1,1) (l,n)(n,l) (1,2)(2,n)(n,l)
Intanto si osservi che yTy = I: }';2.Poi:

f,T xr y = [ y- xb1SxY ] [ I:Y; ] =
(1,2)(2,n)(n,l) Sxx I:xiY;
- SxY SxY -2 - SxY SxY
= (Y - x--)I:Y; + --I:xiY; = nY - nxY-- + --I:xiY; =
Sxx Sxx Sxx Sxx
- 2 SxY - - 2 S 2y
= nY + --(-nxY + I:xiY;) = nY + _x_
~X ~X
Quindi SSE = I: Y;2 - nY 2 - S5;y = Syy - S5;y da cui si ottiene

xx xx
a~ 2 _--- 1 (s yy--- S~y) .

n- 2 Sxx
Osservazione
SSE = I:(Y;- Y;)2 llv- vf
= liUn- P)Yll2 . Il proiettore Un- P) proietta
Y sullo spazio di dimensione n - 2 ortogonale a PY; quindi per il teorema di Cochran
ll(In- P)Yll2 = -SSE- rv X~- • D1. conseguenza E[-SSE-] = n-2 per cm. --SSE è corretto.
"'--'-----'----"- 2
a2 a2 a2 n- 2
Esempio 15.13.1 Importante.
Si considerino i seguenti dati:
-1 o 1
2 o
: Il ~ 1 1
XIV Ricorda che 88E = (Y - YY(Y - Y) = (Y - Y)TY - (Y - Y)TY.

Ora (Y - Y) e Y sono ortogonali ..
457
Cominciamo a plottare i dati, a trovare il modello lineare che li interpola col metodo dei
minimi quadrati, e a tracciare la retta di regressione.
X;
-2
Yi
o
XiYi
o
x2
4'
3
y = 0,7x + I •
-1 o o 1 2
o 1 o o
2
1 1
3
1
6
1
4
•
I: o 5 7 10
I 2
O 5
A I: x;Y; - nxY 7- 5· 5·5 A 5 A _ O
b1 = ---==--=-----,--
I:x7 - nx 2
=
10-5·
(o)
5
2 = 0.7· bo= Y - b1x = -5 - 0.7 · -5 = 1
Riscriviamo i conti in forma matriciale

o 1 -2
o 1 -1
5 o
y 1
1
e X= 1
1
o
1
[ 1 X ] . Segue che: xrx = [
o 10 ]'
3 1 2
xry= [~]e (xrx)- 1 = [
1/5
o 1/10
o
].
Allora:
o
1/10 ] [~ ] [o\]
Se si vuole invece interpolare i dati in (-") con una parabola si usa il modello:
Y = bo+ b1x + b2x 2 + c.

Di conseguenza
o 1 -2 4
o 1 -1 1
Y= 1 X= 1 o o = [ 1 X x2 ] .
1 1 1 1
3 1 2 4
Segue che:
1 -2 4
xrx- [
1
-2
4
1
-1
1
1
o
o
1
1
1
1
2
4 l
1
1
1
1
-1
o o
1
2
1
1
4
[
5
o
10
o
10
o
10
o
34 l'
o
1 1 1 o
-1 o 1 1
1 o 1 1
3
l
Facendo i conti si trova:
17/35 o -1/7
(xrx)- 1 = [ o 1/10 o .
-1/7 o 1/14
Infine:
17/35 o
o 1/10
-1/7 o
di conseguenza:
, 4 7 3 2
y = - +-x+-x.
7 10 14
15.14 Riassunto di risultati multivariati

Il modello lineare multivariato gaussiano è
che, riscritto per la stima dei coefficienti b;, tenendo conto delle ipotesi sugli r::; diventa:
Y=Xb+r::,
(n,l) (n,p)(p,l) (n,l)
1) Lo stimatore corretto di b è
proiezione ortogonale di Y sullo spazio vettoriale generato dalle colonne della matrice X.
2) Il modello lineare è allora:
Y= x (xrx)- 1 xr Y = PY. (15.40)
(n,p) (p,p) (p,n)(n,l)
3) Le colonne della matrice X sono linearmente indipendenti, cioè esiste (xrx)- 1.
4) Il vettore dei residui è

e=Y-Y
5) La somma dei quadrati dei residui è:
n
ssE = IIY- xE11
2 = IIY- v11 2 = 2)e;) 2 .
2 = llell
i=l
459
ssE = yry _ f;rxry
6) La somma dei quadrati dovuti alla regressione è:
7) Il coefficiente di variazione R 2 (nel caso multivariato lo abbiamo indicato con R 2

invece che con l'r 2 del caso uni variato, anche per sottolinerne la differenza di significato),
è:
R2 = SSR
Syy
8) La matrice
è un proiettore sul sottospazio V generato dalle colonne di X.

9) La matrice
In-P
è un proiettore sul sottospazio V _j_ ortogonale a V.
10) Lo stimatore del rumore è
e= y - y = y - py = Un- P)Y,
11) Valgono le seguenti:
e,.__,
N(O,a 2 (In - P)).
ee y sono indipendenti.
e e b sono indipendenti.
12) Teorema di Cochran. Se W rv N(µ, In) e P è un proiettore ortogonale su un

sottospazio V di dimensione h tale che Pµ = O. Allora
2 ,.__,xt
IIPWll
Inoltre se W rv N(µ, a 2 In) allora:
13) Per la somma SSE del quadrato degli errori risulta:
1 2
2SSE rv Xn-p·
a
In particolare E[SSE] = (n - p)a 2 .
14) Lo stimatore corretto per a 2 è
~2 SSE
a
n-p
Esercizio 15.15.1 Dato un modello lineare gaussiano univariato apporre l'esatto valore
di verità alle seguenti affermazioni:
b1= I:(x; - x)Y;
00 I:(x; -x)2
0 0 bo= Y + b1x
0 0 bo,b1 sono indipendenti
0 0 bo,b1 sono indipendenti se e solo se x = O
Esercizio 15.15.2 Dato un modello lineare gaussiano univariato e detto r 2 il coefficiente

di variazione, apporre l'esatto valore di verità alle seguenti affermazioni:
00 r2 = SxY
SxxSyy
r2 = S;y
SxxSyy
r 2 > 0.8 garantisce la bontà del modello
r 2 > 0.8 non è sufficiente a garantire la bontà del modello
Esercizio 15.15.3 Immaginiamo una situazione in cui un responso Y possa essere ef-
ficacemente descritto sulla base di 3 dati in ingresso, x 1 ,x 2 e x 3 . Si ipotizzi di eseguire
tre diverse letture di ciascuno di questi dati e sia
X3,1
X3,2
X3,3
l
la matrice che le riassume. Sia E: rv N(O, a 2 ). Sia Y; la componente i - esima di un
campione Y = (Y1 , Y2 , Y3 f di taglia 3 dal responso Y. Allora:
Y =bo+ b1 x 1 + b2 (x 2 ) 2 + b3 y'X3 + s è un modello multivariato lineare
Y = b0 + b1 x 1 + xt2 + v'i½x 3 + s è un modello multivariato lineare
X(Xrx)- 1 xr è il proiettore del vettore Y sullo spazio generato da X
In - X(Xrx)- 1 xr è il proiettore del vettore Y sullo spazio generato da X
Esercizio 15.15.4 Dato il modello lineare gaussiano (p = k + l)
Y=Xb+s,
(n,l) (n,p)(p,l) (n,1)
allora:
0D b = (XTX)-lXTY
b = xry è uno
è uno stimatore corretto di b
ffiB
D0
n-p
b ,.__,N(b,a 2 (XTX))
stimatore corretto di b
§.§..i,_ ha media a 2 perciò è uno stimatore corretto di a 2
461
[!][TI I:(Y; - Y;)2 + I:~=1(Y;- y f=o

2
A 2 I:i=l (A
Y; - Y-) = I: Y;2 - nY-2
[!][TI I:(Y; - Y;) + n
2 SSE
[!][TI r =--
§_yy ~
[!][TI (Y - Y) e Y sono indipendenti
1T71 ["""""i;,l b1 - b1
~~ / ~ rv N(O, 1)
a vSxx
[!] [TI bÌ~
a Bxx
è una quantità pivotale
~ bI - b I
[!J [TI -----;=========
v rv tn-
"2~~~2)
2
C!JCTI v ss
~b1 -bi ,.__,N(O 1)
,
cr2 (n~2)
[!J [TI SSE ,.__,
X~-2
Capitolo 16
Il mio quore sofriva la matina
lo stommaco faciva glu, glu, glu
la pancia crepitava, birichina
la lengua me sembrava de cauciu
Guido Almansi (1931-2001}
La cosa mi ha tanto impressionato, credimi,

che non sono riuscito
a chiudere occhio tutto il pomeriggio
Ennio Flaiano {1910-1972)
Processi stocastici: cenni •
16.1 Introduzione
Un processo stocastico è uno strumento matematico che si propone di modellizzare l'a-
leatorietà di un certo fenomeno. Tale fenomeno può, al solito, manifestarsi come uno
degli eventi elementari ( di uno spazio campionario n. Tale evento può essere pensato
visivamente come uno dei cammini o traiettorie del processo. Il tempo può essere discre-
to e allora gli istanti saranno indicati con n = l, 2, 3, ... (che eventualmente per ragioni
di opportunità potranno anche cominciare da O). oppure continuo e gli istanti saranno
indicati con t ~ O, t E R Ciò che modellizza l'aleatorietà a ogni istante n o t è una va
Xn(() o Xt((). Le va potranno essere le stesse (cioè avere la stessa legge) a ogni istante
oppure cambiare legge.
Le successioni {Xn} di va già viste nel capitolo 11 rappresentano un primo esempio di
processo stocastico. A ogni istante osserveremo il fenomeno, rileveremo l'evento elemen-
tare e scriveremo il valore che la va prende su quell'evento. La cosa ha una semplice
rappresentazione grafica che mostriamo nel caso in cui la successione (dovremmo ora di-
re il processo) sia, per esempio, la media campionaria {Xn} di una popolazione di media
µ. All'istante n la va in giuoco è la media campionaria Xn = Li=n'xi dove le X; sono
indipendenti ed equidistribuite. X1 = X 1 (() sarà il valore dell'osservazione all'istante 1,
Xn = Xn(() sarà il valore dell'osservazione all'istante n. Allora il valore di Xn all'istan-
te n sarà Xn = I:j'~, Xi, cioè la media aritmetica dei valori osservati fino a n incluso.
L'insieme dei valori (n, Xn) osservati per n = l, 2, ... costituiscono il grafico (discreto)
464 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
X 1 +x 2 •
2
a, +a2 + ... +a
• Il
n
µ+----------------------
n
o 2 n
Figura 16-1:
di uno dei possibili cammini o traiettorie del processo stocastico (pallini nella figura).
Naturalmente è solo uno dei cammini possibili. Infatti in una seconda occasione avrem-
sarebbe cin = I:,~

mo potuto osservare i valori a1 = X1 (ç), ... , an = Xn (ç) e il valore di Xn all'istante n
1 ai e il cammino sarebbe stato quello formato dai punti (n, cin) del
piano (quadratini nella figura 16-1). Vediamo ora altri esempi.
Esempio 16.1.1 Supponiamo di lanciare una moneta e di decidere che X 1 (() = e 1 se

esce testa e X 1 (() = 2t se esce coda. Questo è un tipo molto semplice di processo stocastico
contraddistinto da due soli cammini, uno descritto da et, l'altro descritto dalla retta 2t
(t ::::O).
___
, I ---·----·-·-· -· ___
, I -· --+-.-·--· -· -·
Figura 16-2:
Esempio 16.1.2 Sia x un numero scelto a caso tra (O, 1) e sia ( = L +oo b·
. ....:.,
2'
i=l
bi= O, l
la sua espansione binaria. Possiamo definire un processo stocastico a tempo discreto
Xn(() = bn di Bernoulli pensando a una va di Bernoulli che esprima la sua aleatorietà
a ogni istante (intero) del tempo assumendo il valore O oppure l. Ogni numero ( E (O,1)
è perciò in corrispondenza biunivoca con un cammino.
Nella figura 16-2 è rappresentato un generico cammino (a sinistra) e il cammino che
1
corrisponde a ( = 2 individuato da b1 = l e bi = O per i > l.
Esempio 16.1.3 All'interno di un certo sistema di telecomunicazioni un'antenna tra-

t
smette un segnale sinusoidale A 0 cos(27r To + cp
0 ); -oo < t < oo dove le quantità A 0 , T0
e cp0 possono essere va. Supponiamo che T 0 sia costante e che valga l, che c/Josia nulla
e che A 0 sia un numero casuale compreso nell'intervallo [-1, l]. Allora i cammini del
processo X(t, Ao) = Ao cos(27rt) saranno quelli indicati in figura 16-3.
465
0,6
0,2
o
18
-0,2
-0, 6
-1
Figura 16-3:
t
Se il processo invece fosse X(t,</; 0 ) = cos(21rT 0 + </;0 ); </;
0 E (-1r,1r) allora i cammini
sarebbero, sempre nell'ipotesi T 0 = 1, quelli della figura 16-4.
Figura 16-4:
In generale i cammini di un processo stocastico hanno un andamento molto complesso

che, in alcuni casi, si potrebbe immaginare rappresentato dalla figura 16-5.
Noi ci limiteremo qui a esaminare solo tre processi: quello bernoulliano, di cui abbiamo
già fatto un esempio, quello di Poisson e quello di Wiener.
20
15
10
·5
· 10
· 15
Figura 16-5:
16.2 Processi a tempo discreto

Un esempio di processo a tempo discreto lo abbiamo già visto sopra: è quello di Bernoulli.
In questa sezione parleremo solo di due particolari processi a tempo discreto {Xn} per i
quali le va sono identicamente distribuite e indipendenti (iid) comunque vengano scelte
tra le infinite che individuano il processo. Questo fatto si modellizza nel modo seguente:
1) 'ì!k: Fxk(x) = Fx(x),fxk(x) = fx(x),E[Xk] = µ,axk = a; dove f è la fd della X
nel caso continuo, mentre è la ldp (o fdd) (cioè la legge di probabilità) nel caso discreto;
2) per ogni campione di k va, cioè per ogni vtk (Xn,, Xn 2, ... , Xnk )T estratte dal
processo {Xn} la funzione di ripartizione congiunta di tale campione è data da:
Fxn, ,Xn2,..,,Xnk(xn,' Xn2, ... , Xnk) = P[Xn, ::; Xn,' Xn2 ::; Xn2, ... 'Xnk ::; Xnk] =
Fx (xn, )Fx (xn 2) · · · Fx (xnk ).
Invece della funzione di ripartizione si può scrivere la funzione di densità (continua o

discreta):
f Xn1 ,Xn2,..,,Xnk(xn,, Xn2, · · ·, Xnk) = f X (xn, )f X (Xn2)... f X (Xnk)

3) la media del processo è un vettore costante dato da:
E[Xn,]2 ] )
E[Xn ( µµ )
(
E[Xnk] µ
e anche la matrice di covarianza del processo è costante ed è data da:
Esempio
a2
16.2.1 Consideriamo il processo {Dn} dove le va sono iid tale che lfn :
P[Dn = -1] = 1- p, P[Dn = l] = p, E[Dn] = 2p- l, var[Dn] = 4p(l -p). Si ricavano in
~'
l
modo elementare il vettore µ{Dn} C{Dn} e la fdd fxn,,Xn 2,..,,Xnk(xn,,Xn 2,,,, ,Xnk).
467
Se, per esempio, si vuole calcolare P[D 1 = l, D 2 = -1, D 3 = -1, D 4 = l] si ha:
P[D1 = 1, D2 = -1, D3 = -1, D4 = l] = P[D1 = l]P[D2 = -l]P[D3 = -l]P[D4 = l] =
(1 - p) 2p 2. In modo analogo sarebbe P[D 2 = -l, D 9 = l] = P[D 2 = -l]P[D 9 = l]
(1 - p)p.
Nella figura 16-6 vediamo uno dei possibili cammini di {Dn} ottenuto per un valore di
p = 0.4.
ll+-+---.'-2....;3;......,..4~s;......+~-+-i-+....,;;.ll
...,Lc..'
......,1~4
.;,;!5-+--+-+----i'19'--+--'i2.;;..1
......,2.;;..3
;,..24....;2;...5
-,.....;2,...7-+-2;...9-+-',31
O 13 6 17 18 20 ' 2 ' 26 : 8 : 30 :
-I
• • •
Figura 16-6:
Molti interessanti processi sono ottenuti come somma di una successione di va iid (ab-
biamo visto all'inizio il caso della media campionaria). Precisamente da Xi, X2, X3, ...
poniamo Sn = X1 + X2 + · · · + Xn = Sn-l + Xn e, per convenzione, So= O.
Esempio 16.2.2 È questo il caso della passeggiata a caso unidimensionale che si

ottiene sommando va Dn appena viste (.fig. 16- 7).
Per la funzione di ripartizione del processo vedere il capitolo 11..
Osserviamo inoltre che il processo {Sn} ha incrementi indipendenti in intervalli di
tempo che non si sovrappongono (questo è un fatto generale che riguarda i processi
ottenuti come somma di va iid e non solo la passeggiata a caso). Consideriamo infatti
gli incrementi:
Sn, - Sno = Dno+l + ... + Dn, Sn3 - Sn2 = Dn2+l + ... + Dn3 no < n ::; n1
e n2 < n ::; n3 e n1 ::; n2
relativi a intervalli di tempo (discreto) che non hanno istanti di tempo in comune. Per
l'indipendenza delle D j anche gli incrementi sono indipendenti.
Un incremento è somma di va iid. Guardiamo dentro questa somma. Se n" > n' allora
Sn" -Sn' = Dn' +I+·· ·+Dn" cioè l'incremento è somma di n" -n' va. La distribuzione
di tale somma è la stessa di D1 + D2 + · · · + D n" _ n' cioè delle prime (n" - n') va. Questa
proprietà si esprime dicendo che gli incrementi del processo sono stazionari.
Vedremo queste proprietà nel processo che illustriamo qui di seguito.

• 2 4 5 6 7 8 9 10 11 2 13 14 L......
3__,__,......,.......,.......,.......,..._...,......,......,.........-
I 16---,---,__,......,.......,.......,..
7 18 19 20 2 1 22 .......
23 ....,.......,......,..........,....,----,,......
04 25 26 27 28 29 '.lO 31
o ___
- 1
•
-2 • • • • •
- 3
• • • • • • • •
-4
- :5
• •
Figura 16-7:
16.3 Il processo di Poisson

Nella capitolo 6 abbiamo presentato la distribuzione di Poisson, un modello matematico
per decrivere il susseguirsi casuale di "arrivi" nel tempo.
Supponiamo di contare il numero di arrivi a partire da un istante di tempo t = O.
Poniamo Xo = O, e per t > O
Xt = numero di arrivi fino al tempo t, cioè nell'intervallo (O, t].

Di conseguenza, preso s < t, Xt - Xs rappresenta il numero di arrivi nell'intervallo
(s, t]. Adottiamo una descrizione probabilistica, nel senso che supporremo che X 1 siano
variabili aleatorie; inoltre supporremo che formino un processo di Poisson, nel senso della
definizione seguente:
Definizione 16.3.1 Una famiglia di variabili aleatorie X 1 (t > O} si dice processo di

Poisson di parametro v > O se valgono le condizioni seguenti:
1) Xo = O.
2) Il numero di arrivi in un intervallo di tempo è indipendente dal numero di arrivi negli
intervalli precedenti. Formalmente, se p::; r ::; s ::; t (e quindi gli intervalli (p, r] e (s, t]
sono disgiunti) allora X 1 - Xs è indipendente da Xr - Xp.
3) Per s::; t, la variabile aleatoria X 1 - Xs ha la legge di Poisson di parametro v(t - s).
In alternativa alla condizione 3) può essere utile considerare la condizione 3') più facile
da verificare nei casi concreti.
3') Per s < t, valgono le uguaglianze:
P[Xt - Xs = l] = v(t - s) + o(t - s), P[Xt - Xs ~ 2] = o(t - s).
Oss. 1 Ricordiamo che la condizione 3) significa che
P[X - X = k] = e-v(t-s) vk(t - s)k k = o,l, 2, ... (O)

t s k! '
e che risulta perciò E[X 1 - X.]= v(t - s).
469
D'altra parte, con un percorso simile a quello utilizzato per la costruzione della fdd
di Poisson come limite di una successione di va binomiali visto nel capitolo 6, si può
mostrare che la 3 equivale anch'essa alla (O). Quindi 3) e 3 si equivalgono.
1
)
1
)
Oss. 2 Ricordiamo per una funzione f la scrittura f(t - s) = o(t - s) signi.fica
lim f(t-s) =0.

t-s t- S
Oss. 3 Poiché X 0 = O, la variabile Xt = Xt - X 0 ha la legge di Poisson di parametro

vt.
Oss. 4 Dall'uguaglianza
E[Xt-Xs]
v=-----
t-s
si ricava il significato, che avevamo già anticipato nel capitolo 6, del parametro v: è pari
alla media del numero di arrivi in un intervallo diviso la lunghezza di quell'intervallo;
perciò
v = numero medio di arrivi per unità di tempo.
v è chiamato intensità del processo.
Oss. 5 Nella condizione 2) della de.finizione non si afferma che, per esempio, siano in-
dipendenti Xt e Xr. Si richiede invece che siano indipendenti gli incrementi del processo
(cioè Xt - Xs e Xr - Xp) su due intervalli (p,r] e (s,t] disgiunti. La condizione 2) si
esprime dicendo che il processo ha incrementi indipendenti.
Oss. 6 La condizione 3) implica che, se gli intervalli disgiunti (p, r] e (s, t] hanno la
stessa lunghezza, gli incrementi Xt - Xs e Xr - XP (che sono pari al numero di arrivi
durante quegli intervalli} seguono la stessa legge. Questa condizione si esprime dicendo
che il processo ha incrementi stazionari. In particolare nel processo di Poisson il
numero (casuale} di arrivi in un intervallo di tempo dipende solo dalla sua durata, e non
dalla sua collocazione nel tempo.
Ovviamente non è vero che ogni fenomeno di arrivi nel tempo si può descrivere con
un processo di Poisson. Bisogna decidere di volta in volta se si può adottarlo come
modello oppure no. Per esempio prendiamo il caso degli arrivi dei clienti a una cassa di
un supermercato nell'arco di una giornata: può essere che in un'ora di punta il numero
medio di arrivi sia superiore che in un'altra ora (e questo viola la condizione di incrementi
stazionari); inoltre un cliente che si avvia a pagare sceglie la cassa con la coda più
corta (e questo viola la condizione di incrementi indipendenti). Può darsi tuttavia che
il processo di Poisson sia una buona descrizione degli arrivi dei clienti non nell'arco
dell'intera giornata, ma solo in un periodo di tempo di poche ore. La condizione 3 1
)
dice in sostanza che, per un intervallo (s, t] di "breve" durata, la probabilità di trovare
un solo arrivo è proporzionale alla durata t - s dell'intervallo, mentre la probabilità di
trovarne più di uno è trascurabile. In molte situazioni pratiche questa ipotesi è del tutto
ragionevole, e ciò spiega perché il processo di Poisson è un modello molto usato.
Può essere utile il grafico di uno dei possibili cammini del processo di Poisson (fig. 16-8).
17 .......,
16 ~
15
14
13
12
li
10 '"1
9 ~
8 ~
7 ~
'
6 ....!
5 t-:
,,
4
3
.
t-::
....-i::
,,
2
I
..-: : :
111
:
...-------1· : : ::
I
o : : :::
o 1, /IO 112 114 16 17
111 113 1,5
Figura 16-8:
Distribuzione esponenziale dei tempi di attesa

Sia X 1 (t ~ O) un processo di Poisson di intensità v. Indichiamo con To1 l'istante di
tempo del primo arrivo. Si usa chiamare To1 tempo di attesa del primo arrivo. È
una va che prende solo valori positivi.
Teoremino 16.3.2 T01 ha la legge esponenziale di parametro v.

Dim. La dimostrazione è del tutto analoga a quella fatta nel capitolo 7 che mostra il
legame tra la distribuzione di Poisson e quella esponenziale. •
Possiamo ora considerare l'intervallo di tempo che intercorre tra il primo arrivo e il
secondo arrivo: indichiamolo con T12- Si usa chiamare T 12 tempo di attesa tra il
primo e il secondo arrivo. Anche T 12 è una variabile aleatoria che prende solo valori
positivi.
In modo analogo possiamo considerare il tempo di attesa T23 tra il secondo e il terzo
arrivo, e definire in modo analogo T34, T 45 eccetera.
Vale il seguente teorema, che non dimostriamo.
Teorema 16.3.3 Le variabili T 01 , T 12 , T 23 , ... sono indipendenti e hanno tutte la legge

esponenziale di parametro v.
16.4 Il moto browniano

In analogia con la definizione di processo di Poisson, diamo la definizione di un processo
stocastico in cui al posto della legge di Poisson compare la legge di Gauss. Il processo
471
risultante viene detto moto browniano (o processo di Wiener 1).
Definizione 16.4.1 Una famiglia di va B 1 , (t ~ O) si dice moto browniano (o processo

di Wiener) se valgono le condizioni seguenti:
i) Bo= O.
ii) Il processo ha incrementi indipendenti.
iii) Per s::; t, la va B 1 - Bs ha la legge gaussiana con media zero e varianza (t - s).
4i) Le traiettorie del processo sono funzioni continue del tempo t.
Oss. 7 Poiché Bo = O, la va B 1 = B 1 -Bo ha la legge normale con media zero e varianza

t.
La iii) significa che se all'istante s la particella si trova nella posizione P (vedifig. 16-9)
allora la sua posizione al tempo t > s subisce una variazione ~ che ha probabilità O,68
di essere compresa tra nell'intervallo (-v'f=s, v'f=s), mentre P[l~I::;2v'f=s] = 0.95
e infine P[l~I::;3vt=s] = 0.997
valore del processo

-3,/(1- s)
,::,,-2 ,/(r-s )
- -,/(1-s)
P(s) ---- ,/(1-s )

~ 2,/(1-s)
iu.~--1----- s 3,/(r- s)
Figura 16-9:
Ricordiamo che la condizione ii) significa che se (p, r] e (s, t] sono intervalli disgiunti
allora B 1 -B. è indipendente da Br -Bp, Notiamo che sono indipendenti gli incrementi
del processo sui due intervalli. Non sono indipendenti, ad esempio, le variabili B 1 e Br,
La condizione iii) implica che, se gli intervalli disgiunti (p,r] e (s,t] hanno la stessa
lunghezza, gli incrementi B 1 - Bs e Br - Bp seguono la stessa legge. Questa condizione
si esprime dicendo che il processo ha incrementi stazionari.
Dato che B 1 ha legge normale, i suoi valori possono essere qualunque numero reale. Ciò
rappresenta una grande diversità rispetto al processo di Poisson, in cui i valori di X 1
possono essere solo numeri interi non negativi. In particolare la condizione 4i) sarebbe
impossibile per il processo di Poisson, perché le sue traiettorie "saltano" da un intero a
un altro, e sono necessariamente discontinue.

2
- I
P 0------------ --ll---f--l a, -----.,

Rl ,--------'O
- 2
- 3 O particella jjsica
Figura 16-10:
Il moto browniano è un modello appropriato per descrivere il movimento lungo una linea
di una particella che si muove di moto caotico; il valore (casuale) Bt si interpreta come la
posizione della particella al tempo t. La condizione 4i) esprime il fatto che la particella
si muove senza saltare da un punto a un altro. Nel grafico che mostriamo è eviden-
ziata la posizione "virtuale" della particella ai vari istanti t nello spazio bidimensionale
(tempoxposizione). La particella in realtà si muove lungo una linea e la posizione fisica,
in ogni istante, è la proiezione sull'asse delle posizioni della particella virtuale nello spazio
bidimensionale (figura 16-10).
Questo tipo di fenomeno fu osservato dal botanico inglese Brown mentre osservava il
movimento di particelle in sospensione in un liquido, e ciò spiega il termine "moto
browniano" .
Gaussianità
Vogliamo mostrare che il moto browniano è un processo gaussiano, nel senso della
definizione seguente.
Definizione 16.4.2 Un processo stocastico Bt {t ~ O) si dice gaussiano se presi ad

arbitrio punti t;: O= to < t1 < t2 < ... < tn il vettore
ha legge gaussiana multivariata.

473
Indichiamo provvisoriamente con B il vettore appena scritto. Per mostrarne la gaussia-
nità, consideriamo le variabili aleatorie
Sappiamo che ciascuna di loro è gaussiana. Inoltre sappiamo che sono indipendenti
(perché il moto browniano ha incrementi indipendenti). Allora il vettore
Bt, - B10
Bt2 - Bt,
A= Bt 3 - B12
ha le legge gaussiana multivariata. Dato che le componenti del vettore B si ottengono

come combinazioni lineari delle componenti del vettore A (cioè il vettore B si ottiene
applicando una trasformazione lineare al vettore A) si conclude che anche il vettore B
ha legge gaussiana multidimensionale.
Media e correlazione del moto browniano

Cerchiamo un'espressione esplicita per le funzioni
m(t) = E[B 1 ], p(t, s) = cov[Bt, Bs], t, s ~ o.

Dato che B 1 ha media zero, risulta, per ogni t ~ O,
m(t) = O.
Di conseguenza, p(t, s) = E[B 1B 8 ]. Calcoliamone il valore supponendo dapprima O ::;
s ::; t; scriviamo
p(t, s) = E[BtBs] = E[(Bt - Bs + B.)Bs] = E[(Bt - B.)Bs] + E[B;].

a) Poiché il processo ha incrementi indipendenti, le variabili B 1 - Bs e Bs = Bs - B 0
sono indipendenti e risulta
E[(Bt - B.)Bs] = E[Bt - B.]· E[Bs] = O,

dato che E[Bs] = O.
b) Poiché Bs ha legge N(O, s), risulta E[B;] = var[Bs] = s.
Dai punti a) e b) si deduce che p( t, s) = s. Se fosse stato O ::; t ::; s avremmo trovato
p(t, s) = t. Qualunque siano t, s ~ O risulta allora
p(t, s) = min(t, s).
Assieme ai risultati del paragrafo precedente sappiamo che per il moto browniano valgono
le proprietà seguenti:
i*) Il processo B 1 (t ~ O) è gaussiano.
ii*) Le funzioni media e correlazione sono
m(t) = O, p(t, s) = min(t, s), t,s ~ O.
iii*) Le traiettorie del processo sono funzioni continue del tempo t.
È interessante notare che queste proprietà caratterizzano il moto browniano. Vale infatti
il seguente:
Teorema 16.4.3 Se un processo stocastico Bt (t ~ O) soddisfa i*), ii*), iii*) allora è
un moto browniano.
Dim.: Per dimostrare questa affermazione basta controllare che valgano le condizioni
i), ii), iii) nella definizione del moto browniano {la condizione 4i) è esplicitamente
richiesta).
Condizione i). Per la gaussianità Bo è gaussiana e ha media m(O) = O e varianza
p(0, O) = O. Perciò Bo = O.
Condizione ii). Siano (p, r] e (s, t] intervalli disgiunti, con p < r ::; s < t. Per la
gaussianità le variabili Bp, Br, Bs, Bt sono congiuntamente gaussiane e quindi lo sono
anche le variabili Bt - Bs, Br - Bp, che si ottengono come combinazioni lineari delle
precedenti. Per mostrare che sono indipendenti basta mostrare che sono incorrelate, e
questo si fa calcolando
cov[Bt - Bs,Br - Bp] = p(t,r) - p(t,p) - p(s,r) + p(s,p) = r - p-r +p = O.
Condizione iii). Per s::; t, le variabili Bs, Bt sono congiuntamente gaussiane e quindi
è gaussiana anche Bt - Bs. La sua media è m(t) - m(s) = O e la sua varianza è pari a
cov[Bt - Bs, Bt - B.] = p(t, t) - p(t, s) - p(s, t) + p(s, s) = t- s- s +s = t - s.
La proposizione è dimostrata. •
16.5 Catene di Markov a tempo discreto
1
I
I
2
3 •
I
I I
·.:::
.e
•
I I
., I
I
I
I I
\ I I
'\, \. I I I
\ • I I
M-1 \ I I I
- - - ..- - - _,
\ I I 1I
M ~
o 1 2 n-1 n
istanti
Figura 16-11:
Introduciamo questa classe particolare di processi stocastici come generalizzazione della

nozione di eventi indipendenti. Consideriamo una collezione al più numerabile di al-
ternative Eh; h E MI= {l, 2, 3, .. , M} (M finito o infinito numerabile) che costituiscono
una partizione dell'evento certo, cioè i, j E MI;i =Jj; E;E 1 = 0 /\ UEh = n. Consideria-
mo poi una famiglia di va Xt dove t E 'II', lo spazio dei tempi. 'II' può essere discreto,
475
'II'= {O, 1, 2, 3, .. }, oppure continuo 'II'= {t ~ O,t E JR}.Per ogni t le determinazioni di Xt
sono {l, 2, 3, .. } gli stessi valori che stanno in MI. Utilizzando nel seguito, per semplicità,
il linguaggio della Fisica parleremo delle alternative Eh come dei possibili stati di un
sistema. A ogni istante il sistema evolve e cambia stato. Con l'evento {Xt = h} inten-
diamo che all'istante t il sistema è nello stato Eh. Il nostro scopo è quello di verificare
in quali stati si trovi il sistema nei vari istanti t. Con ulteriori precisazioni la famiglia
di va {Xt} risulta essere un processo stocastico. Noi ci limiteremo inizialmente al caso
MI = {l, 2, 3, .. , M} finito e 'II' = {O,1, 2, 3, .. } discreto. Un possibile cammino di questo
processo è schematizzato in figura 16-11.
Se l'evento {Xn = in} ={ all'istante n il sistema si trova nello stato E;n }, è indipendente
dal fatto di essersi trovato in uno qualunque dei possibili stati in tutti gli istanti precedenti
ovviamente avremmo:
P[Xn = in I {Xo = io} n {X1 = i1} n ... {Xn-1 = in-1}] = P[Xn = in]
Se indeboliamo un po' l'indipendenza e riteniamo che la probabilità di trovarsi nello
stato E;n all'istante n sia influenzata esclusivamente dallo stato in cui si trova il sistema
all'istante (n - 1) avremmo invece:
P[Xn = in I {Xo = io} n {X1 = i1} n ... {Xn-1 = in-1}] = P[Xn = in I Xn-1 = in-il
(16.1)
Poniamo Pij,n = P[Xn = j I Xn-1 = i]. In linea di principio Pij,n dipende dall'istante n.
Noi considereremo solo il caso in cui Pij non dipende da n ma è la stessa per ogni istante
n considerato, quindi Pij,n = Pij
Definizione 16.5.1 Si definisce probabilità di transizione {di ordine 1, one-step

transition probability) il numero:
lfi,j; 1::; i,j::; M; p;1(l) = Pij = P[Xn = j I Xn-1 = i] (16.2)

e la matrice quadrata lv! x M
Pn P12 PIM
P21 P22
1r(l)= 7T' =[p;j] = (16.3)

Pii Pi2 PiM
PMI PMM
si dice matrice di probabilità di transizione {di ordine 1}.
M
Ovviamente O::; p;1 ::; 1 elfi; I: Pij = 1 (la somma degli elementi di una qualunque riga
j=l
è uguale a 1). Una matrice 7T' siffatta si dice matrice stocastica.
Definizione 16.5.2 Se è soddisfatta la 16.1 e se p;1 definita da 16.2 non dipende da n,

il processo stocastico {Xt} prende il nome di catena di M arkov ( omogenea, nel senso
che non dipende dall'istante n) a tempo discreto (e finita perché MI è finito).
La probabilità di transizione omogenea p;1 assegna la probabilità che il sistema raggiunga

lo stato j - esimo provenendo da quello i - esimo all'istante n - l (non importa quale)
in cui si trovava all'istante precedente.
All'istante iniziale n = O il sistema, a causa del suo comportamento aleatorio, si troverà
in un certo stato Ej con probabilità P[X 0 = j] = Pj (O). Poiché gli Ej costituiscono una
partizione I: Pj (O)= 1.
Definizione 16.5.3 P(O) = P = {P 1 (0), P2 (0), ..., PM(0)}

è un vettore riga che rappre-
senta la distribuzione iniziale sugli stati. Le componenti di P(O) sono:
Pj(0) = P[Xo = j];j = 1, 2, ... , M (16.4)

Analogamente il vettore P(n) = P = {P 1 (n), P 2 (n), ... , PM (n)} dove:
Pj(n) = P[Xn = j];j = 1, 2, ... , M (16.5)

rappresenta la distribuzione del sistema all'istante n.
Esempio 16.5.4 Ogni giorno un uomo esce di casa con l'auto o con la bici. Non prende
mai la bici due giorni di seguito ma se un giorno esce in auto il giorno dopo prende l'auto
con probabilità p e la bici con probabilità q = l - p. Lo spazio degli stati è E1 = {auto}
e E 2 = {bici}. Si tratta di una catena markoviana perché a ogni giorno si può pensare
collegata una va Xn che prende il valore l (auto) oppure 2 (bici) e {Xn = i} dipende
solo dal valore della catena all'istante n - l.
La matrice di transizione e il suo grafo sono i seguenti:
1----1--
1-p
..... G
L'elemento P11 = P[Xn = l I Xn-1 = l] = p; P12 = P[Xn = 2 I Xn-1 = l] = 1- p;
P21 = P[Xn = l I Xn-1 = 2] = l; P22= P[Xn = 21Xn-1 = 2] = O.
Esempio 16.5.5 Supponiamo di avere una successione di va di Bernoulli h iid di

n
parametro p. Sia Sn = I: h- È facile trovare la distribuzione di Sn. Infatti P[Sn = j] =
k=l
(':)pi (1 - p )n- j; O ::; j ::; n. Il valore di Sn all'istante n dipende solo dal valore di Sn- l ·
È/ipuò pensare allo stato Ei come al valore che Sn può assumere: quindi Ei = i; i ~ O.
Gli stati sono questa volta infiniti. Calcoliamo Pii = P[ Sn = j I Sn-1 = i]. Se j 'I i
p
l-p
o
o
p
l-p
o
p
..·i
oppure j 'I i + 1 Pii = O. La matrice di transizione è perciò la seguente:
o
...
Il suo grafo è in figura 16-12:

Infatti l'elemento Poo = P[Sn = O I Sn-1 =O]= 1- p Infatti questo capita se In= O
perché Sn = In + Sn-1 · Invece poi = P[ Sn = l I Sn-1 = O]= p. Infatti questo capita se
In= O sempre perché Sn =In+ Sn-1· Eccetera.
Supponiamo ora di voler conoscere Pj(l) = P[X1 = j]. Poiché {Xo = i} costituisce una
partizione dell'evento certo, per il teorema delle probabilità totali si ha:
Pj(l) = P[X1 = j] = I: P[Xo = i]P[X1 = j I Xo =i]= I: Pi(0)Pii· Da cui
477
Figura 16-12:
P(l) = P(0)1r
Sempre dal teorema delle probabilità totali abbiamo Pj(2) = P[X2 = j] = I:P[X1 =
k
k]P[X2 = j I X1 = k] = I:I:P;(O)PikPkj I:P;(O)I:PikPkj I:P;(0)p;j(2).
k i k
Pensiamo alla matrice
I: P1kPk1 I: P1kPk2 I:P1kPkM

k k k
1r(2) =[p;j(2)] =
Il termine Pij (2) = I: PikPkj è il risultato del prodotto della riga i-esima della matrice
k
71" per la sua colonna j-esima. Si conclude che
P(2) = P(0)1r(2) = P(0)1r 2

Supponiamo ora che valga P(n - 1) = P(0)1rn-l, cioè Pk(n - l) = I: P;(O)p;k(n - 1)
i
dove Pik(n- l) è l'elemento di riga i e colonna k della matrice 'll"n-l. Calcoliamo Pj (n) =
P[Xn = j] = I: P[Xn-1 = k]P[Xn = j I Xn-1 = k] = I: I: P;(O)p;k(n - l)Pkj
k k i
I: P;(O) I:P;k(n - l)Pkj = I: P;(O)p;j(n)
i k i
L'elemento Pij(n) = I:Pik(n - l)Pkj è l'elemento di posto (i,j) della matrice 1r(n)
k
prodotto della riga i di 'll"n-l per la colonna j di 71".
Abbiamo perciò dimostrato per induzione il seguente
Teorema 16.5.6 {di Chapman-Kolmogorov) Se la distribuzione iniziale di una ca-

tena di Markov omogenea è data dal vettore P(O) = P = {P 1 (0), P2 (0), ... , PM(O)} e se
la sua matrice di transizione ( a un passo) è data dalla 16.3 allora la distribuzione del
sistema all'istante n è data dal vettore P(n) = {Pi(n),P 2(n), ... ,PM(n)} dove Pj(n) =
P[Xn = j] = I: P;(O)p;j(n) e Pij(n) è l'elemento di posto (i,j) della matrice 1r(n)= 1rn.
i
In forma matriciale.
P(n) = P(0)1rn (16.6)

Definizione 16.5.7 La matrice
Pn(n) P12(n)
[ P21(n) P22(n) (16.7)
PM1(n)
si dice matrice di probabilità di transizione {di ordine n) di una catena di Markov
omogenea, finita e i suoi elementi Pii(n) = P[Xn = JIXo = i] si chiamano probabilità
di transizione {di ordine n).
Osserviamo che, poiché la 16.6 dipende da 1r che però non dipende dall'istante n in cui si
osserva il sistema, nota la distribuzione del sistema all'istante m saremmo potuti partire
da m e in n passi arrivare all'istante m + n. Avremmo dimostrato la 16.6 in una forma
apparentemente più generale:
n ~ O;m ~ O;P[Xm+n = j I Xm =i]= P[Xn = j I Xo =i]= Pij(n) (16.8)
Risulta perciò
(16.9)
Si possono ora facilmente verificare le equazioni di Chapman-Kolmogorov.
n[pt]
M
O::; k::; n; Pij(n) = LPih(k)Phj(n - k); 1::; i,j::; M (16.10)
h=l
:o~e srr· la =t,ice di trnnsi,ione di o,dine o che è la mafrice id=tira
Le 16.10 si possono scrivere anche:
M
n, m ~ O;p;1(n + m) = LPih(m)ph 1 (n); 1::; i, j::; M (16.11)
h=l
Infatti Pij (n) è l'elemento di posto (i, j) della matrice 1rn. Del resto 1rn = 1rk1rn-k. Per
cui p;1 (n) si ottiene moltiplicando la riga i-esima di 7rk per la colonna j-esima della
1rn-k_ Così facendo si ottiene esattamente la 16.10.
Per esempio per n = 3 si ha: Pij(3) = I: Pik · Pk1(2)
k=l
= I: Pik ( I: Pkh · Phj)
k=l h=l
I: ( I: Pik · Pkh) Phi = I: Pih(2) · Phi oppure

h=l k=l h=l
1r 2 · 1r = 1r · 1r 2 = 1r 3 = [p;1 (3)].
Le equazioni 16.10 si basano ancora sul teorema delle probabilità totali e indicano che
nel passaggio dallo stato i allo stato j in n passi il sistema si troverà in qualche stato,
diciamo h dopo esattamente k passi. Per cui il valore Pih ( k) · Phj (n - k) rappresenta la
probabilità condizionale, dato che si parte dallo stato i, di essere dopo k passi nello stato
h e n - k passi dallo stato hallo stato j (figura 16-13).
479
n-k
o 1 2 m
Figura 16-13:
Classificazione degli stati

In questa sezione ammetteremo che il numero di stati possa essere finito o infinito
numerabile.
Oss. 8 Le formule scritte per le catene di Markov .finite si estendono facilmente alle
catene in cui il numero di stati è numerabile. Le somme diventano serie e i prodotti tra
matrici diventano prodotti tra matrici in.finite dove l'algoritmo di calcolo del prodotto è
lo stesso che nel caso finito, cioè righe per colonne.
Definizione 16.5.8 Uno stato Ej si dice accessibile da uno stato Ei ( e si scrive i ---+j)
se per qualche n è Pii (n) > O. Se lo stato Ej è accessibile da Ei e lo stato Ei è accessibile
da Ej gli stati Ei e Ej si dicono comunicanti (e si scrive i +-+ j).
Valgono le proprietà:
{ !::~ allora j +-+ i

i +-+ j I\ j +-+ k allora i +-+ k
(16.12)
Le 16.12 dicono che la proprietà di "comunicare" tra stati è riflessiva, simmetrica e

transitiva.
Per verificare la terza delle 16.12 basta mostrare che se i ---+ j e j ---+ k allora i ---+ k. Le
condizioni i ---+j e j ---+ k implicano che esistono n e m tali che Pii (n) > O e p 1k( m) > O;
allora per le equazioni di Chapman-Kolmogorov 16.11 (scritte per un numero di stati
numerabile):
Pik(n + m) = LPih(n) · Phdm) ~ Pi1(n) · Pik(m) > O

h
Definizione 16.5.9 Un insieme C di stati di una catena di Markov si dice classe

chiusa se gli stati di C non possono comunicare con altri stati al di fuori di C.
Definizione 16.5.10 Se per qualche i Pii = 1 lo stato Ei si dice assorbente e un

processo che entra in uno stato assorbente non ne uscirà più.
In questo caso la riga i-esima della matrice 7r = [pij] è [O,O, ... , O, 1, O, ... , O] dove 1
occupa la posizione i.
Definizione 16.5.11 Una catena di Markov si dice irriducibile se tutti gli stati comu-
nicano.
Definizione 16.5.12 Una matrice di transizione 1r = [pij] si dice regolare se V(i, j), :ln:
Pii (n) > O. In questo caso la catena si dice regolare.
Si vede facilmente che una catena la cui matrice di transizione sia regolare è irriducibile.
Supponiamo che una catena si trovi all'istante O nello stato Ek, cioè {Xo = k}. Sia fk(n)
la probabilità che il primo ritorno nello stato Ek avvenga esattamente dopo n passi.
Grazie al teorema delle probabilità totali si può mostrare che vale la relazione seguente:
n
Pkdn) = L fk(m)pkk(n - m)
m=l
dalla quale si possono ricavare le fk (m).
La quantità
!k = I:!k(n) (16.13)
n=l
rappresenta la probabilità di ritornare almeno una volta a Ek partendo da Ek. Dunque
(X) (X)
I: fk(n) ::; 1 e se I: fk(n) < 1 il processo potrebbe non ritornare mai allo stato Ek
n=l n=l
partendo da Ek.
Se fk = l lo stato k si dice ricorrente perché c'è probabilità 1 che il sistema ritorni a Ek.
Si può vedere che se ci torna una volta allora ci tornerà infinite volte (infatti ripartendo
da Ek è come se il processo ripartisse da capo e ritornerà a Ek con probabilità 1).
(X)
Se I: fk(n) < 1 lo stato Ek si dice transiente perché c'è una probabilità positiva che
n=l
una volta passato di lì il processo non ci torni più. Si può vedere che il processo visita
uno stato transiente al più un numero finito di volte.
Indichiamo con Tk il primo istante in cui la catena X 1 visita lo stato Ek (essendo partito
da un qualunque altro stato).
Stabilire se uno stato è ricorrente o transiente non è semplice perché non è semplice
trovare fk(n) per ogni n. Si può invece calcolare il valor medio µk di Tk sotto la condizione
{Xo = k }. Infatti, poiché:
P[Tk = mlXo = k] = fk(m)

si vede che:
(X)
00 se I: fk(n) < 1 transiente

n=l (16.14)
(X) (X)
I: nfk(n) se I: fk(n) = 1 ricorrente

n=l n=l
Nella 16.14 µk rappresenta il tempo medio di attesa del tempo di primo ritorno nello
stato k quando inizialmente la catena si trovava nello stato k. Inoltre se lo stato Ek è
481
ricorrente e µk = oo allora Ek si chiama ricorrente nullo. In caso contrario Ek si
chiama ricorrente positivo.
Consideriamo ora la va di Bernoulli così definita:
Ik ={ O
1 se Xn =k (16.15)
n se Xn =/k
Definizione 16.5.13 Il tempo trascorso dalla catena nello stato k fino al tempo
n è dato
Allora i passaggi della catena per Ek (cioè il tempo trascorso dalla catena nello stato Ek)
(X)
(compreso quello iniziale) è dato da: I: /~. Tale valore può essere finito o infinito. Si
n=O
osservi che la va di Bernoulli I~ ha valore atteso E[/~] = P[Xn = k]. Calcoliamo allora
il numero medio di ritorni E [I::~=O I~ I Xo = k] nello stato Ek partendo dallo stato Ek,
Si vede che:
E [n~OI~ I Xo = k] = n~OE[I~ I Xo = k] = n~OP[Xn = k I Xo = k] = n~/kk(n).
Si può ora dimostrare il seguente:
Teorema 16.5.14 Se Ek è transiente allora
1
(16.16)
l-fk'
Se Ek è ricorrente allora
(16.17)
( e quindi il numero medio di ritorni è infinito).

(X)
Per la 16.16 se Ek è transiente allora I: Pkk(n) < oo mentre per la 16.17 se Ek è

(X)
n=O
ricorrente allora I: Pkk( n) = oo.
n=O
Vale il seguente:
Teorema 16.5.15 Se i è ricorrente e i---+ j allora anche j è ricorrente. Inoltre partendo

da i entrambi gli stati vengono visitati infinite volte, con probabilità l.
Una conseguenza della proposizione 16.5.15 è che gli stati di una classe chiusa sono tutti
ricorrenti o tutti transienti (cioè ricorrenza e/ o transienza è una proprietà di un'intera
classe).
Sia ora T l'insieme degli stati transienti di una catena. Gli stati ricorrenti possono essere
suddivisi in classi chiuse disgiunte C1, C2, ... tali che gli stati di C; non comunicano con
quelli di Cj se i =Jj e ovviamente neppure con quelli di T sempre per la proposizione
16.5.15.
Concludiamo che:
1) se lo stato Ek da cui parte una catena è ricorrente, allora il processo:
1.1) non può visitare nessuno stato j transiente;
1.2) visita invece infinite volte tutti gli stati della propria classe chiusa;
1.3) non può visitare nessuno stato di una diversa classe chiusa;
2) Se lo stato di partenza Ek è transiente allora il processo può entrare in una classe
ricorrente (e poi non ne esce più) oppure può restare per sempre nella classe T ma senza
(X)
ripassare infinite volte dallo stato Ek, altrimenti si avrebbe I: Pkk(n) = oo vietato dalla
n=I
16.16.
Uno stato Ek si dice periodico di periodo t se il processo può tornare in Ek solo in
t, 2t, 3t, ... passi in modo che Pkk(n) = O se n non è divisibile per t. Uno stato si dice
aperiodico se t = 1.
Oss.: Si può mostrare che tutti gli stati di una classe chiusa hanno lo stesso periodo,
quindi anche la periodicità è una caratteristica di una classe chiusa.
Uno stato Ek ricorrente positivo che sia aperiodico si dice ergodico. Anche l'ergodicità
è ovviamente una caratteristica di una classe chiusa.
Teoremino 16.5.16 Gli stati di una catena di Markov irriducibile sono o tutti tran-
sienti, o tutti ricorrenti nulli, o tutti ricorrenti positivi.
Una catena di Markov irriducibile si dice ergodica se tutti gli stati sono ergodici.
Definizione 16.5.17 Un vettore v = {v1, v2, ... }, se I: v; = 1, rappresenta una possi-

bile distribuzione di probabilità sugli stati Ej. Detta 11' la matrice di transizione (a un
passo) della catena, tale distribuzione si dice stazionaria se
V= V7l' (16.18)
Per quanto detto in 16.6 se v = P(O), cioè se la distribuzione iniziale della catena è
stazionaria, allora si ha "in, P(O) = P(0)7r = ... =P(0)7rn cioè la distribuzione sugli stati
è sempre quella iniziale (cioè non dipende da n, il che giustifica il termine stazionaria).
Una catena stazionaria è l'analogo di un sistema in condizione di equilibrio (anche se le
transizioni tra vari stati avvengono senza sosta a ogni passo).
Esempio 16.5.18 Consideriamo la catena che ha la seguente matrice di transizione:

7r = [ l ~a l ~b ] ; O< a < l; O< b < 1
11' ovviamente è regolare. Proponiamoci di trovare l'unica distribuzione stazionaria v di
7l'
V7l' = (v 1,v2) [ 1 ~a ~
1 b ] = (v 1,v2)
Si tratta di risolvere il seguente sistema:
{ v1(l-a)+v2b=v1 .. _
che ha soluzioni v 1 - --
b . _ a
, v2 - --
v1a + v2(1 - b) = v2 a +b a +b
Vale il seguente:
Teoremino 16.5.19 Se Ek è ricorrente nullo o transiente e v = {v1 ,v 2 , ... } è stazio-

naria allora vk = O.
483
Ciò significa che in condizione di equilibrio è nulla la probabilità di trovare il sistema in
uno stato ricorrente nullo o transiente.
Per quanto riguarda l'esistenza di probabilità stazionarie valgono i teoremi seguenti.
Teorema 16.5.20 (teorema ergodico) Se una catena è irriducibile e ricorrente posi-

tiva allora esiste un'unica probabilità stazionaria v ={
v 1 , v2 , ... }. Inoltre:
Vk=l/µk;
Qualunque sia la distribuzione iniziale P(O) risulta:
l n
--
n+l
LI~ -+Vk,
m=O
per n-+ oo,
con probabilità l.
Oss.: Si noti che, se una catena è irriducibile e ricorrente positiva allora, per la propo-
sizione 16.5.16 µk < oo. Segue che vk > O. Inoltre se µk, il tempo medio di attesa del
tempo di primo ritorno nello stato Ek quando inizialmente la catena si trovava nello stato
Ek, è "grande" Vk è "piccola". Ciò è ragionevole: infatti se il sistema mediamente impiega
molto tempo a tornare a Ek partendo da una condizione di equilibrio v ={
vi, v2, ... },
Vk = P[Ek], la probabilità di trovare il sistema nello stato Ek non può essere grande.
n
Inoltre I: I~ è il numero di istanti di tempo spesi dal sistema nello stato Ek nei primi
m=O
l n
n+ listanti a partire dal momento iniziale m = O. Pertanto -- I: I~ è la proporzione
n + l m=O
di tempo speso dal sistema nello stato Ek, nei primi n + l istanti della
sua evoluzione.
Il teorema afferma che, sul lungo periodo, la frequenza della presenza nello stato Ek
converge alla probabilità della presenza Vk.
Teorema 16.5.21 {Markov Kakutani) Una matrice di transizione su una catena

finita ha sempre almeno una probabilità stazionaria.
Equilibrio
Siamo interessati a studiare il comportamento delle probabilità di transizione a n passi
Pii(n) per n-+ oo. Vediamo le seguenti proposizioni la cui dimostrazione esula dai limiti
di queste dispense.
Teorema 16.5.22 {Markov) Una matrice di transizione regolare di una catena di

Markov finita ha un'unica distribuzione stazionaria v. Inoltre
La matrice di transizione 1l'nconverge a una matrice le cui righe sono i vettori dell'unica
distribuzione stazionaria. Inoltre poiché P[Xn = j] = (P(0)7rn)j = I: P;(O)p;1(n) -+
i
I: P;(O)v; = V; cioè qualunque sia la distribuzione iniziale P(O) la distribuzione di Xn
i
converge alla distribuzione invariante v. Si osservi che se la matrice di transizione della
catena è regolare la catena è irriducibile.
Teorema 16.5.23 Se una catena è irriducibile e transiente ( oppure irriducibile e ricor-
rente nulla) allora
lim Pij(n)---+ O
n-oo
Teorema 16.5.24 Se alle ipotesi del teorema ergodico 16.5.20 si aggiunge l'aperiodicità
allora:
lim Pij(n) = Vi
n-oo
dove v è la distribuzione invariante che è certo unica perché la catena è irriducibile.
La proposizione 16.5.24 è una generalizzazione al caso del numero degli stati infinito
numerabile del teorema di Markov 16.5.22.
16.6 Esempi
Esempio 16.6.1 La calunnia è un venticello.
Supponiamo che Caio confidi a un'altra persona A che un comune conoscente, Tizio,
evade le tasse. A sua volta A si confidi con B, B con C e così via, passando ogni volta
la confidenza a una persona diversa. Ammettiamo per ipotesi che ogni persona abbia
probabilità p di riferire la confidenza così come l'ha ricevuta e (1 - p) di riferire il suo
esatto contrario. Qual è la probabilità che alla n-esima persona venga confidato che
Tizio evade le tasse?
Soluzione. Possiamo considerare la catena di confidenze come una catena di Markov
Xn a due stati che indicheremo con 1 e 2. Il processo all'istante n sarà nello stato 1 se
alla ennesima persona viene riferito che Tizio non paga le tasse, nello stato 2 altrimenti.
Allora Pll = P[Xn = 1 I Xn-1 = l] = P, P12 = P[Xn = 2 I Xn-1 = l] = 1 - P,
P21 = P[Xn = 1 I Xn-1 = 2] = 1 - p e infine P22 = P[Xn = 2 I Xn-1 = 2] = p. La
matrice di transizione allora è:
7r=[ l-pp l-pJ·O<p<l.
p '
Ovviamente 7rè regolare e ammette un'unica distribuzione stazionaria v = (v1, v2) =
(t-p)'t-p))
2 l-p 21-p
=(½,½)(vedi esempio 16.5.18). Per il teorema di Markov la di-
stribuzione della catena converge alla distribuzione stazionaria (½, ½)- Questo significa
che quanto più grande è n tanto più vicina a ½ è la probabilità che all'n-esima persona
venga riferito che Tizio evade le tasse e altrettanto vicina a ½ è anche la probabilità di
riferire che Tizio non le evade. Quindi l'informazione finale è indipendente da quello che
Caio ha confidato la prima volta e dalla probabilità p che ogni persona ha di riferire
correttamente l'informazione ricevuta.
Esempio 16.6.2 I due giocatori 11•
IIPer una soluzione trovata senza la tecnica delle catene vedere il capitolo 10.
485
Supponiamo che due giocatori G1 e G2 posseggano rispettivamente N e M dollari e
facciano un gioco che consta di tante partite. A ogni partita G 1 riceve un dollaro da G 2
con probabilità p (O< p < 1) e gliene cede 1 con probabilità 1 - p = q. Il gioco termina
quando uno dei due giocatori è rovinato, cioè non ha più soldi. Indichiamo con Xn il
capitale di G1, Gli stati possibili per il sistema sono i valori che Xn può assumere, cioè
O, 1, ... , M + N. Il valore che Xn+l può prendere dipende solo dal numero di dollari che
G1 aveva all'istante n. Scriviamo la matrice di transizione.
Se i # O !\i # M + N
sej=i+l
sej=i-1
altrimenti
Inoltre:
Poj = P[Xn+l = j I Xn = O]= { ~ se j = O

altrimenti
P(M+N)j = P[Xn+l = j I Xn = M + N] = { ~ sej=M+N

altrimenti
Da ciò si ha la matrice (M + N + l, M + N + 1) :
1 o o o
q o p o o
o q o p o
7r'=
o q o p o
o q o p
o o O 1
Classifichiamo gli stati. Dalla matrice si vede immediatamente che lo stato k = O è
assorbente e così capita anche allo stato k = M + N.
Se invece O < k < M + N allora k comunica con tutti gli altri stati: infatti Pk(k- l) = q > O
quindi k---+ (k - 1). Per la stessa ragione (k - 1)---+ (k - 2), (k - 2)---+ (k - 3), eccetera.
Per quanto si è mostrato nelle 16.12, k comunica con (k - 1), (k - 2) fino a O.
Infine tutti gli stati k diversi da O e M + N sono transienti. Infatti k comunica con O ma
O non comunica con k.
Le distribuzioni v1 = =
(1, O, ... , O) e v2 (O, O, ... , 1) sono stazionarie per la catena che
codifica la rovina del giocatore.
Esempio 16.6.3 Il tempo atmosferico
Supponiamo di codificare lo stato del tempo atmosferico in questo modo:

1 se piove
Al giorno n Xn = { 2 se è nuvoloso
3 se è sereno
Il tempo non è markoviano nel senso, per esempio che, se ieri e l'altro ieri era sere-
no, probabilmente c'è alta pressione e quindi anche oggi ci sarà il sole. Ciononostante
consideriamolo markoviano e la matrice di transizione sia la seguente:
0.4 0.6 o
0.2 0.5 0.3
0.1 0.7 0.2
Calcoliamo p 1,3(2), la probabilità di andare in 2 passi dalla pioggia al sereno:
P1,3(2) = LPI,kPk,3 = [ 0.4 0.6 O ] [ ~-3 ] = 0.18

k=l 0.2
Supponiamo che P(0) =[ 0.5 0.2 0.3 ] e calcoliamo P(l).
P(l) = P(0)7i = [ 0.5 0.2

0.4
0.3 ] [ 0.2
0.1
0.6
0.5
0.7
~-3
0.2
l = [ 0.27 0.61 0.12 ]
Dal grafo si vede che tutti gli stati comunicano, quindi la catena è irriducibile. Poiché,
per esempio, lo stato E 1 è ricorrente tutti gli stati sono ricorrenti.
Esempio 16.6.4 Catena a tre classi
Consideriamo la seguente matrice di transizione e il suo grafo:
ri
1/4
[f
9/10 1/10
7i =
1/5 4/5
o o
1/4 1/4 115
1ffi
8 8
112 4/5
1/10
@9 / 10
Lo stato E 1 è transiente. Infatti f

k=O 2 2
f
(~)k = ~ < oo. Per quanto riguarda la
p 11 (k) =
k=O
classe costituita dai due stati E2 e E3 calcoliamo P22(n).
C ons1'd enamo
· 1a sottomatnce· [ P22
p 32 P23
p ] [ 0.9
0 _2
0.1 ]
0 _8 .
33
Questa e' una matnce

. d e1 tipo:
. 1- a
A = [ /3 a_
1 /3 ] . s·1 puo' mostrare ch e
Ak = _l [ /3 a ] + (1 - a - /3)k [ a -a ]
a+/3 /3 a a+/3 -/3 13
quindi
487
(k) _ ,6 + a(l - a - ,6)k

P22 - a+ ,6
Segue: f
k=O
P22(k) = !
3
f
k=O
[2 + (i7
0 )k] = oo quindi E2 è ricorrente.
Esempio 16.6.5 Catena non markoviana
1
Sia Yn una succesione di va di Bernoulli indipendenti tali che \fnP[Yn = l] = 2.
Evidentemente Yn rappresenta una catena di Markov a due stati (infatti P[Yn = in IYo=
w
io, ... , Yn-l = in-1] = P[Yn = in] per l'indipendenza) Il suo grafo è il seguente:
1/2 m 1
1/2
+------
1/2
O 1/2
Figura 16-14:
Ora, la catena Xn = 1 (Yn + Yn-1) non è una catena di Markov. La legge di probabilità
di Xn è la seguente:
1
P[Xn = O]= P[Yn = o,Yn- l = O]= 4
1 1
P[Xn = 2] = P[Yn = o,Yn-l = l] + P[Yn = 1, Yn-l =O]= 2
1
P[Xn = l] = P[Yn = l,Yn-l = l] = 4
Facciamone il grafo
1/2 ~+----e-~
r"r:\
o
1/4
1/2
112
114
""
112
1/2
Figura 16-15:
Infatti
1
[ 1 ] P[Xn=2,Xn-1=l] P[{Yn=O,Yn-1=l,Yn-2=l}] 1/8 1
P Xn = 2 1
Xn-l = l = P[Xn-1=1] P[Yn-1=l,Yn-2=l] = 1/4 = 2
Ora consideriamo le seguenti probabilità condizionali:

1
P[Xn = llXn-l 1] = P[Xn=l,Xn-
= _2 1 =2] _ P[Yn=l,Yn-1=l,Yn-2=0] _ (1/2) 3 _ 1
P[Xn-i= 2] - 1/2 - ~ - 4
Vediamo ora, per esempio:
1
P [Xn = l IXn-l
1
= 2 ,Xn-2 = 1 =
] P[Xn=l,Xn-1=2,Xn-2=1]
I
=O
P[Xn- 1= 2 ,Xn-2=1]
Infatti Xn-2 = 1 {::::::::}Yn-3 = 1 /\ Yn-2 = 1, Xn-l = ~ condizionatamente al fatto

che Xn-2 = 1 (e quindi Yn-2 = 1) capita se e solo se Yn-l = O. Ma a questo punto è
impossibile che Xn = l.
Conclusione P[Xn = llXn-l = ½] =/-P[Xn = llXn-l = ½,Xn-2 = l] quindi non c'è
markovianità.
Esempio 16.6.6 Branching process
Questi processi sono chiamati anche processi di Galton-Watson-Byenimé. Storicamente

fu Galton il primo a studiarli per cercare di capire in quanto tempo il cognome di una
famiglia potesse andare estinto.
I branching process si adattano allo studio della diffusione di generazioni di animali, di
malattie infettive e di infezione di virus nei computer.
Come già descritto nella parte dedicata alle funzioni generatrici di probabilità del capitolo
10, il modello dell'evolversi di una popolazione di individui che ha origine (all'istante O)
da Zo = l individui, è il seguente. La n-esima generazione è costituita da Zn individui
nati dagli Zn-l individui della generazione precedente. Precisamente Xj(n) rappresenta
il numero di figli nato dall'individuo j della generazione n-1 o il numero di individui della
generazione n che provengono dall'individuo j della generazione n-1. Le va Xi(n) sono
intere e iid: la distribuzione è P[Xi(n) = k] = Pk con E[Xi(n)] =µe var[Xi(n)] = a 2 .
Il numero di individui delle varie generazioni è descritto dal seguente elenco:
489
Figura 16-16:
1
Xz 0 (l)
X1(2) + ... + Xz,(l) (16.19)
Zn = X1 (n) + X2(n) + ... + Xzn-i (n)

Ricordiamo che (capitolo 10)
Zn-1è indipendente da Xk(n) per ogni k, n. (16.20)

Risulta anche evidente che dopo che il processo ha raggiunto lo O, cioè se Zn = O, anche
Zm = O per ogni m > n. Quindi lo stato O è assorbente e tutti gli altri sono transienti.
Ancora dal capitolo 10 ricordiamo anche che, se G(s) è la fgp di una generica X;(n) (le
X; sono iid, n'est pas?) allora:
Gz 0 (s) = s
Gz, (s) = G(s)
Gz 2 (s) = Gz, (G(s)) = G(G(s))
Gz 3 (s) = Gz 2 (G(s)) = G(G(G(s))) (16.21)
Gzn(s) = Gzn-, (G(s)) = G(Gzn-, (s)) = G(G ... (G(s)))

n volte
Probabilità di estinzione
n seµ= l
Ricocdando il t=rema 15.8.6 è E[Zn] - µn va,[Zn] - a'µ•-<· { 1- µn
seµ# l
1-µ
Qual è la probabilità che la popolazione si estingua?
Definiamo estinzione:
(X)
{estinzione}= LJ {Zi = O}
i=l
Poniamo:
7r = P[{estinzione}] = P[LJ {Zj = O}]

j=l
Poiché
{Zn = O}e {Zn+l = O}
Gzn(s)=E[szn]=LP[Zn=j]si ===} Gzn(O)=P[Zn=O]

j
dove Gzn(s) è la fgp di Zn, e avendo posto P[Zn =O]= Gzn(O) = 7rn si ha:
CXJ n
1r = P[ LJ{Zi =O}]= lim P[ LJ{Zi =O}]= lim P[{Zn =O}]=
j=l n-oo j=l n-oo
= lim Gzn(O) = lim 7rn = ?[{estinzione a una generazione :S n}]
n---+oo n---+oo
Teorema 16.6.7 Se µ ::; 1 allora 1r = 1, Se µ > l allora 1r < 1 e 1r è la più piccola

soluzione non negativa dell'equazione G(s) = s che sia minore di l.
Dim: Se p 0 = O allora 1r = O mentre se p 0 = l allora 1r = 1. Supponiamo allora che
O < po < l e dividiamo la dimostrazione in 3 parti.
1} Mostriamo che 1r è soluzione di G(s) = s.
Poiché
{Zn = O}e {Zn+l = O}
7rn = P[Zn = O] :S 7rn+l = P[Zn+l = O]
è non decrescente.
Per l'ultima delle 16.21
dove:
G Zn+i (s) = P[Zn+1 =O]+ P[Zn+l = l]s + P[Zn+1 = 2]s 2 + ...

e espressione analoga per G zn.
Da cui, ponendo s = O
7rn+l = G(1rn)
Poiché 7r = lim 7rn, per la continuità di G si ha lim 7rn+l = G( lim 7rn), cioè:
n---+oo n---+oo n---+oo
2) Mostriamo che 1r è la più piccola soluzione di G(s) = s in [O,l]. G è non decrescente.

7ri :S 7ri+l
Supponiamo che a sia una soluzione di G(s) = s con O::; a::; 1
1r1 = G(1ro) = G(O) :S G(o:) = a

491
1r2= G(1r1) < G(a) = a
~
perché 1r1 :S a
e, per induzione,
1fn+l = G(1rn) < G(a) = a
,...~
perché 7r n :S a
7f = n-oo
lim 7f n :S Q'.
3) G ( s) è convessa, infatti la derivata seconda
00
G"(s) = LJ(j- l)pjsi- 2 ~O

j=2
Se O ::; s ::; 1 ci sono al più due intersezioni. Una sicuramente è in s l perché

00
G(l) = I: Pi = l.
j=0
.,,
"':
.,,"" :
,,' :
s
o 1tse µ > / se µ ~ J
Figura 16-17:
dsj=O
f
G'(l) = .:!._ Pisil
j=l
f
jpj =
j=0
f
jpj = E[X] = µ. Come si evince dalla figura se
s=l
µ ::; 1 c'è una sola soluzione s = l = 1r. Quindi c'è la certezza dell'estinzione. In caso
contrario, se µ > l 1r < l e la certezza dell'estinzione non c'è più •-
Si può dimostrare anche il seguente:
Teorema 16.6.8 O :S s < l

00
lim Gzn(s) = lim

n-oo n-oo
I: P[Zn
k=O
= k]sk = 7r (16.22)
La 16.22 significa:
00 00
I: P[Zn = k]sk ---+ 7r = 1rs0 + I: Osk

k=0 k=l
il che implica che
P[Zn = O] ---+ 1r e k ~ l ::::}P[Zn = k] ---+ O
In realtà sipotrebbe dimostrare un risultato più forte:
P[{Zn---+ O} U {Zn---+oo}] = 1
1r = P[{Zn---+ O}]= 1 - P[{Zn---+ oo}]
Markovianità
Riprendiamo l'ultima delle 16.19:
Si ha:
P[Zn = inlZo =io, ... , Zn-1 = in-1]
in -1 in -1
= P[ I: Xj(n) = inlZo = i 0 , ••• , Zn-1 = in-1] P[ I: Xj(n) = in]
j=O ,----------.. j=O
indipendenza da 16.20
cioè Zn = in dipende solo da in e in-1 · Infine si può vedere che:

k
P[Zn = ilZn-1 = k] = P[[I:: Xj(n) =i]= Pji
j=O
essendo Pji la convoluzione delle pj (vedi esempio 8.2.5).
Riassunto per le catene finite

~ Gli stati di catene di Markov finite, o sono tutti ricorrenti positivi o sono transienti:
non possono esistere stati ricorrenti nulli.
~ In una catena con un numero finito di stati almeno uno stato è ricorrente.
~ Esiste almeno una probabilità invariante (teorema di Markov-Kakutani).
~ Se è regolare la probabilità invariante è unica (teorema di Markov).
~ Se è irriducibile, tutti gli stati sono ricorrenti positivi, hanno lo stesso periodo e vale
il teorema ergodico.
~ Se è irriducibile e aperiodica, è anche ergodica e vale il teorema ergodico.
493
16.7 Nota storica
Norbert Wiener (USA) 26 novembre 1894 - 18 marzo 1964
È figlio di un ebreo russo, Leo Wiener che emigra negli Stati

Uniti arrivando a New Orleans nel 1880. Il padre di Wiener
che concluderà la sua carriera come professore di lingue slave
a Harvard, ha una grande influenza sulla sua formazione.
Alle elementari, cui accede all'età di 7 anni, grazie
alla sua precocità, viene ammesso al quarto anno.
Ma è molto avanti in alcune materie e ignorante in altre.
Scriverà lui stesso che la sua principale lacuna è l'aritmetica. Leo Wiener allora, intuendo
che Norbert deve essere stimolato con problemi più difficili, interviene togliendolo dalla scuola.
Comincia così a insegnargli lui stesso l'algebra. Da questo momento si occuperà in prima persona
della sua formazione
A 9 anni Wiener viene mandato di nuovo a scuola e ammesso a classi più avanzate per la sua
età. A 11 anni prende il diploma di liceo presso la Ayer High School con compagni di sette anni
più vecchi di lui.
Pur essendo ancora praticamente un bambino Wiener all'età di quattordici anni entra a Harvard
nel 1909. Lascia Harvard nel 1910 per tentare una laurea in zoologia alla Cornell University, ma
torna a Harvard dove riprende gli studi di filosofia e di matematica.
A 18 anni ottiene il dottorato in logica matematica. Nel 1914 si trasferisce a Gottinga dove
studia con Hilbert. Subisce l'influenza di Bertrand Russell e Hardy. Questi sono gli anni in cui
Wiener si convince che "occorre vivere con la matematica, non basta studiarla".
Torna in America prima che scoppi la Guerra Mondiale e, appena questa finisce, gli viene offerto
un posto al MIT. Lì affronta lo studio del moto browniano che fa nascere il suo interesse per il
calcolo delle probabilità.
Alcuni suoi contributi sono di grande importanza per gli studi sul moto browniano, per il pro-
blema di Dirichlet, per i processi stocastici, per l'analisi armonica, per la trasformata di Fourier.
Wiener mostra una vastissima gamma di interessi: a lui si devono risultati importanti sulla teo-
ria dei quanti e sulla teoria dell'informazione. Il termine cibernetica è coniato da lui, e a questo
proposito ricordiamo il suo libro Cybernetics, or Contro] and Communication in the Animal and
the JVIachine pubblicato nel 1948.
Nonostante la sua indiscussa genialità, Wiener ha fama di cattivo conferenziere e disordinato
espositore delle sue idee nei suoi articoli e libri.
Il matematico e storico Hans Freudenthal scrive di lui: "Wiener parla molte lingue ma in nessuna
di queste è facile capire quello che dice".
Ricordiamo infine God and Golem, Inc.: A Comment on Certain Points Where Cybernetics Im-
pinges on Religion (1964) che tratta delle implicazioni etiche e religiose riguardanti la possibilità
delle macchine di imparare.
Capitolo 17
Teorema del Salario: Meno conosci, piu guadagni
Dimostrazione: È noto che:

(i) Conoscenza = Potenza
(ii) Tempo = Danaro
Come ogni ingegnere sa:
(iii) Potenza = Lavoro /Tempo
Da (i), (ii) e (iii) segue:
(iv) Conoscenza = Lavoro/ Danaro
Risolvendo la (iv) rispetto a Danaro, si ottiene
Danaro = Lavoro/Conoscenza
quindi:
'c/8> O,:lK >O: IConoscenzal < 8 => IDanarol > K
Aggiunte e spiegazioni
17.1 Test confronto medie di gaussiane

Si hanno due popolazioni indipendenti
con µ 1 e µ 2 ignote.
Si scelgono due campioni
dimensione del campione da X dimensione del campione da Y

n m
e le rispettive medie campionarie per stimare le medie
stimatore di µ 1 stimatore di µ 2
X y
Si fissa il livello di significatività a = 1 - 'Y·

496 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
Test bilatero
La sua formulazione è la seguente:
H O : µ 1 - µ 2 = do = O
Ha : µ 1 - µ 2 = do =/-O
Come per gli intervalli di confidenza, si presentano i seguenti casi.
caso 1) ai
e a§ note.
Statistica test:
X-Y
----;:::==""N(O,l)
. I a'f + a~
Vn m
La regione di rifiuto è
RC = (-oo; -Za;2) U (Za;2; +oo)

Se il valore osservato della statistica test
x-y E RC
V/.5.
n
+ 5m
si rifiuta.
caso 2) ai e a§ ignote; e ai= a§ (omoschedasticità).

Statistica test
(X-Y) (n- l)Si+(m-l)S~

-----;:====== ""tm+n-2; n+m-2
Spj(l/n) + (1/m)
La regione di rifiuto è
RC = (-oo; -ta/2,m+n-2) U (ta/2,m+n-2; +oo)

si rifiuta.
caso 3) ai e a§ ignote; e ai =f.a§ (eteroschedasticità).

Statistica test
dove
82 + -1. 82) 2
( ....!.
n m
d.f = intero più vicino a -,,...-'---:,,-----,,----,,-
(si/n)2 + (s§/m) 2
n-l m-1
497
La regione asintotica di rifiuto è
RCa = (-oo; -ta/2,df) U (ta/2,df; +oo)

(x-'i]) E RCa
s2 s2
_!. + __l
n m
si rifiuta.
Test unilatero
La sua formulazione è la seguente:
Coda dx
Ho: µ1 = µ2 equivalente a
H O : µ 1 - µ 2 = do = O
Ha: µ1 > µ2 Ha : µ 1 - µ 2 = do > O
Coda sx
Ho: µ1 = µ2 equivalente a
Ho : µ 1 - µ 2 = do = O
Ha: µ1 < µ2 Ha : µ 1 - µ 2 = do < O
Si presentano i seguenti casi:
caso 1) ai e a§ note.
Statistica test:
X-Y
----;::::== "'N(O, 1)
Vl.5.+.'.d.
n m
La regione di rifiuto, a seconda che la coda sia sx o dx è
RC,x = (-oo;-Za) oppure RCdx = (Za;+oo)
Se il valore osservato della statistica test x- 'i} E RC si rifiuta .

. /~+O"~
V n m
caso 2) ai e a§ ignote; e ai= a§ (omoschedasticità).

Statistica test
(X-Y) (n-l)Sf +(m-l)S~

-----;====== "-' tm+n- 2 n+m-2
SpJ(l/n) + (1/m)
La regione di rifiuto, a seconda che la coda sia sx o dx è
RC,x = (-00;-ta,m+n-2) oppure RCdx = (ta,m+n-2;+00)
si rifiuta.
caso 3) ai e a§ ignote; e ai -/=a§ (eteroschedasticità).
Statistica test
(X - Y) - t
-v-;:::(=sl:;::::2
=+=(
;=n=) s=~;;::::/=m=)
- df
dove
df = intero più vicino a ------~ 2

(~+~)2
(sf /n) + (s~/m) 2
n-l m-1
La regione asintotica di rifiuto, a seconda che la coda sia sx o dx è
RC,x = (-oo; -ta,df) oppure RCdx = (ta,dJ2; +oo)

Se il valore osservato della statistica test (x - y) E RC si rifiuta.
y(si/n) + (s§/m)
Esempio 17 .1.1 Tempo fa un importante istituto straniero di medicina dello sport ha
fatto una stima per capire se il jogging aumenta la presenza nel sangue dell 'HDL (high-
density-lipoprotein}, il cosiddetto "colesterolo buono" che si pensa diminuisca il rischio
di infarto coronarico. Furono scelti due campioni casuali tra la popolazione sotto i 30
anni di un certo territorio (maschi e femmine indifferentemente), un campione fatto solo
di gente che pratica il jogging, l'altro di gente sedentaria. Indicate con Xi le quantità di
HDL nei soggetti del primo campione e con Y; quelle dei soggetti del secondo campione
si ottennero i seguenti risultati:
dim . del campione media camp . osservata scarto camp . osservato
corridori 20 56 12.1
sedentari 72 49 10. 5
Supposta µ 1 la media della presenza di HDL nel sangue dei corridori (µ 2 dei sedentari ):
. .
1} Si confrontano le due ipotesi:
.
. { H 0 :µ 1 < µ 2
-
Ha : µ1 > µ2
µ -µ
1 2
=d < O
µ1 - µ2 =do> O
°-
Non si conoscono a 1 e a 2 , ma si hanno buoni motivi per pensare
che a 1 = a 2 . Si usa allora la statistica test (ottenuta dall'analogo pivot del capitolo 13):
t = _(X_--=Y=)=-=d=-o
sP Ji+.l.
n m
2) Livello di significatività: l - ì = 0.05

3) df= (20 + 72 - 2) = 90; t 90 (ì) ~ -1(ì) ~ 1.645 da cui segue R°=. (1.645; +oo).
Con i nostri dati risulta:
(n - l)Sf + (m - l)S~ 19 · (12.1) 2 + 71 · (10.5) 2 é:s! O 8 7

n+m-2 20 + 72 - 2 - l . 5
Il valore della statistica test dunque è

(56 - 49) - O
-----;=== ~ 2.55
10.857 J 210 + 712
che cade nella regione critica quindi si rifuta H O per Ha.

499
17.2 Test confronto varianze di gaussiane

Supponiamo di volere paragonare la variabilità di due popolazioni gaussiane. Per esempio
potremmo essere interessati a confrontare la precisione di due strumenti di misura o la
variabiltà della dimensione di ranelle prodotte da due macchine diverse, o la variabilità
di due procedure per controlare i punteggi ottenuti con due diversi sistemi di valutazione.
Al di là del problema concreto che si vuole studiare, vediamone una sua modellazione.
Avremo due popolazioni gaussiane X e Y. Avremo anche due campioni, eventualmente
di diversa taglia, diciamone m dalle due popolazioni, X1, X2, ... , Xn e Y1,Y2, ... , Ym.
Non ci interessano le medie delle due popolazioni (per esempio se stiamo studiando
ranelle di due diversi diametri) ma solo la variabilità delle due popolazioni (per esempio
la precisione con cui vengono prodotte, cioè gli scarti tra il diametro di una ranella e il
diametro di un'altra ranella prodotte con la stessa macchina).
È facile vedere che
x;,-l
(n-l)S1
O'x x;,_
i/(n - 1)
(17.1)
-2 - "" (m- l)S? 2 /( l) = Fn-l,m-l
Xm-1 ~~~-- Xm-l m -
a-t
cioè !~ja}
Y ay
è una distribuzione di Fisher 1 con n- l e m- 1 gradi di libertà.
Test bilatero
Supponiamo di voler eseguire il test:
H 0 : ai= a}
Ha: ai# a}
Prendiamo come stimatori di ai e a} le varianze campionarie relative alle due popola-
52
zioni, cioè 8} e 8r La statistica test (che si ricava sotto ipotesi Ho) è 8J
y
che per la
(17.1) è distribuita come una Fn-l,m-l·
s2
Saremo portati a rifiutare se il valore osservato si » s} (cioè 8
; > k) oppure se
y
s2
s X2 « 2 < h), con h e k opportuni,
s Y2 (cioè ....K
8
mentre saremo portati ad accettare se
y
52
si::::: s}. Questo significa che la regione di rifiuto (sotto ipotesi Ho) sarà 8 Jy < h oppure
52
8 J > k, con h e k costanti fissate dalla significatività del test. Cioè:
y
8} a 1- , 81 a 1- ,
h: P[S2 < h] = 2= - 2 - /\ k: P[S2 > k] = 2= - 2-
y y
In questo modo la RC risulta (-oo;h) U (k;+oo), cioè, utilizzando il linguaggio dei
82 /a-2
1Tecnicamente -; / : è una quantità pi votale perché dipende dai due parametri incogniti a-5ce a-}
8y O'y
mentre la sua distribuzione Fn-1,m-1 non dipende da nessun parametro incognito.
quantili:
RC = (-oo; F(l--y)/2;n-l;m-i) U (F(l+-y)/2;n-l;m-li +oo)

o, meglio
RC = (-oo; F (l+·y)/2;m- 1 l;n-1

) U (F'.(1+~)/2·n- l·m-1; +oo)
1 ' ,
Oppure, utilizzando il linguaggio dei punti percentili:
RC = (-oo; F1-a/2;n-l;m-1) U (Fa/2;n-l;m-li +oo)

o, meglio
RC=(-oo;F 1 )U(Fa/2·n-l·m-1i+oo)
o/2;m- l;n-1 ' '
Conclusioni
si rifiuta non si rifiuta
*ERC
Test unilatero
Senza motivare nel dettaglio come abbiamo fatto in precedenza (cosa che lasciamo even-
tualmente al lettore), vediamo come funzionano le cose nel caso del test unilatero seguen-
te:
Ho: oJ = a}
(17.2)
Ha: a1' > a}
Si rifiuta se
s2
FTn-l·m-1
, , = Fa·n-l·m-1
, , < Sy:
Il test
Ho: a1' = a}
Ha: a1' < a}
è analogo a quello in (17.2). Basta scambiare le popolazioni X e Y.
Esempi
a) Cominciamo da un test di ipotesi sulla varianza di una popolazione normale.
Un'azienda costruisce rondelle di diametro medio pari a µ cm con una macchina Mx.
La macchina può essere settata per produrre rondelle di diversi diametri µ. La misura
del diametro delle rondelle prodotte è rappresentato da una va gaussiana X rv N (µ; a1')
Quello che interessa è la precisione intorno a µ con cui opera la macchina. Il responsabile
della produzione sostiene che la variabilità nella misura dei diametri non supera 0.0002
cm 2 . La direzione dell'azienda decide di verificare l'affermazione del responsabile per
stabilire se sono necessari interventi di controllo. Viene scelto un campione (casuale) di
10 rondelle dalla produzione, e si imposta il test:
Ho : a1' ::;0.0002 = a5
Ho : a1' > 0.0002
501
Lo stimatore di oJ è la varianza campionaria S1
La significativitità è fissata in 0.05. Allora la RC è (X§(0.95), +oo) =
(16.9, +oo), la
. . test è (n-l)S1 . O sservan d o 1·1 campione,
stat1st1ca . .
è stata registrata .
una varianza
2
ao
9 · 0.0003
campionaria pari a 83(= 0.0003. La statistica test osservata è pari perciò a 0 _0002
13.5, che cade nella regione di accettazione. Si ritiene dunque accettabile l'affermazione
del responsabile della produzione.
b) Supponiamo invece ora che, per produrre rondelle, all'azienda venga proposto di
acquistare una macchina My. Il costruttore della macchina Afy afferma che il diametro
delle sue rondelle è una va Y rv N(µ; a}), non importa quale sia il valore di µ. Sostiene
inoltre che a} < a3(. L'azienda, prima di acquistare la nuova macchina My predispone
il seguente test:
Ho: a3(::;a}
Ha: a3( > a}
equivalente a
Ho: a3( = a}
Ha: a3( > a}
Il campione scelto dalla popolazione Y ha dimensione m = 20.
La statistica test (sotto Ho) è allora
Viene scelto a = 0.05. La
RC = (Fo.o5,9,19i+oo) = (2.40, +oo)

Si è osservato 8} = 0.0001 quindi la statistica test prende il valore:
83( 0.0003
-2-=--=3
8y 0.0001
Si rifiuta perciò di credere che la macchina Mx abbia una variabilità inferiore a quella
della macchina fvly, cioè si accetta che la My lavori meglio della Afx.
17.3 IC del rapporto di varianze di gaussiane

Siamo nelle stesse condizioni in cui ci si trova quando si fa un test di confronto va-
rianze. Cioè si hanno due popolazioni gaussiane X e Y. Avremo anche due campioni,
eventualmente di diversa taglia, diciamone m dalle due popolazioni, X1, X2, ... , Xn e
Y1,Y2, ... , Ym. Cerchiamo un intervallo di confidenza bilatero di livello 'Y per a:.
2
ay
È facile vedere che

si/a} x;,,_if(m- 1)
l) = (17.3)
S 2 /a2 rv 2 ( _ Fm-1,n-1
X X Xn-1 n
cioè srI r è una quantità

s2;a2
x ax
pivotale perché dipende dai due parametri incogniti ai e
a} mentre la sua distribuzione Fm-1,n-1 con m-1 e n- l gradi di libertà non dipende
da nessun parametro incognito.
IC bilatero
~l+y)/2J!l-1Jl-1
J,~l+y)/2,11-l,m-l
Fa/2,m-l,n-1
Fa/2,n-1,m-1
Occorre trovare un IC all'interno del quale la quantità pivotale (QP) (17.3) sta con
probabilità Ì·
Si può perciò mostrare che i confini dell'IC sono i seguenti.
Utilizzando il linguaggio dei quantili
I F(l-y)/2;m-l;n-1 I F(l+y)/2;m-l;n-1 I O Fp+7)/2;n- l;m- 1 F(l+'Y)/2;m-l;n-1
Utilizzando il linguaggio dei punti percentili
I F1-a/2;m-l;n-1 I Fa/2;m-l;n-1 I O Fa/2;n- l;m-1

Fa/2;m-l;n-1
Conclusioni
Quantili
1 si/a}
< sx2/a2 < F(l+'Y)/2;m-1;n-1
F(l+'Y)/2;n-l;m-1 hT"'1
B= D
1 S X<
2
-S2
~X<
-2-
S Xp
2
-S2 (l+'Y)/2 ;m-l;n-1
r(l+'Y)/2;n-l;m-1 y ay y
punti percentili
1 52 /a2
y y F
Fa/2;n-l;m-1
< S2 /a2 < a/2;m- l;n-1
X X
[I]
B=
1 52
X ai
< -;;'2 <
S1
S2Fa/2;m-l;n-1
Fa;2 ;n-1;m-1 si y y
(17.4)
503
a2
e gli eventi A e B si verificano con probabilità 'Y· L'IC bilatero per ---f
ay
è:
quantili
B
~-----=----5x_5xp
F(l+-y)/2;n-l;m-l 52 '52 (l+-y)/2;m-l;n-l
punti percentili
B
( F 0 ;2;n~l;m-l !t Ì #°Fa/2;m-l;n-l)
(17.5)
Esempio
Un ingegnere decide di testare due diversi catalizzatori in processo chimico per valutarne i
rispettivi rendimenti. Utilizzando un impianto pilota l'ingegnere modelizza il rendimento
relativo al primo catalizzatore con una va X rv N(µ 1 ; ai) mentre il rendimento relativo
al secondo con una va Y rv N(µ 2 ; <J§).
La prima cosa che si propone di fare è trovare un IC bilatero di livello 'Y per la differenza
delle medie µ 1 - µ 2 . A questo fine, poiché non si conoscono le varianze dei due processi,
ritiene ragionevole lavorare sotto l'ipotesi che le varianze siano uguali, cioè
(17.6)
Sappiamo che in questo caso la quantità pivotale è:
(X - Y) - (µ1 - µ2)
-5=-p-y-;=(=1/;=n;=)
+=(1::::;/=m:;::-)
tm+n-2
Cv
5 _
P -
J (n- l)Sf +(m-
n+m-2
l)S~
·
L'intervallo di confidenza è perciò:
I dati da sostituire nella (17.7) sono:
n = S;m = S;xn = 9l.73;yn = 93.75;si = 3.89;s~ = 4.02: "( = 0.95;t14(0.975) = 2.145.
e con questi dati la (17.7) diventa
Si osservi che O E IC quindi sembra ragionevole ritenere che i due catalizzatori producano
rendimenti medi uguali.
Se l'ingegnere avesse ritenuto troppo restrittiva l'ipotesi (17.6) avrebbe dovuto procedre
alla ricerca di un IC asintotico utilizzando la quantità asintoticamente pivotale
utilizzando come valore del df l'intero più prossimo a

s2
( _!. s2) 2
+ --2
n m
V=-------~
(si/n) 2 + (s§/m) 2
n-l m-1
Nel nostro caso è
(3.:9
+ 4.i2) 2
V= (3.89/8)2 (4.02/8)2 = 13.996 ===} df = 14

7 + 7
L'intervallo di confidenza asintotico diventa:
(17.8)
n = 8; m = 8; Xn = 91. 73; Yn = 93. 75; Si = 3.89; s~ = 4.02; ì' = 0.95; t14(0.975) = 2.145.
-4.1529::; µ1 - µ2::; 0.1129

Per capire se fosse ragionevole lavorare ipotizzando la (17.6) l'ingegnere si propone di
2
trovare un IC al 90% per a~. Prendiamo la formula dell'IC data in (17.4) cioè
a2
1 sf ai sf
F. s2 < 2 < s2F(l+-yJ/2;m-1;n-1 (17.9)
(1+-y)/2;n-l;m-1 2 a2 2
n = 8; m = 8; Si= 3.89; s~ = 4.02; ì' = 0.9; Fo.95;7;7= 3.79

a2
0.25532 ::; --½::;3.6674
a2
che contiene 1. Quindi non è sbagliato pensare che possa essere ai = a§.
17.4 Confronto proporzioni
IC per la differenza tra proporzioni

Abbiamo già visto il concetto di IC e di test per la media di una popolazione B(l,p) di
parametro p 11. Supponiamo ora di avere due diverse popolazioni di Bernoulli, X e Y di
II La va di Bernoulli di parametro p prende il valore 1 con probabilità p e O con probabilità 1- p. Allora
la p può essere interpretata come la proporzione tra gli oggetti della popolazione che vengono codificati
con 1 e tutti gli oggetti della popolazione. È perciò naturale pensare a p come a una proporzione.
505
parametri PI e P2· Avremo anche due campioni, eventualmente di diversa taglia, diciamo
ne m dalle due popolazioni, XI,X2,···,Xn e YI,Y2,···,Ym. Cerchiamo un intervallo
di confidenza bilatero (asintotico) di livello I per PI - P2.
È evidente che
- - - - - - PI(l-pI) P2(l-p2)
E[Xn - Y ml= PI - P2;var[Xn - Y ml= var[Xnl + var[Y ml=----+----
n m
mentre si può mostrare che
(17.10)
Qui si presenta lo stesso problema che si presentava nella ricerca dell'IC bilatero per p
di una singola popolazione di Bernoulli, Se è vero che l'evento
(Xn - Y m) - cp-I(1tì')VP1(I:p1) + P2(~p2) ::; (PI - P2)::;
::; (PI_ p 2 )::; (Xn _ y m) + cp-I(!.:p)JP1(I:p1) + P2(~p2)

si verifica con probabilità prossima a 1 , le quantità a sinistra e a destra della disugua-
glianza non diventano numeri dopo l'osservazione ma dipendono dai parametri incogniti
PI e P2·
Allora la (17.10) viene sostituita da
(17.11)
che risulta ancora essere asintoticamente una N(O; 1).

Conclusioni
Utilizzando i quantili
o i punti percentili
(X n -Y m )- z a/2 V. (Xn(I-Xn)n + Ym(I-Ym)

m
< ( - )<
- PI P2 -
< ( - P2 ) < (X -Y ) +z . /Xn(I-Xn)n + Ym(I-Ym)
_ PI - n m a/2 V m
l'evento A si verifica con probabilità 1 . L'IC bilatero asintotico per PI - P2 è:

quantili I IC
confine sx C~''n-Ym)--I(!:p-)JXn(I;:Xn) t Ym(~Ym)
confine dx (Xn -Y m) + cp-I(!:p-)yXn(I;:Xn) + Ym(~Ym)

(17.12)
I punti percentili IC
confine sx
confine dx
Test per la differenza tra proporzioni

La situazione è la stessa descritta all'inizio del paragrafetto precedente dedicato agli IC
per la differenza tra proporzioni. Per quanto riguarda i test ci limitiamo a esaminare i
seguenti casi:
Ho : PI = P2 = PI - P2 = O
PI -/=P2 = PI - P2 -/=0 2 code
Ha : { PI < P2 = PI - P2 < O coda sx
PI > P2 = PI - P2 > Q coda dx
La statistica test prende ispirazione dalla (17.10) e, ricordando che
PI = P2 ===} PI = PI\ P2 = P
cioè PI e P2 sono entrambe uguali a un p ignoto, sotto ipotesi nulla la (17.10) diventa:
Xn - y m ~ N(O, l) (17.13)
Jp(l - p)(¾ + ~)
Per un test di livello di significatività a = 1 - 1 , dopo aver osservato, si dovrà controllare
se la (17.13) appartiene alla regione critica asintotica (RCa), scritta con il linguaggio
dei quantili:
RCa
PI - P2 -/=0 (-oo;--I( i_tl')) U (-I(l"*'l'); +oo)
PI - P2 <Q (-00;--1(,))
PI - P2 >Q (-1(,); +oo)
Si osservi però che la (17.13) osservata è
Jp(l - p)(~ + ~)
quindi non è un numero perché dipende da p che non è noto. Quindi la (17.13) non è
ancora una statistica test. Si pone rimendio stimando p con lo stimatore seguente:
, nXn +mYm
p=-----
n+m
per arrivare finalmente alla statistica test:
507
(17.14)
Esempio
Supponiamo che un'azienda produca semiassi per un modello di auto. Dalla produzione
se ne scelgono 75 e se ne trovano 12 difettosi. L'ingegnere che segue la produzione si
propone di determinare la percentuale di difettosità PI presente nella produzione. A tale
scopo si immagina che la difettosità di ogni singolo semiasse sia codificata da una va di
Bernoulli X che prende il valore 1 se il pezzo osservato è difettoso e O nel caso contrario.
È chiaro che P[X = l] = PI e che E[X] = PI·
Per stimare PI si utilizza la media campionaria Xn, La stima intervallare si ottiene
utilizzando la quantità asintoticamente pivotale
Xn-PI
Jxn(I;,Xn)
12
Con il campione scelto di dimensione 75, con Xn 75 e fissata una confidenza pari a
'Y= 0.95 (e di conseguenza con il quantile -I(0.975) = 1.96) l'IC asintotico cercato è:
0.08 ::; PI ::; 0.24
Osservazione: stimando PI con X n si commette un errore IXn - PI I che soddisfa,

con probabilità 'Y, la disequazione:
Cerchiamo n in modo che
Con semplici conti basterà che
1
Poiché non conosciamo PI ma in ogni caso sappiamo che PI (1 - PI) ::; 4 basterà che:
Con 'Y= 0.95 come nel nostro caso, si avrebbem
IIIRicordo che con il simbolo rrl si intende il minimo intero maggiore o uguale dir.
E= 10- 3 n?. l
¾106 • 1.96 2 = 960400
E= 10- 2 n?. ¾10000. l
1.96 2 = 196041 = 9604
E= 10- 1 n?. ¾100. l

1.96 2 = 196. 041 = 97
Supponiamo ora che l'azienda introduca una variante nella sua produzione, dando così
luogo a una nuova popolazione di semiassi caratterizzata da una percentuale di pezzi
difettosi P2 in generale diversa da P1. Quindi si pensa che la nuova popolazione sia
descritta da una va Y di Bernoulli di parametro P2· Si vuole determinare un IC bilatero
e asintotico per la differenza PI - p2 di livello "( = 0.95.
Abbiamo visto in precedenza che la quantità asintoticamente pivotale è
(17.15)
Dalla nuova popolazione vengono estratti 85 semiassi e ne vengono trovati 10 difettosi.

_ 12 _ 10 1 + 'Y -1
Xn = 75 ; Yn = 85 ; - 2 - = 0.975; (0.975) = 1.96
Utilizzando le formule (17.12) si arriva all'intervallo di confidenza:
-0.7::; P1 - P2::; 0.15
Poiché O E IC siamo portati ad accettare PI = P2·

Verifichiamolo con il test (a 2 code):
Ho : P1 = P2 = P1 - P2 = O
Ha : PI -:/ P2 = PI - P2 -:/ O
La statistica test (asintotica) data da (17.14) è:
(17.16)
e la RC asintotica è
(-oo; -- 1 (0.975)) U ( -1 (0.975); +oo) = (-oo; -1.96) U (1.96; +oo)
e con questi dati la (17.16) diventa O.73 ét,RC, quindi non si rifiuta l'ipotesi PI = P2·
509
17.5 Errori di II tipo
Test bilatero per la media di una gaussiana, varianza nota
Iniziamo ad analizzare il problema della media per popolazioni normali nota la varianza.
Consideriamo il test:
Ho:µ= µo
(17.17)
Ha:µ °I µo
cioè ipotesi nulla semplice, ipotesi alternativa composta.
Per quanto riguarda la formulazione dell'ipotesi nulla, possiamo pensare ai seguenti casi.
1) H 0 è suggerita dalla passata esperienza, cioè o dalla conoscenza del fenomeno o da
informazioni registrate in esperimenti eseguiti in precedenza, riguardanti il fenomeno. In
questo ultimo caso il test potrebbe essere motivato dall'esigenza di verificare se le cose
sono cambiate.
2) H 0 può essere suggerita dal fatto di sapere che un fenomeno analogo si comporta in
un certo modo.
3) Si ha l'esigenza di verificare che il fenomeno in esame rispetti parametri fissati per
legge (riempimento bottigliette di gazzosa).
4) Ma, a volte, il test può essere disegnato partendo dall'ipotesi alternativa. Se per
esempio la cosa più rischiosa per lo sperimentatore fosse accettare un'ipotesi quando
è falsa, basterebbe far diventare questa ipotesi quella alternativa. Dal momento che
controlliamo la probabilità di rifiutare l'ipotesi nulla quando è vera, controlliamo anche
la probabilità di di accettare l'alternativa quando è falsa.
Ho vera H o fa lsa
accetto Ho no errore errore II t ipo rifiuto H a
(17.18)
rifiuto H o errore I ti p o no errore accetto H a
H a falsa H a vera
È noto come si affronta , per esempio, il test (17.17) per la mediaµ di una popolazione
N(µ; a 2 ) nota la varianza. Lo stimatore è la media campionaria Xn, la statistica test è
Z = X;/~o che, se è vera l'ipotesi nulla, si comporta come una N(O; 1). Fissando il
livello di significatività a= 1 - ì, poniamo
1 - ì =a= P(errore I tipo)= ?[rifiuto HolHo è vera]
(3 = P(errore II tipo)= ?[accetto HolHo è falsa]= ?[rifiuto HalHa è vera] (17.19)
potenza: 1 - (3 = ?[rifiuto HolHo è falsa]= ?[accetto HalHa è vera]
1) Decidere il test in base al comportamento di Xn

Intuitivamente accettiamoµ= µ 0 se Xn osservato cade "vicino" a µ 0 mentre rifiutiamo
se Xn osservato cade "lontano" da µ 0 . Il "vicino" si chiama regione di non rifiuto o di
accettazione che indichiamo con RA, mentre il "lontano" si chiama regione di rifiuto
o regione critica che indichiamo con RC. La dimensione di RC è determinata dalla
significatività del test, cioè dal valore a che rappresenta la probabilità di errore del I
tipo, cioè a = P[Xn E RCIHo]. Per motivi storici 1v i confini di RC si trovano con i
quantili o con i punti percentili della N(O; 1). Si cerca dunque un valore r tale che:
P[Xn E (-oo; µ 0 - r) U (µ 0 + r; +oo)IHo] =a= 1- 'Y
P[Xn - µo -r Xn - µo r IH]
a/fa ::; a/fa V a/fa ~ a/fa o =a= 1- 'Y
Sotto ipotesi Ho, ciò accade se
r r _ 1 l+'Y
a/fa= Za/2 V a/fa= (-2-)
Concludiamo che la RC per Xn è
oppure
mentre la regione di accetazione (o non rifiuto) RA è
oppure
a _ 1 1 + 'Y . a _ 1 1 + 'Y _ .
RA= (µ0 - ;;;:;-(--),µ 0 + ;;;:;-(--)) = (r1,f2).
yn 2 yn 2
Valgono dunque le seguenti relazioni
P[Xn E RCIHo] =a= 1 - 'Y
P[Xn E RAIHo] = 'Y= 1 - a

(17.20)
P[Xn E RAIHa] = /3(µ)
P[Xn E RCIHa] = 1r(µ) = 1 - /3(µ)
dove a, 'Y e /3 sono gli stessi di (17.19).
Con la simbologia dalla figura seguente (che abbiamo disegnato facendo riferimento al
comportamento dello stimatore Xn) vediamo per esempio che, seµ= µ 0 , /3(µ0 ) = /30 = 'Y·
IV Il ricorso ai quantili o ai punti percentili della N(O; 1) è dovuto alla difficoltà di calcolare i quantili
di una generica N(µ, o-2 ). Questo è il metodo tradizionale a cui noi sempre ricorreremo, pur ribadendo
per l'ennesima volta che, avendo oggi potenti strumenti di calcolo, ciò sarebbe superfluo.
511
Mano a mano che µ aumenta v a destra di µ 0 abbiamo (3(µ0 + a) = (31 ; (3(µ0 + 5a) =
(32 ; (3(µ 0 + lOa) = h :::::
O, cioè (3 decresce. Quando µ diminuisce a sinistra di µ 0 si ha,
per esempio, (3(µ0 - 5a) = (34 = (32 e ancora (3 decresce. È dunque evidente che (3(µ)
è simmetrica rispetto a µ 0 e ha il suo massimo in µ 0 . Questo massimo rappresenta la
probabilità di errore di II tipo quando µ = µ 0 , quindi
max (3(µ) = 1 - a = 1
µEIR
Nella prossima figura (a sinistra) abbiamo disegnato il grafico della funzione di (3(µ), che
è simmetrica rispetto a µ 0 (ma non è una curva gaussiana anche se le assomiglia!). A
destra abbiamo invece disegnato la funzione di potenza
7r = 1r(µ) = 1- (3(µ)
Si osservi ancora una volta che, mentre (3(µ) rappresenta la probabilità di accettare Ho
quando è falsa, la funzione di potenza rappresenta la probabilità di rifiutare Ho quando
.
Ho è falsa
1 1
}
•
e>•
-----,--~
e -,-,,:;-,-;.--,-~--,--;..--;.........~~:.-.-
.,.,
t:)
t:)
t:)
.,.,
t:)
o:,
.....
.{ t:)
.,.,
s:,
:::;.
t:)
t:)
.,.,
t:)
o:,
.....
I + +s:, + I
s:, +s:, + +
.:J: .:J: :::;. .:J: :::;. :::;. .:J: .:J:
Il Il Il Il Il Il Il Il
:::;. :::;. :::;. :::;. :::;. :::;. :::;. :::;.
Dovrebbe anche essere evidente che
Vµ =f.µ 0 ; a + (3(µ) < 1

mentre a+ (3(µ) = 1 {::::::::}
µ = µ0 .
v Si osservi che l'incremento di µ 0 è del tipo Ào-, cioè À volte lo scarto o-, À > O per incrementi positivi
e À < O per incrementi negativi.
2) Decidere il test in base al comportamento di Z
Dovrebbe essere ormai chiaro che i confini della regione critica RC per la va Z = X;/~o
sono -- 1(1+,)
- 2- e -1(1+,)
- 2- , oppure -Za/2 . '
e Za/2, c10e
-1 1+, -1 1+,
RC = (-oo; - (- 2 -)) U ( (- 2 -); +oo) = (-oo; -Za;2) U (Za;2; +oo)
e, di conseguenza, la regione di accettazione è
-1 1+, -1 1+,
RA= (- (-2-); (-2-)) = (-Za;2;Za;2)
È noto che
P[Z E RCIHo] =a= 1- ,
P[Z E RAI Ho] =,= 1- a
P[Z E RAIHa] = (3(µ)

P[Z E RCIHa] = 1r(µ) = 1 - (3(µ)
dove a,(3,, eµ sono gli stessi di (17.19) o di (17.20). Considereremoµ= µ 0 + Àa. Se è
vera Ho allora À = O mentre se è vera Ha allora À =JO. Di conseguenza
- az X n - µo
vera H o ===} Xn rv N(µ 0; - ) I\ Z = / vn, rv N(0 ; 1)
n a n
az
- a2 X n - µ0 N(>-.a; - )
n "" N(>-.fo, ; 1)
vera H a ===} X nrv N(µ 0 + >-.a;- ) /\ Z = / vn, ""
n a n a / Fn
(17.21)
In ogni caso è
Esempio 01
La velocità media alla quale brucia un certo propellente per razzi è fissata in 40cm/s.
Uno sperimentatore si propone di verificare la velocità media dello stesso propellente
ma costruito secondo nuove tecniche. Lo sperimentatore sa che questa velocità è una
variabile aleatoria gaussiana. La sua media dovrebbe essere 40 (misurata in cm/s), Lo
sperimentatore dà per certo che lo scarto sia noto e pari a 2 cm/s. Dunque predispone il
seguente test:
Ho:µ= 40
Ha:µ =J40
decidendo che la probabilità dell'errore del I tipo si pari a a = 1 - , = 0.05. Utilizza un

campione di dimensione n = 25. Lo stimatore è sempre la media campionaria Xn e la
513
statistica test è Z = Xn2/-5 40 . A espenmen

· t o esegui·t o Ia me d.1a camp10nana
· · osserva t a
. Ita pan . a Xn = 4 l. 2 5 e Ia stat1st1ca

nsu . . test z = 41.25/ - 40 ::::'.3.1 25.
2 5
La RC è:
-1 l+ì' -1 l+ì' -
(-oo, - (- 2 -)) U ( (- 2 -), +oo) = (-oo, -Za;2) U (Za/2, +oo)
(-oo, -- 1 (0.975)) U ( -1 (0.975), +oo) = (-oo, -Zo.025) U (Zo.025,+oo)
(-oo, -1.96) U (1.96, +oo)

La statistica test cade nella RC quindi rifiutiamo con probabilità pari a a = 0.05 di
sbagliare.
Nota
Se avessimo
. osservato Xn = 40 .38 , Ia stat1st1ca
. . test sare bb e stata z = 40.38/ - 40 = O.9 5,
2 5
sarebbe caduta nella RA e avremmo accettato. Con che probabilità di sbagliare? Non
sappiamo. Accettando potremmo commettere un errore di II tipo. Vediamo cosa vale
l'errore di II tipo ipotizzando alcuni valori per µ e ricordando che, se la media vera è
.../.. 11 Xn-40 N(µ-40;4/25) N(µ-40· l)
µ r µo a ora 2/5 ,.-., 2/5 ,.-., 2/5 ,
µ /3(µ) µ /3(µ)
35 2.8. 10- 26 41 0.295
36 4.49 · 10- 16 42 0.0019
37 1.51 · 10- 8 43 1.51 · 10- 8
38 0.0019 44 4.49 · 10- 16
39 0.295 45 2.8. 10- 26
40 0.95
Si intuisce che
scarto tra probabilità di

µ vera e µ 0 falsa "piccolo" sbagliare ad accettare come vera µ 0 è grande
µ vera e µ 0 falsa "grande" sbagliare ad accettare come vera µ 0 è piccola
Si vede che, per esempio, se il valore della media fosseµ = 37, allora la massa individuata
!
da N ( 0270 ; 1) nell'intervallo (-1.96; 1.96) che rappresenta la RA, è (errore di II tipo)
pari a
-40 3 3
P[-1.96::; N(~; 1)::; 1.96] = P[-1.96- 2/ 5 ::; N(0; 1)::; 1.96- 215 ] =
= P[-9.46::; N(0; 1) ::; -5.54] = 1.51. 10- 8

cioè praticamente O.
Scelta della dimensione del campione
Indicheremo lo scarto tra µ e µ 0 con Àa, cioè µ = µ 0 + Àa con, per ora, À > O, e sia
sempre (17.17) il test in esame, cioè H 0 : µ = µ 0 versus (vs) Ha:µ =f.µ 0 .
Abbiamo già visto (17.21) che (repetita iuvant)
- O'z X n - µo
vera H o ===} Xn rv N(µ 0; -
n
) /\ Z = a (J nn rv N(O; 1)
O'z
- a2 X n - µo N(Àa; - )
vera H a ===} X nrv N(µ + Àa ; - ) /\ Z = / vn
n rv N(Àfo,; 1)
0 rv
n a n a / vn
(17.22)
Quindi, se Ha è vera allora
0'2
N(Àa; -)
(3(µ) = P[-Za/2::; a/fa ::; Za;2]
(3(µ) = P[-Za/2 ::; N(Àfo,; 1) ::; Za;2]
(3(µ) = P[-Za/2 - Àfo,::; N(O; 1) ::; Za/2 - Àfo,]
(3(µ) = (Za/2- Àfo,) - (-Za/2 - Àfo,)

{ o l'analoga scritta con i quantili (17.23)
(3(µ) + 'Y)- Àfo,)-
= (-1(1 (--1(1+ 'Y)- Àfo,)
2 2
come è illustrato dalla figura seguente
, 1 e -1 I +y 1 e 1 e -1 I+ Y e
-Zaiz -,.,vn =- (--)-,.,vn ,
Z a/2
-,.,vn = (-)-,.,vn
1
2 2
Saremmo arrivati allo stesso risultato partendo invece che dalla statistica test, dallo
stimatore (la verifica è lasciata al lettore).
Osservazioni
1) Grazie alla simmetria della gaussiana, le (17.23) valgono sia per À > O, sia per
À < o.
515
2) Repetita iuvant. Lo abbiamo già detto: assegnati a e n, più il valore vero della
media µ è lontano da µ 0 ( cioè più grande è À in modulo) più piccola è la probabilità
(3(µ) di II tipo. Ciò equivale a dire che, assegnati a e n, è più difficile (probabilità bassa)
sbagliarsi ad accettare grandi differenze traµ e µ 0 , mentre è più facile (probabilità alta)
sbagliarsi ad accettare piccole differenze.
3) Assegnati À e a l'errore di II tipo (3 decresce al crescere di n.
4) Se >-» l (grande distanza a dx di µ 0 ) allora (--1 ( 1 ; ì) - >-vn)'.::::'.

O quindi:
l+ì
À » 1 ===} (3(µ) = (-
1 (-
2 -) - >-Jn)= (Za;2- >-Jn)
4 bis) Se >-« -1 (grande distanza ( -1 ( 1 ; ì) -

a sx di µ 0 ) allora >-fa)'.::::'.
O
quindi:
l+ì l+ì
À « -1 ===} (3(µ) = -(-- 1 (- 2 -)->-yn) 1 (-
= (- 2 -)->-yn) = (Za;2->-vn)
Vediamolo graficamente per lo stimatore Xn :
B(µ) se À.«-1 B(µ) se À.» 1
(J (J -] l+y (J (J -1 1+ y
µo-
-vn
rZa12 =µo- -vn
r (-) µo+ rZa12 =µo+ r (-)
2 -vn -vn 2
Cioè
« -1 V À » 1 ===} (3(µ0 + Àa)

À (Za/2-
'.::::'. Àyn) (17.24)
e, indicato con -Z13 = -1 ((3) la (17.24) diventa:
n = ( Za/2 / Z13) 2 (17.25)
La (17.25) ci dà la dimensione del campione se si fissano il valore della probabilità di

errore di II tipo, e lo scostamento Àa da µ 0 .
Se ( Za;2+Z13)2
À non e, mtero
. s1. arroton d a a 11'. . pm
mtero successivo ., prossimo.
.
Curva operativa caratteristica (OCC, Operating Characteristic Curve)
Questo strumento matematico (vedi le tavole in appendice) ci aiuta a decidere, scelto il
valore À, come varia la probabilità di errore di II tipo (cioè il grafico di (3(µ)), al variare
della dimensione n del campione, prescindendo dai conti fatti nei due paragrafi prece-
denti. Vediamo come funziona. Nel caso dell'Esempio 01 supponiamo che l'ingegnere
sia preoccupato della probabilità dell'errore del II tipo quando µ = 41. Con i dati a
disposizione, n = 25, a = 2, a = 0.05 si ha À = ½e si ottiene la seguente situazione (vedi
anche Tavole della OCC in appendice).
0.9
0.8
0.7
0.6
0.5
0.4
...
, \
I0.3;
...._.
0.2
.,......
.....
IO.I;
,
o 0.5 I 1.5 2 2.5 3 3.5 4 4.5 5
Lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una verticale da
À = 0.5 si incontra la OCC relativa a n = 25 più o meno a quota 0.3. Dovrebbe a questo
punto essere chiaro che (3(41) = 0.3. La OCC ci dice però altre cose. Se avessi voluto un
(3(41) = 0.1 si sarebbe dovuto tirare una linea orizzontale da 0.1 sull'asse delle ordinate,
fino a raggiungere la retta À = 0.5. Il punto di intersezione sta approssimativamente
sulla OCC in corrispondenza di n = 40. Avremmo perciò dovuto scegliere un campione
di dimensione n = 40 se avessimo voluto sbagliarci solo 10 volte su 100 ((3 = 0.1) ad
accettare µ = 40 quando µ = 40 è falsa.
Test unilatero destro per la media di una gaussiana, varianza nota

Vediamo ora di ripetere le considerazioni fatte in precedenza per il caso unilatero, per
esempio un test unilatero destro o a coda dxvi, cioè:.
Ho:µ= µo
(17.26)
Ha:µ> µo
VI occorre ricordare che il test (17.26) è in realtà figlio del test: Ho : µ :S µ 0 vs Ha : µ > µ0•
517
1) Decidere il test in base al comportamento di Xn
Intuitivamente accettiamo µ = µ 0 se Xn osservato cade "non lontano a destra" da µ 0
mentre rifiutiamo se Xn osservato cade a sinistra di µ 0 ma anche a destra di µ 0 ma
non "troppo lontano" da µ 0 . Anche nel caso di questo test il "non lontano a destra"
si chiama regione di non rifiuto o di accettazione che indichiamo con RA, mentre il
"lontano a destra" si chiama regione di rifiuto o regione critica che indichiamo con RC.
La dimensione di RC è determinata dalla significatività del test, cioè dal valore a che
rappresenta la probabilità di errore del I tipo, cioè a= P[Xn E RC]. Ancora una volta
per motivi storici i confini di RC si trovano con i quantili o con i punti percentili della
N(O; 1). Si cerca dunque un valore r tale che:
P[Xn E (µ0 + r; +oo)IHo] =a= 1- 'Y
P[Xn ~ µ 0 + rlHo] = a= 1 - 'Y
P[Xn - µ 0 ~ rlHo] = a= 1 - 'Y
Sotto ipotesi Ho, ciò accade se
Concludiamo che la RC per Xn è
oppure
mentre la regione di accetazione ( o non rifiuto) RA è
oppure
RA= (-oo;µ 0 + y"n-l

(J
('Y).
Valgono dunque le seguenti relazioni

Livello di significatività a= 1 - 'Y,RC = (-1 ('Y);+oo), RA= (-oo; -1 ('Y)) oppure
RC = (Za; +oo), RA= (-oo; Za)-
Per calcolare l'errore del II tipo prenderemo valori diµ che stanno nella coda destra, cioè
nella regione di rifiuto. Come nel caso precedente la probabilità di errore di II tipo (3(µ)
è una funzione diµ. Nella figura seguente abbiamo disegnato il grafico di (3(µ), µ E R Si
noterà che quandoµ= µ 0 sarà (3(µ0 ) = 'Ye per valoriµ< µ 0 la funzione (3(µ) tende a 1.
RA
t:)
: .g t:) .g '~
' ......
:+
.:r +.:r
+
' I
' ~ ' ~
':::l. ' :::l.
: Il Il Il Il
: :::l. :::t :::t :::l.
_______
'
.J ______ _
2) Decidere il test in base al comportamento di Z

Dovrebbe essere ormai chiaro che il confine della regione critica RC per la va Z
Xn - µo , -1 . ,
a/fa e ('y), oppure Za, c10e
RC = (-1 (-y);+oo) = (Za; +oo)

e, di conseguenza, la regione di accettazione è
RA= (-oo;- 1 (-y)) = (-oo;Za)

È noto che
P[Z E RCIHo] =o:= 1- ì
P[Z E RAI Ho] = ì = 1 - o:
P[Z E RAIHa] = fJ(µ)

P[Z E RCIHa] = 1r(µ) = 1 - fJ(µ)
dove o:, fJ,ì eµ sono sempre gli stessi. Considereremoµ= µ 0 + Àa. Se è vera Ho allora
À = O mentre se è vera Ha allora À =JO. Di conseguenza, vedi anche (17.21) e (17.22),
vera Ho ===} Z = Xn - µo rvN(O; 1)

a/fa
519
a2
X -µ N(>-.a;-)
vera Ha ===} Z= ;/,/no,---, a/fa rvN(>-.fo,;l)
e, in ogni caso, è
/3(µ) = P[Z E (-oo; Za) IHa] = P[Z E (-oo; -1 (,) )IHa]
Esempio 02
Prendiamo il problema di prima e trasformiamolo nel test seguente:
Ho:µ= 40
(17.27)
Ha:µ> 40
Fissiamo la probabilità dell'errore del I tipo pari a a = 1 - 'Y = 0.05. La dimensione
del campione sia ancora n = 25. Lo stimatore è sempre la media campionaria Xn e la
Xn - 40 .
statistica test è 215 . Come pnma, a esperimento eseguito, la media campionaria
. . 1 . . . 41.25 - 40
osservata sia pan a Xn = 4 l. 25 e a stat1st1ca test sia 2/ 5 ~
3 .125.
La RC è:
((-1 (0.95), +oo) = (Zo.05, +oo)
(1.645, +oo)
La statistica test cade nella RC quindi rifiutiamo con probabilità pari a a = 0.05 di
sbagliare.
Nota
se avessimo
. osservato Xn = 4o.38 , 1a stat1st1ca
. . test sare bb e stata z = 40.38/ - 40 = o.9 5,
2 5
sarebbe caduta nella RA e avremmo accettato. Con che probabilità di sbagliare? Non
sappiamo. Accettando potremmo commettere un errore di II tipo. Vediamo cosa vale
l'errore di II tipo ipotizzando alcuni valori per µ e ricordando che, se la media vera è
µ .../..
µ allora Xv-40 ,---,N(µ-40;4/25) rv N(µ-40· l)
i I I
1 O 2/5 2/5 2/5 '
(3(µ)
(3(µ) 1 40 /3(µ)0.95 43 /3(µ)
2.383 · 10- 9 46 5.527 · 10- 41
1 41 0.19623506 44 3.2676 · 10- 17 47 o
0.999983 42 0.00039662 45 9.4252 · 10- 28 48 o
Si vede che, per esempio, se il valore della media fosseµ = 43, allora la massa individuata
da N( 4 ~;i
0 ; 1) nell'intervallo (-oo; 1.645) che rappresenta la RA, è (errore di II tipo)
pari a
3 3
P[N( 215 ; 1)::; 1.645] = P[N(0; 1)::; 1.645 - 2/ 5 ] =
= P[N(O; 1) ::; -5.855] = 2,383. 10- 9
cioè praticamente O.

Sia ancora >.a lo scarto tra µ e µ 0 , cioè µ = µ 0 + >.a con À > O, e sia (17.26) il test in
esame, cioè Ho : µ = µ 0 versus (vs) Ha : µ > µ 0 . Se è vera Ha allora
a2
X - µo N(>.a;-)
Z = n ,.__, n N(>.fa; 1)
,.__,
a/fa a/fa
Quindi
(3(µ) = P[Z::; Za]
a2
N(>.a; -)
f3(µ)=P[ a/fa ::;Za]
(3(µ) = P[N(>.fa; 1)::; Za]
(3(µ) = P[N(O; 1)::; Za - >.fa]
(3(µ) = (Za- >.fa)

{ o l'analoga scritta con i quantili (17.28)
(3(µ) = (-l(ì)- >.fa)
come è illustrato dalla figura seguente
Osservazioni
1) Si noti che, assegnati a e n, più lontano da µ 0 è il valore vero della mediaµ (cioè
più grande in modulo è >.)più piccola è la probablità (3(µ) di II tipo. Ciò equivale a dire
che, assegnati a e n, è più difficile sbagliarsi ad accettare grandi differenze tra µ e µ 0 ,
mentre è più facile sbagliarsi ad accettare piccole differenze.
2) Assegnati À e a l'errore di II tipo (3 decresce al crescere di n.
Indicato con -Z13 = -1 ((3) la (17.28) diventa:
(17.29)
521
Se ( Za~Z13)
"' non
2
è intero si arrotonda all'intero successivo più prossimo.
Curva operativa caratteristica

Come nel caso del test bilatero possiamo evitare di fare uso della (17.29) utilizzando le
OCC. Supponiamo ancora che l'ingegnere sia preoccupato della probabilità dell'errore
del II tipo quando µ = 41. Con i dati a disposizione, n = 25, a = 2, o: = 0.05 si ha À =~
e si ottiene la seguente situazione (vedi anche Tavole delle OCC in appendice).
-1 -0.5 4.5
Alzando una verticale da À = 0.5 si incontra la OCC relativa a n = 25 più o meno a

quota 0.2. Dovrebbe a questo punto essere chiaro che ,8(41) = 0.2. La OCC ci dice però
altre cose. Se avessi voluto un ,8(41) = 0.1 si sarebbe dovuto tirare una linea orizzontale
da 0.1 sull'asse delle ordinate fino a raggiungere la retta À = 0.5. Il punto di intersezione
sta approssimativamente su una curva tra quelle relative a n = 30 e n = 40, diciamo
n = 35. Avremmo perciò dovuto scegliere un campione di dimensione n = 35 se avessimo
voluto sbagliarci solo 10 volte su 100 (,8 = 0.1) ad accettareµ = 41 quando µ = 41 è
falsa.
Riassunto sulle OCC nel casi di gaussiana con varianza nota

Perché siano chiari i rapporti tra le varie OCC in dipendenza della dimensione n del
campione, della significatività del test o: e del tipo di test (a due o a una coda) riportiamo
i seguenti grafici.
I I
a { ~----------------- a 2{ _se_-
-:;::
======-=-=--=--=--
--
1-a=y
µ, µ.,
Si noti come (figura a sinistra), al crescere della dimensione del campione, la OCC relativa
si stringe e quindi diminuisce la probabilità di errore del II tipo a parità di scostamento
da µ 0 . Si noti anche che (figura di destra), se si passa da una significatività det test a 2
a un valore di significatività più piccolo a 1 la curva della probabilità dell'errore di II
tipo fJ(µ) si alza. In altri termini, a parità di dimensione del campione, diminuendo la
probabilità di errore di I tipo aumenta quella dell'errore di II tipo.
La forma della OCC cambia a seconda che il test sia unilatero (destro) o bilatero.
OCC per test billlfero
OCC per te!J·tunilt1tero,lx
Si noti che la OCC per test unilaterale sinistro sarebbe la curva simmetrica rispetto a
µ 0 della OCC per test unilaterale dx. Nella pratica si usa la OCC del test dx anche nel
caso di test sx, avendo semplicemente cura di cambiare segno allo scostamento da µ 0 .
Infine, le osservazioni appena riportate valgono anche per le OCC disegnate per la media
di una gaussiana, quando non si conosce la varianza, tema che affrontiamo nei successivi
paragrafi.
Test bilatero per la media di una gaussiana, varianza ignota

Molte delle cose dette nei casi precedenti valgono in generale per i test d'ipotesi parame-
trici, per esempio le tabelle (17.18) e (17.19). Lasciamo al lettore le opportune estensioni.
Qui affrontiamo di nuovo il test:
Ho:µ= µo
(17.30)
Ha:µ -I µo
cioè ipotesi nulla semplice, ipotesi alternativa composta, quando però non si conosce la
vananza.
523
È noto che lo stimatore è la media campionaria Xn, e che la statistica test, sotto ipotesi
, Xn - µo
Ho, e T = S/fa rvtn-l·
Decidere in base al comportamento di T
Tutto si svolge come nel caso della varianza nota. Cambiano solo i quantili, cioè i confini
l+-y l+-y
della regione critica RC che, per la va T, sono -tn-1(- 2-) e tn-1(- 2-), oppure
-ta/2,n-l e ta/2,n- l, cioè
RC = (-oo;-ta/2,n-I) U (ta/2,n-1; +oo)

{ o l'analoga scritta con i quantili
l+-y l+-y
RC = (-oo;-tn-1(- 2 -)) U (tn-1(- 2 -); +oo)
e, di conseguenza, la regione di accettazione RA
RA= (-ta/2,n-l;ta/2,n-I)
l+-y l+-y
RA = (-tn-1(- 2 -);tn-1(- 2 -))
È noto che
P[Z E RCIHo] =o:= 1 - 'Y
P[Z E RAIHo] = 'Y (17.31)
P[Z E RAIHa] = fJ(µ)

dove o: è un numero, fJ è una funzione e dipende dai valori che assume la media quan-
do µ = µ 0 è falso. In questo caso la valutazione dell'errore del II tipo dipende dalla
distribuzione della va
Z + Afa (17.32)
S/a w
dove Z rv N(0; 1) e W rv Jx;,_i/(n- 1). Inoltre Z e W sono indipendenti. Si osservi
che il numeratore della (17.32) non è una N(0; 1) ma è
Xn - (µo+ Àa) + ,\fa rvN(-\fa; 1)

a/fa
La (17.32) si chiama t - student non centrale. Le tavole dei quantili di questa va non
sono comuni come le tavole della N(0; 1), della tn, della x;,
o della F di Fisher. Per
semplicità, una volta fissati o:, À e n si trova il fJ corrispondente, oppure fissati o:, À e fJ
si trova l'n corrispondente, utilizzando le OCC.
Esempio 03
La forza di rottura di una certa fibra tessile è distribuita normalmente. Le specifiche di
legge richiedono che la forza media di rottura della fibra in esame sia pari a 150 psi (pound
per square inch). L'azienda che la produce vuole verificare che questa fibra rispetti le
richieste di legge. A tal fine un ingegnere dell'azienda predispone il seguente test:
Ho:µ= 150
Ha : µ =/-150
decidendo che la probabilità dell'errore del I tipo sia pari a o: = 1 - 'Y = 0.05. Utilizza
un campione di dimensione n = 15. Lo stimatore è sempre la media campionaria Xn e la
. . test è T = Xn - ~
stat1st1ca 150 . A espenmento
. . la me d'ia camp10nana
esegmto . · osservata
S/v .1u
risulta pari a Xn = 152.18 mentre la varianza campionaria osservata è risultata essere
2 . . 152.18 - 150
s = 16.63. La stat1st1ca test è t = --;:::====;==- 2.07.
'.::::'.
)16.63/15
Ora i confini della regione critica sono:
l+'Y l+'Y
-tn-1(- 2-) = -ta/2,n-l; tn-1(- 2-) = ta/2,n-l
-t14(0.975) = -to.02s,14 = -2.145; t14(0.975) = to.02s,14= 2.145

Non c'è sufficiente evidenza per rifiutare l'ipotesi nulla.
Per il fatto che le tavole dei quantili della t - student non centrale non sono comuni,
qui non possiamo ripetere alcuni dei ragionamenti fatti nell'Esempio 01 per calcolare
la dimensione del campione, ma dobbiamo appoggiarci alle OCC. Supponiamo, in questo
caso, che l'ingegnere voglia rifiutare l'ipotesi nulla con probabilità pari almeno a 0.9 se
µ = 150 ± 2.5 psi. Si chiede se n = 15 è sufficiente perché il test abbia questa sensibilità.
Non conoscendo a usiamo lo scarto stimato, cioè ipotizziamo che a = yl6.68 = 4.08.
2.5
Dal momento che ÀCJ = 2.5, con il valore stimato di a si ottiene À = 4 _08 = 0.61, si
ottiene la seguente situazione (vedi anche le tavole OCC in appendice) .
,- ·
.
0 .21--...;:;;;,
.......
# ...
I o.,
0.61
Anche qui, lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una
verticale da À = 0.61 si incontra la OCC relativa a n = 15 più o meno a quota 0.43.
525
Dovrebbe a questo punto essere chiaro che ;3(152.25) = 0.43. La OCC ci dice però altre
cose. Se avessi voluto un ;3(152.25) = 0.1 si sarebbe dovuto tirare una linea orizzontale da
0.1 sull'asse delle ordinate fino a raggiungere la retta À = 0.61. Il punto di intersezione sta
approssimativamente sulla OCC in corrispondenza di n = 30. Avremmo perciò dovuto
scegliere un campione di dimensione n = 30 se avessimo voluto sbagliarci solo 10 volte
su 100 (/1= 0.1) ad accettareµ= 152.25 quandoµ= 152.25 è falsa.
Test unilatero per la media di una gaussiana, varianza ignota

Vediamo ora un test unilatero, per esempio un test unilatero destro o a coda dx.
Ho:µ= µo
(17.33)
Ha:µ> µo
Xn-µo
Lo stimatore è sempre la media campionaria Xn, e la statistica test è T = --- rv
S/fo
Decidere in base al comportamento di T

La RC è a coda destra e il confine per la va Tè tn-1(,), oppure ta,n-l, cioè
RC = (ta,n-li +oo)
RC = (tn-l (,); +oo)
e, di conseguenza, la regione di accettazione RA è
RA= (-oo; ta,n-l)

{ o l'a~loga ~critta con i quantili
RA - (-oo, tn-1(,))
È noto che
P[T E RCIHo] = o: = 1 - ,
P[T E RAIHo] =ì
P[T E RAIHa] = ;3(µ)
dove o: è un numero, ;3 è una funzione e dipende dai valori che assume la media quando
µ = µ 0 è falso. In questo caso la valutazione dell'errore del II tipo dipende ancora dalla
distribuzione della va
Sappiamo già (vedi (17.32)) che questa va si chiama t - student non centrale e che
Per i motivi già esposti, una volta fissati o:, À e n si trova il ;3 corrispondente, oppure
fissati o:, À e /1si trova l'n corrispondente, utilizzando le OCC.
Esempio 04
Tutto, salvo Ha, è come nell'Esempio 03.
Ho:µ= 150
Ha:µ> 150
Questa volta la media campionaria osservata risulta pari a Xn = 151.23 mentre la varianza
campionaria osservata è risultata essere s 2 = 16.63. La statistica test osservata è t =
151.23 - 150 68
-====-
)16.63/15
'.::::'.
1.1 .
Il confine della regione critica è:
t14(0.95) = -to.5,14 = 1.761

Non c'è sufficiente evidenza per rifiutare l'ipotesi nulla.
Anche in questo caso non possiamo ripetere alcuni dei ragionamenti fatti nell'Esempio
01 e 02. Per calcolare la dimensione del campione dobbiamo appoggiarci alle OCC.
Supponiamo, in questo caso, che l'ingegnere voglia rifiutare l'ipotesi nulla con probabilità
pari almeno a 0.9 se µ = 150 + 1.23 psi. Si chiede: n = 15 è sufficiente perché il test
abbia questa sensibilità? Non conoscendo a usiamo lo scarto stimato, cioè ipotizziamo
che a = yl6.68 = 4.08. Dal momento che Àa = 1.23, con il valore stimato di a si ottiene
23 O 3 .
"'' = 41._08 .
'.::::'.. s1 ottiene la seguente s1tuaz10ne.
. .
l.00
0.90
0.80
~ ~, . ~
~ i'-.' r--...
# .. 1
f 0.70 '
# -- ---·
1-- -
--·- \\ ~\\ Ì\' r'\. Ì"-.
0 .60
'!\ ,\ Ì\ ~ r-..."
0.50
0.40
1\ l\
"\\ ~~ \ \ \ !\
\ \ \ '\
~
"' "'-.'
\. "'
0.30
'°"'"',
....'
0 .20
8
•!,\~~
;1\\;1:-;,
\\ \ ;I \ ' -t ~ ~ l'---.t~.].
----- -
i ~;I ~ ~~S-~1' ~
---HD,&'t
!S' ---.....
--· -~ i-.._ .... , ......
f o.~
....o ~
~ ~::,=:-----
0.1 1~
# r--
-0 .8-0 .6-0.4-0 .2 O 0.2 .,0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2
# i '
, _,
( 0.3 I
Lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una verticale
da À = 0.31 si incontra la OCC relativa a n = 15 più o meno a quota O.70. Dovrebbe
a questo punto essere chiaro che ,8(151.23) = 0.70. La OCC ci dice però altre cose. Se
avessi voluto un ,8(151.23) = 0.1 si sarebbe dovuto tirare una linea orizzontale da 0.1
527
sull'asse delle ordinate fino a raggiungere la retta À = 0.3. Il punto di intersezione sta
approssimativamente sulla OCC in corrispondenza di n = 100. Avremmo perciò dovuto
scegliere un campione di dimensione n = 100 se avessimo voluto sbagliarci solo 10 volte
su 100 ((3= 0.1) ad accettareµ= 151.23 quandoµ= 151.23 è falsa.
17.6 Modellazione lineare
Una questione di terminologia

- Yll2 = 11y
11y - yr11y- yr
+ (17.34)
e, con altri simboli:
Syy = SSr = SSE + SSR (17.35)

Osservazione
Dal punto di vista della simbologia la (17.35), è scritta con due tipi di simboli diversi a
seconda dei vari testi di probabilità e statistica. Ecco come stanno le cose.
alteri (noi) alteri

SmT1 of Sum of Squared
SSE IIY-Yll 2 SSR
Squared Errors Re s iclu a ls
Sum of Squares Sum of Squares
SSR IIY-5'11 2 SSE
due to Regre ss ion Explained
Tot a ! Sum Tota! Sum
SSr = Syy IIY- Yll2 SSr = Syy
of Squares of Squares
Conciliazione formule sulla scomposizione della varianza

Vogliamo riunificare la formula di scomposizione della varianza (17.34) o (17.35) della
modellazione lineare con la formula
var(Y) = var[E[YIX]] + E[var[YIX]] (17.36)
che viene dalla teoria delle distribuzioni condizionate o condizionali, dove (X, Yf è un
vettore aleatorio (dotato di quello che deve essere dotato).
Nel caso univariato
y = E[YIX] +€ = y +€ ===} è = y - E[YIX] (17.37)

dove s è l'errore di previsione e Y è la funzione di regressione che nel nostro caso è
Y =bo+ b1x + s
A questo scopo dimostriamo il Teorema
1) E[s] = O
2) cov[s, E[YIX]] = O
3) var[s] = E[var[YIX]]
Dim (vedi anche Barchielli-Verri: "Attese condizionate e modelli di previsione")
1)
E[s] = E[Y - E[YIX]] = O (legge dell'alternativa per la media).
2)
cov[s, E[YIX]] = E[sE[YIX]]-E[s]E[E[YIX]] = E[sE[YIX]] = E[(Y-E[YIX])E[YIX]] =
E[Y · E[YIX]] - E[E 2 [YIX]].
Ora si dimostra che E[YIX] è l'unica funzione tale che
'ì!g(X): E[g(X)E[YIX]] = E[g(X)Y]
da cui, con la scelta g(X) = E[YIX], segue che:
cov[s, E[YIX]] = E[Y E[YIX]] - E 2 [YIX]] = O
quindi s e E[YIX]] sono incorrelate.

3).
Dalla (17.36) con quanto dimostrato in 2) abbiamo
var[Y] = var[E[YIX]] + var[s] = var[E[YIX]] + E[var[YIX]] ===} var[s] = E[var[YIX]]
Utilizzando il teorema precedente scriviamo la (17.36) nel modo seguente:
var[Y] = __.,
var[E[YIX]]
.....
+ var[s] (17.38)
~
varianza spiegata varianza residua
Riscriviamo la (17.38) ricordando la (17.37)

var[E[YIX]] = E[(E[YIX] - E[E[YIX]])2] = E[(E[YIX] - E[Y])2] = E[(Y - E[Y])2]
var[s] = var[Y - E[YIX]] = E[(Y - E[YIX] - E[Y - E[YIX]])2] =
= E[(Y - E[YIX] - E[Y] + E[E[YIX]])2] = E[(Y - E[YIX])2] = E[(Y - Y)2]
Conclusione
La (17.36) si può quindi scrivere:
var(Y) = var[E[YIX]] + E[var[YIX]] = E[(Y - E[Y]) 2 ] + E[(Y - Y)2]
Le quantità var[Y], E[Y], Y non si conoscono e si devono stimare insieme alle quantità
E[(Y - E[Y]) 2 ] e E[(Y - Y)2] da cui la (17.34).
Collinearità e matrice di Hilbert

Legame tra il numero dei predittori del modello e il numero di osservazioni
della risposta Y.
C'è un legame tra il numero k di predittori e il numero n di valori assegnati a ciascun
predittore.
Per esempio immaginiamo il modello y = bo+ b1x + s (k = 1) di cui si può dare una
rappresentazione in IR2 . Per stimare bo e b1 si fissano n valori dell'unico predittore x e si
cerca la retta che meglio interpola i le coppie (x;, y;), cioè che renda minimo la somma
dei quadrati degli scarti degli Yi osservati da bo+ b1x; sul modello (metodo dei minimi
quadrati). È evidente che se n = l oppure n = 2 si presenta questa situazione:
529
JR.
2
Y1 ::-~ '
I
I
I
I
X2
A B
Nel caso A tutte le rette del fascio per (x1; Y1) interpolano perfettamente l'unica coppia,
mentre nel caso B c'è una sola retta che interpola le due coppie (x1;Y1) e (x2;Y2) ed è
la retta per le coppie.
Se invece immaginiamo il modello y = b0 + b1 x 1 + b2 x 2 + s (k = 2) di cui si può dare
una rappresentazione in IR3 . Per stimare bo, b1 e b2 si fissano n valori a ciascuno dei due
predittori x1 e x2 e si cerca la retta che meglio interpola le coppie corrispondenti, sempre
utilizzando il metodo dei minimi quadrati. È evidente che se n = l oppure n = 2 oppure
n = 3 si presenta questa situazione:
Y, ·, ,
',,
', r
X2 ,1
x,
XLI
x, x,
A R e
Nel caso A tutti i piani del fascio per (x11;x21;Y1) interpolano perfettamente l'unico
punto, Nel caso B tutti i piani del fascio che ha sostegno nella retta per (x11;x21;Y1) e
(x12; x22; y2) interpolano perfettamente i due punti. Infine nel caso C i punti sono 3, cioè
(x11;x21;Y1) e (x12;x22;Y2) e (x13;x23;y3), e c'è un unico piano che passa per questi 3
punti, il piano interpolatore,
Dovrebbe essere evidente che questi casi non sono interessanti, Quindi, avendo indicato
con k il numero dei predittori, in generale viene scelto n > (k + 1). Anzi è consigliabile
che n » (k + 1).
Collinearità
Ma il problema non si risolve completamente scegliendo n > (k + 1). Infatti sia
1 X11 X1k
1 X21
X= [llx1I .. , lxk] = = [llx1I .. , lxk]

1 Xjl Xjk
1 Xnl Xnk
la matrice dei k predittori e del vettore colonna 1.

Il problema della invertibilità della matrice xrx riguarda l'indipendenza lineare delle
colonne di X. In generale i valori dei predittori sono scelti dallo statistico che analizza il
problema. Sarà quindi sua cura che le colonne siano linearmente indipendenti. Perché
ciò accada è necessario che
n2".k+l.
Infatti la matrice X di tipo (n, k + l) ha rango minore o uguale del min(n; k + l) e se

ci sono più colonne che righe, le colonne sono certamente linearmente dipendenti. Ciò
corrisponde al fatto che il numero delle osservazioni debba essere maggiore o uguale del
numero dei parametri incogniti b0 , b1 , ... , bk da stimare. Come è ovviamente ragionevole
che sia!
Vediamo cosa succede nel caso univariato (dove, per il pedice dei valori dell'unico pre-
dittore, adottiamo una notazione leggermente semplificata):
1 X1
1 X2
X= [lix]=
1 Xj
1 Xn
Se 1 e x fossero linearmente dipendenti allora
X= kl
cioè
Y1 1 k
Y2 1 k
Y; 1 k [ ] bo
b1
Yn 1 k
Tutti i predittori hanno lo stesso valore e la situazione che si presenta è la seguente:

531
Y,,
La somma dei quadrati degli scarti è, come al solito:
Si cerca il minimo di
2 n
IIY- Xbll = I: [y; - (bo+ b1k)]2 = S(bo, b1)
i=l
n n n n
I: [Yi- (b0 + b1k)]2 = I: [y; - 2y;(b 0 + b1k) + (b + b1k)2] =
0 I: y; - 2(b0 + b1k) I: Yi +
i=l i=l i=l i=l
n(b 0 + b1k) 2 =
n n n
= I: Y[ - 2bo I: Yi - 2b1k I: Yi + nb~ + 2nkbob1 + nbjk 2
i=l i=l i=l
~S
ubo
= -2 f: Yi + 2nb
i=l
0 + 2nb1k = O
{ 8S n
-;:;--= -2k I:Yi + 2nkbo + 2nb1k 2 = O
ub1 i=l
che ha le infinite soluzioni
{ bo+ b1k = t}
bo+ b1k = y
Anche dal punto di vista geometrico ho infinite soluzioni, come si deduce dalla figura.
Infatti
ha tutte lo soluzioni bo, b1 tali che bo+ kb 1 = y.

Le infinite soluzioni, che si traducono nelle infinite rette rette y = (y - kb1) + b1x al
variare di b1.
Tutte le rette costituiscono un fascio per (k, y) e ciascuna rappresenta la retta dei minimi
quadrati. È chiaro che la situazione non presenta nessun interesse.
Per il caso multivariato ci limitiamo al caso k = 2. Se, per esempio, i vettori X1 e X2
sono linearmente dipendenti, allora si ha:
cioè Vj, Xj2 = kXj1

Ciò comporta che tutte le coppie (xj1, Xj2) stanno lungo la retta x2 = kx1 della figura.
Di conseguenza il piano che interpola responsi Yj (indicati nella figura con pallini neri)
si riduce alla retta r. Ma allora anche tutti i piani del fascio per r interpolano gli Yi
evidenziando una situazione analoga a quella del caso univariato.
'. X
2
= /cxI
Quando non si può trovare l'inversa di xrx si dice che si ha un problema di collinearità.
Abbiamo già detto che, se è lo statistico che sceglie i valori dei predittori (cioè la matrice
X), questi agisce in modo che ciò non accada. Ma se i dati provengono da fonti esterne e
non sono scelte dallo statistico, allora ciò potrebbe accadere. In letteratura sono indicati
vari metodi per porre rimedio al problema.
533
Osservazione
Ci sono notevoli problemi non solo quando det(XTX) = O ma anche quando det(XTX) =J
O ma det(XTX) ~ O come capita nell'esempio seguente.
Matrice di Hilbert
Ecco un esempio che potrebbe narrare un problema analogo alla collinearità tra le colonne
di una matrice: la matrice di Hilbert. Riportiamo la versione 4 x 4 di tale matrice, ma
si potrebbe costruire una matrice di Hilbert n x n qualunque, una volta capito l'algoritmo
che la genera. Vediamo cosa succede.
1 1 1
l
1
1 I I 1
H-[ I I 1 I
I 1
4 5
I6 ~7
Con un computer si ricava facilmente:
det(H) = 1.65344 · 10- 7 = 0.0000001653

Quindi le colonne di H non sono linearmente dipendenti, ma sono "quasi" linearmente
dipendenti. H è quindi papabile per rappresentare una matrice disegno di un modello
lineare senza intercetta VII
Y = b1X1 + b2X2 + b3X3 + E:

o, anche:
l [I i][l
1 1
l
Y1 b1 c1
I I
[ Y2
Y3
Y4
I 1
15 I6
b2
b3
b4
+[
r::2
€3
€4
Nel nostro esempio H = HT, quindi H è anche simmetrica.

Guardiamo cosa succede:
3.55.
3.55.
1
10- 15
10- 15
o
1
o
-5.68 · 10-
2.84 · 10-
14
14
-1.14.
1.14.
o
1
10-13
10-13
-1.14: 10-" l
Ricordiamo che, presa una generica matrice M, simmetrica (Ji1 = MT) e non degenere
(det(M) =JO), anche 1i1- 1 deve essere simmetrica. Infatti
Ora HHT è simmetrica. Osservate qualcosa che non va nella(&)? Riuscite a indovinare
quali possono essere i problemi in situazioni di questo genere?
VIINel corso affrontiamo solo modelli con intercetta, cioè con bo f= O.

17.7 Legge di propagazione dell'errore
Approssimazione della media della variabile aleatoria g(X)

Abbiamo già visto qualcosa a proposito di questo argomento nel capitolo 12, paragrafo
12.7. Aggiungiamo qualche nota. Supponiamo anche qui che g(x) una funzione svilup-
pabile in serie di Taylor, arrestata al secondo ordine in un intorno di uo = µ, cioè tale
che:
= g(µ) + g (µ)(x + 21g 2

+ o(x - 2
I 11
g(x) - µ) (µ)(x - µ) µ)
L'approssimazione g(x) ~ g(µ) + g'(µ)(x - µ) + ~g" (µ)(x - µ) 2 è perciò tanto migliore,

quanto più piccolo è (x - µ) 2 .
Sia ora X una va e g(X) una sua funzione sviluppabile in un intorno di µ = E[X] e sia
var[X] = 0' 2 . Allora, almeno formalmente:
g(X) ~ g(µ) + g (µ)(X

I
- µ) + 21 g Il
(µ)(X - µ)
2
(17.39)
L'approssimazione è tanto migliore quanto più piccolo è (X - µ). Se siamo interessati a

E[g(X)].ricordiamo che
E[g(X)] = l g(x)f(x)dx
ma utilizzando la (17.39) abbiamo
E[g(X)] ~ E [g(µ) + g/ (µ)(X - µ) + 21 g 11

(µ)(X - µ) 2]
E [g(µ)] + g'(µ)E [(X - µ)] + ~g" (µ)E[(X - µ)2]
e poiché E [(X - µ)] =Osi ha:
1 Il 2
E[g(X)] ~ g(µ) + 2g (µ)O' (17.40)
e l'approssimazione è tanto migliore quanto più X è vicina, in media, a µ, cioè quanto

più piccola è la sua varianza. Noi useremo l'ulteriore approssimazione, pensando a 0' 2
abbastanza piccola da validarla:
E[g(X)] ~ g(µ) (17.41)
Esempio
L'approssimazione è perfetta se var[X] = O cioè se X = e è degenere. In questo caso
E[X] = e, g(X) = g(c) e quindi E[g(X)] = g(E[X]).
Oppure se, per esempio, g(X) = aX + b, allora g" =
O e, come già sapevamo, la relazione
vale con "=" e non solo con con "~", cioè:
E[g(X)] = g(µ) =aµ+ b.

Altri esempi nel capitolo 12.
535
Approssimazione della varianza della variabile aleatoria g(X)
Vediamo il caso continuo ma il caso discreto porta a formule analoghe.
Abbiamo visto che:
E[g(X)] = l g(x)fx(x)dx
Allora
var[g(X)] = E[(g(X) - E[g(X)])2] = l (g(x) - E[g(X)]) 2 fx(x)dx (17.42)
Ora
g(x) ~ g(µ) + g (µ)(x

I
- µ) + 21 g Il
(µ)(x - µ)
2
e, per la (17.40)
1 Il 2
E[g(X)] ~ g(µ) + 2g (µ)O'
la (17.42) diventa:
var[g(X)] ~ l [
g(µ)
I
+ g (µ)(x - µ) + 2g
1 11
(µ)(x - µ)2 - g(µ) -
1 11
2g (µ)0' 2
]
2
fx (x)dx =
r[
= }'JRg'(µ)(x - µ) + 21,,g (µ)(x - 1,,g (µ)0' 2 ] 2 fx (x)dx
µ) 2 - 2
Con un po' di conti e ricordando la definizione di momento centrale di ordnie k, cioè:
s1 arnva a:
(17.43)
l\Ia questa approssimazione è ancora troppo complessa per i nostri scopi.

Conclusioni
Miglioramenti della (17.43) si hanno se:
1) X ha distribuzione simmetrica intorno alla sua media. In questo caso µ 3 = O e la
(17.43) diventa
(17.44)
2) X ha distribuzione gaussiana. In questo caso oltre a µ 3 = O si ha µ 4 = 30'4 e la

(17.43) diventa
(17.45)
3) se X ha distribuzione simmetrica e non gaussiana non si commette un grande

errore a usare la ( 17.45) invece della ( 17.44).
4) Se 0' 2 è piccola, cioè se 0' 2 >> 0' 4 vale l'ulteriore approssimazione:
var[g(X)] ~ [g'(µ)] 2 0' 2 (17.46)

che è quella che utilizzaremo eventualmente nel corso.
Esempi
1) Se g(X) = aX + b allora g"(x) =
O e la (17.46) vale con "=" e non solo con con
"~", cioè:
come già sapevamo.

2) Un esempio classico che c'è in tutti testi, riguarda un'applicazione pratica. Sup-
poniamo di avere un conduttore e di applicare ai suoi due estremi una differenza di
potenziale V. Allora la legge di Ohm dice l'intensità I della corrente che attraversa il
conduttore a temperatura costante, è inversamente proporzionale alla resistenza R del
conduttore e direttamente proporzionale alla differenza di potenziale V, cioè:
I= V
R
Supponiamo che R sia una variabile aleatoria mentre V = 100 volt sia costante. Allora
anche I è una variabile aleatoria VIII
V
I= -
R
= g(R)
Sia E[R] = 200 (ohm) la media di Re O'R = 20 il suo
scarto quadratico medio. Si vuole
la media e la deviazione standard della intensità I. In questo caso
g(x) = v,g'(x) =- V ,g"(x) = 2~ 3

x x2 x
Applicando la(l 7.41) e la (17.46) si ha:
V 100
E[J] ~ g(x)lx=E[R] = E[R] = 20 amp = 5amp.
var [Il ~
- [g '( µ )]2O' 2 _
-
~
E2[Rt 2 -_ ...
Come unico esempio di caso multivariato, citiamo la legge di propagazione della varianza
trattata nel teorema 9.4.9. Lì viene calcolata la matrice di covarianza di un vettore Y
funzione lineare di un vettore X, cioè Y = AX dove A è una matrice opportuna.
17.8 Convergenza in probabilità a una co-

stante
Fdr di una va costante
Sia
VIII volt
amp = --.
ohm
537
P[X =e]= 1
Allora
Fx(x) = { ~ sex< e
sex2".c
Convergenza a una costante

È noto che
T t:
Xn -----+ X ===} Xn ___:__,
X
cioè la convergenza in probabilità implica la convergenza in legge, ma non vale il viceversa.

Mostriamo che
Infatti
Se Xn sono va assolutamente continue allora "in, P[Xn = e - e] = O. Altrimenti, dal

momento che Fxn(x)-----+ I[c,+oo)(x) si ha:
lim Fxn (e+ e) = 1

n--+oo
lim Fxn(c- e)= O
n--+oo
lim P[Xn = e - e] = O
n--+oo
cioè
538
Esercizi
Ora io so una canzone dell'Africa, una canzone della giraffa e della luna nuova
sdraiata sul dorso, dell'aratro nei campi e dei visi sudati degli uomini
che raccoglievano il caffè ... ma sa l'Africa una canzone che parla di me?
Vibra nell'aria della pianura il barlume di un colore che io ho portato,
c'è fra i giochi dei bambini un gioco che abbia il mio nome,
proietta la luna piena, sulla ghiaia del viale, un'ombra che mi assomiglia,
vanno in cerca di me le aquile del Ngong?
Karen Blixen, La mia Africa
0.1 Probabilità
Esercizio 0.1.1 o
Sia Y una va (continua) che misura la massima velocità del vento in una certa località
marina. Non si conosce la sua distribuzione ma le rilevazioni fatte su un lungo arco di
tempo dicono trattarsi di una va Y con media 20km/ ora e deviazione standard 2km/ ora.
Cosa si può dire, utilizzando la disuguaglianza di Chebyscev, della probabilità che domani
la velocità del vento sia compresa tra 16 e 40km/ora?
Si vuole trovare
P[l6 :S Y :S 40].
Trattandosi di una va continua dalla disuguaglianza di Chebyscev P[I Y - µ 12':ko-] :S tz
abbiamo anche P[µ - ko- :S Y :S µ + ko-] 2".1 - ,!,z.Poichè µ = 20 e O' = 2 possiamo
ragionare così:
P[l6 :S Y :S 40] 2':P[l6 :S Y :S 24] = P[20 - 2 · 2 :S Y :S 20 + 2 · 2] 2':1 - ¼= ¾
Esercizio 0.1.2 o
La durata Ti della i-esima lampadina utilizzata nell'impianto per le decorazioni natalizie

lungo il Naviglio nell'ultimo Natale è una va distribuita esponenzialmente di parame-
tro 1/10 (cioè ogni lampadina funziona in media 10 giorni). Le lampadine erano tutte
collegate in parallelo. Gli elettricisti hanno acceso l'impianto il 15 dicembre.
1) Qual era la probabilità che in tale impianto, dotato di n lampadine, non ci fosse
neppure una lampadine bruciata la notte di Natale?
P{T1 > x n T2 > x n ... Tn > x} = P{T1 > x} · ·P{Tn > x} = (1- F(x)t.
Nel nostro caso x = 10 e F è la funzione di ripartizione della distribuzione esponenziale
Àe->- 1 :
539
2) Qual era la probabilità che l'impianto non avesse neppure una lampadina accesa la
notte di Capodanno?
P{T1 < xn ... nTn < x} = Fn(x). Nel nostro caso x = 17
Esercizio 0.1.3 o
Un sistema di controllo è costituito da 2 componenti [TI e[!] totalmente indipendenti.
Inizialmente è operativa la componente [TI e la [!J è in standby. Se [TI si guasta il

centro di controllo [QJ attiva istantaneamente la componente [!] . Il sistema funziona
fino a che entrambe le componenti si guastano. Sia T; la va che denota la durata della
componente i(i = 1, 2). T; ha distribuzione esponenziale di media 2 mesi.
1) Scrivere la densità di T;.
Vi fr.(x) = ~e-x/ 2J[o,+oo)(x)
2) Detta T la va durata del sistema scrivere la densità di T.

Tè la somma di 2 va indipendenti esponenziali di parametro À = 1/2. Perciò Tè una r
di parametri 1/2 e 2 cioè:
- 1 X -x/2
fr(x) - 2r( 2) 2 e 110,+oo)(x)
3) Calcolare la probabilità che il sistema duri più di un anno.

l {12
P[T > 12] = 1 - P[T :S 12] = 1 - 4 }0 xe-xl 2dx = 0.017
4) Se T2 al contrario di T1 è una va esponenziale di media 1 mese anzichè di 2, scrivere

la densità della durata T.
o u<o
fr 2 (x) = e-x 110,+oo)(x);T = T1 + T2; fr(u) = { fou ½e-x/2e-u+xdx = I u 2".O
dove I= ½e-u f 0u exl 2dx = e-u/ 2 - e-u.
Esercizio 0.1.4 o
Detta p la probabilità che nel gioco del lotto un dato numero venga estratto su una certa
ruota in una data settimana, calcolare:
1) la probabilità che un dato numero non venga estratto per k settimane consecutive
Sia X va tempo d'attesa del 1° successo.
540
P[X > k] = qk (prob. che non venga estratto per k settimane consecutive); q = l - p
2) la probabilità che un dato numero venga estratto esattamente dopo n + k settimane
sapendo che sono passate n settimane senza che sia stato estratto.
P[x _ + k I X> n ] -- P[X=n+k,X>n] _ P[X=n+k] _ ~ _ k-1 _ P[X _ k]
- n P[X>n] - P[X>n] - qn - pq - - '
Esercizio 0.1.5 o
0sex<0
Sia X una va la cui densità è data da f(x) ={ e-x sex 2".O
1) Calcolare la fgm di X.
mx(t) = Jt etxe-xdx = l~t·
2) Utilizzando i risultati del punto precedente calcolare var[X 2]
m~(t)I = m~(O) = l; m~(t)I = m~(O) = 2; m;(t)I = m;(o) = 6;

t=O t=O t=O
2
m'; (t)lt=O = m'; (O)= 24;var[X 2] = E[X 4 ]- E 2[X 2] = m'; (O)- ( m~(o)) = 20.
Esercizio 0.1.6 o
Sia X una va (continua) che misura in decibel la rumorosità di una zona dei Navigli di
Milano adiacente a due discoteche nella notte di sabato. Non si conosce la sua distri-
buzione ma le rilevazioni fatte su un lungo arco di tempo dicono trattarsi di una va X
con media a decibel e deviazione standard 2 decibel. Cosa si può dire, utilizzando la
disuguaglianza di Chebyscev, della probabilità che il prossimo sabato la rumorosità della
zona sia compresa tra a - 4 e a+ 10 decibel?
Trattandosi di una va continua, dalla disuguaglianza di Chebyscev P[I X - µ 12". kO'] :S tz
abbiamo anche P[µ - kO' :S X :S µ + kO"] 2".1 - Poiché µ = a e O' = 2 possiamo tz.
ragionare così:
P[a - 4::; X::; a+ 10] 2".P[a - 4::; X::; a+ 4] =
= P[ a - 2 · 2 ::; X ::; a + 2 · 2] 2".1 - ¼= ¾
Esercizio 0.1. 7 o
Si supponga di lanciare due dadi a 4 facce. Siano X1 e X2 le due va che codificano l'uscita
di un numero su ciascuno dei due dadi. Siano poi X= max[X1, X2] e Y = min[X 1, X2],
1) Indicare in una tabella le determinazioni del vettore aleatorio (X, Y), la densità con-
giunta di (X, Y), le determinazioni di X e di Y e le due densità marginali fx(x) e
fy(y).
X1 1 1 2 1 3 1 4 2 2 3 2 4 3 3 4 4
X2 1 2 1 3 1 4 1 2 3 2 4 2 3 4 3 4
X 1 2 2 3 3 4 4 2 3 3 4 4 3 4 4 4
y 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4
fx 1/ 16 3/ 16 5/ 16 7/ 16 1
4 o o o 1/ 16 1/ 16
3 o o 1/ 16 2/ 16 3/ 16
2 o 1/ 16 2/ 16 2/ 16 5/ 16
1 1/ 16 2/ 16 2/ 16 2/ 16 7/ 16
I Y/ X 111 I2 I3 14
541
2) Calcolare il coefficiente di correlazione Px,x 2.
Px,x 2 = O perché X 1 e X2 sono indipendenti

3) Calcolare il coefficiente di correlazione PxY·
X e Y non sono indipedenti perché, ad esempio,
fxy(2,4) = O =I=fx(2) · fy(4) = (1/16) · (2/16).
Inoltre: E[X] = / 6 (1 · 1 + 2 · 3 + 3 · 5 + 4 · 7) = = h~ 2;;
E[X 2 ] = / 6 (1 · 1 + 4 · 3 + 9 · 5 + 16 · 7) = \ 76 = 8 °
E[Y] = / 6 (1 · 7 + 2 · 5 + 3 · 3 + 4 · 1) = {~ = 5 ; 1
E[Y 2 ] = / 6 (1 · 7 + 4 · 5 + 9 · 3 + 16 · 1) = ~~ = 3;
E[XY] = / 6 = [(l · 1) · 1 + (2 · 1) · 2 + (2 · 2) · 1 + (3 · 1) · 2 + (3 · 2) · 2+
+(3 · 3) · 1 + (4 · 1) · 2 + (4 · 2) · 2 + (4 · 3) · 2 + (4 · 4) · l] = 1 ;i
- E[XY]- E[X]E[Y] -_ 100
cov [x,y l - 16
_ 25·15 _ 25.
64 - 64' Pxy -
_ cov[X,Y]_ 25/64
O'XO'Y - 55/64
_
-
25 _
55 -
2
11
Esercizio 0.1.8 o
Si fanno tre estrazioni con reimmissione da un'urna contenente palle rosse e palle nere.
Sia p la probabilità che, a un'estrazione, venga pescata una palla rossa. Sia X il numero
di palle rosse nelle prime due estrazioni e Y il numero di palle nere nella seconda e nella
terza estrazione.
1) Scrivere le determinazioni di X e Y.
X= O, 1,2; Y = o,1,2
2) Utilizzando come modello la tabelle seguente (e lasciando eventualmente vuote le righe
e le colonne in eccesso) scrivere la matrice di densità congiunta di X e Y:
fy (·) p2 2p(l - p) (1 - p)2

fx (·) X\Y o 1 2
(1 - p)2 o o p(l - p)2 (1 - p)'j
2p(l - p) 1 p'(l - p) p'(l - p) + p(l - p)" p(l - p)'
pz 2 pj pz(l - p) o
peso X y
p"(l - p) R R N 2 1
pj R R R 2 o
p'(l - p) R N R 1 1
pz(l - p) N R R 1 o
p(l - p)' N N R o 1
p(l - p)' N R N 1 1
p(l - p)2 R N N 1 2
(1 - p)'j N N N o 2
Controllo che I:x,yfx,Y(x,y) = 1. Infatti I:x,yfx,Y(x,y) = 3p2 (1-p)2+p 3 +(1-p) 3 =

(p+l-p) 3 =1
3) X e Y sono indipendenti (si/no/perché)?
No perché per esempio fx,Y(0,0) =/=fx(0)fy(0).
4) Calcolare E(Ylx = 1)
p/2 i= O
fYIX=1(i) = 1 ì; ~,i) = { 1/2 i= 1 ::::}E[YIX = l] = ½+ 1- p
(l-p)/2 i=2
542
Esercizio 0.1.9 o
Si definisce numero casuale R (compreso tra O e 1) un allineamento siffatto (nella sua
scrittura decimale): O.C1C2 ... Cn .. ., dove le Cj sono va indipendenti tra loro le cui
determinazioni sono i numeri interi O, 1, 2, ... , 9 ciascuno con peso 1 Risulta perciò: 1.
R _ Qi.. + TIµ
- 10 Co +
•••••••••••• + _Q,,._
lQn
+ ••••••• -_ '-'+oo
L..j=l 2J.._ '-'+oo A,J
lOJ - L..j=l
1) Calcolare E[R] (sapendo che E[ì:=;:;' Aj] = I:;:;'E[Aj]),
Osserviamo che VjE[Cj] = 4.5. Quindi
E[R] = E[ì:=;:;' =fo7]I:;:;'
161E[Cj] = 4.5 161 - 1) = 4.5(I:;~ 1) = 0.5 C-i/10-
Oss.: Si può verificare che R è distribuita come una va uniforme su [O,l].
2) Facoltativo: perché R non è distribuita normalmente in base al teorema centrale?
Perché R non è somma di va equidistribuite.
3) Siano ora R1 e R2 due numeri casuali indipendenti definiti ai numeri precedenti.
Calcolare la funzione di densità f(u) di R1 + R2 tracciandone il grafico.
JR,+R 2 (u) = J(u) = JR JR, (u - x)JR 2 (x)dx = JRJR, (x)JR 2 (u - x)dx =
= f01 I[o,1J(u-x)dx = (T)
Ora O :S x :S 1 e O :S u - x :S 1 ::::}O :S x :S u per O :S u :S 1 e u - l :S x :S 1 per 1 :S u :S 2.
Con questo (T) diventa:
(EB)= fcou
dxl[o,1](u) + ful-1 dx/[1,2](u) = { u per O :Su :S 1
2 - u per 1 :S u :S 2
f(u)
-----....
I
.---------
4) Calcolare la probabilità dell'evento

A= {la somma di R1 e R2 è compresa
tra 1/2 e 3/2}
P[A] = 1112
312
J(u)du = 1112udu + 11 (2 -
1 312 3
u)du = 4 .
5) Indicare sul piano cartesiano, dove le determinazioni di R1 sono in ascissa e quelle di
R2 in ordinata, la zona favorevole all'evento A del punto precedente.
R2
l2 nl R2 [TI]
R 1+R 2 =2
R 1 + R 2 = 312
"'
R1 + R 2 = 1/2 "
R 1 + R 2 = 112
R1 R1
1/2 l 312 1/2 2
6) Indicare sul piano cartesiano, dove le determinazioni di R 1 sono in ascissa e quelle di

R2 in ordinata, la zona favorevole all'evento ½:S R1 + R2 :S 2.
543
Esercizio 0.1.10 o
La merce ricevuta da un negoziante è composta da due differenti lotti. Tutti i pezzi

delle primo lotto soddisfano gli standard richiesti. Invece 1/4 dei pezzi del secondo lotto
non soddisfano gli standard. Il negoziante sceglie casualmente un pezzo dalla merce
consegnata.
1) Calcolare la probabilità dell'evento A ={il pezzo soddisfa gli standard}.
Detto H; ={il pezzo è stato scelto dal lotto i-esimo} si ha (per il teorema delle probabilità
totali): P(A) = P(A I H1)P(Hi) + P(A I H2)P(H2) = 1/2 · 1 + 1/2 · 3/4 = 7/8
2) Alla merce consegnata si aggiunge un terzo lotto dove il 10% dei pezzi non soddisfa
gli standard. Il negoziante estrae un pezzo che non soddisfa gli standard. Calcolare la
probabilità che venga dal terzo lotto.
Detto C ={il pezzo non soddisfa gli standard} dobbiamo calcolare:
P(H3 I C) = ;(CIH3)P(H3) = 1/3 {00+1{;~!1110) = 2/7 ~ 0.28
LiP(CIHi)P(Hi)
1
3) Come al punto 2) ma si vuole la probabilità che il pezzo venga dal primo lotto.
P[H1IC] =0
Esercizio 0.1.11 o
Il 60% dei passeggeri in arrivo all'aeroporto di Milano-Linate vola con aerei di una com-
pagnia aerea estera, il 30% con quelli di una compagnia aerea italiana, tutti gli altri con
aerei di piccole compagnie aere private. Di quelli che volano con aerei di compagnie estere
il 50% viaggia per lavoro, con aerei di compagnie italiane il 60% viaggia per lavoro, con
aerei di piccole compagnie private il 90% viaggia per lavoro. Si indichi con A1 l'evento
{passeggero che vola con aereo di compagnia estera}, A2 l'evento {passeggero che vola
con aereo di compagnia italiana}, A3 l'evento {passeggero che vola con aereo di piccola
compagnia privata}. Si scelga un passeggero a caso tra quelli in arrivo.
1) Calcolare la probabilità dell'evento B = {il passeggero scelto viaggia per lavoro}
= 0.5 · 0.6 + 0.6 · 0.3 + 0.1 · 0.9 = 0.57

2) la probabilità dell'evento C = {il passeggero scelto viaggia per lavoro volando con un
aereo privato}
C = BA3::::} P[C] = P[BA3] = P[B I A3]P[A3] = 0.9 · 0.1 = 0.09

3) la probabilità dell'evento D = {il passeggero scelto ha volato con un aereo privato
sapendo che viaggia per lavoro}
P[A3B] 1 1
P[D] = P[A3 I B] = P[B] = P[B] P[B I A3]P[A3] = 0.570.9 · 0.1 = 0.157
4) la probabilità dell'evento E= {il passeggero scelto viaggia per lavoro sapendo che ha
volato con un aereo di una compagnia italiana}
P[E] = P[B I A2] = 0.6

544
Esercizio 0.1.12 o
Siano dati due eventi A e B compatibili . Si considerino ora
C = (A-B) D = (A- B) U (B - A)
1) Tracciare il diagramma di Venn di C, D, E e dare l'interpretazione probabilistica di

ognuno di questi eventi.
C=A-B D=(A-B)u(B-A)
si virifica A ma non B si virifica A o B ma non entrambi si virifica B oppmenon si verifica A
2) Esprimere P[C], P[D], P[E] in termini di P[A], P[B] e P[AB]

P[C] = P[A] - P[AB];
P[D] = P[A] + P[B] - 2P[AB];
P[E] = 1 - P[A] + P[AB]
Esercizio 0.1.13 o
Un'azienda vende due diverse varietà di bulbi, tipo R tipo G. Da un bulbo R si sviluppa
un singolo fiore rosso mentre da quello G un fiore giallo. I bulbi sono stati suddivisi in 3
scatole , [!J , (J[] e [QJ . Ognuna di queste scatole contiene un egual numero di bulbi
R e G. Un commesso preleva un bulbo dalla scatola [!J, uno dalla (J[] e uno dalla
[QJ , nell'ordine e vende i 3 bulbi prelevati alla signora Anna.
Sia X la va che conta il numero dei fiori rossi che nasceranno alla signora Anna dai
primi 2 bulbi e Y la va che conta il numero dei fiori rossi che le nascono da tutti e 3 i
bulbi.
1) Determinare la probabilità congiunta Pij = P[X = i, Y = j] e le marginali Px (i), py (j).
X\Y o 1 2 3 Px (i )
o 1/8 1/8 o o 1/4
1 o 1/ 4 1/ 4 o 1/ 2
2 o o 1/8 1/8 1/ 4
py(j) 1/8 3/8 3/8 1/8 1
2) Che distribuzione seguono X e Y?

545
X,.__,B(2; 1/2)
Y ,.__,
B(3; 1/2)
3) Calcolare il coefficiente di correlazione di X e Y.

2 3 2 3
E[X] = i~ ipx(i) = l; E[Y] = j~o jpy(j) = 3/2; E[XY] = Ioj~o ijpx(i)py(j) = 2
2
var[X] = I: (i - 1)2px(i) = 1/2;
i=O
E[XY] - E[X]E[Y] ~
var[Y] =
j=O
I:3 (j - 1) 2py(j) = 3/4; Px y =
'
---=====:::::;---
Jvar[X]var[Y]
= l
4) Scrivere le equazioni delle rette di regressione di Y su X e di X su Y, e tracciarne un
grafico sommario.
Retta di regressione di Y su X:
Uy 3
Y- E[Y] = Px y-
' ux
[X - E[Xl] = Y- - = X -1
2
e di X su Y (grafico in figura):
X - E[X] = Px y-ux [Y - E[Yl]

' Uy
=X - 1= - 23 (Y - -23)
(1,3l2)=(E[X], E[Y])
-1/2
X
5) Scrivere le coordinate del punto di intersezione delle due rette.

L'intersezione ha per coordinate i due valori medi di X e Y, cioè
(E[X], E[Y]) = (1,;)

Esercizio 0.1.14 o
Si considerino due va X e Y con legge di probabilità congiunta data dalla tabella:
Y\X o 1 2 3
o 1/ 60 2/ 60 3/ 60 4/ 60
1 4/ 60 6/ 60 8/ 60 2/ 60
2 9/ 60 12/ 60 3/ 60 6/ 60
546
Calcolare: P[X < 2Y]; P[X > l]; P[X = Y].
IP[Xo:lYJ = 2/31 I P[X>l) = 13/301 IP[X=YJ = 116I

y o 2 y o 2
X X
o o
2 2
3 3
Figura 0-1:
In ciascun caso si sommano le probabilità contenute nelle caselle tratteggiate.
Esercizio 0.1.15 o
Una moneta ha due facce: {T} e {C}. Supponiamo che sia p ={probabilità che esca T
in ogni singolo lancio} e che la moneta venga lanciata n volte.
1) Calcolare la probabilità dei seguenti eventi: A ={le facce uscite non sono tutte uguali}
e B ={ esce T al più una volta}.
Ac ={escono tutte facce uguali}={escono tutte T}V{escono tutte C}
P[Ac] = pn + qn; (q = 1- p); P[A] = 1- P[N] = 1- (pn + qn)
B ={ escono tutte C}V{ esce esattamente una Te (n - l)C};
P[B] = qn + npqn- l perché T può uscire al primo, al secondo, all'ennesimo lancio.
2) Determinare in caso di moneta bilanciata (p = 1/2) l'unico valore di n in corrispon-
denza del quale A e B sono indipendenti.
AB ={escono esattamente una Te (n - l)C}; P[AB] = npqn-l
A e B sono stocasticamente indipendenti {::}P[AB] = P[A] · P[B] (T).
P[A] = 1 - }n;P[B] = n2;; 1 ; P[AB] = 2~; da cui per soddisfare la condizione (T) si ha:
(1 - 2~) . n2;;1 = ~ {::}n + l = 2n- l {::} n = 3
Esercizio 0.1.16 o
Data una variabile aleatoria assolutamente continua, non negativa X, si definisce "tasso
di fallimento" la funzione
. P[t ::; X < t + siX ~ t]

hx (t ) = hm ---'-------'-------=-, t > o.
,-o+ s
Interpretando X come il tempo di vita di un componente, il tasso di fallimento rappre-
senta la probabilità istantanea di sopravvivenza del componente, sapendo che questo è
vissuto fino al tempo t.
1 Dimostrare che vale la seguente relazione:
h (t) _ fx(t)
x - 1- Fx(t)'
dove fx (t) e Fx (t) indicano, rispettivamente, la funzione densità e la funzione di ripar-

tizione della variabile aleatoria X.
547
Risulta:
P[t ::; X < t + .slX ~ t] P[t ::; X < t + .s] Fx(t+.s)-Fx(t) 1

€ .sP[X ~ t] .s 1- Fx(t)
da cui, passando al limite per .s che tende a O, si ottiene quanto affermato.

2 Si prenda X con legge esponenziale di parametro À. Calcolare hx (t).
Se X rv Àe--' 1I[o,+oo)(t), allora
hx(t) = fx(t) = Àe--'t = À.

1- Fx(t) e--'t
3 Si prenda Y con legge Weibull di parametri a e À, vale a dire
Calcolare Fy(t) e hy(t).

Se Y rv Weibull (a, À), si ha:
Da ciò segue che:
hy(t) = fy(t)
1 - Fy(t)
4 Discutere il significato dei risultati ottenuti nei punti 2 e 3 e il loro legame.

Nel caso dell'esponenziale, il tasso di fallimento è costante (assenza di memoria), nel caso
della Weibull, se À > l il tasso di fallimento è crescente (usura), viceversa se À < l è
decrescente (rodaggio). I risultati coincidono se À = l.
Esercizio 0.1.17 o
Si consideri il vettore gaussiano (X, Y)T di media (O, O)T con distribuzione congiunta
f X,Y (X , y) =-e-1 l( 2
2 2x -2v2xy+3y
In 2
)
47f •
Si ricordi che, per i vettori gaussiani, la funzione di densità in forma vettoriale è data da
1 Posto c- 1 = [ ; ~ ] , trovare c- 1 .
Determiniamo a, b e c.
(x, y) [ ; ~ ] ( ; ) = (ax + by; bx + cy) ( ; ) = ax 2 + 2bxy + cy 2 .
Da questo segue che a = 2, b = -v'2, e= 3
2 Determinare C.
v'2
-1 -1 1
C = (C ) = det(C- 1 )
[ e
-b
-b
a
3
v'2 2 ] [ 3/4
v2/4
v2/4 ]
1/2
548
3 Siano Zi rv N(O; 1), i = 1, 2 le componenti indipendenti del vettore gaussiano Z =
(Z 1 , Z 2 )T. Scrivere, utilizzando la notazione vettoriale, la funzione di densità fz(z) di Z.
2~
1
fz(z) =-e-c!z lT
/z dove I= [l
O
Q]
1
È noto che se si sottopone un vettore gaussiano Z a una trasformazione lineare X =
HZ + b il vettore che si ottiene è ancora gaussiano X rv N(b; Cx) con matrice di
covarianza Cx = H HT e media b. Se esiste l'inversa di H si può ottenere l'inversa di
X = HZ + b cioè Z = H- 1 (X - b) che trasforma X in Z rv N (O;I). Tale trasformazione
viene detta standardizzazione di X.
4 Trovare la matrice H di tipo triangolare alto (H = [ ~ ~ ] ) tale che H HT = Cx
[ ~ ~ ] [ ; ~ ] = [ ;~ +~
2
~i ] = [ ~/ 4 ~4 ] da cui
"r2= 1/2 ::::}ì = ±v2/2
~ì = ±~v2/2 = v2/4::::} ~ = ±1/2
0:2 + ~2 = o:2 + 1/4 = 3/4::::} o:= ±v2/2
Quindi una matrice H può essere: [ f21 2 1/2

v2/2
]
Esercizio 0.1.18 o
Sia Y - [ ~] con legge normale N(O, Cy) e
Cy = [ ~-1
o
o ~
1 -1 l.
Definiamo il vettore X= [ 1~] ponendo
1) Calcolare la legge di X indicando la matrice di covarianza Cx

Risulta X= AY + b, dove
1
A= [ -21
1
Pertanto X ha legge normale con valore atteso µx =b e matrice di covarianza Cx
ACyAT = [ ~9 -9 ]
16
Infatti:
o
][ l l
2 -1 -1 2 -1 2
l[ !, l [
-1 1 1 -3 1
2 1 -1
o 1 o 1 1
5 1
1 1
A
-1 o 3 1 -1 1 -1
Cy AT
549
2) È noto che se X rv N(µ; Cx) esiste una matrice H tale che Cx = H HT = H 2 e
X = HZ + µ dove Z è il vettore gaussiano standard. Trovare la matrice H di tipo
triangolare alto (H = [ ~ ~ ] ) tale che H HT = Cx
[ ~ ~ ] [ ; ] ~ [ ;~ + ~
2
~i ] = [ ~ 9 ~: ] da cui
"r2= 16 ::::}
'Y = ±4
9
~'Y = ±M = -9::::} ~ = T4
81 v47
l
2
o:2 + ~ = o:2 + - = 8::::}o:=±--
16 4[ ov47447 9
Quindi una matrice H può essere: 4
4
~i
::::fil::::::,:·.d:ll:rr
4) Scrivere la trasformazione che porta X nel vettore gaussiano standard Z.
~ j{[i;]-[~']}
z-w'(X-µ)-~[:
Esercizio 0.1.19 o
Siano Z1, Z2 e Z3 tre va N(O; 1), indipendenti. e siano:

X 1 = Z1 - Z2 + Z3 + 1
X2 = -Z2 - Z3 - 1
X3 = Z3 + 2
1. Calcolare il vettore delle medie µ di X =
(X1, X2, X3)T e la matrice di covarianza
Cx
[~:l [~ ~:
l [! l o
2
-1
-11
1
µ- l
b- [ ~I
2. Scrivere la densità di X.
X,.__,N(µ;Cx)
3. X1 e X2 sono indipendenti? E X2 e X3? E X1, X2 e X3?
X1 e X2 sono indipendenti perché cov[X1, X2] = cov[X2, X1] = O ed essendo gaussiane
l'incorrelazione è sufficiente per l'indipendenza.
X2 e X3 sono dipendenti perché cov[X2, X3] = cov[X3, X2] = -1 quindi correlate
Se X 1, X2 e X3 fossero indipendenti allora Cx= I, matrice identica cosa che non è.
550
Esercizio 0.1.20 o
Siano (X, Y) le coordinate di un punto scelto a caso all'interno del cerchio di raggio 1 e
centrato nell'origine (vedi figura).
------- ~ -a----r---...;; -~ -------
------- ~ -:c-._ ...... _,,, _ ~ ------~

-1
Allora al vettore (X, Y)' è associata la distribuzione uniforme su questo cerchio.

1) Indicare la funzione di densità continua di tale distribuzione.
1
fxy(x,y) = ;;J1x2+y291(x,y)
2) Trovare le densità marginali fx(x) e fy(y).
fx(x) = J+oo
_ 00 fxy(x,y)dy =
J
v'l-x 2
l 2
-;çdy= ;~I1-1,11(x)
-~
Per simmetria:
3) Mostrare che X e Y non sono indipendenti.

4
fx (x) · fy(y) = 7r 2 v'f"=x2~I{[-l,l]x [-1,I]}(x, y)
1
fxy(x,y) = ;I1x2+y291(x,y)
fx(x) · fy(y)-/- fxy(x,y) quindi X e Y non sono indipendenti.
Esercizio 0.1.21 o
Due centralini, tra di loro indipendenti, ricevono nell'unita di tempo un numero di

telefonate Y e Z aventi legge di Poisson rispettivamente di parametri À = 2 eµ= 3.
1) Scrivere le funzioni di probabilita marginali e congiunta.
551
Le due va sono entrambe poissoniane dunque avremo:
2Y 3z
P [Y = y] = e- 2 -eP [Z = z] = e- 3 -.
y! z!
Poiché Y e Z sono indipendenti, la probabilita congiunta sara:
2Y 3z
P[Y = y,Z = z] = e- 5 --
y! z!
2) Calcolare covarianza e media congiunta di Y e Z
Poiché Y e Z sono indipendenti avremo che:
cov [Y, Z] = O e E[YZ] = E[Y]E[Z] = 2 · 3 = 6.

3) Sia ora X= Y + Z. Determinare la legge di X
Poiché la somma di poissoniane indipendenti é ancora una poissoniana avente come
parametro la somma dei singoli parametri, avremo che X rv P (5).
4) Qual é la probabilita che nell'unita di tempo i due centralini ricevano insieme non pili
di 3 telefonate?
3
P [X < 3] = ~ e- 5 -5k = e- 5 ( 1 + 5 + -25 + -125)
- L, k! 2 6
k=O
5) Scrivere la probabilita condizionata P [Y = ylX = x] di Y dato X= x.
Innanzi tutto osserviamo che, essendo Z =x - Y:
P [Y = y IX = x] = P [Y = y IY+ Z = x] = P [Y = y IZ = x - y]
Inoltre, usando la definizione di probabilita condizionata e sfruttando l'indipendenza di
Y e Z possiamo scrivere:
p [Y = YIX = x] = P [Y = y, Z = x - y] = P [Y = y] · P [Z = x - y]
P[X=x] P[X=x]
Sostituendo le formule ricavate prima otteniamo, infine:
-2 2" -3 3x-y
x! 2Y · 3x-y
P [Y = YIX = x] = _e_y_!_e---,-.,..(x_-_Y)_!
e-(5)~ y! (x - y)! 5Y · 5x-y
x!
6) Si tratta di una legge notevole?
Si. É una legge binomiale B (n, p) di parametri n = x ep= f
7) Calcolare la funzione g ( x) di regressione di Y su X
Abbiamo appena visto che YIX = x segue legge binomiale. Dunque g (x) = E [YIX = x] =
p· n= ¾x
8) Calcolare il coefficiente di correlazione tra X e Y.
o-xy = cov[X, Y] = cov[Y + Z, Y] = cov[Y, Y] + cov[Z, Y] = var[Y] = a-i

Dunque:
o-xy
Pxy = -- = --
o-y
= -
a-i
v2
= -
o-xo-y o-xo-y o-x v5
552
Esercizio 0.1.22 o
Sia T la durata di un sistema costituito da più componenti (eventualmente anche uno

solo). In generale T è una variabile aleatoria "mista" che si comporta come una va
continua per t > O ma che ha probabiltà che il sistema si rompa appena parte P[T =
O] = Po =/.O. Nella maggior parte delle prove di test cui viene sottoposto un sistema
viene però ritenuto che P[T = O] = O e anche noi nel prosieguo, ci atterremo a questa
ipotesi. Sia allora f (t) la funzione di densità (fd) di Te F(t) = f(t)dt la sua funzione Ji
di ripartizione (fdr). La funzione di affidabilità (reliability function) R(t) del sistema è
definita come R(t) = P[T > t] = 1 - P[T::; t] = 1 - F(t).
Supponiamo ora che un sistema S sia costituito da 3 transistor, 12 diodi, 8 condensatori
e 15 resistenze. Tutte queste componenti funzionano indipendentemente l'una dall'altra.
Nelle usuali condizioni di funzionamento a causa della temperatura, degli urti e degli
sbalzi di tensione la durata di ciascuna componente è codificata da una va. Siano T;, {i=
1, ... , 3} le va che codificano la durata dei transistor, D;, {i = 1, ... , 12} quelle che
codificano la durata dei diodi, C;, {i = 1, ... , 8} quelle che codificano la durata dei
condensatori, R;, { i = 1, ... , 15} quelle che codificano la durata delle resistenze. Per
ciascuna di queste variabili la distribuzione esponenziale rappresenta un buon modello
della durata.
Supponiamo che tali variabili siano identificate dai seguenti valori.:
vita media in minuti

transistor 1.3 · 10
diodi 1.7-10 7
condensatori 1.2 · 107
resistenze 6.1-10 8
1) Scrivere la fd e la fdr di D; per un generico i e disegnarne con precisione il grafico.

Nelle ipotesi fatte, per ogni i, la funzione di densità di Di è quella di una va esponenziale
1 1 X
di media A = 1.7 · 107 (min), cioè fvi(x) = 1. 7 . 107 e-l.7107 /(o,+oo)(x) e Fvi(x) =
X
P[Di::; x] = (1- e-1.7107 )I(o,+oo)(x)
l. = 10°"11 7
funzione di densità
D.5
E[X] = Ji;l.=1 .7·10' =170 000000 E[X] =li?,= 1.7·10"= 170000000
2) :Mostrare che la probabilità che un diodo duri più di 10 anni (anni tutti di 365 giorni)
è 0.734051.
Un anno è costituito da 365 · 24 · 60 = 525600 = 5.256 x 105 minuti. La probabilità
cercata è
553
5.256x 10 6 5.256
P[Di > 5.256 x 106] = 1 - Fvi (5.256 x 106) = e- 1.1107 = e 11 = e- 0-30918 =
0.734051
3) Scrivere l'evento: {tutti i 12 diodi durano più di 10 anni}.
{D1 > 5256000} n {D2 > 5256000} n ... {D12 > 5256000}
4) Calcolare la probabilità di tale evento.
Per l'indipendenza si ha
= P[{D1 > 5256000} n {D2 > 5256000} n ... {D12 > 5256000}] =
= P[D1 > 5256000] · P[D2 > 5256000] · ... · P[D12 > 5256000] =
= 0.734051 12 = 0.024475.
r
5) Giustificare che la probabilità che la vita di tutti e 3 i transistor superi t (minuti) è
uguale a [e- 1./1os 1
P[{T1 > t} n ... n {T3 > t}] = P[T1 > t] · ... · P[T3 > t]
1
Per ogni i è P[Ti > t] = e- 1.3-108 t. Per l'indipedendenza segue l'asserto.
6) Indichiamo con T la va che codifica la durata dell'intero sistema S. Il sistema funziona
se e solo se tutte le sue componenti funzionano. Scrivere, in termini delle durate delle
singole componenti, l'evento {T > t}, cioè l'evento {la durata del sistema supera t}.
{T > t} = {T1 > t} n ... n {T3 > t} n {D1 > t} n ... n {D12 > t}n
n{C 1 > t} n ... n {C8 > t} n {R 1 > t} n ... n {R 15 > t}
7) Calcolare l'affidabilità R(t) del sistema, cioè la probabilità di {T > t} (può essere
utile il valore 1} 108 t 1./io 7 + 1} 107 + 6 _11~08 = 1.4202 x 10- 6 ).
8) Calcolare la vita media E[T] del sistema in anni.

Poiché R(t) = e-1. 42 o2 x 10 - 61 la distribuzione
1.4202 x 10- 6 . La sua vita media E[T] è perciò E[T] =

0 1
± = l.~~:
di T è esponenziale di parametro
2 = 704130 (minuti)
À =
60 ~ 2~ ~~65 (anni)= 1.3397 (anni).

9) Preferireste comperare un sistema siffatto nuovo o uno usato che ha lavorato per h
ore? Perché?
(Suggerimento: decidere in base al risultato del calcolo di P[T > t + h I T > hl)
P[T h IT h] = P[T > t + h] = 1- Fr(t + h) = e--'(t+h) = -Àt = P[T ]

>t+ > P[T > h] 1 - Fr(h) e--'h e >t
(mancanza di memoria della esponenziale).
Poiché P[T > t + h I T > h] = P[T > t] è indifferente acquistare un sistema nuovo o uno
usato.
Esercizio 0.1.23 o
Si consideri un processo di Poisson di intensità À nell'intervallo di tempo unitario.

554
1) Sia X 1 = N(o,t) numero degli arrivi nell'intervallo (O,t). Cosa vale P[Xt = k]
2) Sia T1 il tempo in cui si è verificato il primo arrivo del processo.Ricordando l'ugua-

glianza tra gli eventi {X 1 = O} e {T1 ~ t} (e quindi P[Xt = O]= P[T 1 ~ t] ) mostrare
che vale la relazione P[T1 < t] = P[Xt ~ l].
P[T1 < t] = 1- P[T1 > t] = 1- P[Xt =O]= P[Xt ~ l]

3) La relazione del punto precedente ci permette di concluedere che se u < t allora
{T1 < u} = {Xu ~ l}. Scrivere allora in termini di Xu e X 1 l'evento {T1 < u}n{X 1 = l}.
{T1 < u} n {X 1 = l} = {Xu ~ l} n {X 1 = l}
4) Xu conta gli arrivi in (O, u). Sia Xt-u la va di Poisson che conta gli arrivi in (u, t)
di ampiezza t - u. Considerando la figura se X 1 = l e Xu ~ l quanti devono essere gli
arrivi in (O,u) e in (u,t)? E di conseguenza cosa devono valere Xu e Xt-u?
u t-u
o t
l'arrivo
u
Numero di arrivi in (O, u) = 1

Numero di arrivi in (u, t) =O
Xu = l
Xt-u = O.
5) Da quanto detto {Xu ~ l} n {Xt = l} coincide con {Xu = l} n {Xt-u =O}. Con-
siderando che arrivi di Poisson in intervalli disgiunti sono indipendenti mostrare che
P[{T1 < u} n {X 1 = l}] = P[{Xu ~ l} n {X 1 = l}] = Àue-:-.t_
P[{T1 < u} n {X 1 = l}] = P[{Xu = l} n {Xt-u = O}]= P[{Xu = l}]P[{Xt-u = O}] =
Àue-Aue-A(t-u) = Àue-At
6) Utilizzando la definizione di probabilità condizionata scrivere la formula che da P[T 1 <
ulXt = l].
P[T < ulX = l] = P[{T 1 < u} n {X 1 = l}]

1 t P[Xt = l]
7) Calcolare P[T1 < ulXt = l]

P[T IX = ] = P[{T1 < u} n {Xt = l}] = P[{Xu = l} n {Xt-u = O}] = ~
i<u t 1 P[X1=l] Àte-At t'
8) Non servono conti per calcolare la probabilità che il tempo del primo arrivo T1 sia
maggiore o uguale di t oppure sia minore uguale di O sapendo che il primo arrivo è
avvenuto nell'intervallo (O,t). Cosa valgono allora P[T1 ~ tlXt = l] e P[T1 < OIXt = l]?
P[T1 ~ tlXt = l] = O
P[T1 < OIXt = l] = 0
555
9) Da quanto detto concludiamo che P[T 1 < ulX 1 = l] = TI(o, 1/u), dove al solito
I(o,t) ( u) è la funzione indicatrice dell'intervallo (O, t), rappresenta la fdr della va T1 IX1 =
1 tempo del primo arrivo di un processo di Poisson di intensità À nell'intervallo unitario,
a numero di arrivi pari a 1 nell'intervallo (O, t). Riconoscete questa fdr come quella di
una distribuzione nota?
È la fdr della distribuzione continua uniforme nell'intervallo (O, t).
Esercizio 0.1.24 o
Consideriamo il seguente esempio (da L.W.Mays, Y.K.'I\mg; Hydrosystems Enginee-

ring and Management; McGraw-Hill;l992).
La massima portata annua Q di un fiume ha distribuzione normale con media µq =
110m 3 /s e una deviazione standard aq = 74m 3 /s.
1) Qual è la probabilità che, nell'arco dell'anno, la portata massima superi 183m 3 / s?
Detta z = N(O; 1) si ha:
P[Q > 183] = 1-P[Q ~ 4llO ::; 183 ; llO] = 1- P[Z::; 0.98649] '.::::'. 1-0.8381 = 0.1619.
Oss.: per il calcolo della fdr in punti non previsti dalla tavola come (0.98649)= P[Z::;
0.98649] si consideri che dalla tavola sappiamo che:
P[Z ::; 0.98] = 0.8365; P[Z::; 0.99] = 0.838 ma il valore P[Z ::; 0.98649] non è riportato.
Se non si ha un computer si può procedere così (vedi figura):
N(O;I)
0.98 0.99
0.9864-9
L'area a sinistra di 0.98649 è pari a P[Z ::; 0.98] sommata all'area della figura (segnata
in grigio nel particolare ingrandito) che sta sotto il grafico della fd della N (O; 1) tra 0.98
e 0.98649.
Tale area è approssimativamente pari all'area del trapezio rettangolo di altezza 0.00649 =
1 0.98 2 1 0.98649 2
(0.98649 - 0.98) e basi rispettivamente r,ce- 2 = 0.24681 e r,ce- 2 =
v2K v2K
0.24524.
. 0.24681 + 0.24524
Con le regole della geometria elementare tale area è data da: 0.00649· 2
0.001596.
Con questa approssimazione P[Z::; 0.98649] = P[Z ::; 0.98] + 0.001596 = 0.8381.
Se avessimo fatto i conti col computer avremmo avuto P[Z ::; 0.98649] = 0.83805. La
differenza, pari a 0.8381 - 0.83805 = 0.00005, è inferiore a 10- 4 , uno scarto che, nella
maggior parte dei casi, si può certamente trascurare.
2) Il tempo di ritorno T( qx) relativo a un limite fissato qx per una grandezza aleatoria
Q, rappresenta l'intervallo di tempo x che mediamente intercorre tra il verificarsi di due
556
successivi eventi { Q > Qx }. Se l'unità di misura del tempo è l'anno si dice che, per
esempio, una portata Q10ha 10 anni di tempo di ritorno se l'evento {Q > Q10}si verifica
mediamente ogni 10 anni, cioè se Q supera q10 mediamente ogni 10 anni. Ne consegue
1
che P[Q > q10] = 10 .
Quindi T(q10) = P[Q Qiol" ~

Alla luce di questa definizione calcolare la portata annua Q100con un tempo di ritorno
di 100 anni.
Sappiamo che P[Q > Q100]= l~O. Allora:
P[Q::; Q100]= 1 - P[Q > Q100]= 0.99.
P[Q < ] = P[Z < Q100- µq] = P[Z < Q100- 110] = 0.99.
- Q100 - aq - 74
QIOO - 110
Dalle tavole si ha che lo 0.99 - quantile della N(0; 1) è 2.33. Quindi 74
2.33; Q100= 2.33 · 74 + 110 = 282.42.
La portata di ritorno di 100 anni è dunque di 282.42m 3 / s.
Distribuzione lognormale
Ricordiamo che, se Y = ln Q rv N(µ; a 2) allora Q è lognormale e valgono le seguenti
formule:
2
1 1 [ lnx-µ ]
Q rv Jq(x) = ~ exp(-- -- )I[o,+oo)(x).
xav21r 2 a
(O)
1 a~
µlnQ = lnµq - -2 ln(l + - -2)
{ µQ
2
2 aq
alnQ = ln(l + 2 )
µQ
Cosa succede se nell'esempio di prima la va Q è lognormale? Come si fa cioè in questo
caso a trovare Q100tale che P[Q > Q100]= i6o? Semplice, ci si riconduce a un caso
normale partendo da ln Q che è normale. Si ha a Q = 2±_;quindi
µq 110
7~ 1 1
afnQ = ln(l + 1102 ) = 0.37333 e µlnQ = lnµq - 2afnQ = ln 110- 20.37333 = 4.5138.
P[Q > 183] = P[lnQ > lnl83] = P[lnQ-µlnQ > [lnl 33 -µlnQ] = P[N(O;l) >
a1nQ a1nQ
5 · 2095 - 4 ·5138 ] = 1 - P[N(0; 1) < 1.1386] = 1 - cI>(l.1386) '.::::'. 1 - cI>(l.14) = 1 - 0.8729
yO.37333 -
Il valore esatto sarebbe 4>(1.1386) = 0.872565.
Per quanto riguarda il calcolo di Q100si ha
P[Q > Q100]= 0.01 da cui P[Q::; Q100]= 0.99.
ln(q100) - 4.5138
P[Q::; q100] = P[lnQ::; ln(q100)] = P[N(0; 1)::; yO_37333 ] = 0.99.
ln(Q100) - 4.5138
Dalle tavole: -~;:;::::::=====:::::::::;:-- = 2.33 quindi:
yO.37333
ln(q100) = 2.33 · vO.37333 + 4.5138; Q100= exp(2.33 · vO.37333 + 4.5138) = 378.97.
557
Esercizio 0.1.25 o
Una sorgente di informazioni genera i simboli casuali e:?,<),-", •. con probabilità: Pr(C?) =
1/2, Pr(<)) = 1/4, Pr(-") = Pr(•) = 1/8. Uno schema di codifica trasforma i simboli in
codici binari nel modo seguente:
e:?f----+ o
<>f----+ 10
-" f----+ 11O
• f----+ 111.
Sia X = "numero di bit del codice" .

1) Calcolare la legge di probabilità di X.
X assume solo tre valori: {l, 2, 3}. Si ha:
1
P[X = l] = P(C?) = 2
1
P[X=2]=P(<))= 4
1 1 1
P[X = 3] = P(-" oppure.)= P(-") + P(•) = 8+ 8= 4
P[X = k] = O sex ,f. {l, 2, 3}.
2) Calcolare la funzione di ripartizione Fx(x).

Q X< l
{ P[X = l] = .! 1::; x < 2
F (x) - P[X < x] - 2
x - - - pl [X= l] + P[X = 2] = ¾ 2::; x < 3
X~ 3.
3) Calcolare P[X::; l]; P[X > l] e P[l::; X::; 2]
P[X::; l] = Fx(l) = 1/2; P[X > l] = 1- Fx(l) = 1/2
P[l::; X::; 2] = Fx(2) - Fx(l) + P[X = l] = 3/4-1/2 + 1/2 = 3/4.
Esercizio 0.1.26 o
La direzione di un fastfood è interessata al comportamento congiunto di due va X 1 che

denota il tempo che intercorre tra l'ingresso di un cliente e il momento in cui è servito
e X2 che indica il tempo speso in coda in attesa di arrivare al banco dove sarà servito.
Ovviamente X1 ~ X2. La densità congiunta può essere modellata da:
con il tempo misurato in minuti.

1 Trovare P[X1 < 2, X2 > l]
558
x,
~--------~- - x,
2
P[X1 < 2,X2 > l] = J12 dxi Jt' e-x 1 dx2 = J12 e-x 1 (x1 - l)dx1 =
= -e-x 1 (x1 -1)- e-x'li = -e-x 1 x1li = -2e- 2 + e- 1
2 Trovare P[X1 ~ 2X2]
,~' ,
x,
,f---~~---------x,
-1
P[X1 - X2::; l] = P[X1 - 1::; X2] = f01 dxi J; e-x

1 + Jt'xi dxi J:,'_ 1 e-x dx2
1 dx2 1 =
f
= 01 x1e-x 1 dx1 + Jt'xi e-x 1 dx1 = (-x1e-x 1 - e-x, )I~+ (-e-x' )lt'° = 1- e- 1
4 X1 e X2 sono indipendenti?
Calcoliamo le marginali:
fx 1 (x1) = Jllf.f(x1,x2)dx2 = J; cx1 1dx2 = x1e-x'l10,+oo)(x1)
fx 2 (x2) = Jllf.J(x1, x2)dx1 = fx: 00
e-x 1 dx1 = -e-x' l;t200 = e-x21[0,+oo)(x2)
Quindi non sono indipendenti.
Per quanto detto all'inizio la va X1 - X2 rappresenta il tempo che un cliente spende,
una volta arrivato al banco, in attesa di essere servito.
559
5 Posto U = X1 - X2 sia Fu(u) = P[U ::; u] = P[X1 - X2 ::; u] la sua funzione di
ripartizone. Mostrare che Fu(u) = (1- e-u)I[o,+oo)(u). (Suggerimento: si consideri che
la regione x1 - x2 ::; u che si interseca con il supporto di J(x1, x2) è quella segnata più
scura in figura).
Cominciamo a osservare che se u < O la retta X1 - X2 = u non interseca il supporto di

f(x1,x2) per cui Fu(u) = O se u < O.
Questo detto è:
Fu(u) = JJ J(x1,x2)dx1dx2 = JJ J(x1,x2)dx1dx2 f0udx1Jte-x 1dx2 +
x1-x2:Su x1-u:Sx2
J U+oodxl fxXl 1-U e-x 1dX2 = J(fOu X1e-x 1dX1 + J+oo

U
Ue-x 1dX1 =
= (-x1e-x1 - e-xi)I; + u. (-e-xil!oo) = 1- e-u.
6 Trovare la funzione di densità fu(u) di U.
d
fu(u) = duFu(u) = e-ul[o,+oo)(u).
7 Riconoscete la va U?
Sì è una va exponenziale di parametro 1.
8 Trovare media e varianza di X1 - X2.
Poiché X1 - X2 è una esponenziale di parametro 1 la media è 1 e la varianza è 1.
9 È molto probabile che un cliente scelto a caso aspetti al banco più di 4 minuti prima
di essere servito?
P[U ?: 4] = e- 4 = 0.0183 quindi non è molto probabile.
Esercizio 0.1.27 o
Una città è collegata a una centrale elettrica da un sistema formato da due linee, tra di
loro indipendenti. Il tempo di funzionamento della prima linea sia Y, va esponenziale
misurata in migliaia di ore (i.e. Y = 1 significa che la prima linea si è guastata per la
prima volta dopo mille ore) di media pari a diecimila ore, mentre quello della seconda sia
una va Z esponenziale, anch'essa in migliaia di ore, di media pari a duemilacinquecento
ore (Y e Z rappresentano rispettivamente l'intervallo di tempo fino al primo guasto
della prima e della seconda linea). L'assunzione del modello esponenziale per i tempi
di funzionamento è giustificato dal fatto che le linee non sono soggette a significativi
deterioramenti e un guasto può verificarsi solo per cause accidentali, fulmini, meteoriti,
attentati, frane, ecceterea).
1) Scrivere le funzioni di densità marginalidi probabilita e la funzione congiunta del
vettore (Y, Z)'.
Y è una va esponenziale di parametro À = 0.1 (E[Y] = ½= 10 mila ore) dunque avremo:
fy(y) = O.le- 0 · 1Y 110,+oo)(Y)
dove al solito IA è la funzione indicatrice dell'insieme A della
retta reale.
560
Analogo discorso per Z: quindi fz(z) = O.4e- 0·4z I1o,+oo)(z).
Poiché Y e Z sono indipendenti, la funzione di densità congiunta sani:
fyz(Y, z) = o.1e- 0 · 1Y0.4e- 0 ·4 z l{y?_O,z?_O}(Y,

z)
2) Calcolare covarianza e media congiunta di Y e Z
Poiché Y e Z sono indipendenti avremo che: cov [Y, Z] = O e E[Y Z] E[Y]E[Z]

10- 2, 5 = 25.
3) Calcolare la probabilità che la linea 1 si guasti dopo la linea 2.
Si tratta di calcolare P[Y 2".Z]. Per quanto trovato in 1 si ha:
+oo+oo
P[Y 2°'.Z] = f f O.le- 0·1YO.4e-o.4zdydz =
o z
+oo
= J O.4e-0.4zdz +oo
J O.le-0.lydy = +oo
J O.4e-0.4zdz [-e-0.lyL +oo =
o z o
= 0.4 +Joo O5
e- · zdz = -0.4 [-e- O5 ]
· z
+oo = -4
O
o 0.5 5
4) Supponiamo che la città sia collegata alla centrale elettrica con le due linee in serie
come in figura.
li11ea I li11ea 2
Sia X = min[Y, Z] il tempo di durata del sistema. Ricordando che X > x se e solo se
contemporaneamente Y > x e Z > x calcolare la probabilità che il non arrivi corrente
alla città per almeno diecimila ore.
Si tratta di calcolare P[min[Y, Z] > 10] = P[{Y > 10} n {Z > 10}] = P[Y > lO]P[Z >
10] = e->-ioe-µIO = e-0.5·10 = e-5 = 6.7379 x 10-3
5) Calcolare la funzione g (z) di regressione di Y su Z
Per l'indipendenza g(z) = E[Y] = ½= 10
Esercizio 0.1.28 o
Siano X, Y due variabili aleatorie con densità continua congiunta
¼(x + 2y) se O< x < 2, O< y < l,

J(x,y) ={
o altrimenti.
1 Trovare la marginale fy (y) di Y.

Per O < y < l risulta
561
Per y _::;O e per y 2".1 risulta Jy(y) = O.
2 Calcolare la densità di X condizionata a Y = y.
Per O < y < l, O < x < 2,
f(x,y) 1 X+ 2y
fx1Y(x,y) = Jy(y) = 2 1 + 2y.
3 Calcolare il valore atteso di X condizionato a Y = y.
Per O< y < l,
E(XIY = y) = j(X)x fx1Y(x,y) dx=~ - 1- f 2 x(x + 2y) dx

_(X) 2 1 + 2y } 0
=~ _1_ ( ~ + 4 ) = ~ 4 + 6y
2 1 + 2y 3 y 3 1 + 2y .
4 Supponendo di aver osservato la variabile Y e di averne rilevato un valore pari a 1/2,

fornire la stima ottima di X (nel senso dei minimi quadrati).
La stima ottima è data da E(XIY = 1/2). Ponendo y = 1/2 nella formula precedente si
ottiene il valore 7/6.
Esercizio 0.1.29 o
.
P ren d iamo i·1 processo co i1egato a i1a rappresentazione
. b'mana. .,,
f:
= L+(X)
b; =
. ---,, -b1 + -b2 +
i=l 2' 2 4
b; + ... , b; = O, l di un numero reale casuale ç con distribuzione uniforme tra O e 1 (vedi
esempio 15.1.2 del testo e CD). Il processo a tempo discreto collegato è Xn(() = bn,
1) Calcolare la probabilità che all'istante 1 il processo si trovi nell stato O., cioè P[Xo(ç) =
O]
1
Perchè ciò accada deve essere b1 = O, cioè O_::;
ç < 2. Si conclude che P[Xo(ç) = O]=
1 1
P[0::; ç < 2] = 2
2) calcolare la probabilità che il processo si trovi nello stato O all'istante 1 e nello stato
1 all'istante 2.
Dobbiamo calcolare P[X1(ç) =O/\ X2(ç) = l]. Perché si verifichi l'evento X1(ç) =
0/\X2(ç) = 1 deve essere b1 = O e b2 = 1, cioè~_::; ç <~-Perciò P[X1(ç) = 0/\X2(ç) =
1 1 1
l] = P[4 _::;ç < 2] = 4
3) Si fissi ora una stringa di k elementi fatta di O e 1. Pensiamo che gli elementi delle
stringa siano b1, b2, ... , bk. (ovviamente b; = O; l). Calcolare la probabilità che il processo
si trovi nello stato b1 al tempo 1, b2 al tempo 2, ... , h al tempo k.
.
F issare b1, b2, ... , bk sigm
. 'fi ca imporre
. f: 1
a .,, a seguente 1·imitazione:
. . .._.k-l
L..i=l
b; < f:
<
2i _ .,,
.._.k b; · ' l' d'i x a un mterva

. 11o d'i ampiezza
. l P 1 d' 'b .
L..i=l 2i, c10e appartenenza 2k . er a istn uz10ne
1
uniforme di ç tale probabilità è perciò pari a 2k .
Ricordiamo che, come si evince dalla definizione di media, varianza e correlazione del
moto browniano, per un processo X 1 (a tempo discreto o continuo) definiamo me-
dia l'espressione: m(t) = E[X 1], var[Xt] = E[Xl] - m 2(t); cov[X 1 , X,] = E[{X 1 -
m(t)}{Xs - m(s)}] = E[X 1Xs] - m(t)m(s). Ovviamente nel caso discreto E[X 1X,] =
Ì: Ì: xyfx,x, (x, y) mentre nel caso continuo E[XtXs] =
x,y
J~:J~:
xyfx,Xs (x, y)dxdy
562
Esercizio 0.1.30 o
Sia g(t) la funzione impulso rettangolare definito come in A) della figura.
g(t) g(t- T)
1 1
o A)
1 t o T B) T+1 t
Sia X 1 = g(t - T) dove Tè la va uniformemente distribuita tra (O, 1).

1) Calcolare la fdr di X 1
X 1 = O set - T < O cioè t < Te t > T + l (vedi B) della figura sopra).
Segue che X 1 = g(t-T) = 1 se T < t < T+l. Questo evento è equivalente a t-1 < T < t.
Quindi P[X 1 = l] = P[t - 1 < T < t].
Poiché O < T < l possiamo distinguere due casi.
1.1) O< t < l. Allora t - l < Tè l'evento certo
P[Xt = l] = P[T < t] = t = l - P[X 1 = O]
1.2) 1 < t < 2. Allora T < t è l'evento certo
P[X 1 = l] = P[t - 1 < T] = 1 - (t - 1) = 2 - t = l - P[X 1 = O].
Nella figura seguente i grafici di P[Xt = l] e P[Xt = O]al variare di t nell'intervallo
(O,2).
O 1
2) trovare la media E[Xt] del processo.

2
~
t
'K:/o 1 2
~
t
E[Xt] = l · P[Xt = l] +O· P[Xt =O]= P[Xt = l]

Esercizio 0.1.31 o
Supponiamo che a un call center il numero di telefonate in arrivo seguano il modello di

Poisson con un numero medio di arrivi pari a 15 al minuto. Calcolare la probabilità che
in un intervallo lungo un minuto arrivino 3 chiamate nei primi 10 secondi e 2 durante gli
ultimi 15 secondi.
Cominciamo a ricordare che il processo di Poisson è a incrementi indipendenti e stazionari.
Perciò la probabilità che il processo di intensità À nell'unità di tempo si trovi nello stato
i al tempo s e j al tempo t (s < t) è data da:
P[Ns = i I\ N 1 = j] = P[N, = i I\ N 1 - Ns = j - i] =
,-----""-----
(incrementi indipendenti)
P[Ns = i]P[N(t-s) = j - i] =
e-Às (>-s)ie-À(t-s) (>-(t- s))j-i

i! (j-i)!
(incrementi stazionari)
563
Occorre poi riscrivere l'intensitàdel processo per la nuova unità di misura: se il numero
medio di arrivi per minuto è 15 il numero medio di arrivi per secondo è: À = 15 =
60 4
!.
La probabilità cercata è espressa da:
1 (110) 3 1 (1(60- 45)) 2
P[N =3/\ll -N =2]=e-410_4 __ e-4(60-45)_4=-----
10 60 45 3! 2!
Esercizio 0.1.32 o
Consideriamo un processo X 1 che assume solo i valori ±1. Supponiamo che Xo = ±1 con
probabilità ~- e che X 1 cambi polarità a ogni arrivo di un processo di Poisson. Un tale
processo può modellare un segnale telegrafico che cambia polarità in modo casuale.
In figura un evento elementare
1 1 1 1
_, -] -]
1) calcolare la fdr di questo processo

La fdr di questo processo è data da: P[Xt = ±1] = P[X 1 = ±llXo = -l]P[Xo =
-1] + P[Xt = ±llXo = l]P[Xo = l].
Si osservi ora che X 1 avrà la stessa polarità di Xo quando si sono osservati un numero
pari di arrivi mentre avrà polarità opposta se il numero di arrivi è stato dispari. Quindi:
. +oo e-Àt(>.t)2j 1
P[X 1 = ±llXo = ±1] = P[N 1 =numero pan] = I: . 1 = e-Àt_{eÀt + e-Àt} =
j=O (2J). 2
1
-{l + e-2Àt}
2
E anche:
+oo e-Àt(>.t)2Hl
P[Xt = ±llXo = =fl] P[Nt =numero dispari]
j~O (2j + l)!
1
e-Àt} = -{l - e-2Àt}
2
Si ricordi che
e°'+ e-a +oo a2j e""- e-°' +oo 0:2j+l

cosha = 2 = L(
;=0
2j)! sinh 0: = 2 = I:
;=0
(2j + 1)1
Concludiamo che:
11 11 1
P[Xt = l] = --{l + e-2Àt} + --{1- e-2Àt} = -
22 22 2
1
P[Xt = -1] = 1- P[Xt = l] = 2
cioè il segnale telegrafico ha la stessa probabiltà di trovarsi sia nella polarità positiva che
negativa in ogni istante t.
2) Calcolare media m(t) = E[Xt] e varianza var[X 1] del processo.
564
m(t) = E[Xt] = 1P[X 1 = l] + (-l)P[X 1 = -1] = O
var[Xt] = E[X;] - E 2[Xt] = (1) 2P[X 1 = l] + (-1) 2P[Xt = -1] = 1
3) Calcoliamo ora la cov[X 1, X.] di questo processo 1 :
cov[X 1 , X.] = E[X 1Xs] - E[Xt]E[X.]
O _ { 1 se X 1 = Xs cioè se c'è un numero pari di cambio di polarità tra t e s
ra X1X, - -1 se X t I.../..
X s cioè
. se c ' è un numero d"1span. d"1 cam b"10 d"1 po 1antà
. tra t e s .
1
Perciò: cov[Xt, X.]= E[XtXs] = lP[Xt =X,]+ (-l)P[Xt =/=X,]= 2{1 + e- 2.xlt-sl} -
~{1- e-2.Xlt-sl} = e-2.Xlt-sl.

Questo risultato ci dice che le X 1 e Xs sono tanto meno correlate quanto più grande è
l'intervallo di tempo tra t e s.
Esercizio 0.1.33 o
L'esempio 16.1.3 del testo riguarda un segnale sinusoidale Ao cos(21r_!_ + <fi

0 );-oo <t<
To
oo trasmesso da un'antenna all'interno di un certo sistema di telecomunicazioni.dove le
quantità Ao, To e <fiopossono essere va. Nell'esempio abbiamo preso To = 1, che <Po = O
A 0 = ç, numero casuale tra [-1, l] (i cammini del processo sono quelli indicati nella
figura 16.3 del testo).
Questo processo è a incrementi stazionari?
Se la risposta fosse sì media, varianza del processo dovrebbero essere indipendenti dal
tempo t mentre la covarianza dovrebbe dipendere solo dal generico incremento del tempo
t- s.
Innanzitutto è X 1 (ç) = ç cos(21rt). Quindi E[X 1] = cos(21rt)E[ç] = O perché ç è uniforme
1
tra [-1, l] e, analogamente, var[Xt] = var[ç] = 3.
Vediamo
1Suggerimento: Per fare qualche esercizio sul calcolo della matrice di covarianza di un processo
diamo la seguente definizione.
Def.: Un processo a tempo discreto o tempo continuo si dice stazionario se per tutte le scelte
ti,t2,,,.,tk,-r,k si ha:
Fxt1 ,Xt2 , .. ,,Xtk (x1' x2, ... 'xk) = Fxt1 +T ,Xt2+T,···,Xtk+T (x1' x2, ... 'Xk)
Teoremino 1: Se un processo è stazionario allora:
Vt,-r: Fx,(x) = Fx,+ 7 (x) = Fx(x)

o l'equivalente per le densità:
Vt,-r: fx,(x) = fxt+ 7 (x) = fx(x)

e media e varianza del processo sono indipendenti dal tempo:
/1-x, = E[Xt] = µ var[Xt] = E[(Xt - µ,)2 ] = ,,-2

Teo remino 2:
Vti,t2: Fx, 1 ,x, 2 (xi,x2) = Fx 0 ,x, 2 _, 1 (xi,x2)

o l'equivalente per le densità
'citi, t2 : fx, 1 ,x, 2 (xi, x2) = fx 0 ,x,r , 1 (xi, x2)

(basta prendere -r = -ti). Questa relazione implica che, per i processi stazionari (continui)
cov[Xt,Xs] = I+=
-=1+= -= xyfx,x,(x,y)dxdy- m2 = 1+=
1+=
-= -= xyfx 0 x,_ 8 (x,y)dxdy- m2
cioè cov[Xt, Xs] deve dipendere solo da t - s. Vale un risultato analogo per i processi discreti.
565
cov[Xt, X,] = E[ç2(21rt)(21rs)] = (21rt)(21rs)E[ç2] = (21rt)(21rs) var[ç] = ( 21rt);21rs)
La covarianza non dipende perciò da t - s quindi il processo Xt non è stazionario.
0.2 Statistica
Esercizio 0.2.1 o
La durata di certi tubi elettronici è una variabile aleatoria T ,....,r(2; a), a > O la cui
funzione di ripartizione Fr(t) = [l - e-at (1 + at)]/10,+oo) (t)
1) Trovare la densità fr(t) della distribuzione di T.
Derivando Fr(t)si ha:
2) Trovare la densità fx(t) della distribuzione di X= 2aT

X ~ O; P[X ,::; x] = P[T ,::; 2:J; fx(x) = 2~h( 2'"c,_) = ~~ 2'"c,_e-½x
110,+oo)(x) =
fe-½x 110,+oo)(x)
Questa è la densità di una X~ (una chi-quadro con 4 gradi di libertà o, che è lo stesso,
una r(2, ½))
3) Preferireste comperare un tubo elettronico nuovo o uno usato per h ore? Perché?
(Suggerimento: decidere in base al risultato del calcolo di P[T > t + h I T > h]
P[T > t + h I T > h] = P T>t+h = l-Fr t+h) = e-a(H h )(l+a(t+h)) =
T>h
P l-Fr h) e-"'h(l+ah) e
-o,t (l +
l+ah
_&_)
P[T > t] = 1- Fr(t) = e-°'t(l + at).
Poiché P[T > t + h I T > h] < P[T > t] è preferibile un tubo nuovo a uno usato.
La quantità
h(t)
r(t) = 1-
F T (t ) , t > O
è detta "failure rate" e Tè detta IFR (increasing failure rate) se la funzione t f--+ r(t)
è crescente, e DFR (decreasing failure rate) se la stessa funzione è decrescente.
4) Calcolare r(t) e stabilire se Tè DFR oppure IFR.
t a2te-at a2t d a2
r(t) - ---1.r..!Jl_- ---- - -- · -r(t) - ----,,- >O===}Tè IFR.
- l-Fr(t) - e-°'t(l + at) - 1 + at ' dt - (1 + at) 2
5) Calcolare E[T] e var[T].
Poiché T rv r(2, a) segue immediatamente che E[T] = ¾;var[T] = ~
Allo stesso risultato si può arrivare calcolandosi direttamente E[T] e var[T], utilizzando
la funzione di densità della r(2, a)
6) Determinare, con il metodo dei momenti, uno stimatore per a.
Da a = E[T] si ricava che lo stimatore cercato è dato da jn dove T n, è il momento
campionario del primo ordine (e anche la media campionaria ottenuta dalla popolazione
T).
566
7) Detta T n la media campionaria ottenuta da un campione casuale (T1, T2, , Tn)
di dimensione molto grande estratto dalla popolazione T, determinare un intervallo di
confidenza asintotico di livello 1 = 95% per a.
D etta S2 la varianza
. . . essen d o 1·1 campione
camp10nana, . d.1 d.1mens10ne
. gran d e, T nS/fo
- E[T]
è asintoticamente una N(O,l). Si ha perciò che P[I T~

1J.Jtl
I~ k] = 1per k= <J?-1(1t1').
<J?-1(1+1') < Tn-¾ < <J?-1(1+1') ===} 2 < < 2
- -2- - S/fo - -2- Tn+ );,S<t>- 1 (.975) - a - Tn- );,S<t>- 1 (.975)
Anche ~ e ~ sono asintoticamente N(0, 1) e da ciascuna delle due si può

2 2/(na ) r;,/(2n)
partire per la costruzione dell'intervallo.
Esercizio 0.2.2 o
Si supponga di avere un'urna contenente biglie bianche e rosse in una certa proporzione.
Una va X codifica con 11 111 l'estrazione dall'urna di una biglia rossa e con "O" quella di
una bianca. Sia p = P[X = l], O< p < l.
1) Scrivere la legge di probabilità f(x,p) di X.
X è una va di Bernulli di media p, quindi; p = P[X = l]; 1- p = P[X = O]; e la legge di
probabilità di X è data da:
J(x,p) = P[X = x] = px(l- p) 1 -x;x = {O, l}.
A queste biglie è collegato un gioco a premi che consiste nell'estrazione di una biglia
dall'urna: chi partecipa vince se estrae una biglia rossa. Dopo ogni estrazione la biglia
viene reimmessa nell'urna e le biglie rimescolate.
2) Sia s quello che un giocatore punta per ricevere Sin caso di vincita e G = S · X - s il
guadagno del giocatore. A cosa dovrà essere uguale p perché il gioco sia equo (E[G] = O)?
E[G] = I:~=o G(i)fx (i)= -s(l - p) + (S - s)p = Sp- s =O=} p = j.
Gastone Paperone partecipa a questo gioco e perde molti soldi contrariamente al suo
solito. Sospetta perciò che il gioco non sia equo e si propone di fare una verifica utilizzando
un campione (Xi, X2, ... , Xn) di n estrazioni di biglie.
3) Aiutate Gastone determinando per lui lo stimatore P di massima verosimiglianza della
probabilità p che un biglia estratta sia rossa.
La funzione di verosimiglianza è L(p, X1, X2, ... , Xn) = pL Xi (l - p )n- L Xi. Questa ha gli
stessi estremanti di ln(L(p, x1, x2, ... , Xn)) = I: Xi lnp + (n - I: Xi) ln(l - p)
..Z..ln(L(p· X1 X2 ... X )) =O{::} L Xi = (n- L Xi) {=} p = L Xi {=} p = L Xi = X
8p ' ' ' ' n p l-p n n n
4) Definite anche uno stimatore per la varianza della popolazione
Poiché X n è uno stimatore MLE di p, per il principio di invarianza X n (l - X n) è uno
stimatore MLE di p(l - p) = var[X].
Gastone osserva che in 1000 giocate viene estratta una biglia rossa 360 volte.
5) Utilizzando le proprietà asintotiche degli stimatori di massima verosimiglianza per
valutare la distribuzione di P e prendendo come stima p di p il valore che si ricava dalle
osservazioni di Gastone, trovare un intervallo (asintotico) di confidenza a due code di
livello 1 = 95% per p (può essere utile ricordare che <J?-1(0.975) = 1, 96).
Per le proprietà asintotiche degli stimatori MLE ~
P(l-P)
tende a distribuirsi come una
n
N(0, 1). Si ha: O,95 = P[I.P - pi <a]~ P[IN(O, 1)1< aJ P(l'::._P)] =} a P~~~~) =
= <J?-1(0.975) = 1,96::::} a= V \~~o =
0,36(1-0,36)
0,0298.
L'intervallo cercato è perciò: (O, 36 ± O, 0298)
567
Ora Gastone vuol rimettersi a giocare sotto la convinzione che p = 36%. Ma prima vuole
saggiare ancora l'ipotesi H 0 : p = 36% contro H 1 : p =f.36%.
6) utilizzando il risultato dedotto al punto 5) dire se Ho viene rifiutata o meno al livello
5% nel caso che Gastone osservi che una biglia rossa è stata estratta 200 volte in altre
1000 giocate.
L'intervallo trovato al punto 5) costituisce la regione di accettazione. In questo secondo
caso esce un'osservazione di p pari a O,2. Tale valore cade al di fuori dell'intervallo in
questione. Perciò rifiuto l'ipotesi Ho.
Supponiamo ora che, detta ancora p la probabilità di estrarre una biglia rossa, il banco
offra un premio di 2s a chi punta s per partecipare. Gastone decide di starci cominciando
a fare una puntata di importo pari a 1, raddoppiandolo poi ogni volta. Smetterà di
giocare alla prima vittoria (cioè la prima volta che estrae una biglia rossa) ma se non
dovesse vincere mai si fermerà in ogni caso alla 5a giocata.
Indicando con la lettera R l'evento "estrazione di una biglia rossa" e con B l'evento
"estrazione di una biglia bianca" decrivere nella tabella tutti gli eventi che possono
capitare a Gastone, le puntate s che fa via via a ogni giocata, le eventuali vincite S
della singola giocata, i relativi guadagni che, se alla giocata i-esima, (i > 1) c'è una
vittoria, sono G = 2i - I::=o?
7) Scrivere G completando correttamente la formula sostituendo i numeri giusti ai punti
di domanda nel caso di vittoria alla i-esima giocata.
G = 2i - I:~--::12k = 2i - ( 1 + 2 + 22 + .. + 2i- l)
8) Scrivere la tabella
I giocata I evento probabi lità I s IS IG

1 R p 1 2 1
2 BR p(l - p) 2 4 1
BBR p(l - p)' 4 8 1
BBBR p(l - p)6 8 16 1
5 BBBBR p(l - p)4 16 32 1
5 BBBBB (1 - p )b 16 o - (1+2 + 4+8 + 16) = 1-2b
9) Ovviamente G è una variabile aleatoria che su ciascuno degli eventi della 2a colon-
na assume le determinazioni della 6a colonna con le relative probabilità. Calcolare il
guadagno medio di Gastone cioè E[G]
Posto 1 - p = q abbiamo
E[G] = p + lpq + lpq 2 + lpq 3 + lpq 4 + (1 - 25 )q 5 = 1- (2q) 5
Si osservi che E[G] < O, cioè una perdita, tutte le volte che p < ½ (gioco favorevole al
banco).
10) Detto Gn il guadagno se le giocate fossero n, che espressione avrebbe E[Gn]?
E[Gn] = P + lpq + ... + lpqn-l + (1- 2n)qn = 1- (2q)n
11) Mostrare che

\is>O lim P[ll-Gnl<s]=l
n-+oo
cioè Gn converge in probabilità a 1 per n ----+ +oo
Da quanto visto con n giocate Gn prende i valore 1 e l-2n con probabilità date da
568
P[Gn = l] = P[l - Gn =O]= p + lpq + ... + lpqn-l = 1- qn;
P[Gn = 1- 2n] = P[l - Gn = 2n] = qn
Da ciò si conclude che per n--+ +oo P[ll - Gnl < s] = 1- qn--+ 1 (o, analogamente, per
P[ll - Gnl > s] = qn--+ O).
Esercizio 0.2.3 o
Sia X; una va esponenziale di densità fx(x;>..) = fe-x/[o,+oo](x). Ai fini della de-

terminazione di >..si dispone di un campione (X1, .. , Xn) di ampiezza n, estratto da
fx(x;>..).
1) Determinare lo stimatore di massima verosimiglianza >-nper >...
L(>..;x1,x2, ... xn) = fx 1 (x1;>..) · ... · fxn(Xn,>..) = >\e-½I:xifq(x1,x2, ... xn)
dove Iq = 1 {::}Vi X; 2".O.
lnL = -nln>..- ½ì:=x;; d~ lnL = -~ + -},rÌ:Xi =O;½[½ Ì:X;-n] = O;>.n= Xn.
Motivando le risposte dire se:
2) >-nè corretto;
E.x[>-n]= E.x[Xn] = ¾Ì: E.x[X;] = À::::} >-nè corretto
3) >-nè efficiente.
d
( d.Xln 1 - ~
f x (X; À)) 2 = :x'7 2X + -;:,r
X 2
; E .x [( d
d.Xln f x ( X; À)) 2] =
E.x[-},r]- frE.x[X] + i,E.x[X 2] = fr - fz+ i,{var[X] + E~[X]} = fr = /(>..).
Confine inferiore: nit.X) = ~ = var[Xn] ::::}>-nè efficiente.
4) Dire qual è la distribuzione asintotica di >-n-
Poiche >-nè MLE >-n= Xn ~ N(>..,nA.x)) = N(>..,~ ). Ma anche per il teorema centrale
limite Xn ~ N(>..,~).
5) Motivare se >-nè consistente (ci sono alcuni modi per vederlo)
i) Xn è 1ILE quindi è consistente oppure ii) per la condizione sufficiente in quanto Xn
è asintoticamente corretto (infatti è corretto) e var[Xn] = ~ --+ O per n--+ +oo.
6) Si vuole ora fare un test dell'ipotesi Ho : >..= 1/2 contro l'alternativa Ha : >..= 1 con
un livello di significatività a= 0.05(= 1- 1 ).
Determinare esplicitamente la regione critica di Neymann-Pearson per un campione di
numerosità 100. Nei conti utilizzare la distribuzione asintotica di I:~00 X; che, per il
punto precedente 4) è ...
Detto >..= Ào l'ipotesi nulla e >..= Àa quella alternativa, per il lemma di Neyman-Pearson
1 1 . ln(cn(?-))
laregionecriticaèdatada: ..l.e-A°;Lxi
_xn
> c...Le-roI:x,
- _xn
da cui ...-,x,
L.
>
i - ( 1
0
1 )
a o -'O - -';:
k;
P[.._-,X-> k I H] = P[Ì:Xi-nÀo > k-nÀo] ~ P[N(0 l) > k-n.X0 ] = 0 _05 ::::}k-nÀo
L. ' - O .Xofo .Xofo ' - .Xofo .Xofo
1.645::::}
=} k = >..ofo[(l.645) + vn] ~ 58.25
7) Supponiamo ora di non fissare la dimensione n del campione. In questo caso la
n
regione critica sarà ovviamente I: X; 2".k (con k costante dipendente da n). Detta (3 la
1
probabilità di errore di II specie, determinare la numerosità minima del campione affinché
sia (3 ~ 10%.
(3 = P[.._-,x < k I H] < O.l·P[Ì:Xi-nÀa < k-nÀ•] < 0.1· k-nÀg = -1.282
L. ' a - ' Àafo Àafo - ' Àafo
569
k-n>-o = 1.645
>-ofo
da cui il sistema: {
da cui n(Àa - Ào) = (1.645 + l.282)y'n
k-nÀg
Àay'n
= -1.282
che nel nostro caso dà n = 34.27. Quindi n = 35.
Esercizio 0.2.4 o
Sia X; il numero di meteoriti che collidono con un satellite durante l'orbita i-esima. Le
X; siano indipendenti ed equidistribuite come delle va di Poisson di parametro À.
1) Detto I:N il numero totale di collisioni in N orbite, scrivere l'espressione della densità
discreta di I:N.
À X
X·,...., e->-_. X= 0,1,2, ..
' X.I'
2) Calcolare E [I: N] e var [I: N].
3) Se N è sufficientemente grande scrivere la densità che approssima adeguatamente

quella di I:N, citando il teorema che autorizza l'approssimazione.
I:N ~ N(N À, N À) per il teorema centrale limite.
4) Utilizzando questa densità se il numero medio di collisioni per orbita è À = 250

calcolare la probabilità che in 160 orbite il numero totale di collisioni sia minore o uguale
a 39900 (cioè I:N ~ 39900).
Utilizzando le tavole in fondo al testo si ha:
P(I:N ~ 39900) = P(EN;ig 000 ~ 3990 ~-;;i

0000 ) ~ P(Z ~ -0.5) = 0.3085
5) Sapendo che in 160 orbite le collisioni sono state 44000, fornire la stima puntuale di
massima verosimiglianza per À.
Lo stimatore di massima verosimiglianza è la media campionaria XN = iI:N; si ha:
X-160
44000
= 160 =275
6) Enunciare le proprietà principali degli stimatori di massima verosimiglianza.
i) correttezza asintotica; ii) consistenza; iii) vale principio di invarianza; iv) se 0N (X 1, ., XN)
è uno stimatore MLE, per 0Nvale il teorema di distribuzione asintotica normale.
.
7) Spiegare pere h é per una va d'1 p 01sson,
. per N gran d e, XN
~ - À h a d'1stn'b uz10ne
.
yXN/N
asintotica N(O, 1).
var[XN] = ÀjN =} XN/N è uno stimatore 1ILE di var[XN], Quindi per un corollario
del teorema citato al punto iv) del numero 6) segue l'asserto.
8) Dal Centro Spaziale da cui i tecnici seguono i satelliti in orbita viene fissato un livello
di confidenza 1 = 0.95 per la stima intervallare di À. Utilizzando la quantità pivotale del
punto precedente, scrivere:
8.a) l'intervallo di confidenza /"I al 1001 % con limite inferiore per À
P(~ ~a)= ì::::} a= <J?-1 (ì)::::} XN - <J?-1 (ì)vXN/N ~ À, da cui
I"/= (XN - <J?-1 (ì)vXN /N, +oo) = (272.84, +oo)
8. b) l'intervallo di confidenza al 1001 % con limite superiore (unilaterale sinistro) per À
570
P(~ 2".a)= 'Y::::}a= -- 1 ('Y)::::},\ ~ f(N + -1 ('Y)vXN/N,da cui
I"/= (-oo, f(N + -1 ('Y)vXN /N) = (-oo, 277.15)

8.c) un intervallo di confidenza al 1001 % bilatero per,\
P(I ~I ~ a) = 'Y::::} a= -1 (1~"1)::::} XN - -1 (1~'Y)VXN/N ~ ,\ < f(N +
-1 (!:p))XN/N
1"1= (xN- -1 e~'Y)vxN /N,xN+ -1 e~'Y)vxN IN)= (272.43, 211.57)
Oss.: utilizzare la parte di tavole riportata in fondo al testo.
Qui XN = 275, N = 160, -1 ('Y) = 1.645, -1 (1.:p) = 1.96, 1 = 0.95
9) I tecnici del centro affermano che, durante ogni orbita, le collisioni sono in media non
meno di 290 (cioè,\ 2".290). Sempre sulla base dei dati del punto 5 dire se si deve credere
loro qualora si accetti una probabilità di errore del I tipo a= (1- 1 ) = 0.05, specificando
Ho e Ha.
Ho={,\ 2".290} e Ha= {,\ < 290}
Regola di decisione: se 290 E (-oo, f(N + -1 ('Y)v f(N /N) accetto Ho altrimenti accetto
Ha.
290~ (-oo, 275+ 1.645-1.31) =
(-oo, 277.159) quindi rifiuto Ho con probabilità di errore
del primo tipo a= 0.05. Hanno perciò torto i tecnici.
10) Qual è il valore di a oltre il quale viene rifiutata l'affermazione dei tecnici del Centro
Spaziale?
Poichè 1 = 1 - a segue che se a è tale che 275 + -1 (1 - a)l.31 2".290 accettiamo
l'affermazione fatta dai tecnici. Ciò implicherebbe -1 (1-a) 2".11.45; 1-a 2".(ll.45) ~
1::::} a~ O
11) Accettereste l'affermazione dei tecnici del Centro?
Evidentemente no.
Esercizio 0.2.5 o
L'errore di un altimetro per aereoplani è dato da una X,...., N(0, 152 ), di media O metri e
varianza 225 metri. Quanti altimetri devono allora essere montati su un aereo per avere
confidenza al 99% che l'errore medio degli altimetri sia minore o uguale a 30 metri?
Sia Xi la va errore dell'altimetro i-esimo. Allora
P[I Xn I~ 30] = P[{5~~/ ~ 2vn] = 2(2vn)- l = 0.99::::} n = 2

Esercizio 0.2.6 o
Nelle 6 prove di volo di un aereo le velocità massime registrate sono riportate in tabella:
1 422.2 1 418.1 1 420.3 1 425.8 1 425.6 1 423.1 1
Supponendo che la velocità massima sia una va X,...., N(µ, a 2 ); µ e a ignoti,

1) scrivere gli stimatori corretti perµ e a
Stimatore corretto perµ è Xn : E[Xn] = µ
Stimatore corretto per a 2 è S 2 = n~l I:~=l (Xi - Xn)2; E[S 2 ] = a 2
2) ricordando le proprietà degli stimatori corretti calcolare E,9[(W-19)2] errore quadratico
medio di W rispetto a 19quando W è lo stimatore corretto di µ e 19= µ e quando W è
lo stimatore corretto di a 2 e 19= a 2 ;
MSExn = Eµ[(Xn - µ)2] = var[Xn] = a 2 /n.
571
M8E 82 = Eo-2[(82 - o-2)2] = var[8 2] = (n::)_ ;var[x~- 1] = 2(n - 1). Infatti ~8 2=
2 52 - o-2 2
Xn-1::::} - n-1Xn-I·
3) utilizzando quanto calcolato al punto 2) dire, motivando, se gli stimatori corretti di
µ e a-2 sono anche consistenti;
Per la condizione sufficiente poichè Xn e 8 2sono corretti e poichè
var[Xn] = o-2/n--+ O e var[8 2] = ~:: --+ O se n--+ +oo; Xn e 8 2 sono consistenti.
Si tenga ora conto del fatto che, nel nostro caso, X6 = 422.62 e 8 2 = 8.03
4) trovare un intervallo di confidenza con limite inferiore per µ al 95%;
; 1/4 = t 5 ::::} P[;;/4 _::;a]= P[µ 2'.:X6 - F6) = P[t 5 <a]= 0.95. Segue che a= 2.01
e µ 2'.:420.29 al 95%.
5) verificare l'ipotesi Ho : µ _::;420 (contro l'alternativa Ha : µ > 420) con livello di
significatività 1 - 1 = 0.05;
Ho : µ ,::;420 = µ 0
{ Dal 4) segue che la regione critica è X6 > µ 0 + a J6'
con
Ha: µ > 420
a= 2.01.
Poichè X6 = 422.61, 8 2 = 8.03 cade nella regione critica; di conseguenza rifiuto Ho.
6) Trovare un intervallo di confidenza con limite superiore per a 2al 95%;
5~ = xg::::} P[5~ 2'.:a]= P[a- 2 ::; 5~] = P[xg2'.:a]::::} a= 1.15 e a-2 ::; 34.91 al 95%.
7) Verificare l'ipotesi Ho : o-2 2'.:30 (contro l'alternativa Ha : o-2 < 30) con livello di
significatività 1 - 1 = 0.05;
Ho : o-2 2'.:30 = 0-5
{ Dal punto 6) segue che la regione critica è 8 2 < '\ 30 con
Ha : o-2 < 30 = o-5
a= 1.15. 8 2 = 08.03 > 6.9::::} accettiamo Ho.
Esercizio 0.2.7 o
Siano X 1, X2, ... , Xn osservazioni indipendenti da una popolazione X che ha distribu-

zione uniforme sull'intervallo [-ve', VO]con 0 parametro incognito.
1) Calcolare lo stimatore 0*di 0 col metodo dei momenti utilizzando il fatto che, prati-
camente, la varianza della popolazione o-2 = ¼I:~(X; - X) 2 .
Ricordando che il momento campionario di ordine k è Mk = ¼I: 1Xf nel nostro caso si
ha
v 12 -- ln L..
~2 -- (2Vti'J2 '-"' nx2 _,__
1 i -,, .o• - 31 '-"'n x2 - 3M
u - n L..1 i - 2
2) Verificare che 0* è corretto.
E[iJ*] = ¾Ì: 1(X;) = 3E[X 2] = 2 1 f~x 2 dx = iJ
3) Verificare che 0* è consistente.
var[iJ*] = ~ var[ì:= 1X;] = ~ var[X 2] --+ O per n--+ +oo quindi per il criterio sufficiente
iJ* è consistente; infatti VE> 0P[liJ* - iJI 2'.:E] ::; ,-½var[iJ*] --+ O per n--+ +oo
Esercizio 0.2.8 o
Sia X1, X2, .. , Xn, ... una successione di va indipendenti e identicamente distribuite con
la stessa funzione di distribuzione F(x).
1) Fissato n esprimere la funzione di distribuzione Gn(Y) di Yn = max{X1,X2, .. ,Xn}
in termini di F(x).
P[X; _::;x] = F(x), i= 1, 2, .. , n. Per l'indipendenza delle Y; segue che Gn(Y) = P[Yn _::;
y] = P[X1 _::;y,X2 _::;Y, .. , ,Xn _::;y] = P[X1 _::;y]·P[X2 _::;y]· .. . ·P[Xn _::;y] = {F(y)}n.
572
2) Sia F(x) la distribuzione uniforme sull'intervallo O_::;x _::;1.
2.a) Scrivere l'espressione esplicita di F(x)
1 per x > l
F(x) ={ x per O_::;x < l
O per x < O
2.b) Scrivere l'espressione esplicita di Gn(Y)
1 per y 2".1
Gn (y) = { yn per O _::;y < l
O per y < O
2.c) Verificare che Yn !:.+l cioè che Yn converge in probabilità a 1.
Per definizione deve essere VE> O P[IYn - li _::;s] ---+ 1 per n---+ oo quindi
Vs> O P[IYn - li_::; s] = P[l - s _::;Yn _::;1 + s] = Gn(l + s) - Gn(l - s) =
= { ~_ (1 _ 6)n ::: ~ ! ~ < 1 } ---+ 1 per n ---+ +oo
Esercizio 0.2.9 o
Da una popolazione normale di media incognita iJ e varianza a 2 = 400 si estrae un cam-

pione casuale di 25 elementi per verificare l'ipotesi nulla Ho : iJ = 100 contro l'alternativa
Ha: iJ = llO.
1) Calcolare gli errori di I e II tipo, a e (3, se si decide di rifiutare H 0 quando la media
del campione supera il valore 103 (e quindi se la regione critica è ... )
Se indichiamo con x =
(x1, x2, ... , x25) E R.25 la Re del test è C = {X: X25 2".103} con
- 1 25
X25 = 25 I:i=l X;.
a= P[x E CIHo] = P[X25 2".103IHo] = P[~ 2".~] 2".P[N(0, 1) 2".0.75] =
= 1- <J?(O.75)= 1- 0.7734 = 22.66
(3 = prx E cclH] = P[X2 5 < 103IH] = P[X 25 -llO < 103- 110] > P[N(0 1) < -1.75] =
~ a a y400/25 y400/25 - '
= 1- <J?(l.75)= 1- 0.96 = 4
2) Calcolare la regione critica nel caso si voglia a= (3.
C =fa: X25 2°'.a} con a determinato dalla condizione plli E CIHo] = P[x E cclHa]
00
{ Plli E CIHo] = P[X25 2".alHo] = P[N(0, 1) 2".a-J ] = <J?(1°~-a) }
P[x E CclHa] = P[X25 < alHa] = P[N(0, 1) < a-I1°J = <J?(a-I1°) ::::}
::::}10~-a = a-JIO::::} a= 105.
Esercizio 0.2.10 o
Sia X una va di Poisson di parametro À > O.

1) Calcolare uno stimatore 5-di massima verosimiglianza (1ILE) per À.
ÀI:~ Xi
X,....,~~e-\(x=0,1,2, ... )::::}L(>-;;f)= 1 1 1 e-nÀ=}
X1,X2,Xn,
& 1
I: n
::::}O = &À ln L = 'X 1 X; - n =} À = Xn
- -
2) Applicare il risultato precedente alla risoluzione del seguente problema:

lungo un tratto autostradale, nelle ore di punta dalle 7:00 alle 9:00 del mattino, in cinque
giorni diversi sono avvenuti rispettivamente 1, 4, 3, 2, 5 incidenti. Supponendo che il
numero di incidenti X che avvengono su quel tratto autostradale in quelle ore sia una va
di Poisson di parametro À, dare una stima di massima verosimiglianza '!Jper la probabilità
iJ che si verifichi più di un incidente durante le ore di punta.
(Suggerimento: si tenga presente una proprietà notevole degli stimatori MLE)
573
Per la "proprietà di invarianza" degli stimatori MLE se >.è uno stimatore MLE per À
allora g(>.) è uno stimatore MLE per g(À), per ogni funzione invertibile g(À).
Ora si vuole stimare iJ = P[X > l] = 1-P[X = 0]-P[X = l] = 1- e-,\ -Àe-,\ g(À). =
l\Ia g(À) è invertibile (infatti g'(À) = Àe-,\ > O), per cui J = g(>.).
Essendo>.= X 5 = 3, si ottiene (e 3 ~ 20) : J = g(3) = 1- 210 - 230 = ~~ = 0.8
Esercizio 0.2.11 o
L'Ente per la Protezione dell'Ambiente decide di fissare il livello masssimo di rumorosità

per i motorini in 83 decibels. In base a questa nuova regola c'è discordia su quali debbano
diventare i parametri di controllo delle aziende produttrici di motorini. In particolare ci
sono aziende che ritengono (giustamente) che la rumorosità di ogni motorino prodotto non
debba superare il massimo livello consentito, altre che ritengono invece che sia sufficiente
garantire che la rumorosità media dei motorini da loro prodotti sia inferiore al massimo
consentito.
È evidente che se si dovesse adottare il secondo punto di vista avrebbe molta importanza
la varianza del livello di rumore prodotto perchè grandi varianze significherebbero molti
motorini fuori norma anche se la media dei livelli di rumore della produzione fosse 83
decibels.
1) Supponendo che il rumore prodotto da un motorino appartenga a una popolazio-
ne distribuita N (µ, a 2), (µ e a ignote), calcolare gli stimatori l\ILE µ e à 2 di µ e a 2
rispettivamente (ricordiamo che la funzione di verosimiglianza è fx,(x1,-,xn;µ,a) =
fr"F27r
i=l
exp [ - (~i;/l2].
I massimi di fx,, ..,xnsono gli stessi di quelli di ln(fx,, .,xn); derivando quest'ultima
rispetto a µ e a si ottiene il sistema:
~ln[f X 1 , .. ,Xn (x 1, ·, x n, ·µa)]= L;(xi-µ) =0 d ·. { µ, -- L;Xi
{ 8µ , "2 n
~ ln[f
Ber
(x
X1, .. ,Xn
x . a)]=_!!:.+
I,·, n, µ,
L;(xi-µ)2 = O a cu1.
u
à2 = ì:(xi-M2
u3 n
(che si potrebbe dimostrare, analizzando l'Hessiano, essere effettivamente i massimi di
ln(fx,, ..,Xn)).
Gli stimatori cercati allora sonoµ= I:nXi e à 2 = L (X~-µ)
2
. d"iamo ch e 1a varianza
R 1cor . .
camp10nana. S2 =-~---e
I:;(X; - µ) 2 ' uno stimatore
· corretto d"1
n-l
2 n-1 2 n-1 n-1
a 2, cioè E[S 2] = a 2. Ora à = --S 2 ::::}E[à ] = --E[S 2] ::::}--a 2 ----+ a2
n n n n-+oo
Quindi à 2 è asintoticamente corretto.
2) à 2 è consistente? (si, no, perché)
4
n-1s2
~
2
rv Xn- l ::::}
n ,2
?IO' 2
rv Xn- l ::::} var [?la
n ,2]
= 2( n - 1) =} vara['2] = 2(n- n 2l)a ----+
n---++oo
o.
Da questo e da un noto criterio sufficiente segue che, essendo à 2 asintoticamente corretto,
è anche consistente.
3) Scelto à 2come stimatore scrivere un intervallo di confidenza bilatero al 100, per cento
per a 2 .
.,
L a quant1ta . l,n,2 I:(X;-µ)2 2 c11·
p1vota e e 2 a = 2 rv Xn- l · a co iamo
(J' (J'
P[x2 (1-')') < I:(X; - µ)2 < x2 (l+'Y)] = 'Y {:} P[ 1 > (]'2 >
n-1 2 - a2 - n-1 2 x~_1 (Yl I:(X; _ µ)2
v2
1( 1 +~) ]- - / {:}
A.n-1 2
574
{::}P[I:(X;- µ)2 > a2 > I:(X; - µ)2] = 'Y·
X~- 1 (?)- - X~- 1 ( 1-:p)
I:(X - µ)2 I:(X - µ)2
Concludiamo che 2 ' l+ì' ::; a 2 ::; 2 ' 1_,, è un intervallo di confidenza al 1001
Xn-1(-2-) Xn-1(-2-)
per cento per a 2 .
4) Per controllare la varianza della sua produzione un'azienda sceglie tre motorini appena
terminati. La lettura del rumore massimo emesso da questi tre esemplari dà questi
risultati: 85.4; 86.8; 86.1.
Utilizzarli per ricavare dall'intervallo teorico appena trovato l'intervallo di confidenza /i
al 90% per la varianza.
Con un campione di dimensione 3 e con il I:(X; - µ) 2 osservato (uguale a 0.98) sfrut-
tando la tavola della chi-quadrato con 2 gradi di libertà da cui si ha x~(1±t9 ) = 5.99;
x~(1-t9 ) = 0.1 l'intervallo del punto precedente diventa: 0.16 _::;a 2 _::; 9.8.
5) Non soddisfatta dell'ampiezza dell'intervallo /i l'azienda allarga il campione esami-
nando altri 7 motorini e ottenendo i seguenti ulteriori risultati:
85.3; 84.8; 83.1; 82.7; 86; 86.8; 83.
Utilizzarli, insieme ai precedenti, per determinare un nuovo intervallo di confidenza h

sempre al 90% per la varianza.
Con un campione di dimensione 10 e con il I:(X;-µ) 2 osservato (uguale a 21.88), sfruttan-
°·
do la tavola della chi-quadrato con 9 gradi di libertà che dà X§( 1±2 9 ) = 16.9; X§( 1 - 2 9 ) = °·
3.33, l'intervallo del punto precedente diventa: 1.29 _::;a 2 _::; 6.57.
6) Facendo riferimento al campione del punto 5) e ai risultati finora ottenuti decidere
con un errore del primo tipo pari a 0.1 dell'ipotesi Ho : a 2 = 5 contro l'alternativa
Ha:a 2 =J5.
Poiché 5 cade dentro l'intervallo di confidenza trovato al punto precedente accetto Ho
rischiando un errore del primo tipo di probabilità 0.1.
Esercizio 0.2.12 o
Sono state eseguite n misure dell'accelerazione di gravità; tali misure possono essere
ritenute indipendenti ed equidistribuite, tutte normali di media g e varianza a 2 incognite.
=
1) Trovare un intervallo di confidenza di livello 1 1 - a per la media g.
fo(Xn - g) [- (.!±1) s ]
S rv tn- l ::::} g E X n ± tn- l 2 fa ,
2) Per l'accelerazione sono state rilevate 6 determinazioni ottenendo della media campio-
naria e dell'errore standard (radice della varianza campionaria corretta) rispettivamente
le seguenti stime:
Xn = 9.78 m/sec 2 es= 0.08 m/sec 2 . Determinare un intervallo di confidenza al 90% per
l'accelerazione di gravità.
Assumendo indipendenza e normalità per le misure g E [xn ± t 5 (0, 95) e poiché ,;.J
t 5 (0, 95) = 2,015 si ha g E [9, 78 ± O, 066]. L'unità di misura è m/sec 2.
Esercizio 0.2.13 o
Un'azienda ha due linee di produzione entrambe di tecnologia molto sofisticata e ancora

sostanzialmente poco affidabili. Infatti la prima produce pezzi A con difettosità del 10%
e la seconda pezzi B con difettosità del 20%. La fabbrica vende componenti ottenuti
assemblando un pezzo di tipo A (scelto a caso dalla sua linea di produzione) e un pezzo
di tipo B (scelto a caso dall'altra linea).
575
I componenti così ottenuti sono classificati in buoni (quando sia A che B non sono
difettosi), recuperabili (quando uno solo tra A e B è difettoso), da scartare (quando sia
A che B sono difettosi). Esaminando un componente il guadagno relativo X è codificato
così:
X= componente
1 buono
o recuperabile
-2 da scartare
1) calcolare la distribuzione di X, la sua media e la sua varianza.
P[X = l] = 0.9 · 0.8 = 0.72

P[X =0] = 0.9 · 0.2 + 0.1 · 0.8 = 0.26
P[X = -2] = 0.1 · 0.2 = 0.02
E[X]= 0.68
var[X] = 0.3376
2) L'azienda vende lotti di 900 componenti ognuno. Detta W la va "guadagno relati-

vo a un lotto" indicare, nell'ipotesi che i componenti prodotti siano indipendenti l'uno
dall'altro, E[W] e var[W].
900 900
E[W] = E[I: Xi] = 900 · E[X] = 612; var[W] = var[I: X;] = 900 · var[X] = 303.84.
1 1
3) Calcolare sempre nelle ipotesi del punto 1.2) e utilizzando una nota tecnica di ap-
prossimazione la probabilità che un lotto di componenti dia un guadagno di almeno
600.
W ~ N(612, 303.84); P[W > 600] '.:::'.P[N(612, 303.84) > 600] = P[Z > ~~~36~~]
P[Z > 0.6884] = <J?(0.6884) = 0.7549 dove Z = N( 512~- 612 rv N(0, 1) e <J?(a)
P[N(0, 1) < a] si ottiene dalle tavole.
4) Dal momento che il guadagno ottenuto da un lotto non è quello atteso, l'azienda ha
il sospetto che nel modo di scegliere i pezzi A e B non venga rispettato un criterio di
casualità. A questo fine decide di esaminare un lotto (900 componenti) e di accettare
che il modo di scegliere i pezzi A e B rispetta la casualità (indipendenza tra pezzi) se il
guadagno relativo al lotto scelto non è inferiore a un valore k, oppure di rifiutare questa
ipotesi in caso contrario. Si determini k in modo da avere una probabilità di errore di
primo tipo pari a 0.01.
Se W ~ k accetto, se W < k rifiuto; probabilità di errore di primo tipo uguale ad
a = 0.01 = P[W < k]. W ~ N(612, 303.84); P[W < K] '.:::'. P[N(612, 303.84) < k] =
P[z < v'k-612 ]
303 _84 -
_ O. Ol e ancora z _
- N(612,303.84)-612
v' 303 _84 rv
N(0 ,
l) •
p 01c
. h'e t a le pro b a b'l't,
11 a
è minore di 0.5 :; 0~ 1; 4 < O per utilizzare le tavole devo fare:

Ji~;,;
<J?(:; 0~ 1~4 ) = 0.01 :::;,<J?( 4 ) = 0.99 :::;, Ji~;,;
4 = 2.326 :::;,k = 571.
5) Esaminando il lotto si è ottenuto un guadagno pari a 500. Quindi l'azienda conclude
che nulla si possa dire sulla distribuzione del guadagno X. Ciò vanifica ovviamente anche
le previsioni di guadagno di ogni lotto.
Decide allora di effettuare una serie di prove in cui sono esaminate coppie di componenti.
Indicati con X e Y i guadagni rispettivi di ciascun componente della coppia, la fabbrica
ottiene, per il vettore aleatorio (X, Y), la seguente densità congiunta fx,Y(x,y):
576
Y\X -2 o 1
-2 0.0016 0.004 0.0144
o 0.0052 0.0676 0.1872
1 0.0132 0.1884 0.5184
Può l'azienda concludere che X e Y sono indipendenti?

X e Y non sono indipendenti: lo si vede immediatamente perché condizione necessaria
di indipendenza è la simmetria della matrice delle densità congiunte 0.2
6) Supponiamo inoltre che la difettosità delle linee di produzione dipenda da un para-
metro p, (O < p < 1) e che dall'esame di coppie di componenti prodotti si sia ottenuto,
invece della tabella 0.2, la seguente tabella:
Y\X -2 o 1
-2 o q/ 2 o
o q/ 2 o p/ 2
1 o p/ 2 o
dove q = 1 - p. Esistono valori di p per cui X e Y sono indipendenti (si,no,perché)?
No perché la diagonale principale è formata tutta da O (se fossero indipendenti questo
implicherebbe che le marginali fossero tutte nulle)
7) Esistono valori di p per cui X e Y sono incorrelate (si,no,perché)?
Perché siano incorrelate occorre e basta che cov[X, Y] = E[XY] - E[X]E[Y] = O.
J(X = -2) = q/2 = J(Y = -2)
Le marginali sono identiche: J(X = O) = 1/2 = J(Y = O)
J(X = 1) = p/2 = J(XYl)
E[X] = E[Y] = -q + ~; E[XY] = O;cov[X, Y] = (~ - q)2 =O{::}~= q? p = l
Esercizio 0.2.14 o
In un cotonificio un filatoio produce filo di cotone. Mediamente il filo presenta un numero

z; di difetti per decametro (10 metri).
1) Detta X la va numero di difetti nell'unità di lunghezza (pari a un decametro) possiamo
supporre che X sia una va di Poisson. Sappiamo che per tale va P[X = l] = P[X = 2].
Determinare z; e calcolare P[X = 1 o X= 2] e P[X = 1 e X= 2]
e-Vl/X e-Vl/ e-vl/2
P[X = x] = -- ::::}P[X = l] = -- = P[X = 2] = -- ::::}2v = v 2 ::::} z; = O (da
x! 1 2
scartare) e z; = 2.
P[X = 1 o X= 2] = P[X = l] + P[X = 2] = 2ve-v = 4e- 2 '.::::'.0.5413; P[X = 1 e
X= 2] = O
2) Qual è la probabilità che in 25 metri ci sia almeno un difetto?
La va X che conta i difetti in un tratto di filo lungo 25 metri è tale che P[X = x] =
e-vt(vt)x
-- 1- con t = 2.5. P[X ~ l] = 1- P[X =O]= 1- e- 2 .5 v = 1- e- 5 = 0.99326 ...
X.
3) Qual è la probabilità che ci siano più di 10 difetti in un rocchetto di 1000 metri di
filo?
(Suggerimento: si consideri il prodotto lOOz; = À abbastanza grande da autorizzare
l'utilizzo, per a e b fissati, dell'approssimazione P[a < x.;/ < b] '.::::'. P[a < N(0, 1) < b] =
<J?(b)- <J?(a)).
P[X > 10] = P[X ~ 10.5] = P[ \r;;.x rni~F2°
~ 0 ] '.::::'.1 - <J?(-13.40) = <J?(l3.40) '.::::'.
1
4) Sia T la va "spazio (in decametri) di attesa del primo difetto". Allora P[T > t] =
P[nessun difetto nell'intervallo di filo di lunghezza t]. È noto che P[T :S t] = 1 - P[T >
577
t] = 1- e-vt = 1- P[X = O]. Questa formula stabilisce un legame tra la va Te la va di
·
P 01sson X d'1stn'b mta
· secon d o cvt(vt)X
I ch e conta 1. d''11etti. ne 11''mterva 11o d'1 1ung h ezza t
X.
se v è il numero medio di difetti nell'unità di spazio.
Calcolare la funzione di densità di T, verificando che si tratta di una densità esponenziale.
Fr(t) = P[T :S t] = 1-P[X =O]= [l-e-v 1]IR+(t);fr(t) = ve-vtJR+(t) = 2e- 21IR+(t)
Un tecnico addetto all'esame del filo prodotto ha già osservato passare 10 metri di filo
senza che nessun difetto si sia presentato.
5) Qual è la probabilità che debba osservare ancora almeno altri 35 metri di filo passare
perché se ne presenti uno?
10 metri pari a 1 unità, 35 metri pari a 3,5 unità
P[T ~ 3, 5 + llT ~ l] ,----~---.
assenza dimemoria
P[T ~ 3,5] = 2J 3 e- 21 dt = [-e- 21:t = ];,;o
e- 7 '.::::'.10- 4 · 9.12
Il cotonificio è insoddisfatto del suo filatoio. Si propone di acquistarne uno nuovo e per
valutarne le qualità rispetto al primo si propone di stimare il parametro v della densità
della va T rilevando un campione T1, T2, ... Tn di spazi di attesa di un difetto.
6) Indicare qual è lo stimatore di v che il cotonificio ottiene utilizzando il metodo di
massima verosimiglianza.
La funzione di verosimiglianza è L(v;T1,-,Tn) = vne-v"E,TiJqn('IJ dove T._= (T1,-,Tn)
n
e Qn è l'ipercono f1(Ti ~ O).
1
lnL = nlnv- vI:Ti; d~ lnL = ~ - I:Ti =O::::} v = ~nTi =in. Lo stimatore MLE è
[i = _: , reciproco
della media campionaria.
Tn
7) Indicare la distribuzione asintotica dello stimatore verificando che la media e la
varianza di tale distribuzione sono uguali a v e v 2/n.
1
Dalla teoria degli stimatori MLE si ha Vn ~ N(v, [[ 8 ( . ] 2]) dove:
nEv BvlnfT,v)
f( T·' v) = ve-vTJ +(T)·lnf = lnv- vT· ' i!....1nf = lv _ T·' (i!... 2 = 1 - 2T..+ T 2 =
R ' 8v 8v lnf) v2 v
(T-t)2
Ev [[JJ(T, v)]2]= Ev [(T- t) Vn ~ N(v, ~)
2 ] = varv[T] + E~[T]} = ;},r;
8) Utilizzando il risultato del punto precedente, trovare un intervallo di confidenza
P :n/~
bilatero al 1001 % per v.
[I I::; a] =1 da cui a= q>- 1(1~~)
-4>-1(1+~)....!::..._ < f; -V< q>-1(1+~)....!::..._::::} Vn <V<

Vn
2 fa - n - 2 fa 1 + q>-1( !.:p)/vn - -
1- q>-1( !.:p)/vn
9) Dai risultati del numero precedente supposto che 1 = 0.9, che il campione abbia
dimensione 25 e che Vn = 0.98, fa bene il cotonificio a pensare che se cambia il filatoio
passa a una macchina migliore con probabilità pari al 10% di sbagliarsi? Motivare la
risposta.
J
Con i dati rilevati si ha: 1 09: 29 :S v :S 1_009: 29 ::::}O.7374 :S v :S 1.4605 con probabilità
pari a 0.9. La risposta è quindi affermativa.
Esercizio 0.2.15 o
Sia X rv N (µ, 400 2) una popolazione normale di media incognita µ e varianza 400 2.
578
1) Dato X= (X 1 ,X2, ... ,X15), campione casuale (cc) di dimensione 16 da questa
popolazione, utilizzando come stimatore diµ quello ottenuto con il metodo dei momenti,
si determini un test di significatività a = O, 05 per l'ipotesi Ho : µ 0 = 1000 contro
Ha : µa = 1600.
Lo stimatore ottenuto con il metodo dei momenti è µ= ¾I:; X; = X n media campio-
. O vvmmente
nana. . Z = xgO/v'16
-woo rv N(0 , 1) .
4
Si vuole a : P[Z > a] = 0.05 {::}P[Z < a] = 0.95. Dalla tavola della normale segue che
a = q,- l ( .95) = 1.645. Da cui con facili conti si ha Re è la regione delle osservazioni per
cui Xn > 1164.5.
2) Si supponga di aver osservato sul campione una stima di µ pari a 1111. In questo
caso accettereste Ho?
La risposta è: sì.
3) Si calcoli la probabilità di errore che si commette accettando Ho quando questa è
falsa.
In ipotesi Ha
(3 = P[Xn < 1164.5] = P[:~~ 1~ 0 < -4.355] = -1 (-4.355) '.:::'.
O.
Non si riliuta H0 Si riliuta H

...............
.·.·-·.
·.·.·.·-
·.·-·.·-·.·.·-
·.·-·.·-·.·.·.·
a.= 0.05
/lo = 1000
1164.5 [] regione critica
Si lavori ora in ipotesi Ho perµ, cioè X rv N(lO00, 400 2 ).

Sia Y rv N(l600, 3002 ). Supponiamo X e Y indipendenti e che rappresentino rispettiva-
mente i ricavi e i costi dell'azienda "Speriamodinonfallire".
4) Calcolare la distribuzione mensile dello sbilancio X - Y.
(X -Y) ,.__,
N(-600,500 2)
5) Calcolare la probabilità di chiudere il mese in perdita
P[X - Y <O]= P[N(0, 1) < ~] = (l,2) = 0.8849 = 88.49%
6) Calcolare la distribuzione annuale (12 mesi) di costi e ricavi nell'ipotesi che quello che
accade in un mese sia indipendente da quello che accade negli altri.
I:t,:,
1 X; rv N(l2000, 12 · 400 2 ) nell'ipotesi ovvia che ViX; rv N(lO00, 400 2 ).
Analogamente: I:t,:,
1 Y; rv N(l9200, 12 · 300 2 ) ancora nell'ipotesi ovvia che ViY; rv
N(l600, 300 2 ).
579
7) Calcolare la probabilità che l'azienda chiuda l'anno in perdita.
12 12 6
P[LX; - L Y; <O]= P[N(0, 1) < 5Vl2]= (4.157)'.:::'.
1
i=l i=l
Esercizio 0.2.16 o
La percentuale p degli ingegneri che hanno studiato statistica non è nota. Si intende
stimarla utilizzando un campione casuale di n ingegneri estratti a sorte. Detta X la
va che assume il valore 1 se l'ingegnere estratto ha studiato statistica e O se non l'ha
studiata, è noto che tale ha distribuzione di Bernoulli:
f(x;p) = px(l - p) 1-x, X= O, l

1) Determinare lo stimatore Pn di massima verosimiglianza per p.
Pn = Xn. Infatti L(p; X1, ., Xn) = pEXi(l - p)n-Exi = pnXn(l - p)n(l-Xn
dove Xn è la media campionaria. Allora Pn è la soluzione dell'equazione:
8 8 - - -
O= Bpln L = Bp{nXn lnp + n(l - Xn)} ln(l - p)::::} p = Xn.
2) Pn è corretto? è consistente?
E[Pn] = E[Xn] = p =} Pn è corretto. Inoltre Pn è consistente perchè è uno stimatore
MLE.
3) Qual è l'efficienza di Pn (cioè il rapporto tra il confine inferiore di Rao -Cramer e la
varianza di Pn)?
_ l
var [pnl - n var
[X] -_ p(l-p).
n
fi ·
, con ne m1enore -
e • _ 1
nEp[{/,;lnf(X;p)}2]'
.
ln(l - p) se x = O
J(0;p) = 1- p; f(l;p) = p: lnf(X;p) = { lnp
sex= l
nEp[- . .] = n{ (l- 1p)1 (1- p) + '?p} = p(l".:_p).
Quindi l'efficienza è uguale a 1.
4) Utilizzando lo stimatore Xn si intende valutare la percentuale p in modo che la stima
differisca dal valore vero al più del 2% con probabilità del 95%, cioè P[IXn - PI < 0.02] ~
0.95. Calcolare la dimensione del campione n utilizzando la disuguaglianza di Chebyscev.
Per Chebyscev P[IXn - PI< 0.02] ~ 1- v~~o;t
= 0.95 (0)
La (0) è soddisfatta se ,;M,~;]
2 :S 0.05. Tenuto conto che al più p(l - p) = 1/ 4 basta che
n ~ 12500.
5) Indicare un intervallo di confidenza al 95% per p
p E (X12500 - 0.02, X12500 + 0.02) = ( 12700 - 0.02, 12700 + 0.02),
dove m rappresenta il numero di ingegneri che hanno studiato statistica tra i 12500 scelti.
Esercizio 0.2.17 o
Alcuni ecologi stimano pari a M il numero di esemplari di una certa specie sparsi su
un grande territorio. Sanno che un gruppo di ricercatori che li ha preceduti da poco
tempo su quel territorio ha catturato e "marcato" N esemplari. Questo tempo è stato
sufficiente perché tali esemplari si siano rimescolati agli altri, ma non abbastanza lungo
perché il numero M degli esemplari sia variato.Gli ecologi si propongono di catturare un
campione di k individui.
1) Indicata con X la variabile aleatoria (va) che conta il numero degli individui marcati
del campione, dopo aver riconosciuto che alla situazione si adatta un noto modello di
estrazione, scrivere chiaramente la formula che dà la funzione di densità discreta (fdd)
f x ( h) di X nell'ipotesi appunto che la popolazione totale sia M.
580
(1)
k
2) Se M :S 0.1, cioè se la dimensione k del campione è piccola rispetto a quella della
popolazione) la fx(h) è approssimata dalla fdd di una binomiale Y rv B(k, :). Scrivere
la fy(h) di tale binomiale.
fy(h)= G)(:f (1-:r-h

N N
Sotto ulteriori ipotesi su k e Af la B(k, M) è approssimata da una distribuzione di
Poisson.
3) Indicare tali ipotesi
N
k "grande" e - "piccolo", diciamo per esempio:
M
N
k ~ 20 e M :SO, 05
4) Scrivere la fdd fw (h) della distribuzione di Poisson approssimante.
-kN
fw(h) = e h!M (k J:;.t
5) Ipotizziamo ora che N = 200, M = 10.000 e k = 100. Calcolare utilizzando l'appros-

simazione di Poisson la probabilità che nel campione di dimensione 100 estratto ci siano
almeno 3 esemplari marcati.
2 -k N 2 2
P[X ~ 3] = 1- P[X :S 2] '.:::'.
1- L ~(kh. f:;.)h = 1- L ~(2)h
h.
= 1- 52 =
e
o,3233
h=O h=O
6) Si pensi ora alla popolazione di partenza dove il numero totale degli individui presenti
è lv! incognito mentre il numero degli individui marcati è N = 200. Si prenda ora un
campione casuale di dimensione n da tale popolazione. Si costruisca uno stimatore p della
proporzione N / lv! e conseguentemente lo stimatore m per M giustificando i risultati e
indicando le proprietà degli stimatori proposti.
Si tratta di una popolazione bernulliana. Se indichiamo con H la va che codifica con "l"
la cattura di un individuo marcato (e con "O" quella di uno non marcato) si ha:
P[H = l] = 200/M =p
P[H =O]= (M - 200)/M = 1- p = q
È noto che E[H] = 200/M e che uno stimatore MLE di E[H] è la media campionaria
H n· P er 1·1 pnnc1p10
. . . d.1 mvananza
. . d eg 1·1 st1maton
. · MLE 1o stimatore
· 200
cercato e, m, = =-
Hn
7) Si scriva (senza eseguire conti) uno stimatore per la varianza di tale popolazione
motivando il risultato e le proprietà.
La varianza 0' 2 della popolazione è pq. Per il principio di invarianza uno stimatore MLE
della varianza è èr2 = Hn(l - Hn)-
8) Si determini un intervallo di confidenza con limite inferiore asintotico di livello 1 = 95%
per la proporzione p da cui ricavare e scrivere un intervallo con limite superiore asintotico
di livello 1 = 95% per M.
581
Cerchiamo un intervallo di confidenza con limite inferiore asintotico per la proporzione
p di una popolazione di Bernulli (varianza ovviamente non nota).
Hn-P
Per il teorema centrale del limite e per i teoremi sugli stimatori MLE ---:======--- ~
VHn(l - Hn)/yn
N (O,1). Quindi l'intervallo asintotico con limite inferiore per p si ottiene da:
P[ Hn-P < -1 ('\/)] = 'V con 'V= O 95· -1 (0 95) = 1 645 cioè:
1 1 1
yHn(l-Hn)/fo - ' ' ' ' '
Hn - 1,645V Hn(l - Hn)/vn $. p (-")

Oss.: Ovviamente è comunque p $_ l.
Poiché p = 200/M si ricava un intervallo di confidenza con limite superiore per lv!:
200
M < -------;=====--
- H n - l, 645 V H n ( 1 - H n) / yn
9) Nell'ipotesi che gli ecologi abbiano estratto un campione di 100 esemplari trovandone
4 marcati, scrivere il valore dell'estremo sinistro dell'intervallo di confidenza trovato per
p.
- 4 1
Dalla(-") dove n = 100, Hn = lOO = 25 si ha: 0,0077 $. p
10) Nelle stesse ipotesi del punto 9) scrivere il valore dell'estremo destro dell'intervallo
di confidenza trovato per lv!.
- 1
Dalla (-"H-")dove n = 100, H n = 25 si ha: M $_ 25757, 55
11) Sulla base dell'intervallo trovato gli ecologi decidono di accettare l'ipotesi Ho : p ~
0,01 (equivalente a M $_ 20.000) contro l'alternativa Ha : p < 0,01 (equivalente a
lv! > 20.000). Se i dati osservati motivassero gli ecologi a rifiutare che tipo di errore
potrebbero commettere e, in questo caso, che probabilità avrebbero di sbagliarsi?
Dalla teoria si sa che (L, +oo) è un intervallo di confidenza al 100"( % per p allora si
rifiuta l'ipotesi p ~ Po contro l'alternativa p < Po se Po ~ (L, +oo) con probabilità 1 - 'Y
di sbagliare. 1 - 'Yè perciò la probabilità di errore del 1° tipo.
12) (facoltativo) Se campionando come è stato fatto si fosse trovato solo 1 individuo
marcato che considerazioni si sarebbero dovute fare sull'intervallo di confidenza in (-")?
L'estremo inferiore dell'intervallo di confidenza con limite inferiore per p è negativo.
Quindi con probabilità pari a 0,95 sono compatibili con l'osservazione fatta tutti i valori
di p. Perciò l'intervallo trovato non è significativo e l'esperimento va proseguito con nuove
osservaz10n1.
Esercizio 0.2.18 o
Il voltaggio in ingresso al contatore di un impianto elettrico per uso domestico è una va

X data da X=µ+ Y e Y rv N(O, 1) doveµ non è nota.
1) Scrivere media di X 2.
E[X 2] = var[X] + E 2[X] = 1 + µ 2
2) Scrivere var[X 2]. Suggerimento: si utilizzi il fatto che la funzione generatrice di
momenti della N(µ, 0'2) ha derivata quarta data da:
m~\t) = 30'4etµ+½t20-2+ 60'2 (µ + t0'2)2 etµ+½t20-2 + (µ + t0'2)4 etµ+½t20-2.
Nel nostro caso (0'2 = 1) si ha:
var[X 2] = E[X 4]-E 2[X 2] = m{Y(t)l 1=0 -(1+µ 2) 2 = 3+6µ 2 +µ 4 -1-µ 4 -2µ 2 = 2+4µ 2
3) Indicare la distribuzione di W = (X - µ) 2
582
X - µ rv N(0, 1) ===} W = (X - µ) 2 rv Xi
chi-quadrato con un grado di libertà.
4) Mostrare che Y e Y sono incorrelate.
2
cov[Y, Y 2 ] = E[(Y - E[Y]). (Y 2 - E[Y 2 ])] = E[Y 3 ] - E[Y]. E[Y 2 ] = O. Infatti Y ha

distribuzione normale di media O e varianza a 2 . Per la sua simmetria tutti i momenti
dispari sono nulli e, in particolare, E[Y 3 ] = E[Y] = O.
Si supponga ora di dover misurare il voltaggio X in ingresso e si prendano n diverse
misure Xi=µ+ Y; e Y; rv N(0, 1), i= 1, ... , n (cioè un campione di taglia n da X).
5) Scrivere la distribuzione della somma I:7=1 Xi di n va normali di mediaµ e varianza
1. attenzioneE: media e varianza della somma vanno indicate con precisione. In caso
contrario la risposta a questo punto sarà considerata errata.
I:7=1 Xi= N(nµ; n)
6) Serve il teorema centrale del limite per rispondere al punto 4)? Sì, no, motivare con
precisione.
No, si tratta infatti di somme di normali indipendenti.
7) Dedurre la distribuzione di Xn I:r=n'X; : media e varianza vanno indicate con
precisione.
- 1
Xn rv N(µ, -)
n
8) Trovare la distribuzione di ~/;: : media e varianza vanno indicate con precisione.
Xn-µ
l/fa rvN(0,l)
9) Mostrare che il valore di a tale P[I

~/;:I > a] = 0.1 è 1.645. Per i quantili della
N(0, 1) utilizzare la tavola.
~/;: rv N(0, 1) ~ 0.1 = P[I

~/;:I>a]= 1- P[I
~/;:I~ a]~
~ P[I
~/;:I~a]= 0.9 ~a= -1 (0.95) = 1.645
10) Risolvere la disequazione I~/;:

I~ 1.645 in modo da ricavare un intervallo [a, b]
tale che Xn E [a, b] con probabilità 0.9.
D ai . conti . prece d enti. s1. h a: P[ µ - 1.645
fa ~
X-n
~ µ + 1.645]
fa = O.9 .
11) Qual è la probabilità che Xn non appartenga all'intervallo [a, b] trovato al punto
precedente?
0.1
12) Da 10) si deduce che, fatte n letture c'è una probabilità pari a 0.9 che la media
campionaria Xn appartenga all'intervallo [a, b]. Supponiamo che µ = 220 volt (come
garantito dal fornitore) e che n = 100. Se la media campionaria osservata di queste
letture fosse pari a Xn = 218.99 volt sareste disposti a credere al fornitore?
In ipotesiµ= 220 e n = 100 l'intervallo [a, b] dove la media campionaria ha probabilità 0.9
di cadere è, [219.8355, 220.1645]. Quindi non sembrerebbe opportuno credere al fornitore.
13) Si rifletta su questo fatto: se µ = 220, cioè se il fornitore dichiara il vero, Xn E [a, b]
con probabilità 0.9 e Xn 't-[a, b] con probabilità 0.1. Prima di prendere le 100 letture
decidete questa strategia: se la media delle letture Xn (media campionaria) da voi rilevate
cade nell'intervallo [a, b] accettate la dichiarazione del fornitore altrimenti la rifiutate È
chiaro che non avrete mai certezze. Potreste sbagliare sia ad accettare che a rifiutare. Se
583
rifiutate vi sbagliate solo se il fornitore ha dichiarato il vero, cioè se µ = 220. Sapreste
indicare qual è la probabilità di sbagliarvi rifiutando?
Se il fornitore dice il vero la probabilità dell'evento osservato, cioè Xn ~ [219.8355; 220.1645]
sarebbe 0.1. E questa è anche la probabilità di sbagliarsi a rifiutare quanto affermato dal
fornitore se quello che dice è vero.
Osservazione 1
Quanto abbiamo detto per la ricerca della media incognita di una popolazione normale
possiamo applicarlo, utilizzando il TCL, per la ricerca della media µx di una popolazione
esponenziale X rv Exp(>..)cioè fx(x; >..)= >..e-.Xx I1o,+oo)(x).Ancora per stimare la media
utilizziamo la media campionaria Xn. Grazie al TCL sappiamo che ~X =
var[X]/fa
Xn - µX
µx /fa
, . .
e asmtoticamente
(
N O, l
) ( . . .
s1 ncord1 che µx
1 2
= ~; 1
ax = )..2 ; ax = ~
1
= µx )
Fissiamo anche questa volta I e cerchiamo a tale che P[I:: /Jn"I :S a] = ,. Poi-
.X-µ
ché n /
µX
fan ~ N(O, 1) l'o: cercato è sostanzialmente lo stesso (se n è grande) dell'o:
che si troverebbe imponendo P[IN(0, 1)1 :S a] = 1 . Sappiamo che in questo caso a=
1 +, 1 +, Xn - µ
<J?-1(--).
2
Concludiamo che, con probabilità 1 , vale -<J?- 1(--)
2
<
µX n
< /fa
<J?l(l+,)d
- - 2- a cui...s1 ncava
Quindi l'intervallo (di confidenza asintotico) per la media ignota dell'esponenziale è

( Xn Xn )
l+a/fa' 1-o:/fa ·
Anche qui dal punto di vista pratico, per trovare un valore che approssimi µ, si procede
come nel caso della popolazione normale. Se si vuole per esempio valutare la durata
media dei chip prodotti da un'industria elettronica, nell'ipotesi che tale durata sia ben
modellizzata da una distribuzione esponenziale di media ignota µx si scelgono n chip (le
loro durate sono n va Xi), si fanno funzionare fino alla rottura leggendo la durata Xi
(valore osservato delle Xi), si calcola la media campionaria osservata Xn
(media = I: Xi
n
aritmetica delle durate osservate) e si scrive l'intervallo ( x/fa' x/fa). Siamo
l+a n l-a n
allora sicuri al 100 1 % che la durata media dei nostri chip è compresa in questo intervallo.
Osservazione 2
Come ultimo esempio facciamo la stessa cosa con una popolazione X di Poisson di para-
metro >..= µ x. Poiché in questo caso var[ X] = >..si ha che ~- >..~ N (O, 1). Procedendo
>../fa
x ->..
come nel caso sopra illustrato si arriva a -a :S v}./fa :Sa, con probabilità 1 , anche qui
- 1( -1 +')
con a= <J? R 1so1vere questa d.1sequaz10ne
. . a >..' ., comp r1cato
e un po ' pm
2- rispetto
che nel caso della esponenziale. Grazie a un teorema della teoria della stima che qui però
non possiamo citare, si può mostrare (come intuitivamente si potrebbe intuire) che anche
584
Xn->- ~ N(O, 1) (per dare una spiegazione euristica di questo risultato, si osservi
ffn!fa
che, poiché si usa Xn per stimare À, l'idea è quella di sostituire a ~ al denominatore
un suo stimatore vXr,).A questo punto si può garantire che con probabilità I vale:
- ffn - ffn
Xn - a fa :S À :S Xn + a fa
anche qui con a= -1 ( 1 ; 1 ).

Se si vuole per esempio valutare il numero medio di arrivi di telefonate per ora a un call
centre sapendo che tale numero è ben modellizzato da una va di Poisson di parametro
À ignoto. Si procede allora a contare il numero di telefonate in arrivo al call centre in
n periodi (non sovrapposti) ciascuno della durata di un'ora: nel periodo i-esimo tale
numero è rappresentato da una va di Poisson X; di parametro À. I valori osservati delle
n va X; siano x;. Fissiamo 1 = 0.99. Saremo allora certi al 99% che il valore di À
ignoto sta nell'intervallo Xn - 2.576 ~ :S À :S Xn + 2.576 ~- Si osservi infatti che
1 = 0.99 ---+ 1 ; 1 = 0.995 e q,- l (0.995) = 2.576 (come si evince dalla tavola della
normale in fondo al libro).
Esercizio 0.2.19 o
Sia X rv N(µ, 0' 2) doveµ e O' sono incogniti. Sia (X 1 , X2, ., Xn) un campione casuale di
dimensione n (ccn) da X.
1) Verficare che lo stimatore 8-2 MLE per 0' 2 non è la varianza campionaria.
Il ccn (Xi, ... , Xn) è estratto da una popolazione la cui distribuzione segue la densità:
fx (x; µ,O') = O'F27r
exp 2
[ - (~~f ) ]
La distribuzione del vettore aleatorio (X 1 , ... , Xn)' è perciò:
fx,,X2,,,Xn(x1,-,xn;µ,O') = rr
n
i=l
1
0';/2iiexp
[-(x;
-µ)2] 20'2
e questa è anche la funzione di verosimiglianza.

Passando ai logaritmi si ha:
n ( ) ( ) I:~=1 (x; - µ)2

[
lnfx,,x 2,,,Xn (X1,-,xn;µ,O' )] =- 2 -ln27r -n·lnO' - 0'
2 2
Per trovare µ e O'che massimizzano, occorre risolvere il sistema:
8 [ . )] _ I:;(x;-µ) _
{
8µ log f X 1 ,X2,,,Xn (x1, ., Xn, µ, O' - 0'1 - 0
80'
lo g[fx,,X2,,,Xn (X 1, ·, X n,. µ, O')] =
2.... _!!:
O' + L;(x;-µ)2
O'g = O
le cui soluzioni sono:
{ fl=
Cl=
L[~X(i·-')2]1/2
~j µ Xi
n
585
""'
.
L o stimatore ,2 , ., ,2 L..(Xi-Xn)- 2
d X , 1 d. . .
a- cercato e percio: a- = ------ ove n e a me 1a campionaria.
n
.
Q uesto stimatore d.ff .
1 ensce d a 11a varianza
. .
campionaria. s2= ì:=(Xi - Xn)2
=-'-------'-
n- l
2) &2 è corretto? Si chiede di decidere utilizzando l'uguaglianza(-") [(Xi -Xn) + (Xn -
µ)]2 = (Xi - µ) 2 .
No infatti per la (-") si ha
èT2 = ~1"'L..,(Xi - -Xn) 2 = ~1 {"'L..,(Xi - µ) 2 - 2(Xn

- - µ) ~(Xi
"' - -Xn) - n(Xn
- - µ) 2}
e tenendo presente che E[(Xi - µ) 2 = a-; E[Xn] =µ,si ha anche:
E[à]
2 1
= -
L E[(Xi 2 - 2 2
- µ) ] - E[n(Xn - µ) ] = a- + var[Xn] = --o-
- n-1 2
n n
3) Descrivere il test di Student (che prevede l'utilizzo della pivotale t - Student) per ve-
rificare l'ipotesi Ho : µ ~ µ 0 contro l'alternativa Ha : µ < µ 0 a un livello di significatività
del test pari a 1 - 'Y· Indicare la regione critica.
Il pivot utilizzato nella determinazione della regione critica (che è a coda sinistra perché
·
H o comvo 1ge 1·1 segno _>) , e' t = XS/fo
n - µo d ove S e' 1o scarto campionano.
· · La regione
·
critica è determinata da 1 - 'Y nel modo seguente: P[X;/~o < k] = 1 - 'Y dove kè lo
(1 - 'Y) - quantile della t - Student con n - l gradi di libertà.
Detto tn- 1(1 - 'Y) (= -tn- 1('Y)e quindi < O) tale quantile si ha:
Rc=(Xn<µo+
- s
fotn-1(1-'Y))=(-oo,µo+
s
fotn-1(1-'Y))
Una fabbrica giapponese di automobili pubblicizzando la futura vendita del suo nuovo
modello "Nonconsumo", dichiara che i chilometri che questo modello percorre con 1
litro di carburante sono distribuiti normalmente con media µ 0 superiore o uguale 20,
mentre non comunica la varianza. La rivista SuiCerchioni, per verificare l'affermazione
dei giapponesi, si fa consegnare in anteprima 5 diversi esemplari di questo modello e li
prova rilevando i seguenti chilometraggi medi percorsi con 1 litro:
1 15,1 118,6 1 20,1 1 21,5 1 19,1 1
4) Utilizzando questi risultati verificate la dichiarazione dei giapponesi.Ho : µ ~ µ 0 = 20

contro l'alternativa Ha : µ < µ 0 , con un livello a= 1 - 'Y= O,05 di significatività.
Indicati con Xi i consumi per veicolo, i dati che servono per decidere sono
Xn osservata S 2 osservata 5 t4(0,05) = -t4(0,95) µ 0 + ----;:;:tn-1(1-'Y)

19 4,63 2,236 -2, 132 17,948
586
Poiché X n osservata cade fuori dalla regione critica non rifiuto l'affermazione dei giap-
ponesi.
Al momento della presentazione ufficiale della "Nonconsumo" i giapponesi comunicano

che la media µ 0 dei chilometri percorsi è esattamente 20 con varianza 0' 2 = 4. Un con-
cessionario ha invece sentito dire che la media dei chilometri percorsi è 19/litro. Decide
allora che crederà ai giapponesi (accetterà l'ipotesi Ho : µ = µ 0 = 20 contro l'alterna-
tiva Ha : µ = 19) e continuerà a ordinare esemplari di questo modello se la media dei
chilometri percorsi con 1 litro dai veicoli dei suoi primi 50 clienti supererà 19.6.
5) Calcolare l'errore del 1° e del 2° tipo se questa è la strategia (possono essere utili i
valori (l.4142)= 0.9213 e (2.1213)= 0.983).
Abbiamo un campione di dimensione 50. Siano ancora Xi i consumi dei veicoli. Poiché
si conosce la varianza il pivot, in ipotesi Ho, è Z = :/fo0 • Sia a l'errore del 1° tipo e (3
l'errore del 2° tipo. La regione critica è fissata dalla strategia. Re = (X n < 19.6) con
50
-Xn = 1 "'
50 ~Xi.
1
RC 19.6
µ0 =20
- Xn-20 19.6-20
a= P[Xn < 19.6IHo] = P[ y5() < y5() ] = P[N(0, 1) < -1.4142] =
2/ 50 2/ 50
= 1 - P[N(0, 1) < 1.4142] = 1 - 0.9213 = 0.0787
- X - 19 19.6 - 19
(3 = P[Xn > 19.6IH1] = P[ n y50 > y5() ] = P[N(0, 1) > 2.1213] =
2/ 50 2/ 50
= 1 - P[N(0, 1) < 2.1213] = 1 - 0.983 = 0.017
Esercizio 0.2.20 o
Viene messo a punto un metodo per determinare la quantità di magnesio nell'acqua di

mare. Se il metodo è buono ci sarà una forte correlazione tra la quantità vera di magnesio
contenuta in un campione di acqua e quella indicata dal metodo. Vengono scelti dieci
campioni di acqua di mare ciascuno contenente un quantità di magnesio nota (espressa
in mg). Poi il metodo è applicato a questi campioni e sono misurate le quantità di
magnesio contenute in ciascuno. Si indichino con Xi le quantità di magnesio note (valori
del predittore) e con Yi le quantità di magnesio rilevate dal metodo (valori del responso).
Ecco il riassunto delle osservazioni:
587
X; X~
Yi yf X i Yi
21 '
441 20.24182 409.7313 425.0782
23 529 22.47946 505.3263 517.0277
26 676 26.24513 688.8069 682.3734
28 784 27.84519 775.3547 779.6654
31 961 31.05548 964.4428 962.7199
32 1024 31.29031 979.0835 1001.29
33 1089 33.56494 1126.605 1107.643
35 1225 35.71214 1275.357 1249.925
38 1444 38.3862 1473.5 1458.676
44 1936 43.29486 1874.445 1904.974
311 10109 310.1155 10072.65 10089 .37
1) Ricavare dai dati della tabella x e fj medie rispettivamente dei valori del predittore e
del responso.
x = 31.1
fj = 31.01
2) Calcolare Bxx
Bxx = I: x7 - nx 2 = 10109 - 10 · 31.1 2 = 436.9
3) Scrivere l'espressione formale degli stimatori b1 e bo (ottenuti con il metodo dei minimi
quadrati) dei coefficienti della retta di regressione E[Ylx] = b1x + bo
bi = I:(xi - x)(Y; - Y) = I: x;Y; - nxY = SxY
I:(x; - x) 2 I: x; - nx 2 Bxx
bo= Y - b1x
4) Scrivere la stima di b1 e bo calcolata in base ai dati osservati (utilizzare i simboli b1 e
bo sia per gli stimatori che per le stime).
Per trovare la stima di b1 utilizziamo

I:I:x·½
' / - nxY_2 . Si ha:
X; -nx
b = I: x;y; - nxy = 10089.37 - 10 · (31.1 · 31.01) = 10089.37 - 9644.1 = 0 92
1 I: x7 - nx 2 436.9 436.9 1. 1
bo = 31.01 - 1.0192 · 31.1 = -0.68712
5) Verificare che il valore della varianza non spiegata SSE in base al campione osservato
è 2.64
' - 2 ' - 2 -2 '
SSE = Syy - b1SxY = I::(Y; - Y) - b1 I::(x; - x)(Y;- Y) = I: Y; - nY - b1(I: x;Y;-
nxY).
Partendo da questa formula si ha:
SSE = 10072.65 - 10(31.01) 2 - 1.0192(10089.37 - 10 · 31.l · 31.01) = 2.64
6) Ricordando che uno stimatore corretto della varianza a 2 dell'errore è dato da èr2 =
SSE Syy - b1SxY . . , . ,2
-- 2 = verificare che una sua stima e 0.33 (anche m questo caso con a
n- n- 2
indicare indifferentemente lo stimatore e la sua stima).
Partendo da questa formula e in base ai dati osservati si ha:
{r2 = SSE = 2.64 = 0.33
n- 2 8
7) Si consideri il coefficiente di variazione r 2 b1 88 xY. Un valore del coefficiente di
yy
variazione vicino a 1 indica una forte correlazione tra le X; e le y;. Calcolare r 2 .
b1 = 1.0192, SxY = I: x;Y; - nxY = 445.27 sono già stati calcolati nei punti precedenti.
Per Syy si ha:
Syy = I: y;2 - nY 2 = 10072.65 - 10 · (31.01) 2 = 456.45. Segue che:
588
r 2 = 1.0192
.
::::!~ = 0.99424
.f(n-2)Sxx(' )
8 ) Ricordando che V SSE b1 - b1 è una quantità pivotale scrivere la regione
critica del test di livello 0.05 per Ho : b1 = 1 contro l'alternativa Ha : b1 =Jl.
/ (n - 2)Sxx , /,...,...(n---2,,..,...)S=-x-x
,
Sappiamochey SSE (b1-b1)rvtn-2.Lastatisticatestèperciò: y SSE (b1-
l). In base ai valori osservati la regione critica è:
. f (n - 2)Sxx , ( ) . / (n - 2)Sxx (' ) (
y SSE (b1 - 1) :S -ts 0.975 ; y SSE b1 - 1 ~ t 8 0.975)
da cui:
ò1 :S 1- t 8 (0.975)v (n :~)Sxx; b1 ~ 1 + ts(0.975)v (n .::~)Sxx

9) Indicare, in base al campione osservato, dove cade la stima di b1. Concludere se si è
motivati a rifiutare o a non rifiutare l'ipotesi nulla.
Gli estremi della regione critica sono:
;2.64
1 - 2.306v ~ = 1 - 0.063 = 0.937 e 1 + 2.306v ~ = 1 + 0.063 = 1.063
;2.64
b1 = 1.0192 cade fuori dalla regione critica quindi siamo motivati a non rifiutare.
10) Decidere sullo stesso test in base al p-value (usare la tavola della probabilità
cumulata fino a x delle tn in fondo al testo).
Il valore osservato della statistica test è
f(n-2)Sxx, v8·436.9
y SSE (b1 - 1) = 2.64 (1.0192 - 1) = 36.386 · 0.0192 = 0.699
Dalla tavola della probabilità cumulata si ha che la probabilità a sinistra del valore 0.699
per la t 8 è 0.748. Si deduce che il p-value è dato da (1- 0.748) · 2 = 0.504 un valore che
ci motiva fortemente a non rifiutare l'ipotesi nulla.
Esercizio 0.2.21 o
L'osservazione congiunta di tre va X, Y e Z ha prodotto il campione di dimensione n =5

riportato nella tabella seguente
X~ ,~
i Xi Zi Yi X iZi zi X iYi Zi Y i
1 1 0.5 1 1' 0.5 0.25 1 0.5
2 - 2 0.5 - 1 4 -1 0 .25 2 -0. 5
3 o 0.5 - 1 o o 0 .25 o - 0.5
4 - 1 0.5 o 1 -0. 5 0 .25 o o
5 2 - 2 1 4 - 4 4 2 - 2
L i o o o 10 -5 5 5 -2.5
1) Si ipotizzi il legame lineare Y; =bo+ b1xi + Si e, sfruttando i valori appena ricavati e

riportati in tabella, si effettui la stima puntuale dei coefficienti boe b1 della regressione
lineare.
589
2) Ricordando l'espressione dell'intervallo di confidenza bilatero di livello I per b1cioè:
SSE - l + 'Y SSE

(n _ 2)Sxx < b1 < b1 + tn-2(- 2 -) (n - 2)Sxx
dove SSE = Syy - b1Sxx calcolare un intervallo di confidenza al livello 90% per il
coefficiente b1 della regressione (può essere utile sapere che lo 0.95 quantile della t con 3
gradi di libertà è pari a 2.353).
t} = O quindi= I:~=l (Yi - y) 2 = I:~=l y;= 4 quindi SSE = 4- (0.5) 2 · 10 = 1.5
Syy
e
.I SSE {T:s 1+ 1 .I
y (n _ 2)Sxx = y :f'"lO = 0.2236. tn-2(- 2 -)y
SSE
(n _ 2)Sxx = 2.353 · 0.2236 =
0.526 perciò l'intervallo di confidenza cercato è l'intervallo della retta che ha per estremi
0.5 ± 0.526 cioè (-0.026, 1.026).
3) Ora si ipotizzi il legame multilineare Y; = bo+ b1 xi + b2zi + Si e, sempre sfruttando
i valori riportati in tabella, si effettui la stima puntuale dei coefficienti b0 , b1 e b2 della
regressione multilineare. Si ponga al solito
e si usi la notazione matriciale.
o
0.2
0.2
Esercizio 0.2.22 o
Una compagnia mineraria preleva da un fondale oceanico venti campioni nei quali misura
in microgrammi la presenza di feldspati (x) e di uranio (y). Questi i dati osservati:
590
X;, feldspato Yi, uranio x2 XiYi 11 5 15 25 225 75

YT
1 10 12 '
100 144 120 12 9 5 81 25 45
2 19 15 361 225 285 13 12 25 144 625 300
3 17 12 289 144 204 14 8 20 64 400 160
4 8 8 64 64 64 15 9 12 81 144 108
5 5 10 25 100 50 16 26 15 676 225 390
6 4 7 16 49 28 17 19 19 361 361 361
7 8 5 64 25 40 18 20 24 400 576 480
8 16 20 256 400 320 19 2 8 4 64 16
9 21 19 441 361 399 20 3 15 9 225 45
10 26 20 676 400 520 ~ 247 286 4137 4782 4010
1) Plottare i dati osservati e trovare con il metodo dei mm1m1 quadrati la retta
regressione di Y su x.
27 uranioversusfeldspatl
26
25
14
23
22
21
10
e;:
E 17
t2 15
16
14
j:!
E 13
~ 12
.2 11
~ 10
~ 9
8
7
8
5
4
J
,o
2
+-,,-.,.-,--,-..-,.....-r--.--,--.- ...... -...-,-...--..--,-,--,--,-..-,,-.,.-,--,-..-,.--,
O 1 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 13 24 25 26 27 28
f,kltlpotllnm~«l),.,,.,,I
Dai dati osservati si ha:

n= 20, ~XiYi = 4010, ~Xi= 247, ~x;= 4137, ~Yi = 286, ~y; = 4782
- ~ x Y: - nxY A _ -
Sostituendo i valori trovati in b1 = ~' ' _2 ; bo = Y - bi"x abbiamo

x.2 -nx
-- 4010 - 20. 247 . 286
b1= ~ XiYi - nxy = 20 20 = 477.9 = 0.4398
~ xf - nx 2 ( 247) 2 1086.6
4137-20 20
286 247
20 -
A A
bo = y - b1x = 0.4398 20 = 8.8685
2) Calcolare il valore della variabilità totale Syy

Syy = ~(Y; - Y) 2 = ~ Y;2 - nY 2 da cui:
Syy = ~Yi 2
- ny-2 = 4782- 20 · ( 286) 2 = 692.2
20
3) Calcolare il valore della varianza residua SSE = ~(Y; - Y;)2 per i dati osservati.
591
A 2 A
SSE = I:(Y; - Y;) = Syy - b1SxY da cui:

247 286)
SSE = 692.2 - 0.4398 · ( 4010 - 20 · 20 · 20 = 482.02
4) Ricordando che SSr = SSR + SSE calcolare quanta parte della variazione di uranio
' . . . ' SSR SSR
e spiegata dalla regress10ne, c10e cosa vale SSr = Syy?
Dai conti precedenti si ha SSR = Syy - SSE = 692.2 - 482.02 = 210.18 da cui:
SSR = 210.18 = 0.3036
Syy 692.2
Concludiamo che il 30.36% della variazione dell'uranio è spiegata dalla variazione del
feldspato.
SSR è i'l qua d rato d'i r =
N ota: Si. noti· ch e -8 SxY ·
, uno stimatore d e1 coe fficiente
· d'i
YY ySyySxx
. cov[X,Y]
regress10ne p = ----.
axay
5 ) Ricordando che
V (n - 2)Sxx ,
SSE
)
(b1 - b1 è una quantità pivotale scrivere la formula
che individua la regione critica per il test d'ipotesi Ho : b1 = /3 contro l'alternativa
Ha : b1 -/- /3a livello 1 - 1 .
J(n-2)Sxx, ) .
SSE (b1 - b1 rv tn-2 da cm
, 1+, SSE 1 + 'Y

/3+ tn-2(-
A
b1 < j3 - tn-2(- 2 -) ( )S b1 > 2 -)

n- 2 xx (n - 2)Sxx
6) In base ai conti precedenti decidere Ho : b1 = O contro l'alternativa Ha : b1 -/- O a

livello 1 - 1 = 0.05. Rifiutando l'ipotesi nulla si accetterà che c'è relazione tra presenza
di feldspato e presenza di uranio nei campioni prelevati .
.I
V
SSE
(n _ 2)Sxx =
482.02 1+ 1
18 . 1086 _6 = 0.157; tn-2(- 2 -) = tl8(0.975) = 2.101.
l+, ISSE
tn-2(- 2 -)y (n _ 2)Sxx = 0.157 · 2.101 = 0.33
la regione critica è perciò: (-oo, -0.33) U (0.33, oo ).
Il valore di b1osservato è 0.4398 che cade nella regione critica quindi rifiuto.
Voi siete lo statistico della compagnia mineraria. Suggerire alla vostra azienda di rifiutare
l'ipotesi nulla significa suggerire la presenza di una relazione tra feldspati e uranio. Se
vi danno ascolto investiranno milioni di dollari nell'estrazione dell'uranio dai fondali
oceanici. Vi chiedono perciò di essere ben sicuri di quello che state affermando.
7) Cosa fareste per diminuire il rischio di sbagliare?
Abbassando il livello di significatività del test abbassereste la probabilità dell'errore di
primo tipo cioè la probabilità di sbagliarvi rifiutando l'ipotesi nulla quando è vera.
8) Cosa succederebbe se si facesse un test a livello 1 - 1 = 0.01?
In questo caso ~ = 0.995 e tis(0.995) = 2.878. Con questo valore si ha:
1 +,
tn-2(--)
2
V( _SSE)S
n 2 xx
= 0.157 · 2.878 = 0.45185
e la regione critica diventa:
(-oo, -0.452) U (0.452, oo)

592
In questo caso non si rifiuta l'ipotesi nulla. Per la compagnia, prima di procedere sono
molto consigliate ulteriori indagini.
Esercizio 0.2.23 o
Consideriamo le seguenti tre diverse distribuzioni congiunte:
Y\X -1 o 1 Y\X -1 o 1 Y\X -1 o 1

-1 1/ 6 o 1/ 6 -1 1/ 9 1/ 9 1/ 9 -1 o o 1/3
o o 1/3 o o 1/ 9 1/ 9 1/ 9 o o 1/ 3 o
1 1/ 6 o 1/ 6 1 1/ 9 1/ 9 1/ 9 1 1/3 o o
a) b) e)
1) Trovare le distribuzioni marginali delle distribuzioni congiunte assegnate nei tre casi
a), b), e).
In tutti e tre i casi risulta:
1/3 sex= -l 1/3 se y = -l

f x (x) = { 1/ 3 se x = O jy(y) = { 1/3 se y = O
1/3 sex= l 1/3 se y = l
2) Nei tre casi a), b), e) trovare le probabilità dei seguenti eventi
A= {X::; O};B ={X::; Y};C ={X= -Y}.
a) b) e)
P [A]= 2/ 3 2/ 3 2/ 3
P[B] = 5/ 6 2/ 3 2/ 3
P[C ]= 2/ 3 1/ 3 1
Si consideri E[(Y - aX - ;3)2]. Mostare che perché E[(Y - aX - ;3)2] sia minimo deve
cov[X,Y]
essere (1 = E[Y] - aE[X] e a = var[X] tali che
Suggerimenti: trovare prima (1 ricordando che data una va W il minimo di E[(W - 0)2]
si ha per 0 = E[W]. Perciò considerando W = Y - aX il valore di ;3 è ...
Per trovare a derivare rispetto a a l'espressione E[(Y - aX - E[Y] + aE[X])2] ottenuta
da E[ (Y - aX - ;3)2] sostituendo a ;3 il valore trovato
min E[((Y - aX) - ;3)2] = E[Y - aX] = E[Y] - aE[X]
fJ
~E[((Y- aX)- E[Y] - aE[X])2] = ~E[(Y- E[Y]- a(X - E[X]))2] = ~E[(Y-
da da da
E[Y] - a(X - E[X]))2] = &
Ora E[(Y - E[Y] - a(X - E[X]))2] = E[(Y - E[Y]) 2 ] - 2aE[Y - E[Yl]E[X - E[Xl] +
a 2 E[(X - E[X])2] da cui segue:
cov[X,Y]
& = O {::} -2cov[X, Y] + 2avar[X] = O {::} a = -..c....,---,--c. che è immediato vedere
var[X]
trattarsi del minimo. Si conclude che:
min E[((Y - aX) - E[Y] - aE[X]) 2] = cov[X, Y]

°' var[X]
593
La va y = cov[X, Y] X + E[Y] _ cov[X, Y] E[X] = cov[X, Y] (X - E[X]) + E[Y] =
var[X] var[X] var[X]
X-E[X]
Pxyay-----"---'- + E[Y] rappresenta lo stimatore che minimizza l'errore quadratico
ax
medio di Y rispetto a X.
Esercizio 0.2.24 o
Sia X rv N(µ, a 2) con µ e a incognite.

1) Scrivere, motivando brevemente, un intervallo di confidenza bilatero di livello 1 = 0.95
perµ.
Estratto un campione casuale (Xi, X2, .. , Xn) (een) da N(µ, a 2) sappiamo che la sta-
tistica t = °;;--:}¾ è una t-8tudent con n - l df, dove X è la media campionaria e
8 = n~ 1 I:; (X; - Xn) 2 è la varianza campionaria.
2
Allora P[-a :S t :Sa]= 1 {::}P[-t{1tl') :S t :S t{1t,,)] = 1 dove tn-1(a) è l' a-quantile
della t con (n - 1) df è cumulata una massa pari ad a.
Con facili conti si conclude che
- 1+, e - 1+, e
X - tn-1(- 2 -)8/vn :S µ :S X+ tn-1(- 2 -)8/vn
rappresenta un intervallo di confidenza al 1001 % per il parametro µ cercato.
2) Scrivere, motivando brevemente, un intervallo di confidenza con limite inferiore (uni-
laterale destro, cioè del tipo ( a, +oo)) di livello 1 = O,95 per a 2.
Consideriamo ancora un ccn (X 1, ., Xn) con X e 8 2come al numero precedente. Sappiamo
che x;-1 = (n-O'V82 è una chi-quadro con (n - 1) df quindi è una quantità pivotale.
Indichiamo con Xn- 1(a) l' a-quantile della x;_
1 (cioè Xn- 1(a) = (a)) F;l
L'intervallo con limite inferiore si ottiene da P[(n-0'1)S2 :S x;_ 1('Y)] = 1 per cui
(n - 1)8 2 2
2 <a
Xn-1('Y) -
è l'intervallo cercato.
3) Utilizzare il risultato al punto 2) per decidere su un test di ipotesi semplici Ho =
{a 2 = a5 = 25} contro H 1 = {a 2 =ai= 36} fissata la probabilità di errore di II tipo
/1= 0.1
Osservazione.
Supponiamo di avere un test d'ipotesi semplici sulla varianza, H 0 : a 2 = a5 contro
H1 : a 2 = a1. Lo stimatore è 8 2 = - 1- I:(X;-X)2, di cui sappiamo (n - ;) 82 ,.__, x;_ 1.
n-l a
In un caso di questo genere si decide un limite e tale che se 8 > e si rifiuta mentre se 8 2 <
2
e non si rifiuta. Il valore e si può ragionevolmente ottenere dal livello di significatività 1- 1
del test nel modo seguente. Da 1- 1 , probabilità dell'errore del I tipo, si ha, sotto ipotesi
(n - 1)8 2 a5
Ho, P[ > x;_ 1('Y)] = 1- ,. Segue che e= --x;_ 1('Y) e P[8 2 >e]= 1- 1 .
a 02 n- l
2
La Re è dunque (~x;_ 1('Y),+oo). Se s 2, il valore osservato di 8 2, cade nella Re si
n-l
rifiuta.
Per trovare l'errore del II tipo ;3occorre calcolare P[8 2 < e] sotto ipotesi H 1. Cioè occorre
(n-1)8 2 (n-1) a5 2
calcolare P[ 2 < -- 2-c = 2 Xn-1h)].
a1 a1 a1
594
Naturalmente si può procedere in un mondo alternativo cercando la regione di accet-
tazione (cioè Re 0 ) invece della Re. Basta fissare l'errore del II tipo (3 e ricavare
e tale che, sotto ipotesi H 1 , P[8 2 < e] = (3. Quindi ragionare in modo analogo al
a2
precedente. La regione di accettazione risulta (-oo, --
n- l
1 -x;_1 ('y)). Per trovare l'er-
rore del I tipo occorrerebbe ora calcolare P[8 2 > e] sotto ipotesi H 0 . Cioè calcolare
(n - 1)8 2
P[ -'---~2'--- (n - 1) _ ai 2 ( )]
> 2 e- 2 Xn-1 Ì ·
ao ao ao
Risolviamo ora la richiesta 3). Dal punto 2) abbiamo che P[8 2 :S (n~ijX;_ 1 ('y)] = Ì·
Ponendo
a2 =ai= 36 e ì = 0.1 = (3 la regione di accetazione è {8 2 :S (:Jl)x;_1 ('y)} =
{ 8 2 :S (n~l)x;_
1 (0.l)} mentre la regione critica è { 8 2 :S (n11)x;_
1 ('y)}e. Si conclude
che se la determinazione s 2 di 8 2 osservata è minore di (n~l) 1 (0.1) rifiuto l'ipotesi x;_

alternativa H 1 con probabilità di sbagliare (errore del II tipo, infatti se rifiuto H 1 accetto
Ho) pari a 0.1.
Esercizio 0.2.25 o
Come esempio di calcolo di responsi ottenuti per interpolazione attraverso la retta di re-
gressione, osserviamo questa tabella ricavata dall'esempio 3.1.17 (plot dei dati in figura):
sigarette/giorno O 5 10 20 40 50 60 80
probabilità di cancro 0.059 0.114 0.192 0.259 0.340 0.406 0.458 0.556
•'umo
Rca_no.l-onc-li11,coart• Rcl:rrnNl•ot?lhu!1u-c-
u.;oo Y•
'V• tl!Hi. rtUit di r~rdSion(', R = rrsidui
o.o.s
u
Graricodr-ira.idui (R n \'1
0,6(1(1 O,O•
HI
0,(~0
0..~0tl
0,010
(),-100 O,OIO
0,Jll(J 0,00 0
O,lllO -0,GIO
--11,IJ.:2
0
0,100
-0,0JO
O,()(J{) -0,lt~O
•11,JOO
,
-0,0!Q "
o 10 15, 20 2s .:mJS "u -'iS $0 5$, 60 6S 70 75 80 lii$ iì,OflO Il, IOO 11
,200 iì.JllO 11
,-mo 11
,SUO 11
.,00 Il,71H)
Utilizzando i dati precedenti vorremmo sapere la probabilità che un individuo che fuma
mediamente 35 sigarette al giorno contragga un cancro. Sempre dal capitolo 3 sappiamo
che
1 - P[x] = t · qx
Da questa passando ai logaritmi si ha: e- 0 -009 = 0.991

ln(l - P[x]) = lnt + xlnq.
Così ponendo Y = -ln(l - P[x]), bo= -lnt, b1 = -lnq otteniamo il solito modello
lineare Y =bo+ b1 x +se si possono stimare i valori bo e b1 con le tecniche già viste. Si
ottiene:
595
b1 = 0.009 e bo= 0.088 da cui i= e-bo= e- 0 -088 = 0.916, q= e-b, = e- 0009 = 0.991 da
cui la relazione finale:
P= l - 0.916 · (0.99lt
Qui, sostituendo a x 35 si ha il valore cercato 0.33247.
Esercizio 0.2.26 o
Il campo magnetico del cervello umano va da 0.1 a 1.0 pT (picoTesla = 10- 12Tesla).
Quello terrestre va da 31 µT (microTesla = 10- 6 Tesla) alla latitudine di 0° (equatore)
a 58 µT alla latitudine di 50°.
Il campo magnetico misurato a 1Iilano a una latitudine di 45.47°
x ; = anno + 1900 Yi = µT x ; = anno + 1900 Yi = µT

o 45.133 55 45.729
5 45.075 60 45.819
10 44.977 65 45.924
15 44.866 70 46.055
20 44.81 75 46.233
25 44.82 80 46.378
30 44.864 85 46.463
35 45.005 90 46.591
40 45.197 95 46.701
45 45.386 100 46.859
50 45.556 105 47.024
La sintesi dei dati è data da:

I: x; = 1155; I: y; = 1005.465; I: x;y; = 53267.4; I: x? = 82775; I: YT= 45964.181
Si ipotizza un legame lineare tra le x e le y, cioè:
Y = b1x +bo+ s
1 Calcolare la stima b1 e bo dei coefficienti b1 e bo ricavata dai dati.

g/
Intanto x = 1~~ 5 = 52.5;y = 100 65 = 45.703;x 2 = 2756.25.
b = Sxy = I: x;y; - nxy = 53267.4 - 22 · 52.5 · 45. 703 = 480.44 = 0 _0217
~1 Sxx ~ I: x7- nx2 82775 - 22 · 2756.25 22138
bo = y - b1 · x = 45. 703 - 0.0217 · 52.5 = 44.564
Ora si tenga conto che SSR = b1SxY = 0.0217 · 480.44 = 10.426
2 Calcolare r 2
Intanto y 2 = 2088. 76; Syy = I: YT- ny 2 = 45964.181 - 22 · 2088.76 = 11.461. Quindi:
r 2 = SSR = 10.426 = 0 _91

Syy 11.461
Si intende ora verificare se il modello
Y = bo+ b1x + b2z + s

dove z = x2, meglio si adatta ai dati.
Ricordiamo che la stima puntuale bo, b1 e b2dei coefficienti della regressione multilineare
è data, in forma matriciale, da:
596
( l(
0.342885375 -0.012747036 9.88142· 10- 0 \ 1005.465
-0.012747036
9.88142·10-o
0.000667702
-5.92885·10-o
-5.92885·10-o
5.64653·10-o
53267.4
3836721.75 Il
I
44.88050395 )
= ( 0.002681959
0.000181169
3 Si calcoli il valore di SSe sui dati osservati cosiderato che f;TxTy = 45963. 7313.
Sappiamo che: SSe = yTy - bTXT y. Sappiamo che yTy = I: YT= 45964.181. Allora
SSe = 45964.181- 45963.7313 = 0.4497

4 Considerato che Syy = SSe + SSR calcolare SSR.
SSR = Syy - SSe = 11.461 - 0.4497 = 11.011

5 Calcolare R.2 = 88
Syy
R
R.2 = SSR = 11.011 = 0.96074 (*)

Syy 11.461
Osservazione importante Siamo in una situazione molto delicata dal punto di vista
numerico.Si osservi come cambiano le cose con piccole modifiche (troncamenti) dei dati.
-(
0.342885375 -0.012747 1005.465 \
0.0000988 ) ( 44.88 )
-0.012747036
0.0000988
0.0006677
-0.0000059
-0.0000059
0.00000006
53267.4
3836721.75
I = ( 0.00268
0.00018
Ricalcoliamo il valore di SSe sui dati osservati, considerato che f;TxTy = 45958.63575.
Sappiamo che: SSe = yTy- f;TxTy e che yTy = I:Yr = 45964.181. Allora
SSe = 45964.181 - 45958.63575 = 5.5453

Ricalcoliamo SSR.
SSR = Syy - SSe = 11.461 - 5.5453 = 5.9157

Ricalcoliamo R.2 = ~syyB •
R.2 -_ SSR -_ 5.9157 -_ O.516 16

Syy 11.461
Una differenza enorme rispetto al valore trovato in (*)- Considerazioni sui danni del
troncamento dei dati esulano comunque dai contenuti del nostro corso.
Riprendiamo l'esercizio
597
6 Indicare lo stimatore cf2della varianza a 2 del rumore s e la sua distribuzione.
~2 SSe 2
a = n - 3 ,.__,
Xn- 3
7 Indicare l'espressione della statistica test e la sua ditribuzione per verificare l'ipotesi
La statistica test è:
8 Considerato che
~
0.342885375 -0.012747036 9.88142·10- 5
Co2 ) (
Cn -0.0127 4 7036 0.000667702 -5.92885·10- 0
c21 9.88142· 10- 5 -5.92885·10-b 5.64653· 10-~
indicare con precisione la regione critica RC per il test (L) a un livello di significatività
1 - 'Y= 0.01 (può essere utile lo sapere che P[trn < 2.861] = 0.995).
La RC si ricava da P [lb;~o
>a] I = 1 - 'Y = 0.01. Ciò implica a = t 19 (0.995) =
2.861.
Ora:
VC22
= V5.64653 · lQ-S = 2.3762 X 10- 4
~=[!!i= J 0 ~~97 = 0.15385
b2 = 0.000181169
Da questo si ha:
0.000181169 1.81169
0.15385 · 2.3762 X lQ- 4 0.15385 · 2.3762 = 4 ·9557
La statistica test cade nella RC quindi si rifuta.
9 Quanto vale il p - value? (può essere utile sapere che P[trn < 4.9557] = 0.999956).
Che conclusioni possiamo trarre dal p - value?
Dal suggerimento il peso a sinistra del valore osservato della statistica test è 0.999956;
quindi alla sua destra c'è 1 - 0.999956 = 4.4 x 10- 5 _
Il p-value è perciò pari a 2 x 4.4 x 10- 5 , un valore molto piccolo che ci motiva fortemente
a rifiutare.l'ipotesi nulla.
XXl
Appendice 1
Il salame fa bere,
bere disseta,
dunque il salame disseta
Miche] de Montaigne (1533-1592)
Per comodità degli studenti e per uniformità di linguaggio abbiamo aggiunto una
breve appendice di argomenti di matematica di cui si fa uso in questo volume.
0.1 Arrotondamento ( dei dati)

Si prenda un numero non intero, che abbia, diciamo M cifre decimali. Si voglia ridurlo
a un numero con N cifre decimali tralasciando quindi M - N cifre. Si prendano queste
lv! - N cifre e le si divida per lQ(M-N)_ Sia y = M-N ~b\r!~ri)asciateil numero ottenuto.
A seconda dei casi che possono presentari ci si comporta nel modo seguente:
y < 0.5; si tronca il numero alla N-esima cifra
y > 0.5; si tronca il numero alla N-esima cifra e si somma l · 10-N
y = 0.5; se la N-esima cifra è un numero pari si tronca, se la N-esima cifra è un
numero dispari la si sostituisce con il numero pari più vicino.
Esempi Arrotondando ai centesimi, cioè alla seconda decimale (N = 2) abbiamo:
6
17.016 diventa 17.02 cioè si aggiunge 1 · 10- 2 perché y = 10 = 0.6 > 0.5;
17.013 diventa 17.01 cioè si tronca perché y = 0.3 < 0.5;
17.015 diventa 17.02 perché y = 0.5, la N-esima cifra è dispari (1), e il numero pari
più vicino a 1 è 2;
17.045 diventa 17.04 perché y = 0.5, la N-esima cifra è pari (4);
17.095 diventa 17.08 perché y = 0.5, la N-esima cifra è dispari (9), e il numero pari
più vicino a 9 è 8;
17.04501 diventa 17.05 perché y = 0.501 > 0.5;
17.096 diventa 17.1 cioè si aggiunge l · 10- 2 perché y = 0.6 > 0.5.
Se il numero è negativo si prende il suo valore assoluto, si agisce come sopra e alla fine
si cambia segno.
XXll
0.2 Teoria degli insiemi

Consideriamo un insieme di oggetti (punti) privo di struttura (non sono definite relazioni
tra punti: per esempio, se si tratta di numeri reali, non sono definiti l'ordine, la somma,
... ).
Definizione 0.2.1 La totalità dei punti è detta insieme universo ed è indicata con n.
Esempio 0.2.2 n= N = {O,1, 2, 3, ..}, n = JR, n = { abitanti del Comune di Milano}
Un punto di n lo indichiamo con w. Individuata una parte A di n per indicare che un
elemento w sta in A si scrive w E A (oppure w ,ÉA per indicare che non ci sta).
Definizione 0.2.3 Sottoinsieme: Se ogni elemento di un insieme A appartiene anche
a un insieme B, diciamo che A è un sottoinsieme di B ( oppure che A è contenuto in B)
e scriviamo: B :::>A oppure A e B.
Oss. 1 Quando vorremo evidenziare che esistono elementi di B che non appartengono
ad A scriveremo A e B e A =f.B (oppure A ç B) e diremo che A è strettamente
contenuto in B.
Definizione 0.2.4 Cardinalità di un insieme. Se esiste una corrispondenza biuni-
voca tra un insieme n e l'insieme dei primi n interi allora la sua cardinalità #(O) è
finita e uguale a n. Se invece l'insieme n può essere messo in corrispondenza biunivoca
con gli interi naturali N la sua cardinalità #(O) è numerabile e si indica con ~o (leggere
aleph zero). n ha invece cardinalità e ( e si dice avere la potenza del continuo) se può
essere messo in corrispondenza biunivoca con i numeri reali JR.
Oss. 2 n < ~o < e nel senso che un insieme che ha cardinalità finita è strettamente
contenuto in uno che ha cardinalità numerabile che, a sua volta, è strettamente contenuto
in un insieme che ha potenza del continuo. Una delle domande che non hanno ancora
trovato risposta nella matematica riguarda l'esistenza di una cardinalità intermedia tra
~o e c.
Definizione 0.2.5 Insieme vuoto è un insieme privo di punti e si indica con 0.
Siano ora A, B e n.
Definizione 0.2.6 Uguaglianza: A= B se e solo se A:::>B e B :::>A.
Definizione 0.2. 7 Insieme complementare: tutti i punti w E 0/\w ét,A costituiscono
un insieme detto complementare di A in n, che si indica con Ac oppure A, oppure (O-A).
Definizione 0.2.8 Insieme unione: è l'insieme degli w tali che w E A oppure w E B
e si indica: A U B = {w I w E A V w E B}. Talvolta invece di A U B scriveremo A+ B.
Definizione 0.2.9 Insieme intersezione: è l'insieme degli w tali che w E A e w E B
e si indica: A n B = {w I w E A I\ w E B}. Talvolta invece di A n B scriveremo AB.
Definizione 0.2.10 Insieme differenza tra A e B è l'insieme A - B = {w I w E
A/\w ,ÉB} dove A,B e n.
Definizione 0.2.11 Insieme differenza simmetrica tra A e B è l'insieme
AL:. B = (A - B) U (B - A)
Definizione 0.2.12 Insiemi disgiunti: due insiemi A e B si dicono disgiunti se AB =
0. I sottoinsiemi A1, A2, ... , An si dicono a due a due disgiunti se lfi, j; i =f.j, AiAj = 0.
XXlll
Diagrammi di Venn
AuB=A+B AnR=AR A-B Ab.B A'
Legge commutativa: A U B = B U A; A n B = B n A .
Legge distributiva: AU(BnC) = (AUB)n(AUC): An(BUC) = (AnB)U(AnC)
Legge associativa: A n (B n C) = (A n B) n C: A U (B U C) = (A U B) U C.
Teoremino 0.2.13 A,B e n::::}

A= AB u AB 0 mentre 0 = AB n AB 0
A e B =}AB= A; A U B = B.
(Ac)c = A
An = A; A U O = n; A0 = 0; A U 0 = A.
AA 0 = 0; A u A 0 = O; AA = A; A U A= A.
(A UB) 0 = A 0 B 0 ; (AB) 0 = A 0 uB 0 .
A-B = AB 0
Occorre osservare che A - (B - C) =f. (A - B) - C, cioè per l'operazione differenza
non vale la proprietà associativa, come ovviamente non vale quella commutativa. Infatti
A-(B-C) = A(B-C)c = A(BC 0 ) 0 = A(B 0 uC) = AB 0 uACmentre (A-B)-C=
(A - B)C 0 = AB°C Per cui la scrittura A - B - C non significa nulla.
0 .
Sia A un insieme di indici. Sia {A-', À E A} una collezione di sottoinsiemi di n.
Definizione 0.2.14 U A-' è l'insieme formato dai punti che stanno in almeno un A-'.
ÀEA
n
ÀEA
A-' è l'insieme formato dai punti che stanno in ogni A-'.
Alcune formule importanti

(X)
An TA oppure A = limn T An significa A1 e A2 ... e An e ... I\ A= LJA;

n=l
n A;
(X)
An l A oppure A = limn l An significa A1 ::>A2 ... :::>An :::>••• /\ A =

n=l
n LJ LJnAk(T)
(X) (X) (X) (X)
limAn = limsupAn = Ak(&) limAn = liminf An =

n=lk=n n=lk=n
Osservazione: L'evento (•) si verifica quando si verificano infiniti eventi della succes-
sione An mentre l'evento (T) è l'evento che si verifica quando si verificano tutti gli eventi
della successione An con l'esclusione di al più un numero finito di eventi tra gli An
Teoremi di De Morgan
UA,\)c
( ÀEA nA
ÀEA
0
,\
n A-')c = u
( ÀEA Af
ÀEA
XXlV
Funzione indicatrice
Definizione 0.2.15 Funzione indicatrice (o caratteristica). Sia A e n. La funzione
indicatrice di A è una funzione I A(·) così definita:
I (w) = { O se w ~ A
A l se w E A
O per x < -l
x + l per - 1 :S x < 5
Per esempio la funzione f = { 11 _ x
per 5 :S x < 6
O per x ~ 6
può essere scritta, utilizzando la funzione indicatrice nel modo seguente:
f(x) = (x + l)I1-i, 5 )(x) + (11- x)I15 ,6 )(x)
0.3 Logica
Si considerino i seguenti simboli (tutti binari salvo la negazione):
"/\" = congiunzione; "-," = negazione;

"V" = alternazione; "::::}" = implicazione;
"{::}"=coimplicazione o equivalenza logica (anche "sse")
I simboli binari concatenano due proposizioni A e B; il valore di verità della concatena-

zione è collegato ai valori di verità di A e B come mostra la seguente tabella.
A B A /\ B A VB ,A A=}B A<=;,B
V V V V F V V
V F F V F F F
F V F V V V F
F F F F V V V
Per l'operazione di negazione, invece di ,A si può utilizzare A oppure A 0 .
Oss. 3 A? B = (B::::}A) I\ (A::::}B).

Esercizio 0.3.1 Esprimere "{=} J e "=} J tramite "/\J, "V J e "·J·
Esiste un legame simbolico tra logica e teoria degli insiemi che sfrutteremo poi con gli
eventi. La scrittura insiemistica A C B, ad esempio, si può pensare equivalente alla
scrittura logica A =} B, mentre A e equivale a ,A. Infatti se A e B sono eventi, A C B
significa che il verificarsi di A implica il verificarsi di B, cioè che B è vero quando A è
vero (mentre quando A non è vero, cioè non si verifica, può essere sia B vero che B non
vero, cioè B può verificarsi oppure no).
Definizione 0.3.1 Predicato: è una proposizione dipendente da una variabile e si

indica con A(x).
xxv
Definizione 0.3.2 Quantificatori: :3 e V sono i quantificatori rispettivamente esisten-
ziale e universale.
Oss. 4 quando un predicato viene quantificato, diventa una proposizione.
1) "ix : A(x) : è una proposizione; 2) :lx : A(x) : è una proposizione.
Come esempio di predicato quantificato si consideri la seguente definizione di limite di

funzione. Sia f(x) definita in T C R f(x) ha limite l per x che tende a xo e si scrive
limx-xo J(x) = l se e solo se:
dove con Ua si è indicato un qualunque intorno del numero reale a.

Valgono le seguenti:
I ,(:lx: A(x)) ="ix: ,A(x) I I ,("ix: A(x)) =:lx: ,A(x) I

Leggi di De Morgan:
I ,(A VB) =,AI\ ,B I I ,(A I\ B) = ,A V ,B I
0.4 Numeri binari

Nell'esempio del calcolo della cardinalità dell'insieme delle parti P(O) di un insieme di
cardinalità finita N = #(O) abbiamo scoperto che la cardinalità #(P(O) )dell'insieme
formato da tutti i sottoinsiemi di n è 2N.
Ogni sottoinsieme di n
è rappresentato da una stringa lunga N di O e 1 : a che numero
corrisponde la stringa che rappresenta tutto n, cioè la stringa {l, 1, 1, 1, ... , 1, l}?
Tale stringa corrisponde al numero
N-l
L 2i = 1 + 2 + 2 2 + · · · + 2N- l = 2N - 1 (C?)
i=O
Ci sono due modi per vederlo entrambi semplicissimi. Il primo: in tutto P(O) ci sono
2N elementi, la stringa {O,O,O,O, ... , O,O} che corrisponde all'insieme vuoto 0, più le
stringhe che corrispondono ai numeri binari
N-l N-l
eccetera 1, fino a 1111 ... 11 = ( I: I: 2i + 1.
(2)i)2. Quindi 2N =
i=O i=O
Un secondo modo per vedere (C?)viene da un risultato algebrico elementare: aN - bN =
(aN-1 + aN-2b + ... + abN-2 + bN-I)(a - b)
Con a = 2 e b = l si ottiene la (C?)
1Il simbolo (•)2 indica che scriviamo in base 2 del numero•.
XXVl
"Binarizzazione" dei numeri in base dieci

Per i numeri interi l'algoritmo si deduce da questo esempio:
nu1nero da "binarizzare" (n)io = 26

26: 2 = 13 resto o
13: 2 = 6 resto 1
6: 2 = 3 resto o
3: 2 = 1 resto 1
1: 2 = O resto 1
il numero binario è quello ottenuto leggendo la colonna dall'alto in basso cioè: 11010 =
(26)2
Per i numeri decimali l'algoritmo si deduce da questo esempio:
nurnero da "binar izzare" (n)io = 0.35 cifra riparto con

l
0.35 < 2 = 0.5 o 0.35
l l
0.35 > ')2 = 0.25 1 0.35- ')2 = 0.1
l
0.1 < ').3= 0.125 o 0.1
l l
0.1 > ')4 = 0.0625 1 0.1- ')4 = 0.0375
l l
0.0375 > ')5 = o, 03125 1 0.0375- ')5 = 0.00625
0.00625 < ')16 = o, 015625 o 0.00625

l .
0.00625 < ')7 = 0.0078 125 o 0.00625
l l
0.00625 > ').8 = 0.0039 0625 1 0.00625- ').8 = 0.00234375
0.00234375 > 219 = 0.001953125 1 0.00234375- 219 = 0.000390625
l
0.000390625 < 'JlO= 0.0009765625 o 0.000390625
eccetera ...
Se ci arrestiamo qui il binario corrispondente è
0.0101100110
e vale
1 1 1 1 1 1 1 1 1 1
0--+l·
2
-+O·
22
-+l·
23
-+l·
24
-+O·
25
-+O·
26
-+l·
21
-+l·
28
-+O·
29
-
210
= 0.349609375
Questo valore approssima il numero dato. Proseguendo si otterrebbero infinite cifre O e

1. Il numero di tali cifre è finito ( cioè dopo un certo posto ci sono solo O) se e solo se il
numero di partenza si può scrivere esattamente come somma di certe potenze negative
di 2.
Esempi:
XXVll
(n)w parte intera parte frazionaria va lore troncato errore

di (mh di (mh di (mh
0.0625 = 2- 4 o .0001 0.0625 o
0.1 o .0001100110 ... 0.099609375 0.000390625
0.25 = 2- ~ o .01 0.25 o
0.35 o .0101100110 0.349609375 0.000390625
0.5 = 2- 1 o .1 0. 5 o
1 = 2° 1 1 o
87 1010111 87 o
256 = 2" 100000000 256 o
Corrispondenza tra le stringhe infinite di O e 1 e i numeri reali

Il procedimento trovato ci dice che per ogni reale in [O,l] esiste una stringa di O e 1 che
lo rappresenta.
Viceversa si pensi alla seguente serie geometrica:
+oo 1 +oo 1
I:
k=O
2k = 2 ::::}I:
k=l
2k = 1-
+oo a
Se pensiamo a coefficienti ak = O oppure ak = 1 si ha: O ::; I: 2~ ::; 1 dove l'uguaglianza
k=l
a destra vale sse Vk : ak = O mentre quella di sinistra vale sse Vk : ak = 1. Ciò significa
che a ogni stringa infinita di O e 1 si può pensare associato un numero reale compreso
tra O e 1. C'è dunque corrispondenza biunivoca 11 tra le stringhe infinite di O e 1 e i
reali. Infine poiché a ogni stringa del tipo {00100111010010101001010 ... } corrisponde
un sottoinsieme dei naturali (quel sottoinsieme fatto dei numeri interi k tali che ak = 1)
l'insieme di tali stringhe è in corrispondenza biunivoca con l'insieme delle parti di N. Tale
insieme ha perciò la potenza del continuo.
0.5 La formula di Stirling

Utile per valutare il comportamento di n! è la seguente formula:
n!~nne-n~ (1)
oppure n! = (; r v"27rneO"n con o< Cln< l~n
0.6 Combinazioni con ripetizione

Supponiamo di avere n oggetti (distinguibili, numerati dal a n), di voler creare campioni
(cioè stringhe) di dimensione r estraendo dagli n oggetti, ma reimbussolando ogni volta
II La corrispondenza non è proprio biunivoca. Infatti, per esempio 0.11000000000 ... e 0.1011111111 ...
rappresentano lo stesso numero.
XXVlll
(con ripetizione di oggetti dunque). Conveniamo che due stringhe differiscano fra loro
solo per numero di volte che compare un oggetto ma non per l'ordine con cui gli oggetti
compaiono. Quante stringhe otteniamo?
Immaginiamo di agire così: fissiamo n spazi con (n + 1) separatori:
1 2 3 4 5 6 7 n- l n
I I I I 1 .......... 1
Prendiamo r asterischi* (r dimensione del campione) e consideriamo un allineamento di

separatori e asterischi, supponendo di lasciare fissi alle due estremità due separatori:
1 2 3 4 5 6 7 8 n-l n
11 **
~
2
11
-...-
* * * * **
6
11 I I *
'-'V"""'
1
1 ....... 1 ......._,_.,;
***
3
11
Questo allineamento codifica che il campione è fatto dall'oggetto due che compare due
volte, dall'oggetto quattro che compare sei volte, dall'oggetto otto che compare una volta,
eccetera. Tenendo fissi i due separatori esterni, ho in tutto (n-1) separatori, r asterischi
ed ognuno di questi allineamenti è fatto da una successione di separatori ed asterischi.
Quanti sono? Sono le permutazioni di (n + r - 1) oggetti, di cui r uguali fra di loro e
(n - 1) uguali fra di loro. Cioè:
(n+r-1)!
r!(n - l)!
( n +n_r-1 1) (n + rr- l) = C' n,r = Cn+r-l,r (2)
0.7 Coniche
Un cono a due falde è una figura geometrica nello spazio IR3 come rappresentato nella
figura seguente.
circonferenza
asse
La figura si ottiene prendendo una circonferenza, un asse che passi per il suo centro e
un punto su tale asse che chiameremo vertice V. Poi si prendono le infinite rette che
XXlX
uniscono la circonferenza a V. Queste rette si chiamano generatrici e la loro totalità

costituisce la superficie del cono (a due falde). Le coniche sono figure geometriche che si
ottengono intersecando il cono un con un piano che non passi per il vertice. Se il piano è
meno inclinato di una qualunque retta generatrice, l'intersezione genera una ellisse (A).
Se il piano ha la stessa inclinazione di una retta generatrice l'intersezione genera una
parabola (B). In questi casi il piano interseca una sola falda del cono. Se l'inclinazione
del piano supera quella della generica generatrice allora il piano interseca due falde e la
figura generata è un'iperbole (C).
-..'
'
------~---
'
A B e
Curve di questo tipo si chiamano coniche.
L'equazione in IR.2 di una conica si può scrivere nel modo seguente:
Sia
)
a11 a12 a13
A-( a12
a13
a22
a23
a23
a33
allora
)
a11 a12 a13 X
Q(x, y) - (x, y, I) ( a12 a22 a23 y

a13 a23 a33 1
Sia poi
B=( a11
a12
a12
a22 )
xxx
Teorema
La conica si dice degenere se det A = O.
Se la conica non è degenere allora
>o ellisse
se detB { = O la conica è una { parabola
<0 iperbole
Metodo dei minimi quadrati
Si tratta di minimizzare la funzione delle due variabili b0 e b1 data da:
n
S(bo, bi) = I: [y;-(ba+b1x;)] 2 = nbl+ I: x7b1 +2 I: x;bob1-2 I: y;bo-2 I: x;y;b1 + I: Y7
i=l
(3)
Allora
B=(
Poiché
det B = n I: x7 - (I: x;) 2 = n(I: x; - nx2 ) = n I:(x; - :r) 2 >O

la (3) è un ellisse e, di conseguenza, in IR.3
S(b 0 , b1 ) è un paraboloide ellittico che volge
la concavità verso l'alto. Quindi l'unico punto a piano tangente orizzontale:
è un minimo.
0.8 Matrici e vettori

Parliamo solo di matrici e vettori reali, i cui elementi sono cioè reali. Per quanto riguarda
altri risultati che qui non sono sviluupati adeguatamente rimandiamo a un testo specia-
listico (per esempio R.Betti, Geometria e algebra lineare, Progetto Leonardo, Bologna
2000).
Definizione 0.8.1 Una tabella siffatta:
A=
si dice matrice di tipo (n, m): n sono le righe e m le colonne.

:l
XXXl
La mahice In - [ I 1
di tipo (n, n) si dice matrice Identica.
Definizione 0.8.2 Due matrici A e B si dicono conformabili (attenzione: in questo

ordine, A e B) se il numero di colonne di A è uguale al numero di righe di B. Se A e B
sono conformabili non è detto che lo siano B e A.
Il prodotto di due matrici A e B conformabili, rispettivamente di tipo (n, m) e (m, k) dà

luogo a una matrice Cdi tipo (n, k). L'elemento chk di posto h, k di C è rappresentato
dal prodotto scalare della riga h-esima di A per la colonna k-esima di B. Precisamente:
m
chk = I: ahjbjk
j=l
4 3
Esercizio: date le due matrici conformabili: A = [ ; -7 o
-2 o 6
scrivere la matrice C = AB.
Definizione 0.8.3 Si dice trasposta di una matrice A di tipo (n, m) la matrice AT o A'
di tipo (m,n) il cui elemento a[; di posto i,j è uguale all'elemento a1i di posto ji di A:
In -icolace ii vettoce colon= t - [ :: ] è =•matcice di tipo (n, 1) e t T -( t,, t,, .. , , t,.)
è un vettore riga di tipo (1, n). Ovviamente (t1, t2, ... , tn)T = t
Esercizio: scrivere la matrice di tipo (1, 1) (cioè lo scalare) risultato del prodotto tTt.
Esercizio: mostrare che l'elemento di posto ij della matrice di tipo (n, n) risultato del
prodotto tt T è dato da tit 1 .
Se A e B sono conformabili e B e C sono conformabili allora vale la proprietà asso-
ciativa del prodotto tra matrici, cioè:
(AB)C = A(BC)
Definizione 0.8.4 Una matrice A quadrata, cioè (n x n), si dice non singolare se
detA =/-O.Si dice poi inversa di A una matrice (n x n) A- 1 tale che:
dove I è la matrice identica che ha gli elementi della diagonale principale uguali a 1 e
tutti gli altri elementi uguali a O.
Valgono le seguenti importanti relazioni:
(AB) =B A
(4)
det (A - 1) = ( det A)- 1 = -- det A = det(AT)
XXXll
Sia ora:
a12 a1n
[ an
a21 a22 ann
A= . ]- [a,;]
anl an2 ann
Sia M;k il minore complementare dell'elemento a;k, cioè la matrice che si ottiene da A
eliminando la riga i-esima e la colonna k-esima.
Definizione 0.8.5 Si chiama cofattore del termine a;k il numero A;k = (-I)i+k det(M;k),
Con queste premesse il generico elemento di posto i, k della matrice inversa A- 1 è dato
, Aki .,
da aik = det A. Perc10:
A-1 _ [ , ] - [A;,k]I'
- aik - detA ·
La matrice A= [a;k] = [A;k]I' si dice matrice aggiunta di A.
Esempio: nel caso (2 x 2) si ha A = [ a 22

-a21
Definizione 0.8.6 Una matrice quadrata D si dice diagonale, D = diag(d;), se tutti

gli elementi fuori dalla diagonale principale sono nulli.
I è una particolare
D-[!~
matrice diagonale.
il
Teorema 0.8. 7 di Binet: se A e B sono due matrici quadrate dello stesso ordine
allora:
det(AB) = det A· det B
Definizione 0.8.8 Una matrice A quadrata, cioè (n x n), e simmetrica, si dice semi-
definita positiva, se Vr E IRn ===} rT Ar ~ O e definita positiva se Vr E IRn;r =J
O::::}rT Ar > O.
Risultato: Se A è definita positiva allora è invertibile.
Teorema 0.8.9 Sia B una matrice qualunque e A = BBT. Allora A è semide.fmita

positiva.
Dim.: Infatti Vr E IRn ===} rT Ar = rT BBT r = (BT rf BT r = IIBTrll 2 ~ O •
12) Se chiamiamo minori principali della matrice A i determinanti delle seguenti sotto-
matrici estratte da A in modo che le loro diagonali principali siano costituite da elementi
della diagonale principale di A
,, .. ,IAI
vale il seguente
XXXlll
Teorema 0.8.10 Condizione necessaria e sufficiente affinché la matrice quadrata sim-

metrica A con elementi reali sia definita positiva è che i minori principali siano tutti
positivi.
Una condizione equivalente può essere espressa in termini di autovalorim della matrice
come segue:
Teorema 0.8.11 Condizione necessaria e sufficiente affinché la matrice quadrata sim-

metrica A con elementi reali sia de.finita positiva è che i suoi autovalori siano tutti
positivi.
Un'altra condizione equivalente può essere espressa come segue:
Teorema 0.8.12 A è definita positiva sse esiste una matrice non singolare B tale che
A= BTB.
Definizione 0.8.13 Una matrice B si dice ortogonale se
Risultato: Se una matrice è ortogonale allora
Teorema 0.8.14 spettrale: se A è simmetrica (n.n) allora esiste una matrice ortogo-
nale B (n, n) tale che
diag(>.i) = D = BT AB
è diagonale e gli elementi Ài sono gli autovalori della matrice A.
Oss. 5 Inoltre se A è semidefinita definita positiva allora esiste H (n, n) tale che HHT =
H 2 = A. Il fattore H è a volte chiamato la radice quadrata di A per ragioni ovvie.
Infatti A = B DBT. Ora, se A è semide.finita positiva, tutti i suoi autovalori sono non
negativi ed esiste perciò D 1 12 = diag(>.t12), la matrice che ha sulla diagonale principale
la radice quadrata degli elementi della diagonale di D. Poniamo H = B D 1 12 BT : allora
H 2 = BD 1 12 BTBD 1 12 BT = A essendo BBT = I.
Teorema 0.8.15 Decomposizione di Cholesky: Data una matrice A di tipo (n, n),
simmetrica, tale che "ix =f.O,xT Ax > O (cioè definita positiva) allora la matrice A si può
fatto rizzare nel modo seguente:
dove T è una matrice triangolare alta con gli elementi della diagonale principale tutti
positivi.
Questa decomposizione si chiama decomposizione di Cholesky.
Dim.:
1} Poniamo t11 = vaii
2) Per j = l, 2, ... , n poniamo t 1j = aij
t11
3) Per i= 2, ... , n sia
msi chiamano autovalori di una matrice quadrata A le n soluzioni dell'equazione det(A-ÀI) = O dove
det(A - >-I) si chiama polinomio caratteristico della matrice.
XXXlV
Esempio 1: Trovare la matrice H di tipo triangolare alto (T = a

o ~ ] ) tale che
TTT = [ 16 ~3 ]
-3
[ ; ~ ] [ ~ ~ ] [ :~ 16
-3
-3
5
] da cui
o:2 = 16 ::::}o: = ±4
3
o:(3= ±(34 = -3 ::::}/3= =f 4
,2 ,2 ±-v"7I
+]·
2 9
(3 + = _ + = 5 ::::}'Y =
16 4
Quindi= matcire H può ffise<e [ :
h11
Esempio 2: Trovare la matrice H di tipo triangolare alto (H = [ ~
taleche HTH - [ ; : n
HT H - [ ~:: ~:: Ll[t ~::
l
~::
hy 1 = 9; h11h12 = 4; h11h13 = 4 da cui h11 = 3, h12 = ~' h13 = ~
h2
12 + h 222 -
-
9 d a cm. h2 -
22 -
9 - 916 c10e
. ' h 22 -- V{65
9
h13h12 + h23h22 = 4 da cui (~)2 + h23fi cioè h23 = - 196 ~

16 256
Infine
2
h 13 + h 223 + h 233 =
2
9 + 585 + h 33
.
= 9 da cm h33 = y. / 9 - 916 - 256
585
Vettori
Passiamo ora ai vettori cominciando da IR2 .

xxxv
X 7 Y
cos( 0)- ,~,r::;-:
y yX 7 XyY 7 Y
Y,
x,
X X
Il coseno dell'angolo 0 formato da due vettori di IR2 , X = [ xx21 ] e y = [ YY21] ' è

(2,1) (2,1)
dato da:
xry xry
cos 0 = ------ (5)
vxrxyyTy LxLy
dove, per esempio, Lx= Jxy +X§= vxrx.
Infatti
Il vettore Y
Ly cos 0
proiezione
= x;xy per il versore t
si ottiene perciò moltiplicando la lunghezza della proiezione,
che individua il vettore X. Conclusione:
Ragionando in un altro modo, il vettore proiezione Y di Y su X sarà un multiplo Xb

di X. Xb è Y quando il suo vertice coincide con la proiezione ortogonale del vertice di
Y su X, cioè il punto a distanza minima da tale vertice. Per ottenere b basta imporre
l'ortogonalità di Y - Xb con lo spazio Xa cioè \t'a; (Xa) T (Y - Xb) = O da cui si ottiene
il che può avvenire se e solo se
e quindi
xry
b = xTY(XTx)- 1
-------
xrx è uno scalare
xrx·
Pertanto:
XXXVI
(6)
Dal quadrato della distanza del vertice di Y dal vertice di Y si ricava immediatamente 1v
l'importante disuguaglianza di Schwarz che vale per qualunque coppia di vettori:
(7)
Y=Y+e
.-···-:.:···
.•.
IIY- vW ....--····
___
....
e \\I_IY
- Yll1
V
IIY- Yll1 = min { IIY - v W}
Da quanto detto il vettore Y proiezione di Y sullo spazio V realizza il mm1mo di

IIY- Xall2 . Perciò b= ~;~ è la soluzione, nel senso dei minimi quadrati V, dell'e-
quazione
Y-Xb=O
(2,1) (2,1)(1,1) (2,1)
Lo spazio V _j_ ortogonale a V è individuato dal vettore
e=Y-Y.
(2,1)(2,1) (2,1)
Quanto abbiamo detto per IR2 vale anche in !Rn.

Vediamo prima come si scrivono le cose per n = 3. L'equazione è
Y - X b = O (8)
(3,1) (3,2)(2,1) (3,1)
dove:
IV Infatti il quadrato è dato da
IIY-XxTyll2
xrx
(Y-XxTy)T
xrx
= (Y-XxTy)
xrx
= (yr _xTxTy)
xrx
(Y-XxTy)
xrx
(XTY)2 (XTY) 2 (YTY)(XTX)-(XTY) 2
= yTy _ 2---+XTX -- =--~------.Peri nostri scopi basta osservare
xrx xrx xrx
che il numeratore di questa frazione è non negativo, cioè (YTY)(XTX)-(XTY)2 2':O.
v Una soluzione vera e propria b di Y = Xb non esiste se Y non giace sulla retta per X.
XXXVll
e quindi V è generato da X 1 e X2.

La soluzione di (8) nel senso dei minimi quadrati è il vettore b che realizza il minimo di
IIY- Xbll 2 cioè che soddisfa la disuguaglianza:
3 3
L(Yi - b1x1- b2x~)2::;
L(Yi - b1x1- b2x~)2,
i=l i=l
per ogni b1, b2.

Vediamo ora IRn. Lo spazio V sia generato dai vettori colonna Xj di una matrice X =
(n,r)
[X1,X2, ... ,Xr]- Gli Xj sono supposti linearmente indipendenti (il che garantisce che
la matriceXTX sia invertibilev 1). Poniamoci il problema di trovare la soluzione b, nel
(r,r)
senso dei minimi quadrati VII, dell'equazione
Y-Xb=O
(n,l) (n,r)(r,l) (n,l)
cioè il vettore b che soddisfa la disequazione:

(r,l)
i=l i=l
Potremmo ricorrere al calcolo differenziale trovando il mm1mo di IIY- Xbll 2 ma, da

quanto detto in precedenza, è immediato convincersi che tale valore è quello per cui il
vettore Y - Xb è perpendicolare allo spazio V.
V 1Vale il seguente:
Lemma 0.8.16 Le colonne della matrice X sono linearmente indipendenti se e solo se la matrice
(n,r)
XTX è invertibile.
(r,r)
che è una conseguenza di
Lemma 0.8.17 rango( XTX) = rango( X )

(r,r) (n,r)
VII Anche in questo caso, se Y non giace nel piano generato da X, non esiste una soluzione vera e
propria b di Y = Xb.
XXXVlll
IIY- Xh112 =min { IIY- Xb 11

2}
Preso cioè un qualunque vettore Xa E V deve risultare:
Va : ( X a
(n,r)(r,1)
f ((n,l)
Y - X b )=O
(n,r)(r,l)
oppure
il che può avvenire se e solo se
xT y - xT X f, = o
(r,n)(n,1) (r,n)(n,r)(r,1) (r,1)
e quindi
(xrx)-1xr Y = f, (9)
(r,r) (r,n)(n,l) (r,1)
è la soluzione, nel senso dei minimi quadrati, cercata.
Esempio 0.8.18 Camid,riama la matrice X - [ ! !] dove i v,ttari X, - [ ~]

, X, - [ !]'"™'linearmmt, ind,p,nd,nti e il v,ttore Y - [ ; ] · Can,id,riama
il sistema che non ha soluzioni: Y - Xb = O e cerchiamo la soluzione b nel senso dei

minimi quadrati.
1
1 ~l[!!]-[;
~1 ]
XXXlX
1
Si conclude che b- 1
= 49 [ _10
1 1
Definizione 0.8.19 La matrice X (xrx)- 1xr =

P è chiamata matrice di pro-
(n,r) (r,r) (n,n)
(r,n)
iezione ortogonale su V, o semplicemente proiettore su V.
Ovviamente l'operatore P è un operatore lineare e poiché VY ElRn; PY E V, l'immagine

di IRn attraverso P coincide con V, perciò il rango di P è pari alla dimensione di V. In
simboli
rango(P) = dim V.
Si vede facilmente che P è idempotente, infatti (vedi 4)
pT = (X(XT x)-1 xr)T = X(X(XT x)-lf = X((XT x)-l)T xr) =

= X((XT Xf)- 1xr) = X(XT x)- 1xr = p
da cui ppT = P 2 .
Viceversa ogni operatore lineare H tale che
H = H 2 = HT (10)
è un proiettore sul sottospazio che è la sua immagine. La (10) è perciò necessaria

sufficiente perché H sia un proiettore.
Il vettore:
e= Y - Xb =Y - X(XTx)- 1 xTy =Un - P)Y (11)

è l'errore che si commette quando si rappresenta Y con Xb.
L'operatore che associa a ogni Y E IRn il vettore e, cioè l'operatore Un - P) è il
proiettore su V_j_e rango(In - P) = n - dim V.
Poiché Y e e sono ortogonali, per il teorema di Pitagora risulta
Nel capitolo 11 abbiamo citato il seguente:
Teoremino 0.8.20 Ogni vettore Y E IRn si può scrivere in modo unico nella forma
~ _j_
Y=Y+e, YEV,eEV.
IRn è somma diretta di V e V_!_,cioè:
Generalizzazione
Possiamo generalizzare supponendo che i sottospazi vettoriali ortogonali in gioco siano
più dei due precedenti, V e V_!_.Ipotizziamo che siano per esempio tre, Vi, Vi, Vi (ma la
generalizzazione a k è ovvia), tra loro ortogonali, cioè tali che
dove Y; E V;;i = 1,2,3. (12)

xl
Tale scomposizione è necessariamente unica, per l'ortogonalità dei V;; JRn è somma diretta
ortogonale di Vi, Vi, Vi e si scrive
Gli operatori Pi, P2, P3 che a Y associano i vettori Y 1, Y 2, Y 3 sono i proiettori ortogonali
sui tre sottospazi, e risulta
Esempio 0.8.21 Siano Vi, ... , Vk k spazi vettoriali di JRn tali che Vi abbia vettori con
le prime r 1 componenti diverse da O, Vi con le seconde r 2 componenti diverse da O, ½
abbia j- esime rj coordinate diverse da O,... , VK con le k- esime rk coordinate diverse
da O (r 1 + r 2 + · · · + rk = n) sia cioè:
V1 = (Y1,... ,Yn,,O, ............................................................ ,O)'
V2 = (O, ......... ,O,yn,+I,···,Yn,+n 2,0, ....................................... ,0)'
Vj =(O,····················· ,O,Yn,+n2+ ..+n1_,+1, · · · ,Yn,+n2+ ·+n 1,0, · · ·······,O)'
Vk =(O, .................................... ,O,Yn,+n2+ ..+nk-1+I, · · · ,Yn,+n2+·+nk) 1

Gli spazi Vk sono ortogonali tra loro e, detto PK il proiettore di JRn su Vi, è immediato
verificare che
0.9 Misure e funzioni misurabili

Definizione 0.9.1 Sia dato un insieme O. Una collezione A di sottoinsiemi di O si dice
algebra {di Boole) se:
I 1J n E A; I 2J A E A::::} NE A; I 3) A1, A2 E A::::} A1 + A2 E A.

Esercizio 0.9.1 Dimostrare che se A è un'algebra e A, B E A ::::}(A - B) E A.
Definizione 0.9.2 Una collezione A di sottoinsiemi di O si dice u-algebra ( di Borel)

(X)
se è un'algebra e se data una successione A 1, A 2, .. di elementi di A, UAi E A.

1
(X)
Oss. 6 Se A è una u-algebra e A= UAi, allora usando l'uguaglianza:

1
(X) (X)
nAi = A -
1
u1 [A - Ai]
(X)
si vede che anche nAi E A.

1
Definizione 0.9.3 Sia A una a-algebra e JR*= JRU{-oo} U { +oo} e sia µ : A -+JR*.
µ è una misura su A se µ ~ O e se data una successione A 1 , A 2 , .. di elementi di A
(X) (X)
a due a due disgiunti (cioè Vi,j; i =I-j; AiAj = 0) allora µ[U Ai] =
1
I:1 µ[Ai], cioè è
u-additiva.
xli
Definizione 0.9.4 Ogni misura P A ---+JR+ tale che P[O] 1 è detta misura di
probabilità.
Definizione 0.9.5 Una misura µ : A ---+JR+si dice completa su A se

A e B,B E A,µ(B) =O::::} A E A da cui anche µ(A)= O
Questa proprietà è nota anche come assoluta continuità della misura µ.
Oss. 7 Il dominio naturale di una misura è una a-algebra.
Definizione 0.9.6 Se P è completa e A è una a-algebra (O, A, P) si dice spazio di

probabilità.
Se in JR definiamo gli intervalli semiaperti B = {(x) : a < x ::; b} e diciamo B la più

piccola a-algebra che contiene gli intervalli di tipo B, allora la funzione µ : B ---+JR+ così
definita: µ(B) = b- a è una misura completa e ha il significato usuale di lunghezza. B si
dice a-algebra dei borelliani di JR (o degli insiemi di Borel di JR). In particolare sono
borelliani insiemi del tipo: {x = a}, {x < a}, {x > a}, {a ::; x ::; b} e tutti i sottoinsiemi
di JR che si ottengono da questi con le usuali operazioni insiemistiche.
Gli insiemi di Borel di JR*si ottengono da quelli di JR unendoli con {-oo} o { +oo }.
Definizione 0.9.7 Una X : O ---+JR* è detta A-misurabile (cioè misurabile rispetto

alla a-algebra A) o, semplicemente misurabile se non c'è incertezza sulla a-algebra
assegnata su O, se x- 1 (B) E A per ogni insieme di Borel di JR*
Non insisteremo sulla definizione A-misurabilità perché ciò esula dagli scopi di questo
corso. Ma ci piace parlare di funzione misurabile perché è semplice e serve ad abituarsi
a un linguaggio più avanzato. Ci basterà conoscere il seguente:
Teorema 0.9.8 Ciascuna delle seguenti proposizioni è condizione necessaria e sufficien-

te affinché una X: 0---+JR*sia A-misurabile (A a-algebra su O):
1} Vz E JR, {w: X(w)::; z} E A 2} Vz E JR, {w: X(w) > z} E A
3) Vz E JR, {w: X(w) ~ z} E A 4) Vz E JR, {w : X(w) < z} E A
Oss. 8 In base al teorema 0.9.8 una va è una funzione A-misurabile.
Esempio 0.9.9 Una g : JR ---+JR+ è detta B-misurabile (cioè misurabile rispetto alla
a-algebra dei Borelliani di JR) se g- 1 (B) E B per ogni insieme di Borel di JR*. In
particolare è possibile veri.ficare che se g è continua allora è B-misurabile.
Per quanto riguarda il riconoscimento di funzioni misurabili si tengano a mente i seguenti

teoremi:
Teoremino 0.9.10 Se X e Y sono funzioni misurabili da O in JR*,k E JR, allora:

X+ k, X+ Y, kX, X 2 , XY, ½-,(dove Xìw) = +oo se X(w) = O), max(X, Y), min(X, Y),
X_, X+, IXI sono misurabili.
Teoremino 0.9.11 Se {Xn} è una successione di funzioni misurabili Xn O ---+JR*

allora
supXn, infXn, lim supXn, lim infXn sono misurabili.
n n n---++oo n---++oo
Teoremino 0.9.12 Se g: JR---+JR* è B-misurabile e X: O---+JR* è A-misurabile allora

X o g(w) = g(X(w)): n---+ JR* è A-misurabile.
xlii
Consideriamo ora uno spazio di probabilità (O, A,P) e una X : O---+JR* misurabile.
Definizione 0.9.13 Diciamo che X ha la proprietà T qc (quasi certamente o quasi

ovunque) in O se 3E E A, P(E) = O e X ha la proprietà T su O - E.
Teorema 0.9.14 Se X= Y allora X è misurabile sse Y è misurabile.

qc
Ricordiamo la definizione di convergenza puntuale di una successione di funzioni {Xn}

(Xn : O---+ JR*) a X : O---+ JR*.
Definizione 0.9.15 Diciamo che Xn converge puntualmente a X in E e O se

Vw E E, Xn(w)---+ X(w).
Definizione 0.9.16 Date Xn : O ---+JR*,una misura completa µ su O, µ(O - E) = O

e {Xn} converge puntualmente a X su E allora diciamo che {Xn} quasi certamente
(cQC) a X e scriviamo Xn---+ X su O.
qc
Definizione 0.9.17 Dato uno spazio di probabilità (O, A,P) e una successione {Xn} di
funzioni misurabili Xn : O ---+JR* diciamo che {Xn} converge in probabilità a X : O ---+JR*,
X se Vs> O, lim P[w: IXn(w) - X(w)I ~ s]
X misurabile, e scriviamo Xn '.E+ = O.
n---++oo
Esempio 0.9.18 Sia O= [O,l] e A la CJ-algebra B dei Borelliani di [O,l]. Sia P la mi-
sura di probabilità uniforme in [O,l] cioè se I= [a, b] e [O,l], P[I] = b- a. Consideriamo
la va Vw E O, Xn(w) = w + wn. Se w E [O,1), lim Xn(w) = O mentre lim Xn(l) = 1.
Xn converge puntualmente
n-= n-=
a O tranne che sull'evento elementare {l} che ha probabilità
O. Allora Xn ---+O su O
qc
= [O,l], dove per O si intende la va degenere che vale O con
probabilità l.
Oss. 9 La convergenza in probabilità non implica la convergenza cQC. Sia ancora

(O, A, P) lo spazio di probabilità dell'esempio precedente. Consideriamo gli intervalli
~'2" r] ,r -- 1, 2 , .. , 2k., k -- l , 2 , ... {ve d'i, figuraVIII). p er ogni. k ci . sono 2k
I r,k -- [r-l
1
intervalli: gli intervalli che precedono il primo intervallo di ampiezza - sono esatta-
2n
mente 2 + 22 + 23 + · · · + 2n- l. È quindi ovvio che questi intervalli si possono ordinare
in una successione E 1. Se 2 + 22 + 23 + · · · + 2n- l < j ::; 2 + 22 + 23 + · · . + 2n- l + 2n
allora 3h, l ::; h ::; 2n : j = 2n-l + h. Sia X 1 la funzione indicatore di E 1 allora
Vs,O < s < l,P[{w: IX 1 (w)I ~ s}] = P[E 1] -----+ O.
J-+oo
Ciò implica che X 1 converge in probabilità alla va degenere X = O. Comunque non c'è
convergenza delle X 1 per nessun w E [O,l]. Infatti, come si evince dalla ,figura, per ogni
1
valore di k un generico w E [O,l] finisce esattamente in un solo intervallo di ampiezza 2k ,
diciamo E 1k. Esistono infiniti k quindi infinite volte X 1 (w) = 1 ma anche infinite volte
X 1 (w) = O. Non può perciò essere definitivamente né ll-X 1 (w)I < s né IX 1 (w)I < s ma
VIII Attenzione: i grafici delle funzioni in figura sono i grafici delle funzioni variabili aleatorie da
Sì---->[O,1]. Non siamo abituati a rappresentare le va in questo modo. Non si confondano perciò i grafici
delle funzioni va con i grafici delle loro fd.
xliii
-
solo liminf Xj(w) = O e limsupXj(w) 1. C'è dunque convergenza in probabilità ma
non convergenza quasi certa 1X
El,
/,-!---.
'i
-
1.--.
I :
1/1 ù}
Jr-= I
7;
r---:
1/2
}
(,J
-
I f"1
1-,J
0
1d2li
i-.,;_
,
....
, ...
, ...
111'
T;;t
"'
I o
~
I,-:
;;iJn,t;i
!...
, ....,,0,..,,..., ..... i ..,,
, '""'""''T.,.,
...
<o
'"
,...,....,.,
m
T.,.,
... ~
, ....,,,
1
, "
/
(r-lJli'
/::
'.,) ji.:'T"
~m
rd'
, ~~,
lii
i i i
i
2dT.1d
"'
i·.
I,-:
i
,,,
IO
, lri" ,.......
O}
1
d ~i ~;i
,...,...,...,...,....,...,...,
:,
I !""
0.10 Serie numeriche

Riprendiamo brevemente alcuni concetti sulle serie numeriche.
Definizione 0.10.1 Si dice serie numerica il simbolo a 1+ a2 + ... + an + ... = I:!:Oan

o più semplicemente I: an quando è chiaro il minimo valore di n. Tale simbolo è definito
quando è definita una legge che permette di conoscere an per ogni n.
Definizione 0.10.2 Posto Sk = I:~=O

an, {Sk} si dice successione delle somme parziali.
Definizione 0.10.3 Una serie numerica si dice convergente (semplicemente) se è con-

vergente la successione di somme parziali ad essa associata.
Teoremino 0.10.4 Condizione necessaria di convergenza di I: an : an ---+ O
Serie a termini non negativi

Sono le serie I:!:Oan dove an ~ O.
Oss. 10 Se an ~ O=} 'ì!kSk ::; Sk+l cioè {Sk} è monotona non decrescente. In questo
caso la serie o converge o diverge.
Trattando con le serie occorre distinguere due diversi obbiettivi:

a) conoscerne il carattere (che non è influenzato dal valore di un numero finito di addendi);
b) conoscerne, se converge, la sua somma.
La serie di Mengoli I:!:i n(nl+l) =1
In f atti:· Sk = ~k
Lm=l
1 1 1 1
n(n+l)= T2 + 'T3 + · · · + k(k+l) =
IX Si osservi che Vj, Xj è una va di Bernoulli tale che, se 2 + 2 2 + 23 + · · · + 2n-l <j :CC::2 + 2 2 + 23 +
... + 2n-l + 2n la cui fd è data da:
px(l - p) 1 -x X= O 1 1
Px.(x·p)= { ' =pxql-xJ{ }(x) conp=-el-p=q.
J ' O altrove O,l ' 2n
È perciò evidente che _lim Px. (x; p)
J---tCX) J
= O quindi Xj converge in legge alla va degenere X= O
xliv
= (1- ½)+ ( ½- + ···+ ½) (¼- kll)

= - kll
+ l --+ l
In questo caso si conoscono sia il carattere che la somma della serie.
L a serie• armonica • '-'+oo
Lm=l 1 = +oo e' d"ivergen t e.
;:;:
È il classico controesempio che si utilizza per mostrare che an --+ O è una condizione solo
necessaria e non sufficiente per la convergenza di una serie.
Anche in quest'ultimo caso si conoscono sia il carattere che il valore della serie.In generale
questo non accade. Per la conoscenza del carattere esistono dei criteri che riguardano,
tra l'altro, quasi esclusivamente le serie a termini positivi e le serie a termini di segno
alternato.
Criterio per le serie a termini non negativi
Criterio del confronto: Sia "in ~ n, O ::; an ::; bn. Allora I: an ::; I: bn e si dice che
Ì: an è minorante della serie Ì: bn o che Ì: bn è maggiorante di Ì: an.
a) se Ì: an diverge ::::}Ì: bn diverge;
b) se Ì: bn converge ::::}Ì: an converge.
Criterio del rapporto: Se "in ~ n, O ::; an lim an+i = À < l ::::}la serie converge.
n---+oo an
Criterio della radice: Se "in ~ n, O ::; an lim n y<I;; = À < l ::::}la serie converge.
n-oo
Ricordiamo il limite notevole: nfa --+ l; infatti: ln n 1 1n = lnn ----+ O. Questo
n-+oo n n-+oo
implica, per esempio, che il criterio della radice non funziona con la serie armonica.
Criterio per le serie a termini di segno alterno
Vnbn ~ O
La Ì:6 00
converge se: { 'vnn+lbn ~ bn+l
(-l)nbn
bn --+ O per n --+ +oo
Associando o commutando tra loro un numero .finito di addendi la sene non cambia
carattere e valore.
In generale associando o commutando un numero infinito di addendi di una serie questa
può cambiare valore e carattere. Per le serie a termini non negativi ciò non accade e
valgono le proprietà associativa e commutativa. Per le serie a termini di segno qualunque
ciò non è in generale vero. Per esempio questa serie:
f
n=O
(-l)nbn = { (l_- 1) + (1 - 1) + .. =O se ~~plico l_aproprietà associativa
mvece non converge perche 11termme generale non --+ O
Definizione 0.10.5 Si dice che una serie a termini di segno qualunque ì:=an converge
assolutamente se converge la serie a termini positivi Ì: lan I-
Teoremino 0.10.6 Se una serie converge assolutamente converge semplicemente.
Definizione 0.10.7 Una serie si dice incondizionatamente convergente (o divergente a

+oo o a -oo) se converge (o diverge a +oo o a -oo) ogni serie ottenuta da questa
permutando l'ordine dei termini.
Teorema 0.10.8 ( di Dirichlet): Condizione necessaria e sufficiente affinchè una serie

sia incondizionatamente convergente è che essa sia assolutamente convergente: in questo
caso conserva la stessa somma comunque si alteri l'ordine dei suoi termini.
xlv
0.11 Serie di funzioni

Serie di Taylor. Se f : U--+JR è cn+l(U) dove U è un intorno (aperto) di un punto
X, allora Vx E Usi può scrivere la sua formula di Taylor f(x) = Ln (k)(-
f k! x) (x - x)k +
k=O
j(n+l)(0)(x - xr+l
-------'---'-'-----'-- dove e 0 E (x,x). Se f E C00 (U), sotto opportune ipotesi vale,
(n + l)!
Rn
almeno in un intorno di x,
+oo j(n)(-)
f(x) = I:--,x-(x-x)n (13)
n=O n.
e la convergenza della serie a f è uniforme in ogni compatto contenuto nell'aperto U. Se
x =Ola 13 si chiama serie di Mclaurin.
Serie di McLaurin per alcune funzioni elementari
fun zione sene I ins ieme di convergenza I

+oo
ex L xn
~
JR
n= O
+CXJ 2n+l
Sln X L (- l) n (~n+l)! JR
n=O
+oo 2n
cosx L (- l) n (~n)! JR
n=O
+oo
1
1- x
L xn lx i < 1
n=O
+oo
1
l+ x
L (- l) nxn lx i < 1
n=O
+oo
c ~xf
L nx n- l lx i < 1
n- l
+CX) n
ln(l + x) L (- l)n xn lx i < 1
n=O
+oo
(l + x)"';aEJR L (~)x n lx i < 1 (°') = a(a -1 ) (a - n + l)
n n!
n=O
0.12 La funzione r
È una delle funzioni importanti della matematica ed è così definita:
r(t) = fo+oo x 1- 1e-xdx; t > o (14)
L'integrale in 14 non si calcola in termini finiti. Valgono le seguenti proprietà:

1) Integrando per parti si ha r(t + 1) = tr(t) da cui, set= n intero si ha f(n + 1) = n!.
2) Se n è intero r(n + ½)= 1 3 5 2 n- l) ft ~J
da cui r( ½)= 2f( = ,fir. !)
xlvi
0.13 Una formula importante per la normale
I= i e-x 2 f 2 dx = v27r (15)
Infatti 1 2 = { JIRe-x 2 l 2 dx} { JIRe-Y 2 l 2 dy} = J J e-(x 2 +Y2 )1 2 dxdy.

JR2
Ponendo x = p cos 0; y = p sin 0 si ha:
/2= J J
JR+ X [0,2,r]
e-// 2 J(;:~)dpd0 = 1t·d0 Jt:xo pe-P 2
f 2 dp = 27r [-e-P 2
/ r
2
0
00
= 27r
0.14 Una formula importante per la media

Teorema 0.14.1 Sia X una va che supponiamo dotata di media E[X] e sia Fx(x) la
sua f dr. Allora:
E[X] = roo(1-
lo Fx(x))dx -
10
-oo Fx(x)dx (16)
Dim.: La dimostrazione è fatta nel caso che X possegga fd f x.

E[IXI] = J~;: lxlfx(x)dx = 00 lxlfx(x)dx+ t
f 0+00 lxlfx(x)dx è.finito. Da ciò segue che
entrambi i limiti lim Jb+ooxfx(x)dx e lim J~ lxlfx(x)dx sono nulli. Proseguendo:
b-+oo a---+-oo 00
O= lim Jb+ooxfx (x)dx?:. lim b Jb+oofx (x)dx = lim b(l - Fx (b)) e

b- +oo b- +oo b- +oo
O= lim J~ 00 lxlfx(x)dx
a--oo
>
'-v-"
lim - af~ 00 fx(x)dx = lim
a--oo a--oo
- aFx(a)
in (-oo,a) è lxl>-a
Ora: E[X] = b---++oo

lim J; xfx(x)dx + a--oo
lim J.°
a
xfx(x)dx.
lim J; xfx(x)dx
Integrando per parti si ha: =
b-+oo
= lim {bFx(b) - J; Fx(x)dx} = lim {-b(l - Fx(b)) + J;(l - Fx(x))dx}
b-+oo b-+oo
al!f!l-t
00 xfx (x)dx = al!f!l-{-aFx
00 (a) - J~ Fx (x)dx}
E[X] = bE~oo {-b(l - Fx(b)) +J;(l - Fx(x))dx }+aEf!l-

{-aFx(a)
00
- J~ Fx(x)dx} =
= J0+ 00
(1- Fx(x))dx - t 00 Fx(x)dx•
Oss. 11 La formula 16 esprime il fatto che la media di X è l'area della zona segnata in
figura.
L'area tratteggiata I I rappr... nta il valore di E [X]

xlvii
Oss. 12 Nel caso di una va discreta la 16 ha una facile interpretazione geometrica.
Supposto che la va X abbia una densità f (x;) concentrata sui punti x 1 , x 2 , ... , x 5 co-
me indicato in ,figura allora E[X] = I:i
x;f (x;) è la somma delle aree dei rettangoli
evidenziati.
0.15 Derivazione sotto il segno di integrale
Teorema 0.15.1 Sia: F(x) = J:i:?

f(x,y)dy, siano inoltre:
a) f(x,y) E c0 (T), con T = {(x,y): a::; x::; b, c::; y::; d};
b} ~:(x,y) E c0 (T);
c) a(x), b(x) E C1 (a, b).
Allora F(x) è derivabile rispetto a x in [a, b] e la sua derivata vale:
d
-F(x) =
1b(x) f(x,y)dy
Ò
7., + b'(x)f(x, b(x)) - a'(x)f(x, a(x)) (17)
dx a(x) uX
z
_______ r( x,y)
Oss. 13 Il cammino di integrazione è evidenziato in ,figura.

xlviii
Oss. 14 Il teorema di derivazione sotto il segno di integrale vale anche se gli estremi di
integrazione non sono funzioni, ma numeri reali: infatti se a(t) = c e b(t) = d, lasciando
invariate le altre ipotesi del teorema allora
F(x) = t f(x,y)dy e la (17) si scrive:
d
F'(x) = -F(x)
dx
= Jd-;::;-f(x,y)dy
ux
e
8
Oss. 15 Per il calcolo delle derivate della funzione generatrice di momenti m(t) bisogna
applicare il teorema di derivazione sotto il segno di integrale, caso a(x) = c e b(x) = d,
dove però d = +oo e c = -oo. L'integrale è un integrale generalizzato, ma il teorema,
sotto opportune ipotesi, continua a valere.
0.16 Determinante Jacobiano
Consideriamo un aperto A del piano (x,y) e la trasformazione piana del tipo:
T={ u=u(x,y)
v =v(x,y)
Supponiamoche (~)E C 1 (A)echeildeterminanteJacobianodet[J(x,y)] = :~:::~ =
det ( Ux Uy ) sia diverso da O in tutto A. Allora la trasformazione T si dice regolare.

Vx Vy
Sussiste il seguente teorema:
Teorema 0.16.1 Una trasformazione regolare T è localmente invertibile, cioe per ogni
punto (x 0 , y 0 ) in cui lo Jacobiano è diverso da O, esiste tutto un intorno di (x 0 , y 0 ) dove
la corrispondenza tra tale intorno e la sua immagine è biunivica e quindi invertibile.
Inoltre la trasformazione inversa
y-1 = { x =x(u,v)
y =y(u,v)
è anch'essa regolare e il determinante Jacobiano dell'inversa è
det[J(x, y)] = det ( Xu Xv) 1

Yu Yv det ( Ux Uy)
Vx Vy
L'elemento di area infinitesima si trasforma in base alla legge:
dxdy = ldet ( :: :: ) I dudv

xlix
0.17 La condizione di Lindeberg
Teorema 0.17.1 Sia X 1 , X 2 , ... una successione di va indipendenti di momento secondo

finito. Sia µk e o-%rispettivamente la media e la varianza di Xk. Siano Sn = X 1 + X 2 +
... + Xn, D;,, = I:7= 1 0-7,Fk(x) = P[Xk::; x].
Supponiamo che valga la seguente condizione (Lindeberg):
Vs: - l n
2 L1
Dn i=l {x:lx-µilè'.,Dn}
(x - µ;)2dFi(x)----+ O per n----+ oo (18)
Allora:
Oss. 1: È facile mostrare che se le Xi sono iid la 18 è vera. Infatti: Vk : µk = µ; O"k=

o-;Fk(x) = F(x);D;, = na-2.
~2 I:7=1 f{x:lx-µilè'.,Dn} (x - µ;)2dFi(x) = n~2 I:7=1 f{ x:lx-µlè:ec,fa} (x - µ) 2dF(x)

n
l J 2
a-2 {x:lx-µlè:,o-fa}(x - µ) dF(x)
Poiché {x: lx - µI ~ so-fa} l 0 quando n--+ oo segue l'asserto.
Oss. 2: È facile anche mostrare che se le Xi sono vengono da un numero finito, diciamo
s, di diverse aleatorietà la 18 è vera. Infatti in questo caso prese le prime n va Xi della
successione si ha:
I:7=1 f{x:lx-µilè'.,Dn}(x - µi)2dFi(x) = n1 I:7;,1 f{x:lx-µ,lè:,Dn}(x - µ1)2dF1(x) + ... +

ns I:7;1 f{x:lx-µslè'.,Dn}(x - µs)2dF.(x) (-")
Sia
O"min= min {0-1,0-2,... , O" = max {0-1,0-2,... , O"
8 } e O-max 8 } quindi no-~iin::; D;,, ::; no-~ax·
Inoltre: {x: lx - µil ~ Wmaxfa} ç {x: lx - µil ~ sDn} ç {x: lx - µil ~ Wminfa} l
0 quando n --+ oo.
O::; D2 '-'n J{x:lx-µilè'.,Dn}(X

l L..i=l - µi )2dFi (X ) ::;
n
::; -;-
namin
{n1 I:':'~
t-
1 f{ X, ·IX _ µ1 I>
_E
Dn }(x - µ 1)2dF1(x) + ...
... + ns I:7;1 f{x:lx-µslè'.,Dn}(x - µ.)2dF.(x)}::;
::;-2- n1 '-'n 1
1 { -L..i-1 J{·I_ I> . fa}(x-µ 1)2dF1(x)+ ...
an1in n - X. X µ1 _E<Tmm n
ns '-'ns
... +-L..i-1
n -
J{·I_
X.X µ8 I> . e} (x-µ
_EO"'mmVn 3
)2dF 8 (X )} •
n·
Poiché al più _: ----+ 1 se n ----+ oo e poiché ogni addendo tende a O segue la 18.
n
0.18 Correlazioni bizzarre
Il famoso caso delle cicogne di Oldenburg
Secondo Ornithologische Monatsberichte, 44 No 2, Jahrgang, 1936, Berlin; Ornithologi-
sche Monatsberichte, 48 No 1, Jahrgang, 1940, Berlin e Statistiches Jahrbuch Deutscher
Gemeinden, 27-33, Jahrgang, 1932-1938 - Gustav Fischer, Jena, la popolazione delle ci-
cogne nella piccola città tedesca di Oldenburg e la popolazione degli abitanti della stessa
città (espressa in migliaia), dal 1930 al 1936, hanno avuto l'andamento espresso dalla
seguente tabella.
1930 1931 1932 1933 1934 1935 1936

abitanti/ 1000 50 52 64 67 69 73 76
cicogne 130 150 175 190 240 245 250
Plottando questi dati sul piano e cercando una correlazione lineare tra i due insiemi
numerici si ottiene il seguente grafico:
80
70
•
60
popolazione di 50
Oldenburg
40
30
10
y = ax + h = 0.1947x + 26.042 R 2 = 0.90028
IO
o
130 140 150 160 170 180 190 100 210 210 230 240 250
cicogne
Questo grafico potrebbe portare a pensare che s1 possa prevedere la popolazione di

Oldenburg secondo la formula
I popolazione Oldenburg = 0.1947 x popolazione cicogne+ 26.042

come a dire che «sono le cicogne che portano i bambini». L'esempio è citato da George
E.P. Box, William G. Hunter WG, J. William Hunter - Statistics for Experimenters,
Wiley 1978.
Altri esempi di correlazioni bizzarre

1) quantità di gelati venduti e morti per annegamento
2) misura di scarpa e performance di lettura nella scuola elementare
3) numero dei poliziotti e numero dei crimini
4) numero degli omicidi e numero delle chiese
5) numero biblioteche e consumo di droga negli ultimi 30 anni
6) stipendi dei professori e prezzo dei liquori negli anni '70
7) quantità di tè bevuto e cancro al polmone.
li
0.19 Errori dei pollster: elezioni presiden-

ziali Usa 1936 e 1948
Un esempio classico di come si possano clamorosamente sbagliare le previsioni esaminan-
do un campione non rappresentativo della popolazione, riguarda le elezioni americane
del 1936 che vedevano affrontarsi il senatore repubblicano Alf Landon e il democrati-
co Franklin Delano Roosevelt (FDR), passato poi alla storia come salvatore degli Stati
Uniti, sia per le sua politica di interventi destinata ad arginare e sconfiggerre gli effetti
devastanti della Grande Depressione (innescata dal primo tonfo di Wall Street, il 24
ottobre del 1929 - giovedì nero - seguito dal suo definitivo crollo il 29 ottobre - martedì
nero), sia alla sua guida del Paese durante la Seconda Guerra Mondiale.
A lato:
la celebre Migrant Mother di Dorothea Lange,
una delle icone fotografiche più espressive
della Grande Depressione, ritrae Florence
Owens Thompson, 32 anni, madre di sette figli.
Nipomo, California, Marzo 1936.
È Literary Digest, un settimanale americano con milioni di lettori, a entrare nella storia
come autore di uno dei più clamorosi errori di previsione commessi in statistica. Prima
delle elezioni del 1936, la capacità previsionale del settimanale godeva di un'ottima fama.
Il Digest aveva infatti centrato i polls nelle elezioni del 1916, '20, '24, '28, e '32.
Siamo al mese di novembre 1936. Il settimanale spedisce 10 milioni di questionari (rice-
vendo 2.4 milioni di risposte, un numero enorme, considerato che oggi si fanno previsioni
accurate con campioni di dimensione 1500), in cui chiede ai cittadini di esprimere la
propria preferenza di voto. L'esito è 57% per Landon e 43% per FDR. L'esito finale fu
invece 62.5% per Roosevelt 37.5% per Landon.
Come è stato possibile un errore così clamoroso? È la scelta del campione a spiegarlo. I
questionari furono infatti inviati ai lettori del Digest, un elettorato storicamente favore-
vole ai Repubblicani, e a un elenco di altri nomi ricavati dal registro dei proprietari di
automobile e dall'elenco telefonico. Non si era tenuto conto del fatto che, sia l'automobi-
le, sia il telefono, appartenevano a un ceto ricco, sia per ragioni storico-economiche (non
si era ancora sviluppato un mercato di massa di questi due beni), sia a causa della crisi
del '29 che aveva costretto molti cittadini della Middle Class a rinunciarvi. Lo scandalo
provocato da questo errore portò alla chiusura del settimanale e all'assorbimento della
redazione in quella di un altro settimanale che esiste ancora oggi, Time.
Gallup, un altro pollster, aveva invece previsto 55.7% per Roosevelt intervistando "solo"
lii
50mila persone. Nella tabella qui sotto le performance di Gallup nelle elezioni americane
dal 1936 al 1996.
an no eletto po ll ris ult ato fina le scarto

1936 Roosevelt 55.7% 62.5% 6.8%
1940 Roosevelt 52. 0% 55.0% 3.0%
1944 Roosevelt 51.5% 53.3% 1.8%
1948 Truman 44.5% 49.9% 5.4%
1952 Eisenhower 51.0% 55.4% 4.4%
1956 Eisenhower 59 .5% 57.8% 1.7%
1960 Kennedy 51.0% 50.1% 0.9%
1964 Johnson 64.0% 61.3% 2.7%
1968 Nixon 43.0% 43.5% 0.5%
1972 Nixon 62 .0% 61.8% 0.2%
1976 Carter 48.0% 50.0% 2.0%
1980 Reagan 47.0% 50.8% 3.8%
1984 Reagan 59.0% 59.1% 0.1%
1988 Bush 56.0% 53.9% 2.1%
1992 Clinton 49.0% 43.2% 5.8%
1996 Clinton 52.0% 50.1% 1.9%
Come si vede le elezioni del '36 rappresentano uno degli scarti più grandi nelle previsioni
di questo famoso pollster. Seguono lo scarto delle elezioni del 1992 e, soprattutto, quello
delle elezioni del '48, che vedevano il governatore repubblicano di New York, Thomas
Dewey versus Harry Truman, diventato il candidato democratico dopo la morte di Roo-
sevelt. In questo caso Gallup sbagliò clamorosamente assegnando la vittoria a Dewey
55.5% contro 44.5%.
liii
La previsione di Gallup (e di altri pollster come Elmo Roper) portò alcuni quotidiani
americani ad annunciare la vittoria di Dewey nelle prime edizioni del mattino. Una delle
più famose fotografie della storia mostra il neo presidente Truman che esibisce il Chicago
Daily Tribune, con un titolo a 8 colonne "Dewey Defeats Truman."
In queste elezioni Gallup utilizzò il metodo di campionamento per quote, che con-
siste nel creare un campione dove gli intervistati non sono scelti "casualmente" ma ri-
spettando le proporzioni di certi gruppi sociali, individuati a priori nella popolazione.
Per esempio se interessano le donne e queste rappresentano l'x% della popolazione, nel
campione ci deve essere l'x% di donne; se interessano i neri e se c'è l'y% di neri nella po-
polazione, il campione deve prevedere l'y% di neri, se interessano coloro che guadagnano
più di 500mila dollari l'anno e se lo z% della popolazione guadagna più di 500mila dollari
l'anno, nel campione ci deve essre lo z% di individui che guadagna più di 500mila dollari
l'anno, eccetera.
0.20 L'illusione di sapere (soluzioni)

Tra tutte le spiegazioni che possono essere date sulla soluzione del paradosso dell tre
scatole,a più convincente mi sembra contenuta in questo schema che circola su Internet
sl·egll una busta
hai scelto una busta I hai scelto una busta ha i scelto la busta
vuota j vuota con 100 euro
~~
~I
tieni la busta I camb i la busta
no n vinc i
da cui è facile capire che la strategia che maggiori probabilità di vittoria è quella di
cambiare sempre la scelta iniziale.
La legge di Bayes
La risposta esatta al problema del test clinico proposto alla fine del capitolo 3 è la c). Lo
si vede immediatamente dopo aver formalizzato il problema.
Siano: M={il paziente è malato}, S={il paziente è sano}, T p={il test è risultato positi-
vo}, Tn={il test è risultato negativo}. Sono dati:
liv
a) l'affidabilità del test cioè P[TplM] = 0.99;
b) La frequenza media della malattia, nella popolazione da cui proviene il paziente, cioè
P[M] = 0.01.
È richiesto di calcolare P[MITp]- Per il teorema di Bayes si ha:
P[MIT.] _ P[TplM]P[M]
P - P[TplM]P[M] + P[TplS]P[S]
Poiché P[S] = 1-P[M] si vede che per eseguire i conti manca P[TplS]. Questo mi induce
a pensare che tutti coloro che hanno dato una risposta errata al quesito in questione
siano stati fuorviati dal definire P[TplM] "affidabilità" del test. Infatti il test è affidabile
sia quando risulta positivo nel caso di malattia (caso questo quantificato da P[TplM])
sia quando risulta negativo in caso di assenza di malattia (caso questo quantificato da
P[TnlS] = 1 - P[TplS]) che è il dato che ci manca. La probabilità che un paziente
sia effettivamente malato se risulta positivo al test non è perciò influenzata solo dalle
volte che il test non sbaglia analizzando un malato, ma anche dalle volte che non sbaglia
analizzando una persona sana come mostra la seguente tabella:
valore di P[MITp] valore di P[TplS] valore di P[M]

50% 1% 1%
9% 10% 1%
(~) 3.8% 20% 1%
91.6% 1% 10%
(*) 52.3% 10% 10%
I dati di questa tabella mostrano come il risultato del test su un paziente sia poco signi-
ficativo (solo 3,8% di probabilità che un paziente risultato positivo al test sia veramente
malato) nel caso che la malattia sia poco diffusa (1% della popolazione è malato) e che
il test sbagli spesso con i pazienti sani (test positivo con un paziente sano nel 20% dei
casi). Inoltre la riga (*) mostra che le volte che il test sbaglia è meno influente se la
popolazione è malata in percentuale significativa (10%).
I dati di riga (~) sono riportati in un articolo fondamentale di R.E.Snyder del 1966
riguardante l'effettivo potere diagnostico della mammografia nell'individuare un tumore
maligno.
lv
Premesse sui quantili

I simboli che vengono utilizzati in letteratura per indicare i quantili, soprattutto all'in-
terno degli argomenti che riguardano i test d'ipotesi, sono di due tipi. Li anticipo qui e,
anche se appesantiscono leggermente l'esposizione, li userò entrambi, perché così succede
anche in letteratura.
Si ricordi che:
N(O; 1)
, - quantile q,- ('Y) Xn ('Y)
1000:-esimo punto percentile Xa n
Più precisamente, per quanto riguarda la normale N(O; 1) si ha:
normale
Cioè:
test bilatero
quanti li
q,- 1( 9): T = P[N(O ; 1) :e;q,- 1(9)] - 1 e-P):
 q.i = P [N(o; 1) :e;<1>
- 1 (q.i) J
- Zo.;2 : *
punti percenti li
= P [N(O; 1) :e;- Zo.;2] Zo.;2 : * = P[N(O ; 1)?: Za;2 ]
Ricordando che q,- 1 ( 1 ; ') = -- 1( 1 ; '), si deduce che
-1 1+, -1 1+,
-Za/2 = -4> (- 2 -); Za/2 = 4> (- 2 -)
mentre
test coda dx
quantili q,-'(,): 'Y= P[N(O; 1) :e;q,-'('Y)]
punti percentili Za : O:= P[N(O; 1)?: Za]
lvi
test coda sx
quantili <J?-1 (1 - 'Y)= -<J?- 1 (')') /\ 1- ')' = PlN(O; 1)::; -<J?- 1 (')')]
punti percentili -Za : O:=PlN(O; 1) ::; -ZaJ
cioè
-Za = <J?-1 (1- 'Y)= -<J?-1 (')') oppure Za = <J?-1 (')')

Per quanto riguarda invece la tn di Student e la x;,,
lasciamo al lettore di completare le
relazioni tra quantili e punti percentili ispirandosi alle seguenti figure:
t-student
1a.n- l
chi-quadrato
2 1-r 2 i+r
Xn-,(- 2- ) Xn-iC- 2- )
2 2
X1-a12.n- 1 Xa12,n-I
X~-1 (1-r ) z~_,(r)

2 2
X1-a,n- I X a.n-1
lvii
Appendice 2 - normale
r--J<l>-'(y)
-
1
~e
-v2n
-x 2tcr2
dx a= J- --e-x
z. En
1 2
kT
2
dx
X .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0.1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753
0.2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0.3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0.4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
0.5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224
0.6 7257 7291 7324 7357 7389 7422 7454 7486 7517 7549
0.7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852
0.8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133
0.9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389
1.0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621
1.1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830
1.2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015
1.3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177
1.4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319
1.5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441
1.6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545
1.7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633
1.8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706
1.9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767
2.0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817
2.1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857
2.2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890
2.3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916
2.4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936
2.5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952
2.6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964
2.7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974
2.8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981
2.9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986
3.0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990
3.1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993
3.2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995
3.3 9995 9995 9995 9996 9996 9996 9996 9996 9996 9997
3.4 9997 9997 9997 9997 9997 9997 9997 9997 9997 9998
i 3.5 999865 i 4.o I 9999683 i 4.5 I 9999966 I 5.o I 99999971 I
X 1.282 1.645 1.960 2.326 2.576 3.090 3.291 3.891 4.417
(
x) .9 .95 .975 .99 .995 .999 .9995 .99995 .999995
<1>(
-x) .1 .05 .025 .01 .005 .001 .0005 .00005 .000005
2(x)- 1 .8 .9 .95 .98 .99 .998 .999 .9999 1
2-2if?(x) .2 .1 .05 .02 .01 .002 .001 .0001 o
lviii
Appendice 3 - t-Student
a-r ·· r[(n+l) / 21, 1 dx

- ~~Jmircn l 2) [(x2 /n)+It~')I!
1
df =n t( .995) t(.99) t(.975) t(.95) t(.9) t (.75)

1 63.657 31.821 12.706 6.314 3.078 1
2 9.925 6.965 4.303 2.920 1.886 0.816
3 5.841 4.541 3.182 2.353 1.638 0.765
4 4.604 3.747 2.776 2.132 1.533 0.741
5 4.032 3.365 2.571 2.015 1.476 0.727
6 3.707 3.143 2.447 1.943 1.440 0.718
7 3.499 2.998 2.365 1.895 1.415 0.711
8 3.355 2.896 2.306 1.860 1.397 0.706
9 3.250 2.821 2.262 1.833 1.383 0.703
10 3.169 2.764 2.228 1.812 1.372 0.700
11 3.106 2.718 2.201 1. 796 1.363 0.697
12 3.055 2.681 2.179 1.782 1.356 0.695
13 3.012 2.650 2.160 1.771 1.350 0.694
14 2.977 2.624 2.145 1. 761 1.345 0.692
15 2.947 2.602 2.131 1.753 1.341 0.691
16 2.921 2.583 2.120 1.746 1.337 0.690

17 2.898 2.567 2.110 1.740 1.333 0.689
18 2.878 2.552 2.101 1.734 1.330 0.688
19 2.861 2.539 2.093 1.729 1.328 0.688
20 2.845 2.528 2.086 1. 725 1.325 0.687
21 2.831 2.518 2.080 1. 721 1.323 0.686
22 2.819 2.508 2.074 1.717 1.321 0.686
23 2.807 2.500 2.069 1.714 1.319 0.685
24 2.797 2.492 2.064 1. 711 1.318 0.685
25 2.787 2.485 2.060 1.708 1.316 0.684
26 2.779 2.479 2.056 1.706 1.315 0.684
27 2.771 2.473 2.052 1.703 1.314 0.684
28 2.763 2.467 2.048 1.701 1.313 0.683
29 2.756 2.462 2.045 1.699 1.311 0.683
30 2.750 2.457 2.042 1.697 1.310 0.683
40 2.704 2.423 2.021 1.684 1.303 0.681

60 2 660 2.390 2.000 1.671 1.296 0.679
120 2.617 2.358 1.980 1.658 1.289 0.677
CX) 2.576 2.326 1.960 1.645 1.282 0.674
N 2.576 2.326 1.960 1.645 1.282 0.680
lix
Appendice 4 - chiquadrato
-Jx" 2(
r ____
) x<n-2)/2e-x/2
dx
r- - 2"12r(n / 2)
df x;,(·) x;,(-) x;,(-) x;,(·) x;,(-) x;,(·) x;,(·) x;,(-) x;,(·) x;,(·)
n 0.005 0 .01 0 .025 0.05 0.1 0.9 0.95 0.975 0.99 0.995
1 ,0 4 393 .0° 157 .0 ° 982 .0 "393 0.0158 2.71 3.84 5.02 6.63 7.88
2 0.01 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.2 1 10.6
3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.3 12.8
4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.l 13.3 14.9
5 0.412 0.554 .831 1.15 1.61 9.24 11.1 12.8 15.1 16.7
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.4 16.8 18.5
7 0.989 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.7 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 16.9 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.57 5.58 17.3 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.5 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.89 7.04 19.8 22 .4 24.7 27.7 29.8
14 4.07 4 .66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
df x;,(·) x;,(·) x;(-) x;,(·) x;,(-) x;,(·) x;,( ·) x;,(-) x1,(·) x;,(·)
n 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0 .99 0 .995
16 5.15 5.81 6.91 7.96 9.31 23.5 26.3 28.8 32 .0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 32.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34 .8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36 .2 38 .6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.4 34.2 37.6 40.0
21 8.03 8.89 10.3 11.6 13.2 29.6 32.67 35.5 38 .9 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40 .3 42.8
23 9.26 10.2 11.7 13.1 14.8 32 .0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.8 15.7 33.2 36.4 39.4 43 .0 45.6
25 10.5 11.5 13.1 14.6 16.5 34. 4 37.7 40.6 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45 .6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.6
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48 .3 51.0
29 13.1 14.3 16.0 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50 .9 53.7
lx
Appendice 5/1 - Poisson
densità dello Poissoniano con >.=2.0
....
Ffl~~: ; -1-~.......-..........---1--~.--,T---r-T---r-T---r-T•
--i-- .....
4 6 7 8 9
Grafico della fun:done di densità discreta della poissoniana: fx (h) = >.he->- / hl
h"--_>. .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
o .9048 .8187 .7408 .6703 .6065 .5488 .4966 .4493 .4066 .3679
1 .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679
2 .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839
3 .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613
4 .0001 .0002 .0007 .0016 .0030 .0050 .0077 .0111 .0153
5 .0001 .0002 .0004 .0007 .0012 .0020 .0031
6 .0001 .0002 .0003 .0005
7 .0001
h"--_>. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
o .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353
1 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902
5 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361
6 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120
7 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034
8 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009
9 .0001 .0001 .0001 .0002
h"--_
>. 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
o .0821 .0498 .0302 .0183 .0111 .0067 .0041 .0025 .0015 .0009
1 .2025 .1494 .1057 .0733 .0500 .0337 .0225 .0149 .0098 .0064
2 .2565 .2240 .1850 .1465 .1125 .0842 .0618 .0446 .0318 .0223
3 .2138 .2240 .2158 .1954 .1687 .1404 .1133 .0892 .0688 .0521
4 .1336 .1680 .1888 .1954 .1898 .1755 .1558 .1339 .1118 .0912
5 .0668 .1008 .1322 .1563 .1708 .1755 .1714 .1606 .1454 .1277
6 .0278 .0504 .0771 .1042 .1281 .1462 .1571 .1606 .1575 .1490
7 .0099 .0216 .0385 .0595 .0824 .1044 .1234 .1377 .1462 .1490
8 .0031 .0081 .0169 .0298 .0463 .0653 .0849 .1033 .1188 .1304
9 .0009 .0027 .0066 .0132 .0232 .0363 .0519 .0688 .0858 .1014
10 .0002 .0008 .0023 .0053 .0104 .0181 .0285 .0413 .0558 .0710
lxi
Appendice 5/2 - Poisson
h"--._
).. 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
11 .0002 .0007 .0019 .0043 .0082 .0143 .0225 .0330 .0452
12 .0001 .0002 .0006 .0016 .0034 .0065 .0113 .0179 .0264
13 .0001 .0002 .0006 .0013 .0028 .0052 .0089 .0142
14 .0001 .0002 .0005 .001 1 .0022 .0041 .0071
15 .0001 .0002 .0004 .0009 .0018 .0033
16 .0001 .0003 .0007 .0014
17 .0001 .0003 .0006
18 .0001 .0002
19 .0001
lxii
Il Tavoledella FisherIl
Nota che vale per tutte le pagine delle tavole

Nelle successive pagine sono riportate le tavole dei quantili della Fisher accostate alle
tavole dei 100-a punti percentili per i seguenti valori di ì e a.
ì O:
0.75 0.25
0.9 0.1
0.95 0.05
0.975 0.025
0.99 0.01
Come funzionano
Le righe verdi contengono i valori del primo pedice n (gradi di libertà del numeratore)
mentre quelle gialle i valori del secondo pedice m (gradi di libertà del denominatore).
Ragioniamo per esempio in base ai quantili. Prendiamo la pagina con ì = 0.95 (nella
quale ci sono anche i 100-a punti percentili per a = 1 - ì = 0.05). Il ì-quantile della
Fn,m si trova all'incrocio della riga per n con la riga per m. Se n = 10 e m = 15 si ha
F--y=0.95,10,15 = 2.54. Si noti che F--y=0.95,10,15 = 2.54 = Fa=0.05,10,15·
,.,_ >
-' " Il >e
1 2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 IE+lO >e
I 5.83 7.50 8.20 8.58 8.82 8.98 9.10 9.19 9.26 9.32 9.4 1 9.49 9.58 9.63 9.67 9.71 9.76 9.80 9.85 ~ (T)
.'.:l :::::
2 2.57 3.00 3.15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
wli ~
3 2.02 2.28 2.36 2.39 2.4 1 2.42 2.43 2.44 2 .44 2.44 2.45 2.46 2.46 2.46 2 .47 2.47 2.47 2.47 2.47 .,,. ....
4 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2 .08
n
(T)
5 1.69 1.85 1.88 J.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87 .'.:l
is
NIO ~
6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74 ;i 1 ---..._
wJ_,::S I-'
7 1.57 1.70 1.72 1.72 1.71 1.71 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65 '
~
8 1.54 1.66 1.67 J.66 1.66 1.65 1.64 1.64 1.63 1.63 J.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58 + ~
a ....
'è [/J
9 1.51 J.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 I .58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 I.SI 1.50 1.49 1.48
....
'"I
12 1.46 1.56 1.56 1.55 154 I .53 I .52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
....
O"
l i::
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.41 1.40 1.39 1.38 1.37 1.36
N
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29 ....
24 1.39 1.47 1.46 J.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
* o
:::::
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 126 1.24 1.23 (T)
40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.31 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19 ,rj
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 J.27 1.25 1.24 1.22 1.21 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 1.33 1.3 1 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 I.IO
lE+lO 1.32 1.39 1.37 1.35 1.33 1.3 1 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
~ [fliJfl
I 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE +lO
1 5.83 7.50 8.20 8.58 8.82 8.98 9 .10 9. 19 9.26 9.32 9.4 1 9.49 9.58 9.63 9.67 9.7 1 9.76 9 .80 9 .85
2 2.57 3.00 3. 15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
3 2.02 2.28 2.36 2.39 2.4 1 2.42 2.43 2.44 2.44 2.44 2.45 2.46 2.46 2.46 2 .47 2.47 2.47 2.47 2.47
4 1.81 2.00 2.05 2.06 2.07 2 .08 2.08 2.08 2 .08 2.08 2.08 2.08 2.08 2.08 2 .08 2.08 2.08 2.08 2.08
5 1.69 1.85 1.88 1.89 1.89 1.89 1.89 J.89 1.89 J.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87 Q
Il
6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74
f' T
7 1.57 1.70 1.72 1.72 1.7 1 1.7 1 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65
8 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.64 1.63 J.63 1.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58
-
9 1.51 1.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 1.51 1.50 1.49 1.48
12 1.46 1.56 1.56 1.55 1.54 I .53 I .52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.4 1 1.40 1.39 1.38 1.37 1.36
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29
24 1.39 1.47 1.46 1.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 1.26 1.24 1.23
40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.3 1 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 1.27 1.25 1.24 1.22 1.2 1 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 I .33 1.31 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 I .IO
IE+IO 1.32 1.39 1.37 1.35 I .33 1.3 1 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
I !.
I 2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 IE+IO
I 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.7 1 6 1.22 61.74 62.00 6226 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.4 1 9.42 9.44 9.45 9 .46 9.47 9 .47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5. 18 5.18 5 .17 5. 16 5.15 5.14 5.13
4 4.54 4.32 4.19 4 .11 4.05 4.0 1 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.2 1 3.19 3.17 3. 16 3.14 3. 12 3.IO
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2 .80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47
8 3.46 3. 11 2.92 2.8 1 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.8 1 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 225 2.23 2.21 2. 18 2.16
IO 3.29 2.92 2.73 2.6 1 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2 .16 2.13 2.11 2.08 2.06
12 3. 18 2.8 1 2.6 1 2.48 2.39 2.33 2.28 2.24 2.2 1 2 .19 2.15 2.IO 2.06 2.04 2.0 1 l.99 l.96 1.93 l. 90
15 3.07 2.70 2.49 2.36 2.27 2.2 1 2.16 2.12 2.09 2.06 2.02 l. 97 l.92 l. 90 1.87 1.85 1.82 l.79 l.76
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 l.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61
24 2.93 2.54 2.33 2. 19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46
40 2.84 2.44 2.23 2.09 2.00 l.93 l. 87 1.83 l.79 1.76 1.71 l. 66 l.6 1 1.57 1.54 l. 51 l. 47 l.42 l. 38
60 2.79 2.39 2.18 2.04 l.95 l.87 1.82 l.77 1.74 1.71 1.66 l.60 l.54 1.51 1.48 l.44 l.4 0 1.35 l.29
120 2.75 2.35 2.13 1.99 l.90 l.82 1.77 l.72 l.68 1.65 l.60 l.55 l.48 1.45 1.41 l. 37 l. 32 1.26 1.19
lE+lO 2.71 2.30 2.08 1.94 l.85 l.77 1.72 1.67 l.63 1.60 1.55 1.49 l.42 1.38 l.34 l.30 l.24 1.17 1.00
~ Wiil2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 IE+IO

I 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60. 19 60.7 1 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.4 1 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5. 16 5.15 5. 14 5.13
4 4.54 4.32 4.19 4.11 4.05 4.0 1 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3 .17 3. 16 3. 14 3. 12 3. 10
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2 .96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.5 1 2 .49 2.47
8 3.46 3.11 2.92 2.8 1 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.8 1 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2. 18 2.16
10 3.29 2.92 2.73 2.6 1 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06
12 3.18 2.8 1 2.6 1 2.48 2.39 2.33 2.28 2.24 2.21 2. 19 2.15 2.10 2.06 2.04 2.0 1 l.99 1.96 1.93 l. 90
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76
20 2.97 2.59 2.38 2.25 2. 16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
30 2.88 2.49 2.28 2. 14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46
40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.7 1 1.66 1.61 1.57 1.54 I.SI 1.47 1.42 1.38
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 l .51 l.48 1.44 l.40 1.35 1.29
120 2.75 2.35 2.13 1.99 l.90 1.82 1.77 1.72 1.68 1.65 l.60 1.55 1.48 1.45 l.41 1.37 1.32 1.26 1.19
I E+ IO 2.7 1 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 l.34 1.30 1.24 1.17 1.00
4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE+IO
~ 1 161.45 199.50 215.71 224.58 230.16 233 .99 236.77 238.88 240.54 24 1.88 243.9 1 245.95 248 .0 1 249.05 250.10 251.14 252.20 253.25 254. 3 1
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.4 1 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.8 1 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6. 16 6.09 6.04 6.00 5.% 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.5 3 4.50 4.46 4.43 4.4 0 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.2 1 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4. 12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.5 1 3.44 3.4 1 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3 .44 3.39 3.35 3.28 3.22 3.15 3. 12 3.08 3.04 3.01 2.97 2.93
9 5. 12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3. 14 3.07 3.0 1 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.% 4.10 3.7 1 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.9 1 2.85 2.77 2.74 2.70 2.66 2 .62 2.58 2.54
12 4.75 3.89 3.49 3 .26 3. 11 3.00 2.9 1 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
15 4.54 3.68 3.29 3.06 2.90 2.79 2.7 1 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2. 18 2. 11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
30 4. 17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.2 1 2. 16 2.09 2.0 1 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.6 1 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2 .10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2. 18 2 .09 2.02 1.% 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
lE+ l0 3.84 3.00 2.60 2.37 2.21 2 .10 2 .0 1 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
~ .,..,P,
2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE+IO
1 161.45 199.50 215.71 224.58 230. 16 233.99 236.77 238.88 240.54 24 1.88 243 .9 1 245 .95 248.0 1 249.05 250.10 251.14 252 .20 253.25 254.31
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.4 1 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.8 1 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6 .94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.% 5.9 1 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5. 19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5. 14 4.76 4.53 4.39 4.28 4.2 1 4 .15 4 .10 4 .06 4.00 3.94 3.87 3.84 3.8 1 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.5 1 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3 .44 3.39 3.35 3.28 3.22 3. 15 3. 12 3.08 3.04 3.0 1 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3 .23 3.18 3. 14 3.07 3.0 1 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.% 4.10 3.71 3 .48 3.33 3 .22 3 .14 3 .07 3 .02 2.98 2.9 1 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
12 4.75 3.89 3.49 3.26 3. 11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
15 4.54 3.68 3.29 3.06 2.90 2.79 2.7 1 2.64 2.59 2.54 2.48 2.40 2.3 3 2.29 2.25 2.20 2.16 2.11 2.07
20 4.35 3.49 3. 10 2.87 2 .7 1 2.60 2.5 1 2.45 2.39 2.35 2.28 2.20 2. 12 2.08 2.04 1.99 1.95 1.90 1.84
24 4.26 3.40 3.01 2.78 2.62 2.5 1 2.42 2.36 2.30 2.25 2. 18 2. 11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.2 1 2.16 2.09 2.0 1 1.93 1.89 1.84 1.79 1.74 l. 68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2 .18 2 .12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3. 15 2.76 2.5 3 2.37 2 .25 2 .17 2.10 2 .04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2 .18 2 .09 2 .02 1.% 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
lE+ l0 3.84 3.00 2.60 2.37 2.2 1 2. 10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 IE+ IO
1 647.79 799.50 864. 16 899.58 92 1.85 937. 11 948.22 956.66 %3.28 %8.63 976.71 984.87 993. 10 997.25 1001.41 1005.60 1009.80 1014.02 1018.23
2 38.51 39.00 39. 17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.5 1 8.46 8.4 1 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6 .68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6. 12 6.07 6 .02
6 8.81 7.26 6 .60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5 .37 5.27 5.17 5.12 5.07 5.0 1 4.% 4.90 4 .85
7 8.07 6.54 5 .89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.4 1 4.36 4.3 1 4.25 4.20 4. 14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.7 1 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.% 3.87 3.77 3.67 3.6 1 3.56 3.5 1 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.3 1 3.26 3.20 3. 14 3 .08
12 6.55 5. 10 4.47 4. 12 3.89 3.73 3.61 3.5 1 3.44 3.37 3.28 3.18 3.07 3.02 2.% 2.9 1 2.85 2.79 2.72
15 6.20 4.77 4 .15 3.80 3.58 3.4 1 3.29 3.20 3. 12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
20 5.87 4.46 3.86 3.5 1 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2 .46 2.41 2.35 2.29 2.22 2.16 2.09
24 5 .72 4.32 3.72 3.38 3. 15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2. 15 2.08 2.01 1.94
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.5 1 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.0 1 1.94 1.88 1.80 1.72 l. 64
60 5.29 3.93 3.34 3.0 1 2.79 2.63 2.51 2.4 1 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 5. 15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
IE+ I O 5.02 3.69 3. 12 2.79 2.57 2.4 1 2.29 2. 19 2. 11 2.05 l. 94 1.83 l. 71 1.64 1.57 1.48 1.39 1.27 1.00
~2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 lE+IO
1 647.79 799.50 864 .16 899.58 92 1.85 937 .11 948.22 956.66 %3.28 %8.63 976.71 984.87 993. 10 997.25 1001.41 1005.60 1009.80 1014.02 1018.23
2 38.51 39.00 39 .17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39 .45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.5 1 8.46 8.4 1 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7. 15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6 .23 6.18 6. 12 6.07 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5,07 5.0 1 4.% 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5. 12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.4 1 4.36 4.3 1 4.25 4.20 4. 14
8 7.57 6.06 5 .42 5 .05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4. 10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7 .21 5.7 1 5 .08 4.72 4.48 4.32 4.20 4.10 4.03 3.% 3.87 3.77 3.67 3.61 3.56 3.5 1 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3. 14 3.08
12 6.55 5. 10 4.47 4.12 3.89 3.73 3.61 3.5 1 3.44 3.37 3.28 3.18 3.07 3.02 2.% 2.9 1 2.85 2.79 2.72
15 6.20 4.77 4. 15 3.80 3.58 3.4 1 3.29 3.20 3. 12 3.06 2.% 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
20 5.87 4.46 3.86 3.5 1 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2 .46 2.4 1 2.35 2.29 2.22 2. 16 2 .09
24 5.72 4.32 3.72 3.38 3. 15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.2 1 2. 15 2 .08 2.0 1 l. 94
30 5.57 4. 18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.5 1 2 .4 1 2.3 1 2.20 2. 14 2.07 2.0 1 1.94 l. 87 1.79
40 5.42 4.05 3.46 3. 13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.0 1 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.0 1 2.79 2.63 2.51 2.4 1 2.33 2.27 2. 17 2.06 l. 94 l.88 1.82 1.74 1.67 1.58 1.48
120 5. 15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 l.76 1.69 1.61 1.53 1.43 1.3 1
lE+IO 5.02 3.69 3. 12 2.79 2.57 2.4 1 2.29 2.19 2. 11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
,u, ,. ......
I
-1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE+IO
1 4052.18 4999.50 5403.35 5624.58 5763.65 5858.99 5928.36 5981.07 6022.47 6055.85 6106.32 6157 .28 6208 .73 6234 .63 6260.65 6286 .78 6313.03 6339.39 6365.68
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30 .82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9. 11 9.02
6 13.75 10.92 9.78 9. 15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.3 1 7.23 7. 14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6 .72 6.62 6 .47 6 .3 1 6 .16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6 .37 6.18 6.03 S.91 5.8 1 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4 .86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5. 11 4.% 4.8 1 4.73 4.65 4.57 4 .48 4.40 4.31
lO 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.4 1 4.33 4.25 4.17 4.08 4.00 3.91
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4 .39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3. 13 3.05 2.% 2.87
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2 .94 2.86 2.78 2.69 2.6 1 2.52 2.42
24 7 .82 5.61 4.72 4 .22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.3 1 2.21
30 7.56 5.39 4.5 1 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2 .70 2.55 2 .47 2.39 2.30 2.2 1 2 .11 2 .01
40 7.31 5.18 4.3 1 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2 .66 2.52 2.37 2.29 2.20 2.1 1 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 l.73 l.60
120 6.85 4.79 3.95 3.48 3.17 2.% 2.79 2.66 2.56 2.47 2.34 2.19 2.03 l. 95 J.86 l.76 1.66 1.53 1.38
l E+ l0 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2. 18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
~l mllil 7
2 3 4 5 6 8 9 10 12 15 20 24 30 40 60 120 lE+l0
1 4052.18 4999.50 5403.35 5624.58 5763.65 5858.99 5928.36 5981.07 6022.47 6055.85 6106.32 6157.28 6208.73 6234.63 6260.65 6286.78 6313.03 6339.39 6365.68
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99 .40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.7 1 28.24 27.9 1 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9 .89 9 .72 9.55 9 .47 9.38 9 .29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8. 10 7 .98 7.87 7.72 7.56 7.40 7.3 1 7.23 7. 14 7 .06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.0 1 6.63 6 .37 6.18 6.03 5.9 1 5.8 1 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.6 1 5.47 5.35 5.26 5.11 4.% 4.8 1 4 .73 4.65 4.57 4.48 4.40 4.31
IO 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.7 1 4.56 4.4 1 4.33 4.25 4.17 4.08 4.00 3.9 1
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
15 8.68 6.36 5.42 4.89 4.56 4.32 4 .14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.% 2.87
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2 .52 2.42
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3 .17 3.03 2.89 2.74 2 .66 2.58 2.49 2 .40 2.3 1 2.2 1
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2 .98 2.84 2 .70 2.55 2.47 2.39 2.30 2.2 1 2. 11 2.01
40 7.31 5.18 4 .31 3.83 3.51 3.29 3 .12 2.99 2 .89 2.80 2.66 2.52 2.37 2 .29 2.20 2. 11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3. 12 2 .95 2.82 2.72 2.63 2.50 2.35 2 .20 2.12 2.03 1.94 1.84 1.73 1.60
120 6.85 4.79 3.95 3.48 3.17 2.% 2.79 2.66 2.56 2.47 2.34 2. 19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
IE+IO 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2. 18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
lxviii
Appendice 7 /1 - funzione di Kolmogorov
fdr: K(!.) fd: K'(!.)
1 - 1'
n 0.20 0.15 0.10 0.05 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
6 0.410 0.436 0.470 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490
11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.282 0.304 0.338 0.404
16 0.258 0.274 0.295 0.328 0.392
17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356
25 0.210 0.220 0.240 0.270 0.320
30 0.190 0.200 0.220 0.240 0.290
35 0.180 0.190 0.210 0.230 0.270
Ln !_._;g,
n > 35 7n 7n 7n Tn 7n
Per un valore di n < 35 fissato e per un livello 1 - 1' del test, le celle all'incrocio n con
1 - )' contiene i valori ~ con cui i valori osservati d~ vanno confrontati: per esempio
n = 12, 1 - 1' = 0.15 d~ va confrontato con 0.313.
L'ultima riga si riferisce ai valori di n grandi: se n > 35 occorre confrontare d~ con il
valore che si ottiene dividendo i numeratori delle frazioni dell'ultima riga per fa.
La tavola è adattata da: F.J.Massey - The Kolmogorv-Smirnov test far goodness of lit -
J .Am.Stat.Assoc. 46:68- 78, 1951.
lxix
Appendice 7 /2 - quantili di Kolmogorov per normale, quando i parametri
sono ricavati dai dati
La tavola dei quantili 6/1, utilizzata per un test di normalità con il metodo di Kolmogorov-
Smirnov, quando media e varianza della popolazione ipotizzata sono ricavate dai dati,
rispettivamente:
X = Ì: X;. 52 = _l_ '-"'(X - X )2

n n 'n n-lL., ' n
deve essere sostituita dalla seguente tavola
1 - ì'
n 0.20 0.15 0.10 0.05 0.01
4 0.3027 0.32 16 0.3456 0.3754 0.4129
5 0.2893 0.3027 0.3188 0.3427 0.3959
6 0.2694 0.2816 0.2982 0.3245 0.3728
7 0.2521 0.2641 0.2802 0.3041 0.3504
8 0.2387 0.2502 0.2649 0.2875 0.3331
9 0.2273 0.2382 0.2522 0.2744 0.3162
10 0.2171 0.2273 0.2410 0.2616 0.3037
11 0.2080 0.2179 0.2306 0.2506 0.2905
12 0.2004 0.2101 0.2228 0.2426 0.2812
13 0.1932 0.2025 0.2147 0.2337 0.2714
14 0.1869 0.1959 0.2077 0.2257 0.2627
15 0.1811 0.1899 0.2016 0.2196 0.2545
16 0.1758 0.1843 0.1956 0.2128 0.2477
17 0.1711 0.1794 0.1902 0.2071 0.2408
18 0.1666 0.1747 0.1852 0.2018 0.2345
19 0.1624 0.1700 0.1803 0.1965 0.2285
20 0.1589 0.1666 0.1764 0.1920 0.2226
25 0.1429 0.1498 0.1589 0.1726 0.2010
30 0.1315 0.1378 0.1460 0.1590 0.1848
35 0.1220 0.1278 0.1356 0.1478 0.1720
40 0.1147 0.1204 0.1275 0.1386 0.1616
45 0.1083 0.1134 0.1204 0.1309 0.1525
50 0.1030 0.1079 0.1142 0.1246 0.1457
U.741 U.r (5 U.8HJ U.8!:!5 l.U:15

n > 50
fn fn fn fn fn
dove
fn = 0.83 +n _ 00
vn .1.
Da Abdi, H.; Molin, P.- Lilliefors test of normality, 2007, che si può scaricare al seguente
indirizzo web: www.utdallas.edu;-herve/ Abdi-Lillie2007-pretty.pdf
lxx
Appendice 7 /3 - quantili di Kolmogorov per esponenziale, quando il para-
metro è ricavati dai dati
La tavola dei quantili 6/1, utilizzata per un test di esponenzialità con il metodo di
Kolmogorov-Smirnov, quando la media della popolazione ipotizzata è ricavate dai dati:
- I:X;
Xn=--
n
deve essere sostituita dalla seguente tavola
1 - 'Y
n 0.20 0.15 0.10 0.05 0.01
3 0.451 0.479 0.511 0.551 0.600
4 0.396 0.422 0.449 0.487 0.548
5 0.359 0.382 0.406 0.442 0.504
6 0.331 0.351 0.375 0.408 0.470
7 0.309 0.327 0.350 0.382 0.442
8 0.291 0.308 0.329 0.360 0.419
9 0.277 0.291 0.311 0.341 0.399
10 0.263 0.277 0.295 0.325 0.380
11 0.251 0.264 0.283 0.311 0.365
12 0.241 0.254 0.271 0.298 0.351
13 0.232 0.245 0.261 0.287 0.338
14 0.224 0.237 0.252 0.277 0.326
15 0.217 0.229 0.244 0.269 0.315
16 0.211 0.222 0.236 0.261 0.306
17 0.204 0.215 0.229 0.253 0.297
18 0.199 0.210 0.223 0.246 0.289
19 0.193 0.204 0.218 0.239 0.283
20 0.188 0.199 0.212 0.234 0.278
25 0.170 0.180 0.191 0.210 0.247
30 0.155 0.164 0.174 0.192 0.226
U.lsb U.!H U.!:Jb l.UO Liv

n > 30
v1n v1n v1n v1n v1n
Da H. W. Lilliefors, On tbe Kolmogorov-Smirnov Test far tbe Exponential Distribution
witb Mean Unknown, Journal of the American Statistica! Association, Vol. 64, No. 325
(Mar., 1969), pp. 387-389.
lxxi
Il OC curve, tavole Il
Nota che vale per tutte le pagine delle tavole

Nelle successive 4 pagine sono riportate le curve operative caratteristiche utilizzate
nei casi di test sulla media della gaussiana, nota o ignota la varianza. Altre tavole
analoghe, che si usano nei test sulla varianza di una gaussiana, sulla differenza medie di
gaussiane, sul rapporto di varianze di gaussiane, si trovano su molti testi di statistica e
probabibilità.
Come funzionano
Si fissa innanzitutto a. Nei nostri casi si prendono in considerazione solo i valori a = 0.01
(figura in alto di ogni pagina) e a= 0.05. In ogni figura, in ascissa sono riportati i valori
di À (ricordare che si nega l'ipotesi nulla µ = µ 0 per l'alternativa µ = µ 0 + Àa) mentre
in ordinata sono riportati i valori dell'errore di II tipo (3. Le curve sono disegnate per
diverse dimensioni del campione. Nel nostro caso
O::; À::; 5; (3 = O.l; 0.2; ... ; 0.9; l; n = l, 2, 3, 4, 5, 7, 10, 15, 20, 30, 40, 50, 75, 100
Una OCC si può usare in vari modi. Scelti À e (3 si può trovare n, oppure scelti À e n si
può trovare (3 o, infine scelti (3 e n si può trovare À.
lxxii
Appendice 8/1 - Test bilatero per media di una gaussiana nota la varianza
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
o 2 3 4 5
OCC di N(µ; a 2 ), a 2 nota, test bilatero e a= 0.01 e varie dimensioni n del campione. I
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.1
O.I
o 2 J 4 _;
OCC di N(µ; a 2 ), a 2 nota, test bilatero e a= 0.05 e varie dimensioni n del campione
lxxiii
Appendice 8/2 - Test unilatero per media di una gaussiana nota la varianza
-1 o 2 3 4 5
OCC di N(µ; <J2 ), <J2 nota, test unilatero e a= 0.01 e varie dimensioni n del campione
v.v
' '\\\\ \ \~
11\\\\\ \ \
V.J
-I o 2 3 4 5
OCC di N(µ; <J2 ), <J2 nota, test unilatero e a= 0.05 e varie dimensioni n del campione
lxxiv
Appendice 8/3 - Test bilatero per media di gaussiana ignota varianza
100 ~~~~~~CrT11-11T11-n
0.90t--tt'1~ct--"'<;:-f'~-P""'<;;:-t==""""":b--f--=J=-+,oc:::::::+-+-+--l-----l----+---I
O.BOt--;ll-*ttr\-+~-r~-+-___;~--1f--..=~--+-+--+---+-=::::::, ........,..4_
O.70t-----itt-ii\-t---\--\---\--~:--+--~:---l----i=~+--+---+--'-----l-----1----1
0.60,t--t+t-+"-+--\t++++___:~-l----1~---+--4--~...l.---1--.I---J~___J.--J
0.50t--t-+JH+-\---tr--tt---½--+-.l,c+ - -+--+:~-+--+--~-l------J~--1----I
o 40t--rt+-1H-+rt-+r-+-~+---f-l-..---+--+--+-:1...---1---1---1-~>1--
o.3ot---t---if"-t++--\+--\--l---\-+-*--1--4----+-~c:t--i--........J.---+----I
0.20
O. I O1-- ----,1--___.,+-
OCC di N(µ ; a-2 ), a-2 ignota, test bilatero e cx= 0.01 e vari e dimensioni n del campione
OCC di N(µ ;o-2 ), o-2 ignota, test bilatero e cx= 0.05 e varie dimensioni n del campione
lxxv
Appendice 8/ 4 - Test unilatero per media di gaussiana ignota varianza
, ----- ,..__
1.00
0.90
l ~ r--....---=
:::---.
~~ l'\
.......
"
i--..
0.80
' ~\ "~ \\ - I'---,..
'l'\\\\ \ \ "
0.70 \. Ì',"" ........
', --.......
0.60 i'\. i'... K~ J
\ Ì\.. " ~
""""r--..
0.50
0.40
\,\ \
\
--~\
--~
~""
\
I\
~---
~.
r~'*·~
~·
.- \\ \ ' "-..
0.30
\ \ "'., -
0.20
~~ Ì'-.~:,.
-~
r-- ..........
-
0.10 slj~~ ~ ~
~......,,..__r----..._
osi
Ì'
,._
I',..
i'-- r---
-
o
-0 .8 -0.6-0.4 -0 .2 O 0 .2 0.4 0.6 0.8 1.0
~\..
1.2 1.4
~
1.6 1.8 2.0 2.2 2.4 2.6 2.8
-
3.0 3.2
OCC di N(µ; CJ2 ), CJ2 ignota, test unilatero e a= 0.01 e varie dimensioni n del campione
1.00
--
0.90
o.so ~ ~
~\ ~ ~.......
Ì\\ ~ '
0.70
~1\\
0.60
0.50
""""
'
1\,\ Ì\' \'\.
\ ,\ \ \
0.40
0.30
;:s
Il \\~ \ \ \
"' " '
\
\ '\ " .....

Ì'-.
8 I~,,\ '-'' ' ~ "- I'--...~~
;:s~~(\~~~~ .J.
0.20
0.10
o
-0 .8-0.6-0 .4-0.2
,~~t
\\
O 0.2 0.4 0.6 0.8

;I
~ "~-2'~~r---
~ "a
~S-~
"
1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4

r---.....
.......
-- -
........r---.....
r--
........
.....__
2.6 2.8 3.0 3.2
--
OCC di N(µ; CJ2 ), CJ2 ignota, test unilatero e a= 0.05 e varie dimensioni n del campione
lxxvi
Appendice 9
Specchio dei legami tra distribuzioni (rielaborazione da Leemis, L.M. (1986)
Relationships among common Univariate distributions. American Statistician 40, 143-
146). Le linee continue indicano uguaglianza, le linee tratteggiate indicano convergenza
in legge.
...
~
-
-e =
(,I
... .-..
::
o .-..
~
=
lo, Q.
._,
=
C)
~ .:i
~ ~
té,
-
lf
Q.
'' r-,
!Il
8
'4
+ -;
'
~
l/ì I
::i..
.....,
~i ·-
e c.
o
,-,
/\I
r-,
?
i::,_
I Il
'-"
~
....
~ ·-
==
~
._, (I)
-o t:
'-'
N
o
' ' s
i= l/ì
/\I
~
' o/) Il
t: ~ :::l.
\
I
\
l/ì
q
o
'
-~
\
VI
(I)
.:i..
-o
?
Il
soJJ o/\I
i=
(',i
~ t: ~
lxxvii
Appendice 10 - le più comuni distribuzioni discrete
popo lazione parametri fd f( x ) E [-] var [·]

un iforme N2 - 1
-N+
2-l
I10 , 1, ,n](x)
N N ~
di screta
Bernoulli O :'S:p :S: 1 pi r11(x )+(l - p) Iro1(x ) p pq
O :S:p :S 1 (n)p x qn - x J [0,1,.,n] (x)
B(n , p) X np npq
n
Pois son À E JR+ .,,, I ro,1,2,...) (x)
e - .\.\ - À À
geometrica O:S:p:S:l pqx I [1,2, .)(x ) .!. l
V ;;:r
Jvl,n E N
k E N U {O} (k)( M- k)
iper geometrica x n- x J ( ) k k M- k M- n
0:Sk:SM (~) [0,1,.,M] X nM nM---y;;r- M- 1
l:S:n:S:M
popo lazione parametri mediana fgm

un iforme N+ l N l it
N - 2- I: i= l Ne
di screta
O se(l - p)>p
Bernou lli O :'S:p :S: 1 O.5se(l - p) = p p et + q
l se(l - p)<p
O:S:p:S:l
B(n , p) lnp j V 1np l (pet + q)"
n
Poi sson À E JR+ e::: lÀ+l /3 - O.O2,\j e.$e - 1)
geometrica O:S:p:S:l I 1°g2(;_p) I p
ci )
non un ica se log ') - p è intero
l - qe'
Jvl,n E N
k E N U {O}
ipergeometri ca ---
0:Sk:SM
l:S:n:S:M
~
:><
popolazione parametri fd f(x) E[·] var[·] > g:
>e
uniforme a+b (b-a) 2 >e
a,bE R (T)
b~a I[a,b] (X) -2- 12
continua :::::
~
....
µER - (x-µ) 2 n
(J2 (T)
N(µ, u 2 ) --e1
(J'v2-ir 20'2 µ
u E R+ I-'
I-'
,\ E R+ 1 1
Exp Àe-,\x Ira,+=) (X) >." ""i""2"
(T)
r E R+ À (,\ -ÀXJ ( ) T T
-
r(r, ,$ r(r) x t-1 e [O,+=) x p >e
....
,\ E R+ À .;:,
rAfm(1 n
X~ nEN 2x 2
)'.!!-1 e_1x 1[O,+cx,)(X) 2 n 2n o
t - Student I'[(n+l)/2J . 1 ---1!c_ • (
§
n E N,n > 1 ,hrnr( n/2) f( x2 In )+ll (n+l)/2 o n-2' n > 2) :::::
....
n,mEN r( T )n n/2m ,n/2 x<n-2)/2 m 2m 2(n+m-2) ~
....
[/J
Fnm, [nx+m]<n+1n)/2f[o,+=) (X) m-2 n(m-2) 2(m-4) ....
n 2 l;m 2 1 r(~)r(7~i) '"I
....
O"
popolazione parametri mediana fgm .::
N
....
o
uniforme etb_eta :::::
a,bE R ili ....
continua 2 t(b-a) n
o
µER éµ+½t20'2 a....
N(µ, u 2 ) µ
u E R+ §
ln:l (T)
Exp ,\ E R+ ~
). >.-t
rER+
r(r,À) non ha una forma chiusa semplice ().~tr
,\ E R+
nEN ~ n(l - ():,.)2 (1 - 2t)-n/ 2
X~
t - Student n E N,n >1 o non ::l
n , mEN m 3n-2
,....,----
Fn,m - 3m-2 n
n 2 l;m 2 l
parametro ipotesi pivot le bilatero di livello ry
a 2 nota
campione grande -
µ, via TCL Z- X- µ X± cp-1 (1+1) ...Q_
- <7/./n 2 ./n
campione piccolo
popolazione norma le
a'2 ignota [/J
µ, popolazione normale t = X-µ - 1+ S "C

X± tn - 1( y) ./n (T)
S/./n n
o quasi normale g.
popo lazione di Bernoulli ....
o
p-p . A - X
p n grande cioè Z= p ± cp- 1( 1;1) J p(l:p) ~
JtJ<1;:pl ,P - (T)
np > 5 e nq > 5 0.9..

....
µ, ignota 2 _ (n-1)S 2 (n-l)S 2 (n-l)S 2
(}"2 <a2 <
Xn-1 - c,2
popolazione normale x?, 1(111 ) - - x?, 1(.!..?)
ai a§ note
campione grande
x-Y-(µ1-µ2)
/J,1- /J,2 via T CL x - y ± <1>-1u;1)J~ +~
c,2 ,,.2
campione picco lo
J7+~
popolazione norma le
t = (X - Y) -( µl - µ2)
·
a 21 = a 22 ignote
/J,1- /J,2
Spy'(1/ n)+(l/m)
popolazione normale
(X - Y) ± t cn+m-2) (1; 1 )SpJ ¼+ ~
S = J(n-l)Sf+(m-l)S~
P n+m 2
e 0n stimatore MLE di 0 0~.-0 en - 1u;
± <1> 1 ).f(11n1(0 n )
.._/(l/n]/0n)
e 0n stimatore MLE di 0 0n-0 èn ± <1>-1u;1) var[Bn]
.._/varl0nl
0n stimatore MLE di 0 0n-0
e y'&,;
èn ± <1>-1u;1 )v'Un
Cln stimatore MLE di var[0n]
lxxx
Appendice 13 - specchio dei test d'ipotesi parametrici per gaussiane
Una popolazione X~ N(µ; o-2 )
Ho stat ist ica t est Ha RC

µ# µ o IZol > Za/2
µ = µo a 2 nota Z
O
= x- ,,o~ N(O·' l )
u/.fii µ>µo Zo > Z°'
µ<µo Zo < - Za
µf µo IToI > ta/2,n - l
µ =µo a 2 ignot a T, = x- 1•0~t µ>µo To > ta ,n- 1
O S/,/n n- 1
µ<µo To < - ta,n - 1
Ho statist ica test Ha RC

X5 < xLa/2 ,n
,,.2 # 0-5 oppure
a2 = a5 µ nota x2O = !:§,.
u ~x2n
0
2
Xo2> Xa.{2,n
2
·I ,,.2
,,.2
> 0-5
< 0-5
~o>
Xo < X1- nn
Ja,n
X5 < Xt - a/2,n- I
,,.2 # 0-5 oppure
,,. 2 = 0-5 µ ignota Xo =
2 (n-O'o
vs ,...,..Xn
22
-l
2 2
Xo2> Xop,n - 1
,,.2 > 0-5 ~O> ~a,n - 1
,,.2 < 0-5 Xo < X1- nn - l
Due popolazioni X~ N(µ 1 ; o-n I\ Y ~ N(µ 2 ; o-~)
Ho stat istica test Ha RC

- - µl 'f' µ2 IZI > Za/2
= ai a~note z - ____K=1'_ µ l > µ2
.si
µ1 = µ,
- v-r;;J
= n µ1 < µ2
Z >Za
Z< - Z,,
"Cl (X - Y)
Cl)
T = µl 'f' µ2 ITI > ta/2,n+m - 2
8 µl = µ, aI = u~ignote s,v( l /n) + (l / m)
µ1 > µ2 T > ta,n +m - 2
o S _ J(n -l )Sf + (m-l )Si
T <
=o
'E
Ho
P - n+m - 2
statistica test
µ1 <µ2
Ha
- ta,n + m - 2
RCa
o -v~
z· - ____K=1'_
~ µ 1 'f' µ2 Iz• I > ta;2,d1
=" µI=µ, o-? # o-~ignote
V =
(~·~y
n+m
(S f / n)2 (S;;m) 2
µl > µ2
µ1 <µ2
df
Z*
z• > ta ,df
= in tero
< - ta,df
più vicino a v
n l + m 1
F=
Cl)
_;
Ho statistica test Ha RC
~ s' aI =a~ Fa < Fa/2,m-1,n-1 V Fo > Fo:/2,n-1,m-l
o µ1 µ2 Fo=~
= O"~
<T!
=o
note o ignote Fo l'-..J Fn-1,m-1 ,,.r> ,,.~ Fa > Fa,n-1,m-l
1
'=
Una popolazione di Bernoulli X,.._, B(l,p)
Ho statistica test Ha RCa

P1'Po IZI> Za/2 [/J
p=po np ~ 5 /\nq ~ 5 Z= Vt~p);p=X P > Po Z> Z 0 "C
(T)
P <Po Z<-Za n
g.
....
o
~
(T)
....
~
-a·
o
Due popolazioni X _.._,
B (p1) /\ Y rv B (p2) ....
(T)
[/J
.... ....
=
o
....
~
Ho statistica test Ha RCa
~
P.
o1-, - -
P. Po= Xn -Ym ~ N(O, 1) P1-=/=-
P2 IPol> Za/2
o P1 =p2 P1 > P2 Po> Za
Jfi(l - p)(¼+ r!i)
o P1 < P2 Po< -Za
=
~
nXn+mYm
p=
=
ou n+m
[
~
:><
> 8:
>e
>e
(T)
:::::
~
....
n
(T)
I-'
01
.e
.::
~
~
'"I
Tempi d'attesa (TA) o
esponenzial e ~
geometrica binomiale negativa gamma (T)
....
TA del primo successo TA dell'r-esimo successo ....
(T)
in prove bernoulliane in prove bernoulliane 3
TA dell'r -esimo >e
....
ripetute infinite volte ripetute infinite volte in TA del primo
~
in termini di s insuccessi termini di r - 1 successi e evento di Poisson evento di Poisson ~~
che precedono s insuccessi che precedono

....
....
(T)
[/J
il primo successo l'r -es imo successo ~
Probabilità evento Probabilità evento Probabilità evento Probabilità evento

Àr xr-le-,\
(1-p)sp r -!+s )(l - p)spr >.e-Àx I[o,+=)(x) (r - 1)! I[o,+=)(x)
gioco rea le gioco equo gioco reale gioco equo
probabilità vincita per vincita per vincita media vincita media
Equità dei principali giochi di vincere euro giocato euro giocato unitaria unitaria
Roulette
rosso/nero 0.486 2 2.058 0.973 1
passe/man que
pari/ dispari
dozzina 0.324 3 3.086 0.973 1
colonna
Lotto (lJ
ambata 1/ 18 11.25 18 0.639
ambo 1/4 00.5 250 400 0.624
terno 1/ 11748 4250 11748 0.362
qua terna 1/5 11 038 8000 511 038 0.157
cinquina 1/43 949 268 1 000 000 43 949 268 0.023
Enalotto l5 J 0.3463 1
Super Enalotto t8 J
6 numer i 2/622 614 630 0.38 1
Lott erie nazionali l2 J 0.3866 1
Gratta e vinci (2 ) 0.4324 1
Totocalcio l3 !
tredici 2/1 594 323 0.3463 1
Totogol l4 J
otto 2/5 852 925 0.3481 1
Totip (7 J 0.3464 1
Tris l5 ! 0.6689 1
Fonte: Tesi di laurea di Valentin a Stangherlin - Valutazione probabilistica di lott er ie, scommesse e giochi
a premio, Faco ltà di Scienze Statist iche, dell'Univ ersità La Sapienza di Roma , 1991, nostra rielaboraz ione.
[
lxxxiv
Appendice 16/2
Note alla tabella della pagina precedente
(l) Le probabilità e le vincite medie sono calcolate supponendo di giocare su una sola
delle dieci ruote puntando un solo numero per l'ambata, due per l'ambo, tre per la terna,
quattro per la quaterna e cinque per la cinquina (giocata secca). Probabilità e vincite
medie calcolate giocando sulle dieci ruote non subiscono variazioni sostanziali rispetto
alle cifre qui fornite.
( 2 ) Per le Lotterie i premi sono noti a priori ma non le probabilità di vincere, che
dipendono dal numero totale di biglietti venduti che si conosce solo a vendite ultimate.
Non è perciò possibile fare un calcolo della vincita media per lira giocata riferendosi a
un giocatore individuale per una singola lotteria. Il risultato che vi proponiamo è stato
ottenuto basandoci sui seguenti dati globali relativi al 1996: spesa totale dei giocatori
lire 297.007.525.000, montepremi vinti lire 114.829.500.000. Ipotizzando la spesa come
se fosse stata fatta da un "unico ipotetico giocatore globale" che ha vinto certamente il
montepremi totale si ottiene che, per tale giocatore, la vincita media unitaria è pari al
38%. Applicando lo stesso ragionamento al "Gratta e vinci" si ottiene una vincita media
unitaria pari al 43%.
( 3 )( 4 )( 5 )( 5 )( 7 )( 8 ) Nel Totocalcio, nel Totogol, nell'Enalotto, nel Super Enalotto e nella
Tris (come nel Totip) le vincite dipendono dal montepremi. Non è perciò possibile fare un
calcolo della vincita media per lira giocata riferendosi a un giocatore individuale. Per il
calcolo che vi proponiamo l'insieme di tutti giocatori è stato considerato come un "unico
ipotetico giocatore globale". Dal momento che solo lo x% del giocato va in montepremi e
che l' "unico ipotetico giocatore globale" vince certamente tutto il montepremi, la vincita
media unitaria è pari a x%. Il valore di x è il seguente:
Enalotto 34.63 Totogol 34.81

Superenalotto 38 Tris 66.89
Totocalcio 34.63 Totip 34.64
Nel Super Enalotto la valutazione individuale sarebbe ancora più complicata. Con-
siderato che il montepremi è pari a 0.38 dell'intero montante giocato si può applicare al
Super Enalotto la stessa logica del Totocalcio nonostante la presenza del meccanismo del
jackpot.
( 3 )( 4 ) Il calcolo della probabilità di fare 13 nel Totocalcio o 8 nel Totogol è stato fatto
basandosi sulla giocata minima, 2 colonne da 13 per il Totocalcio e 2 scelte di 8 partite su
30 proposte nel Totogol. Nel calcolo sono stati considerati equiprobabili tutti i risultati
possibili. Ciò non è in generale vero. Questi giochi sono di previsione e l'assegnazione di
una probabilità a un risultato dipende da fattori di conoscenza del gioco del calcio che
si accompagnano a criteri di valutazione soggettiva.
( 5 ) Anche per la Tris si potrebbe scegliere un tipo di giocata (ad esempio "un vincente
e due piazzati") e calcolare la probabilità di azzeccarla basandosi per ipotesi su un numero

di partenti pari a 20 e assegnando a ogni cavallo la stessa probabilità di vincere. Ciò
non ha molto senso. Per ogni corsa Tris è infatti possibile ottenere una tabella delle
diverse quote a cui sono dati i cavalli partecipanti, commenti tecnici, nomi dei fantini e
ognuno fa le sue valutazioni soggettive scegliendo di giocare su combinazioni che reputa
più probabili.
( 8 ) Il calcolo della probabilità di indovinare 6 numeri al Super Enalotto è stato fatto
basandosi sulla giocata minima di 2 colonne di 6 numeri l'una. Tutte le sestuple possibili
sono ovviamente equiprobabili.
lxxxv
Appendice 17
Itaca
Quando ti metterai in viaggio per Itaca
devi augurarti che la strada sia lunga
fertile in avventure e in esperienze.
I Léstrìgoni e i Ciclòpi
o la furia di Nettuno non temere,
non sarà questo il genere d'incontri
se il pensiero resta alto e un sentimento
fermo guida il tuo spirito e il tuo corpo.
In Ciclòpi e Léstrìgoni, no certo
né nell'irato Nettuno incapperai
se non li porti dentro
se l'anima non te li mette contro.
Devi augurarti che la strada sia lunga.
Che i mattini d'estate siano tanti
quando nei porti - finalmente, e con che gioia -
toccherai terra tu per la prima volta:
negli empori fenici indugia e acquista
madreperle coralli ebano e ambre
tutta merce fina, anche profumi
penetranti d'ogni sorta, più profumi
inebrianti che puoi,
va in molte città egizie
impara una quantità di cose dai dotti.
Sempre devi avere in mente Itaca -
raggiungerla sia il pensiero costante.
Soprattutto, non affrettare il viaggio;
fa che duri a lungo, per anni, e che da vecchio
metta piede sull'isola, tu, ricco
dei tesori accumulati per strada
senza aspettarti ricchezze da Itaca.
(Costantino Kavafis, Settantacinque poesie, 1992, Collezione di poesia, EINAUDI )
Costantino Kavafis (Grecia) 29 aprile 1863 -29 aprile 1933
Nasce da una agiata famiglia borghese che subisce

un tracollo economico nel 1876 e si trasferisce prima
a Liverpool poi a Istanbul. Kavafis si stabilisce nel 1892
a Alessandria d'Egitto e viaggia a Parigi e Atene.
Di lui ci rimangono 154 poesie. Le sue liriche sono
epigrammatiche, brevi, essenziali attraversate da una
sottile ironia. Per Kavafis la poesia è spesso canto
della memoria del suo passato e della storia; ed è sempre
mezzo per la nobilitazione dell'individuo. Una caratteristica
che lo accomuna a Omero è il grande amore per l'uomo.
lxxxvii
Indice analitico
nota Chapman - Kolmogorov, De Finetti, Bruno, 56

- equazioni, 478 decomposizione di Cholesky,
I - numeri romani: si riferisce a - teorema, 477 A-xxxiii
una pagina della introduzione. Chebyscev, disuguaglianza, derivazione sotto il segno di
A - numeri romani: si riferisce 121 integrale, teorema, A- xlvii
a una pagina delle appendici. Chebyscev, Pafnuty, 125 determinazione, 86
Cholesky, decomposizione, A - deviazione standard, 12,114,
A XXXll - campionaria, 306
cicogne di Oldenburg, A - 1 dimensione del campione,
accumulatore di massa, 87, 98
affidabilità, 77
cL,266 scelta, 513, 520,524,526
coefficiente di correlazione, 18, dipendenza e indipendenza
algebra, 40, A - xl
188 - stocastica, 68
ampi=a di un test, 358, 363
collinearità 532 disastro nucleare, 136
analisi della varianza, 434,446
combinazioni,35 disposizioni (con/senza ripeti-
ANOVA,446
combinazioni con ripetizione, zione), 34
approssimazione della binomia-
A-xxvii distribuzione asintotica, 268
le con la normale, 273
compleanni, coincidenza dei binomiale, 130
Della binomiale con
37 binomiale negativa, 138
Poisson, 277
coniche xxvii campionaria, 260
della Poisson con la nor-
cono retrogrado, 98 chi-quadro, 284
male, 277
convergenza in legge, 266 del minimo, 176
asimmetria, 13, 117
in probabilità, 278 del massimo, 176
Avogadro, I - xiv
in probabilità a una co- delle frequenze, 7
B stante 536 di Bernoulli, 130
Bayes, legge, 64
quasi certa, 279 di Cauchy, 295
Bayes, Thomas, 80
convoluzione, 169, 172 di Fisher, 296
Bernoulli, Jakob, 107
correlazione, 18, 188 di Poisson, 140
Borelliani, 42, A - xl
correlazioni bizzarre, A - 1 di Poisson in più dimen-
boxplot, 14
correzione di continuità, 274 sioni, 144
branching process, 250, 488
covarianza, 18,183 diRayleigh, 163
buon adattamento, test di, 388
- proprietà, 183 di Weibull, 163
e - matrice di, 185 esponenziale, 148
campione casuale, 23,259 -campionaria, 17,307 gamma, 150
carattere, 3 cP,278 geometrica, 134
cardinalità, 4, 37, 42 cQC, 279 ipergeometrica, 132
- dell'insieme delle parti, 42 curtosi, 117 iniziale (Markov), 476
ccn,248,259 cU1Vadi regressione, 199 limite, 266
catena di Markov, 475 cU1Vadi variabilità, 203 logonormale, 164
ergodica, 482 CU1Veoperative caratteristiche, multinomiale, 105
regolare, 480 516,521, lxxi normale, 151
irriducibile, 480 D stazionaria(catene),482
omogenea, 475 triangolare, 169, 172
De Moivre, Abraham, 298
lxxxviii
Indice analitico
t-Student, 294 di failure rate, 120 Indice di correlazione lineare,

uniforme continua, 147 di Kolmogorov, 393 188
uniforme discreta, 129 di pot=a, 362, 509 indipendenza,
disuguaglianza di Boole, 45 di ripartizione, 87 eventi,68
di Chebyscev, 121 di ripartizione campiona- variabili aleatorie, 103
diMarkov, 120 ria, 309 di vettori aleatori, 107
diRao-Cramer, 313 di ripartizione condiziona- informazione di Fisher, 312
di Schwarz, 190, A- ta, 191,193,194 insieme delle parti, 42
xxxvi di ripartizione congiunta, interpolazione, 20
E 98,102 inteivallo di confidenza, 329
entropia, 44, 251 diva,159 asintotico, 340
errore casuale, 412 di verosimiglianza, 317 Bernoulli, 340
errore quadratico medio, 207, gamma, A- xlv Binomiale, 344
311 generatrice di momenti, Esponenziale, 346
errori del I e del II tipo, 355 e 118 Geometrica, 344
sgg. generatrice di momenti Poisson, 345
errori di II tipo, 509 e sgg. pervtan, 181 Uniforme continua,
evento elementare, 39 generatrice di probabilità, 347
evento,40 247 Limite inferiore, superio-
F indicatrice o caratteristica re, 330, 332, 334
di un insieme, A - xxiv per la differenza di due
fdd, funzione di densità discre-
funzioni di regressione, 21 O medie, 347
ta, 87
funzioni di va, per la differenza di due
- congiunta 102
- metodo della funzione di prop01zioni, 504
fdr, funzione di ripartizione, 88
ripartizione, 160 per il confronto di varian-
- congiunta 98
- metodo della fgm, 166 ze, 501
fd, funzione di densità, 88
- metodo della trasformazio- per la varianza (popola-
fgm, funzione generatrice di
ne, 162,165 zione normale), 337
momenti, 118
misurabili, A- xl per la media (popolazione
Fisher, Aylmer Ronald, 299
G normale), 332,334
frequenze relative, assolute,
Gallup, A - li unicità, 338
cumulate, 5, 27
Galton, Francis, I- xix ipotesi alternativa, 362
caso bivariato, 24
Gauss, Carl, 157 - nulla, 362
- marginali, 26
Gosset, William, 299 irriducibile, catena 480
- condizionate, 28
grafo (catena di Markov), 476 istogramma, 6
funzione
di densità, 88 H K
di densità condizionata, H 0,Ha,H 1 362 e sgg. Kakutani (Markov), teorema,
193 483
I Kolmogorov, Andrei, 57
di densità congiunta, 100
iid, 259 - statistica, 393
di densità discreta, 88
Incompatibilità, 69 Kolmogorov-Smimov, test di,
di densità marginale, 1O1
393
lxxxix
Indice analitico
L - condizionata, 198 Poisson, Siméon, 145

Laplace, Pierre, 54 metodo dei momenti (stimato- poker, 33, 38
ldp88 ri), 317 popolazione, 3
legge ... - della massima verosimi- potenza del test, 362, 509
- debole dei grandi numeri, glianza (stimatori), 317 predittore, 19, 209, 411
280 metodo Monte Carlo, 224 principio di inclusione esclu-
- forte dei grandi numeri, minimi quadrati, metodo, 20, sione, 52
280 411,414 principio fondamentale del cal-
- delle alternative, 63 minimo, va, 176 colo combinatorio, 33
delle alternative per la misura, A - xl principio di invarianza (stimato-
media,209 MLE,318 ri MLE), 320
diBayes,64 moda, 9, 116 probabilità
di probabilità, 88 modelli matematici, probabili- condizionata, 61
condizionata, 192 stici e deterministici, I - xi-xvii di transizione, 478
marginali, 100 modelli di previsione, 411 delle cause, 64
di propagazione momenti, 117 totali, teorema, 63, 197
dell'errore , 534 campionari, 317 defmizione assiomatica,
congiunta, 100 - di distribuzioni congiunte, 33
di propagazione della co- 183 defmizione nel disereto
varianza, 186 moto browniano, 470 fmito, 31
Lindeberg, condizione di, A- motori aleatori, 222 - defmizione frequentista,
xlix mutabili,4 32
livello di confid=a, 329 N - defmizione soggettiva, 32
- di significatività, 330, 363 Numeri binari, A- xxv - funzione di, 44
logica, simboli, A- xxiv o problema delle chiavi, 51
processo a tempo discreto, 466
M OC CUIVe,510,521, lxxi
p di Poisson, 468
marginali: fdd, fd, fdr, 100,
- di Wiener, 471
102 P[J,44 - gaussiano, 472
Markov, Andrei, 125 p-value, 364
prodotto, teorema del, 66
Markov, disuguaglianza, 120 Pascal, Blaise, I - xviii
proiettori, 287, A - xl
massima verosimiglianza, me- paradosso della scimmia, 136
proprietà di minimo della me-
todo, 317 - delle 3 scatole, 80, A- liii
dia condizionata, 207
massimo, va, 176 - di De Meré, I -xii, 38
matrice di covarianza, 18, 185 partizione dell'evento certo, 63
Q
matrice di Hilbert, 533 quantificatori, A- xxv
passeggiata a caso, 467
matrice di proiezione, A- xxxix quantile, 9,116
pdi, 320
matrice, inversa, A- xxxi quantità pivotale, 306
Pearson, Karl, 299
matrice stocastica, 475 quincunx, I - xvi
percentile, 9 , 116
mediana, 8, 116 permutazioni, 34 R
media, defmizione, 8, 111 pesci, problema di stima, 47 Rao-Cramer, disuguaglianza,
- campionaria, 260 pivot, 306 313
xc
Indice analitico
Rapidità di convergenza, 275 - di probabilità, 45 test

RC, 356 e sgg. stati (catene di Markov) chi-quadro per la varianza
regione critica, 356 e sgg. accessibili, 479 di una popolazione, 372
regolare, catena, matrice, 480 comunicanti, 479 chi-quadro di buon adat-
regressione univariata lineare, assorbenti, 480 tamento o di Pearson, 388
18,411 ricorrente, 480 confronto medie, 495
regressione multivariata lineare, transiente, 480 confronto proporzioni,
437 statistica, 304 506
residui, 416,421,425,435 statistica test, 357 e sgg. confronto varianze, 499
responsi, 411 stima305 di indipendenza, 406
rette di regressione, 211 stima asintotica, 308 di ipotesi semplici, 378
rovina del giocatore, 262 stima ottima, 206 di Kolmogorov-Smirnov,
Roosevelt - Landon, A- li stimatore, 304 394
rumore,412 - asintoticamente corretto, di normalità, 404
s 307 e intervalli di confidenza,
S2, s'2, S20, 284,306 consistente, 308 374
SSE, SSR, SST, 416,441,443, corretto, 306 per la media, 366, 368
447 distorto, 306 per la proporzione (media
scarto quadratico medio, sqm, efficiente, 311 della Bernoulli), 370
12, 114 MLE,317 q-q plot, 403
Schwarz, disuguaglianza, 190, ottimale, 311 trasformazione integrale di pro-
A-xxxvi UMVE,312 babilità, 221
serie di funzioni, A - xlv Stirling, formula, A- xxvii transizione, matrice di , 478
serie numeriche, A - xliii Supporto di una funzione, 92 trasformazioni regolari, A-
skewness, 13 , 118 T xlviii
sigma algebra, 42, A - xl teorema centrale del limite, 267 Truman - Dewey, A- lii
- di Borel, A - xl delle probabilità totali, 63, u
sistemi termodinamici, 42 197 illam, Stanislaw, 224
Slutsky, teorema, 308 diBayes,64 UMVE312
somma di Binet, A- xxxii Uniforme, funzione di probabi-
- aleatoria di va, 200 di Cantelli-Glivenko, 393 lità, 46
- campionaria, 260 di Cochran, 290,443,459 Uniforme, distribuzione, 129,
di va di Bernoulli, di De Moivre-Laplace, 147
dipendenti, 173 277 V
indipendenti, 173 di De Morgan, A- xxv va,85
di va di Poisson, 174 di Markov-Kakutani, 483 valore centrale, 5
di va esponenziali, 175 diRao-Cramer, 313 valori attesi condizionati, 198
di va normali, 176 di Shannon-McMillan, van, o vtan, variabili aleatorie n
di va, 167 255 dimensionali, 95
spazio dei casi possibili, 3 9 di Slutsky, 308 variabile, aleatoria, 85
- campionario, 39 ergodico, 483 - aleatoria discreta, 88
- degli eventi, 41 spettrale, A- xxxiii
xci
Indice analitico
di tipo misto, 244 vana=, - corretta 284, 306

quantitativa, qualitativa, 4 condizionata, 203 - non corretta, 306
standardizzata, 16 defmizione, 12, 114 vettori aleatori (vedi van o vtan
variabili aleatorie indip., 103 uniformemente minima ovta), 94
- aleatorie n-dimens., 95 (UMVE),312 vettori gaussiani, 233 e sgg.
variabili descrittive, 4 residua, 414, 528 von Mises, Richard, 55
- bivariate, 17 spiegata, 204,414, 528 w
variabile di regressione, 199 varianza campionaria, 12, 284 Wiener, Norbert, 493
NOTE
Finito di stampare
nel Febbraio 2014 da
LEGODIGIT - Lavis (TN)

Probabilità e Statistica (E. L. Piazza)

Caricato da

Copyright:

Formati disponibili

Potrebbero piacerti anche

Probabilità e Statistica (E. L. Piazza)

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Probabilità e Statistica (E. L. Piazza)

Caricato da

Copyright:

Formati disponibili

Elio Lello Piazza

Prima edizione: Maggio 1998

Responsabile produzione: Alessandro Parenti

... e' est le temps qu e tu a per du pour ta rose

Capitolo 1 Statistica descrittiva 1

Capitolo 3 Probabilità condizionata 61

Capitolo 8 Funzioni di variabili aleatorie 159

BIBLIOGRAFIA: ALTRI EVENTUALI TESTI

Mondo reale, esempi di problemi

individuazionedei casi possibili

si conosce una distribuzione che assegna la probabilità di ciascuno dei

utilizzo del modello noto "invenzione" di un nuovo modello

i risultati previsti concordano con i dali osservati ? no. modifiche al modello

Il modello è un'equazione differenziale lineare del 2° ordine:

dove g è l'accelerazione di gravità e s(t) è la funzione incognita che dà la posizione del

s(O) = so; s(O) = vo (++)

Cn = cYn-li c E (O,1), (4)

mentre gli investimenti dipendono dall'incremento dei consumi da un anno al successivo,

In= a[Cn - Cn-1]; a> O (5).

Le costanti c e a rappresentano rispettivamente la propensione marginale al consumo e

Yn+2 - c(l + a)Yn+l + acYn = Go

. ... .... .. .... ...... . , .... . •.....

.... .... .., ..

numero di successi (cioè T) In n lanci

2) Tempo di attesa del primo successo (sotto);

tempo d'attesa del primo succes::imI successo

3) Tempo di attesa del k-esimo successo (sopra).

1) numero di arrivi nell'intervallo di tempo Ot o numero di "accidenti" m una

2) tempo di attesa del primo arrivo;

0.3 Nota storica

Blaise Pascal (Francia) 19 giugno 1623 -19 agosto 1662

È Etienne Pascal padre di Blaise a occuparsi

Francis Galton (Inghilterra) 16 febbraio 1822 - 17 gennaio 1911

È stato il padre del concetto di regressione.

Aiutatemi a capire ciò che vi dico

Tutto quello che hai visto ricordalo

, 2 ~ • s e t e , 10 11 ,2 ,~ 1• 1~ 10 11 ,e 19 20 21 22 ~ 2, z~ 20 2r 2& 29 :,o ,, J2 ~ 3" :l:i :,o ,r :,a :,e -o

U 0 ··· ~ <• ffi" "'"'"' V<nll ... Q

~• ------- qualità osservate q I qr·• qN '-...._

Definizione 1.0.1 Si definisce popolazione (obiettivo) un insieme di unità o indi-

In un'indagine statistica perciò l'oggetto è la distribuzione di un carattere relativo alle

Oss. 1 Importante. In tutto il resto del capitolo ci dimenticheremo della popolazione

1.1 Variabili, mutabili, classi, frequenze

Definizione 1.1.2 Una variabile numerica è discreta quando la cardinalità dell'insieme

F(x'.;) = L f(x't:) (1.1)

Oss. 2 Si osservi che, a meno di eventuali errori di arrotondamento, la somma di tutte

classi (uscite del dado) 1 2 3 4 5 6 totale

Diagramma a barre e istogramma

Poiché il valore maggiore dell'altezza è 78 m e il minore 18 m, come insieme che contiene

classi ampiezza xc fA f FAc F

Un istogramma si utilizza con variabili numeriche ed è costituito da re.ttangoli come

A(j) = oJ(x'j) = h(j) · td 1

Osservazione: Ci capiterà, impropriamente, di utilizzare la definizione di istogramma

1.2 Indici di posizione

Definizione 1.2.1 Definiamo media di X il numero:

MATERIA VOTO MATERIA VOTO

(22 + 24 + 27 + 19 + 21 + 19 + 27 + 24 + 22 + 20) = 22.5

Definizione 1.2.2 Indicando con [a] la parte intera di a, definiamo mediana di X e

X[N/2]+1 (cioè è l'elemento centrale dei valori osservati) N dispari