Appunti Di Probabilità e Statistica (2012, 144p)

1
Appunti di Probabilità e Statistica

A.A. 2009/10
Fabio Zucca
e-mail: fabio.zucca@polimi.it
Dispense a cura di Lorenzo Valdettaro e Fabio Zucca
Libri consigliati:
1. D.C. Montgomery, G.C. Runger e N.F. Hubele: Engineering Statistics. Ed. John Wiley &
Sons.
2. D.C. Montgomery, G.C. Runger e N.F. Hubele: Statistica per Ingegneria (a cura di A. Bar-
chielli e M. Verri). Ed. EGEA.
3. A.M. Mood, F.A. Graybill e D.C. Boes: Introduzione alla statistica. Ed. McGraw-Hill
4. G. Cicchitelli: Probabilità e statistica. Maggioli Editore.
5. G. Cicchitelli: Complementi ed esercizi di statistica descrittiva ed inferenziale. Maggioli
Editore. Ingegneria. Ed. Esculapio
c I diritti dautore sono riservati. Ogni sfruttamento commerciale
del presente materiale sarà perseguito a norma di legge.
2 INDICE
Indice
1 Introduzione 7
2 Statistica Descrittiva 9
2.1 Tipi di Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Metodi graci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Indici di Posizione, Dispersione e Forma . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Indici di Posizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.3 Indici di forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Analisi comparative, correlazione tra variabili . . . . . . . . . . . . . . . . . . . . . 21
2.4.1 Frequenze congiunte per dati multivariati raggruppati in classi . . . . . . . 21
2.4.2 Covarianza, coeciente di correlazione . . . . . . . . . . . . . . . . . . . . . 22
2.4.3 Scatterplot, o diagramma di dispersione . . . . . . . . . . . . . . . . . . . . 25
2.4.4 Regressione lineare semplice . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.5 Regressione lineare multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Calcolo delle probabilità 31
3.1 Denizione assiomatica: spazi misurabili, misure, misure di probabilit` a . . . . . . . 31
3.2 Denizione assiomatica: eventi e variabili aleatorie . . . . . . . . . . . . . . . . . . 35
3.2.1 Come si assegnano le probabilit` a . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Funzione di ripartizione e funzione dei quantili . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.2 Funzione dei quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Principio di Inclusione-Esclusione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.7 Adabilit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4 Variabili aleatorie discrete 55
4.1 Valore atteso per variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Varianza per variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3 Analisi comparative tra variabili aleatorie discrete . . . . . . . . . . . . . . . . . . 60
4.4 Modelli discreti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4.1 Variabili di Bernoulli e Binomiali, processo di Bernoulli . . . . . . . . . . . 62
4.4.2 Variabili Geometriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4.3 Variabili di Poisson, processo di Poisson . . . . . . . . . . . . . . . . . . . . 66
5 Variabili aleatorie assolutamente continue 71
5.1 Valore atteso per variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Varianza e covarianza per variabili aleatorie continue . . . . . . . . . . . . . . . . . 73
5.3 Modelli continui di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.1 Densit` a uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
INDICE 3
5.3.2 Densit` a gaussiana (o normale) . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 La legge esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.4 La legge gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4 Quantili per una variabile aleatoria assolutamente continua . . . . . . . . . . . . . 78
5.5 Utilizzo delle tavole e approssimazione della normale standard . . . . . . . . . . . . 80
6 Alcuni cenni al calcolo degli indici per variabili aleatorie generiche 83
6.1 Integrazione rispetto ad una misura positiva . . . . . . . . . . . . . . . . . . . . . . 83
6.2 Media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3 Supporto di una misura e valori assunti da una funzione misurabile . . . . . . . . . 87
7 Teorema Centrale del Limite e Legge dei grandi numeri 89
7.1 Teorema Centrale del Limite ed approssimazioni gaussiane . . . . . . . . . . . . . . 89
7.1.1 Teorema Centrale del Limite . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.1.2 Approssimazioni gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2 Legge dei Grandi Numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.1 Disuguaglianza di Chebychev . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.2 Legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.2.3 Legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8 Statistica inferenziale: stime 95
8.1 Modello statistico parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2.1 Stima puntuale della media . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2.2 Stima puntuale della varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.3 Stima per intervalli: leggi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.3.1 Legge chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.3.2 Legge t di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4 Stima per intervalli: intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . 105
8.4.1 Intervalli di condenza per la media . . . . . . . . . . . . . . . . . . . . . . 106
8.4.2 Intervalli di condenza per la varianza . . . . . . . . . . . . . . . . . . . . . 109
8.4.3 Intervalli di condenza per una popolazione . . . . . . . . . . . . . . . . . . 111
9 Statistica inferenziale: test dipotesi 115
9.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.1.1 Ipotesi statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.1.2 Verica dipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.1.3 Regione critica e funzione potenza . . . . . . . . . . . . . . . . . . . . . . . 117
9.1.4 Livello di signicativit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.1.5 P-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.1.6 Confronto tra errore di Ia specie ed errore di IIa specie . . . . . . . . . . . . 121
9.1.7 Scambio delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.1.8 Confronto tra regioni di riuto e intervalli di condenza . . . . . . . . . . . 123
9.2 Verica di ipotesi sulla media (varianza nota) . . . . . . . . . . . . . . . . . . . . . 123
9.3 Test su una frequenza (grandi campioni) . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4 Verica di ipotesi sulla media (varianza incognita) . . . . . . . . . . . . . . . . . . 128
9.5 Verica dipotesi sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.6 Test chi-quadrato di buon adattamento . . . . . . . . . . . . . . . . . . . . . . . . 131
9.7 Test chi-quadrato di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
9.8 Verica dipotesi sulla dierenza tra due medie . . . . . . . . . . . . . . . . . . . . 134
9.9 Verica dipotesi per due variabili accoppiate . . . . . . . . . . . . . . . . . . . . . 139
9.10 Test sulla regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
9.10.1 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9.10.2 Intervalli di condenza per i coecienti della regressione . . . . . . . . . . . 142
4 INDICE
9.10.3 Test sui coecienti della regressione . . . . . . . . . . . . . . . . . . . . . . 142
9.10.4 Intervalli di condenza per una previsione . . . . . . . . . . . . . . . . . . . 143
10 Esercizi 145
10.1 Probabilità assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
10.1.1 Operazioni su eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
10.2 Misure di probabilit` a e analisi combinatoria . . . . . . . . . . . . . . . . . . . . . . 151
10.2.1 Assegnazione di probabilit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.2.2 Proprietà della misura di probabilit` a . . . . . . . . . . . . . . . . . . . . . . 152
10.2.3 Probabilità uniforme e problemi di conteggio . . . . . . . . . . . . . . . . . 153
10.3.1 Probabilità uniforme e formula di Poincare (inclusione-esclusione) . . . . . 155
10.3.2 Probabilità condizionata, Teorema delle probabilit` a totali, Teorema di Bayes 156
10.3.3 Esercizi vari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.4 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.4.1 Indipendenza e indipendenza condizionata . . . . . . . . . . . . . . . . . . . 159
10.5 Variabili aleatorie discrete e funzioni di variabili aleatorie discrete . . . . . . . . . . 162
10.5.1 Variabili aleatorie discrete generiche . . . . . . . . . . . . . . . . . . . . . . 162
10.5.2 Variabili di Bernoulli, Binomiali, Geometriche e di Poisson . . . . . . . . . 164
10.5.3 Funzioni di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . 167
10.6 Variabili aleatorie continue e funzioni di variabili aleatorie continue . . . . . . . . . 167
10.6.1 Variabili aleatorie continue generiche . . . . . . . . . . . . . . . . . . . . . . 167
10.6.2 Variabili Uniformi, Gaussiane, Esponenziali, Gamma . . . . . . . . . . . . . 170
10.6.3 Funzioni di variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . 171
10.7 Variabili aleatorie generiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
10.8 Vettori aleatori discreti e funzioni di vettori aleatori discreti . . . . . . . . . . . . . 173
10.8.1 Vettori aleatori discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
10.8.2 Funzioni di vettori aleatori discreti . . . . . . . . . . . . . . . . . . . . . . . 174
10.9 Vettori aleatori continui e funzioni di vettori aleatori continui . . . . . . . . . . . . 176
10.9.1 Vettori aleatori continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
10.9.2 Funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10.10Vettori aleatori Gaussiani e funzione dei quantili . . . . . . . . . . . . . . . . . . . 178
10.10.1Vettori aleatori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.10.2La funzione quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
10.11Applicazioni del Teorema Centrale del Limite ed approssimazioni Gaussiane . . . . 180
10.11.1Applicazioni del TCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
10.11.2Approssimazione normale della distribuzione Binomiale . . . . . . . . . . . 181
10.11.3Approssimazione normale della distribuzione di Poisson . . . . . . . . . . . 181
10.11.4Approssimazione normale e Poisson della distribuzione Binomiale . . . . . . 181
10.12Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
10.12.1Test ed intervalli di condenza per la media di una popolazione . . . . . . . 182
10.12.2Test ed intervalli di condenza per la varianza di una popolazione . . . . . 185
10.12.3Test per due medie di popolazioni indipendenti ed accoppiate . . . . . . . . 185
10.12.4Test Chi-quadrato di buon adattamento e di indipendenza . . . . . . . . . . 187
10.13Miscellanea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.13.1Riepilogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.13.2Disuguaglianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
10.13.3Nozioni di convergenza e teoremi limite. . . . . . . . . . . . . . . . . . . . 192
11 Soluzioni degli esercizi 197
11.1 Probabilità assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
11.2 Misure di probabilit` a e analisi combinatoria . . . . . . . . . . . . . . . . . . . . . . 205
11.4 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
INDICE 5
11.5 Variabili aleatorie discrete e funzioni di variabili aleatorie discrete . . . . . . . . . . 238
11.5.1 Variabili aleatorie discrete generiche . . . . . . . . . . . . . . . . . . . . . . 238
11.5.2 Variabili di Bernoulli, Binomiali, Geometriche e di Poisson . . . . . . . . . 245
11.5.3 Funzioni di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . 256
11.6 Variabili aleatorie continue e funzioni di variabili aleatorie continue . . . . . . . . . 257
11.6.1 Variabili aleatorie continue generiche . . . . . . . . . . . . . . . . . . . . . . 257
11.6.2 Variabili Uniformi, Gaussiane, Esponenziali, Gamma . . . . . . . . . . . . . 262
11.6.3 Funzioni di variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . 264
11.7 Variabili aleatorie generiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
11.8 Vettori aleatori discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
11.9 Vettori aleatori continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.10Vettori aleatori Gaussiani e funzione dei quantili . . . . . . . . . . . . . . . . . . . 287
11.11Applicazioni del Teorema Centrale del Limite ed approssimazioni Gaussiane . . . . 292
11.12Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
11.12.1Test ed intervalli di condenza per la media di una popolazione . . . . . . . 296
11.12.2Test ed intervalli di condenza per la varianza di una popolazione . . . . . 304
11.12.3Test per due medie di popolazioni indipendenti ed accoppiate . . . . . . . . 306
11.12.4Test Chi-quadrato di buon adattamento e di indipendenza . . . . . . . . . . 311
11.13Miscellanea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
6 INDICE
Cap. 1. Introduzione
Scopo delle scienze siche e naturali in genere è quello di dare una descrizione in termini matematici
(leggi) dei fenomeni naturali e, se possibile di eettuare previsioni attendibili. In alcuni casi la
complessità del fenomeno o la sua natura caotica o, ancora, la sua natura quantistica, trascendono
la nostra capacità di descrizione in termini deterministici.
Con la teoria della probabilit` a si cercano di fornire gli strumenti adatti al controllo di ciò
che non riusciamo a descrivere completamente. Questo ha senso sia se la natura del fenomeno
fosse completamente deterministica (si pensi alla natura caotica dei fenomeni atmosferici) che,
a maggior ragione, se si ipotizza una casualità intrinseca (si pensi ai fenomeni descritti dalla
meccanica quantistica).
Le leggi si riducono a relazioni miste del tipo
y = f(x, )
dove x ed y possono essere pensate in spazi multidimensionali ed rappresenta la parte casuale.
Con la statistica si stimano le grandezze necessarie alla descrizione casuale del fenomeno. Pi` u
in dettaglio, lo scopo della statistica matematica è lo studio di popolazioni in senso lato.
Esempi: presentazione di risultati elettorali, proiezioni di risultati elettorali, indagini statis-
tiche, distribuzione degli errori nella produzione di dispositivi meccanici, ecc.
I dati devono essere raccolti, presentati, analizzati, interpretati.
Due approcci fondamentali: la statistica descrittiva e la statistica inferenziale
Statistica descrittiva: si propone di
1. raccogliere e presentare i dati in forma sintetica, graca e/o tabulare;
2. caratterizzare alcuni aspetti in modo sintetico: indici di posizione (es. valore medio), di
dispersione (es. varianza), e di forma (es. simmetria);
3. studiare le relazioni tra i dati riguardanti variabili diverse.
Esempio: studio della altezza e del peso di una popolazione: graco della distribuzione dei valori,
media e varianza, relazione tra peso e altezza, ecc.
Statistica inferenziale: si cerca di far rientrare la collezione dei dati in categorie (dis-
tribuzioni) matematiche prestabilite. Si cerca di determinare le distribuzioni e i parametri che
meglio si adattano ai dati: test di ipotesi e stima dei parametri. Si cerca quindi di costruire un
modello per ottenere, in seguito, delle previsioni.
Esempio 1.0.1. Sondaggio a campione riguardo alle intenzioni di voto: quale conclusione trarre
sullinsieme della popolazione?
Esempio 1.0.2. Si misurano i diametri di un campione di bulloni prodotti da una linea di pro-
duzione. Quale sarà il diametro medio e la variabilità nei diametri della produzione totale? Quanti
bulloni risulteranno difettosi (diametri troppo larghi o troppo stretti)?
7
8 CAPITOLO 1. INTRODUZIONE
Si introduce il concetto di casualità: sondaggi diversi danno probabilmente risultati diversi. La
probabilit` a misura il grado di attendibilit` a di un evento (matematicamente la probabilit` a sarà una
misura nel senso dellAnalisi Matematica).
Il corso si articola in 3 parti:
1. Statistica descrittiva
2. Calcolo delle probabilit` a e variabili aleatorie
3. Statistica inferenziale
`
E utile correlare il materiale delle dispense con la lettura dei testi consigliati. Alcuni testi uti-
lizzano notazioni o denizioni leggermente dierenti, in tal caso per uniformità, ove siano presenti
delle dierenze ci riferiremo sempre a quelle delle presenti dispense.
Approfondimento Alcune parti del testo saranno bordate in questo modo. Tali parti si possono
intendere come approfondimenti facoltativi : chiunque voglia saperne di piu su questi
argomenti è invitato a contattare gli autori.
Cap. 2. Statistica Descrittiva
Scopo: Introdurre gli strumenti basilari per lanalisi di un certo insieme di dati.
1. Raccogliere e di presentare i dati in forma sintetica, graca e/o tabulare: istogrammi,
diagrammi a barre, graci di frequenza cumulativa, boxplots, scatterplots.
2. Caratterizzare alcuni aspetti in modo sintetico:
(a) indici di posizione: valore medio, mediana, moda,
(b) indici di dispersione: varianza, deviazione standard, quantile, quartile, dierenza in-
terquartile (IQR),
(c) indice di forma: skewness, curtosi.
3. Studiare le relazioni tra i dati riguardanti variabili diverse: covarianza, coeciente di corre-
lazione, regressione lineare.
2.1 Tipi di Dati
Supponiamo di avere una successione di dati x
i
n
i=1
detto campione; n viene detta ampiezza
del campione. Possiamo dividere i dati in due categorie principali:
1. Dati di tipo numerico
(a) Variabili numeriche discrete, se la grandezza osservata appartiene, a priori , ad un
insieme numerico nito o numerabile (ad esempio ad N).
(b) Variabili numeriche continue, se la grandezza osservata appartiene, a priori , ad un
insieme non numerabile come, ad esempio R od un suo intervallo nito o meno.
2. Dati di tipo categorico se non sono numerici
Persona Et` a Altezza
(metri)
Peso (Kg) Genere musicale
preferito
1 34 1.755 75.838 Lirica
2 43 1.752 77.713 Classica
3 35 1.747 76.448 Classica
4 33 1.831 85.514 Rap
5 51 1.748 74.241 Nessuna
6 29 1.754 78.706 Rap
7 47 1.752 77.295 Rock
8 51 1.696 65.507 Rock
9 59 1.784 85.392 Rock
10 24 1.743 80.905 Rap
Var. num.
discreta
Var. num.
continua
Var. num.
continua
Var. cat.
9
10 CAPITOLO 2. STATISTICA DESCRITTIVA
I dati presentati in una tabella cos` come sono raccolti sono detti dati grezzi.
Sono dicili da analizzare soprattutto se molto numerosi.
Un primo modo di analizzare i dati è quello di produrre dei dati raggruppati in classi.
Esempio 2.1.1. Consideriamo i dati relativi alletà degli individui appartenenti al campione della
tabella che supponiamo essere composto da 200 persone e raggruppiamoli in classi di età:
Cl. Freq. Ass. Freq. Cum. Freq. Rel. Freq. Rel. Cum. Freq. Perc. Freq.
Perc.
Cum.
10-14 3. 3. 0.015 0.015 1.5 1.5
15-19 7. 10. 0.035 0.05 3.5 5.
20-24 17. 27. 0.085 0.135 8.5 13.5
25-29 19. 46. 0.095 0.23 9.5 23.
30-34 28. 74. 0.14 0.37 14. 37.
35-39 19. 93. 0.095 0.465 9.5 46.5
40-44 22. 115. 0.11 0.575 11. 57.5
45-49 21. 136. 0.105 0.68 10.5 68.
50-54 20. 156. 0.1 0.78 10. 78.
55-59 16. 172. 0.08 0.86 8. 86.
60-64 8. 180. 0.04 0.9 4. 90.
65-69 11. 191. 0.055 0.955 5.5 95.5
70-74 2. 193. 0.01 0.965 1. 96.5
75-79 1. 194. 0.005 0.97 0.5 97.
80-84 6. 200. 0.03 1. 3. 100.
85-90 0. 200. 0. 1. 0. 100.
Si considerino i dati grezzi x
i
n
i=1
(il campione ha quindi ampiezza n). Si considerino degli
insiemi disgiunti I
1
, . . . , I
Nc
tali che per ogni i = 1, . . . , n si abbia x
i

Nc
j=1
I
j
; deniamo la classe
j-esima come linsieme degli indici C
j
:= i 1, . . . , n : x
i
I
j
.
Un caso particolare si ha quando ogni insieme I
j
è un singoletto cioè quando #I
j
= 1 per
ogni j = 1, . . . , N
c
(dove # denota la cardinalità).
Denizione 2.1.2. La frequenza assoluta f
a
(k) relativa alla k-esima classe è il numero di
osservazioni che ricadono in quella classe.
f
a
(k) = #C
k
(k = 1, . . . , N
c
)
Proprietà:
Nc
k=1
f
a
(k) = n essendo n il numero totale delle osservazioni (200 nellesempio
2.1.1).
Denizione 2.1.3. La frequenza relativa f
r
(k) della k-esima classe è il rapporto f
a
(k)/n
Proprietà:
Nc
k=1
f
r
(k) = 1.
Denizione 2.1.4. La frequenza percentuale f
p
(k) è la quantità f
p
(k) = f
r
(k) 100.
Proprietà:
Nc
k=1
f
p
(k) = 100.
Denizione 2.1.5. La frequenza assoluta cumulativa F
a
(k) della k-esima classe è il numero
totale delle osservazioni che ricadono nelle classi no a k-esima compresa:
F
a
(k) =
k
j=1
f
a
(j).
Proprietà: F
a
è una funzione non decrescente e F
a
(N
c
) = n.
2.1. TIPI DI DATI 11
Denizione 2.1.6. La frequenza relativa cumulativa è il rapporto F
r
(k) = F
a
(k)/n
k
j=1
f
r
(j), ed è sempre compresa fra 0 ed 1.
Proprietà: F
r
r
(N
c
) = 1.
Denizione 2.1.7. La frequenza percentuale cumulativa F
p
(k) è la quantità F
p
(k) = F
r
(k)
100. Proprietà: F
p
p
(N
c
) = 100.
Il raggruppamento in classi costituite da intervalli contigui vale sia per variabili numeriche
discrete che per variabili numeriche continue. Nel nostro esempio possiamo denire tanti intervalli
di altezze in metri (es. [1.50-1.55], [1.55-1.60], [1.60-1.65], . . . ). Le frequenze sono denite nello
stesso modo di prima.
Per le variabili categoriche le classi sono costituite in maniera naturale dalle categorie.
f
a
(cat. k) = #i 1, . . . , n : x
i
= cat. k k = 1, . . . , N
c
e denizioni analoghe per le altre quantità f
r
e f
p
. Non ha senso invece denire la frequenza cumu-
lativa a meno che non vi siano, in virt` u di qualche specica ragione, indicazioni per introdurre una
relazione dordine totale sullinsieme delle categorie (ad esempio se le categorie fossero determinate
da colori, uno potrebbe introdurre lordine indotto dalle lunghezze donda o dalle frequenze).
Nel nostro esempio:
f
a
(Rock) = #i 1, . . . , n : x
i
= Rock = 3.
Arbitrarietà nella scelta delle suddivisioni.
Dalle frequenze non si pu` o risalire alle osservazioni in quanto i dati sono stati raggruppati
(perdita di informazione).
Si ha quindi una facilit` a di comprensione e maggior chiarezza nellesposizione dei dati.
2.2 Metodi graci
Istogramma: graco della distribuzione di frequenze per dati numerici . Le basi dei
rettangoli adiacenti sono gli intervalli che deniscono le classi. Comandi Matlab hist e
histc. Le altezze possono essere scelte in due modi: nel primo laltezza h
r
(j) = f
r
(j)
(risp. h
a
(j) = f
a
(j)), nel secondo h
r
(j) = f
r
(j)/(b
j
a
j
) (risp. h
a
(j) = f
a
(j)/(b
j
a
j
))
dove I
j
= (a
j
, b
j
) è lintervallo relativo alla classe j-esima (in questo caso è necessario che
le basi siano proporzionali allampiezza della classe b
j
a
j
). Nel primo modo laltezza è
proporzionale alla frequenza, nel secondo sarà larea ad essere proporzionale alla frequenza.
Diagramma a barre (o di Pareto): ad ogni classe corrisponde una barra la cui base
non ha signicato. Le barre non si disegnano adiacenti. Utili per rappresentare variabili di
tipo categorico. Comandi Matlab bar, pareto. Laltezza di ogni barra è proporzionale alla
frequenza.
Graco di frequenza cumulativa: si usa per dati numerici . in ascissa si riportano i
valori osservati, oppure nella suddivisione in classi gli estremi degli intervalli di variabilità.
In ordinata le frequenze cumulative corrispondenti. Comando Matlab plot. Nel caso del
diagramma a barre cumulativo, laltezza è proporzionale alla frequenza cumulativa.
0 50 100 150 200
0
20
40
60
80
0 20 40 60 80
0
10
20
30
40
0 20 40 60 80
0
50
100
150
200
0 20 40 60 80
0
0,2
0,4
0,6
0,8
1
Distribuzione delle età del campione di 200 persone: graco dei dati grezzi, Istogramma della
distribuzione delle frequenze assolute per le classi di et` a (comando Matlab histc), istogramma
2.3. INDICI DI POSIZIONE, DISPERSIONE E FORMA 13
della distribuzione delle frequenze cumulative assolute, graco della distribuzione delle frequenze
cumulative relative (comando Matlab plot).
0 50 100 150 200
0
20
40
60
80
0 20 40 60 80
0
10
20
30
40
50
60
70
0 20 40 60 80
0
5
10
15
20
25
30
0 20 40 60 80
0
2
4
6
8
Istogrammi della distribuzione delle frequenze assolute per le classi di età. Sono state usate
diverse scelte dei numeri di classi.
0 10 20 30 40 50 60 70 80 90
0
5
10
15
20
25
30
eta
F
r
e
q
u
e
n
z
a

a
s
s
o
l
u
t
a
Diagramma a barre (o di Pareto) della distribuzione delle frequenze assolute per le classi di
età.
2.3 Indici di Posizione, Dispersione e Forma
Si deniscono degli indici numerici che forniscono unidea di massima di dove (indici di posizione)
e come (indici di dispersione e di forma) i dati sono distribuiti.
2.3.1 Indici di Posizione
Gli indici di posizione pi` u usati sono la media, la mediana e la moda associata al graco della
frequenza.
media o media campionaria di n dati numerici x
i
n
i=1
(comando di Matlab mean):
x =
1
n
n
i=1
x
i
Esempio 2.3.1. Supponiamo di aver misurato i seguenti 10 valori di una variabile discreta x:
x = [18 6 31 71 84 17 23 1 9 43]
allora la media è:
x = (18 + 6 + 31 + 71 + 84 + 17 + 23 + 1 + 9 + 43)/10 = 30.3
Proprietà:
La media fornisce sempre un valore compreso fra il minimo ed il massimo valore dellin-
sieme dei dati (strettamente compreso ogni qualvolta esistano almeno due dati dier-
enti). Infatti supponiamo di avere ordinato i dati in ordine crescente: x
1
x
2
x
n
.
Allora:
x
n
x = x
n
1
n
n
i=1
x
i
=
1
n
n
i=1
x
n
1
n
n
i=1
x
i
=
1
n
n
i=1
(x
n
x
i
) 0
Analogamente
x x
1
=
1
n
n
i=1
x
i
1
n
n
i=1
x
1
=
1
n
n
i=1
(x
i
x
1
) 0
e quindi in denitiva x
1
x x
n
. Inoltre essendo
n
i=1
(x
n
x
i
) = 0 se e solo se
x
1
= x
2
= = x
n
, allora x = x
n
max(x
1
, . . . , x
n
) se e solo se x
1
= x
2
= = x
n
o,
equivalentemente, se e solo se x = x
1
= min(x
1
, . . . , x
n
). Pertanto max(x
1
, . . . , x
n
) >
x > min(x
1
, . . . , x
n
) se e solo se esistono i, j tali che x
i
,= x
j
.
Media calcolata a partire dai dati raggruppati in classi.
Dividiamo i dati in N
c
classi indicando con x
kl
il dato l-esimo della k-esima classe e
con f
a
(k) la frequenza assoluta della k-esima classe. Possiamo riorganizzare il calcolo
della media nel seguente modo
x =
1
n
n
i=1
x
i
=
1
n
Nc
k=1
fa(k)
l=1
x
kl
ma, per denizione,
fa(k)
l=1
x
kl
= f
a
(k)x
k
se x
k
è la media dei dati della classe k-esima.
Sostituendo si ha:
x =
1
n
Nc
k=1
f
a
(k)x
k
=
Nc
k=1
f
r
(k)x
k
La media si ottiene dalle frequenze assolute o relative delle classi dei dati raggruppati
se sono noti i valori medi dei dati in ciascuna classe. Poiche di solito questi ultimi non
sono noti, si sostituisce a ciascun x
k
il valore centrale dellintervallo associato alla classe
k (questo è un esempio di perdita di informazioni). In tal modo si ottiene un valore
approssimato della media.
Trasformazione ane di dati.
Abbiamo delle osservazioni x
1
, x
2
, . . . , x
n
di cui abbiamo calcolato il valor medio x.
Ci interessa conoscere la media dei dati trasformati in maniera ane y
i
= ax
i
+ b.
Risulta
y = ax +b
Infatti
y =
1
n
n
i=1
y
i
=
1
n
n
i=1
(ax
i
+b) = b +a
1
n
n
i=1
x
i
= ax +b
Esempio 2.3.2. Siano x
1
, x
2
, . . . , x
n
misure di temperatura in gradi Fahrenheit con
valore medio x
F
= 50. Quale è la media in gradi centigradi?
x
C
=
100
180
(x
F
32) = 10
o
C
Aggregazione di dati.
Siano due campioni di osservazioni x
1
, x
2
, . . . , x
l
e y
1
, y
2
, . . . , y
m
, di medie cam-
pionarie rispettive x e y. Consideriamo quindi un nuovo campione costituito dai dati
aggregati z
1
, z
2
, . . . , z
n
= x
1
, x
2
, . . . , x
l
, y
1
, y
2
, . . . , y
m
, n = l + m. La media z di
questo campione è:
z =
1
n
n
i=1
z
i
=
l
n
x +
m
n
y.
mediana di n dati numerici x
i
, i = 1 . . . n (comando Matlab median):
si dispongono i dati in ordine crescente (ad esempio con il comando Matlab sort). La mediana
è il dato nella posizione centrale se n è dispari, oppure la media aritmetica dei due dati in
posizione centrale, se n è pari.
Nellesempio 2.3.1
x = [1 6 9 17 18 23 31 43 71 84]
n = 10 è pari e quindi la mediana è
(18+23)
2
= 20.5.
Proprietà:
media e mediana non coincidono necessariamente; sono tanto pi` u vicine quanto pi` u
i dati sono disposti regolarmente. Entrambi gli indici forniscono un valore pi` u o meno
centrato rispetto ai dati. La media è pi` u facile da calcolare. La mediana è meno sensibile
alla presenza di valori aberranti nei dati.
Mediana di dati raggruppati: si pu` o denire come quel valore che divide linsieme dei
dati raggruppati in due gruppi ugualmente numerosi.
Infatti per denizione di mediana avremo che almeno metà dei dati sarà minore (o
uguale) e almeno metà maggiore (o uguale) di essa.
Per stimare la mediana baster` a allora determinare il valore in corrispondenza del quale
la frequenza cumulativa relativa o percentuale prende il valore 0.5 o 50, rispettivamente.
a tal proposito segnaliamo due metodi dierenti (in presenza di N
c
classi).
1. Si determina in quale classe cade: si dir` a che cade nella classe k se e solo se
F
r
(k 1) < 0.5 F
r
(k) (dove F
r
(0) := 0); tale valore k evidentemente esiste ed è
unico.
2. Si procede come nel punto precedente e quindi si stima per interpolazione lineare
med :=
0.5 F
r
(k 1)
F
r
(k) F
r
(k 1)
(M
k
m
k
) +m
k
dove M
k
ed m
k
sono, rispettivamente, i valori massimo e minimo della classe k-
esima (cioè, ad esempio, I
k
= (m
k
, M
k
]).
moda di n dati numerici raggruppati x
i
, i = 1 . . . n: punto di massimo assoluto nella
distribuzione di frequenza. La moda è dunque il valore o, pi` u in generale, la classe in
corrispondenza del quale si ha la popolazione pi` u numerosa. Se il valore massimo è raggiunto
in pi` u punti, allora la distribuzione delle frequenze si dice plurimodale, altrimenti è detta
unimodale.
Esempio 2.3.3. Campione di dati 1, 2, 2, 2, 4, 5, 6, 6, 8.
Media campionaria: 4; mediana: 4; moda: 2.
Campione di dati 1, 2, 2, 2, 3, 4, 5, 6, 6, 6, 53.
Media campionaria: 9; mediana: 4; mode: 2, 6.
2.3.2 Indici di dispersione
Si vuole valutare come si disperdono i dati intorno alla media.
Osservazione 2.3.4. Deniamo lo scarto del dato i-esimo come s
i
= x
i
x. La somma degli scarti
non rappresenta un indice di dispersione poiche è identicamente nullo:
n
i=1
s
i
=
n
i=1
(x
i
x) = 0.
range di un insieme di dati x
i
, i = 1, . . . non necessariamente nito:
r = supx
i
: i = 1, . . . infx
i
: i = 1, . . .
in particolare se linsieme di dati è nito si ha r = maxx
i
: i = 1, . . . minx
i
: i =
1, . . . R. dove x
max
e x
min
sono il valore massimo e minimo dellinsieme di dati.
Il range fornisce uninformazione piuttosto grossolana, poiche non tiene conto della dis-
tribuzione dei dati allinterno dellintervallo che li comprende.
Varianza campionaria (comando di Matlab var):
s
2
=
1
n 1
n
i=1
(x
i
x)
2
Deviazione standard o scarto quadratico medio (comando di Matlab std). è la radice
quadrata della varianza:
s =
_
1
n 1
n
i=1
(x
i
x)
2
.
Si osservi che s
2
0 e vale luguaglianza se e solo se x
i
= x per ogni i; pertanto la varianza
campionaria è positiva se e solo se esistono i e j tali che x
i
,= x
j
.
Esempio 2.3.5. i tempi per il taglio di una lastra in sei parti sono (espressi in minuti):
0.6, 1.2, 0.9, 1.0, 0.6, 0.8. Calcoliamo s.
x =
0.6 + 1.2 + 0.9 + 1.0 + 0.6 + 0.8
6
= 0.85 (minuti)
x
i
x
i
x (x
i
x)
2
0.6 -0.25 0.0625
1.2 0.35 0.1225
0.9 0.05 0.0025
1.0 0.15 0.0225
0.6 -0.25 0.0625
0.8 -0.05 0.0025
s =
_
0.0625 + 0.1225 + 0.0025 + 0.0225 + 0.0625 + 0.0025
5
=
_
0.2750
5
0.23(minuti)
Proprietà della varianza:
In alcuni testi si trova la denizione seguente di varianza:
2
=
1
n
n
i=1
(x
i
x)
2
=
n 1
n
s
2
e analogamente per la deviazione standard. La denizione data in precedenza è da
preferirsi a questa, per ragioni che verranno esposte nella Sezione 8.2.2, o pi` u in generale
nel Capitolo 8.1 quando parleremo di stimatori corretti. La maggior parte dei pacchetti
software di analisi statistica usa la prima denizione. Per n grande la dierenza è
trascurabile.
Modo alternativo di calcolare la varianza:
s
2
=
1
n 1
n
i=1
x
2
i

n
n 1
x
2
Con laltra denizione di varianza si ottiene:
2
=
1
n
n
i=1
x
2
i
x
2
In questo caso la varianza è pari alla dierenza fra la media dei quadrati e il quadrato
della media.
Varianza calcolata in base ai dati raggruppati:
s
2
=
1
n 1
n
i=1
(x
i
x)
2
=
1
n 1
Nc
k=1
fa(k)
l=1
(x
lk
x)
2
sostituiamo x
lk
con x
k
s
2
1
n 1
Nc
k=1
fa(k)
l=1
(x
k
x)
2
=
1
n 1
Nc
k=1
f
a
(k)(x
k
x)
2
=
1
n 1
Nc
k=1
f
a
(k)x
2
k

n
n 1
x
2
=
n
n 1
Nc
k=1
f
r
(k)(x
2
k
x
2
) =
n
n 1
_
Nc
k=1
f
r
(k)x
2
k
x
2
_
.
Si dimostra facilmente che lapprossimazione sarebbe esatta se sostituissimo x
k
con
_
fa(k)
i=1
x
2
ik
/f
a
(k) (cosa non possibile se non si è pi` u in possesso dei dati grezzi).
Trasformazione ane di dati.
Abbiamo delle osservazioni x
1
, x
2
, . . . , x
n
di cui abbiamo calcolato la varianza s
2
x
.
Ci interessa conoscere la varianza dei dati trasformati in maniera ane y
i
= ax
i
+ b.
Risulta
s
2
y
= a
2
s
2
x
Infatti
s
2
y
=
1
n 1
n
i=1
(y
i
y)
2
=
1
n 1
n
i=1
(ax
i
ax)
2
= a
2
1
n 1
n
i=1
(x
i
x)
2
= a
2
s
2
x
Dato il campione x
1
, . . . , x
n
, deniamo la variabile standardizzata operando la
seguente trasformazione
y =
x x
s
x
Il campione standardizzato corrispondente y
i
= (x
i
x)/s
x
ha media nulla e varianza
1. Infatti
y =
1
s
x
(x x) = 0
s
2
y
=
1
s
2
x
s
2
x
= 1.
Quantili, percentili & C.
Sia x
i
n
i=1
un campione di dati numerici ordinato in maniera non decrescente (i.e. x
i
x
j
per ogni i j). Con la seguente denizione generalizziamo il concetto di mediana cercando
un valore q
p
con la propriet` a che almeno una frazione p dei dati sia non superiore a q
p
ed
almeno una frazione 1 p sia non inferiore a q
p
(qui, inferiore e superiore sono da intendersi
strettamente).
Denizione 2.3.6. Denizione non interpolata di p-esimo quantile q
p
(0 < p < 1):
se np non è intero, sia k lintero tale che k < np < k + 1: q
p
= x
k+1
.
se np = k con k intero, allora q
p
= (x
k
+x
k+1
)/2.
Denizione interpolata di p-esimo quantile q
p
(0 < p < 1):
alcuni programmi (ad esempio Matlab) restituiscono un valore interpolato calcolato come
segue:
q
p
:=
_
_
x
1
np < 1/2
(np k + 1/2)(x
k+1
x
k
) +x
k
k 1/2 np < k + 1/2
x
n
n 1/2 np.
Si noti che le due denizioni date sopra coincidono se e solo se p = (k 1/2)/n per qualche
k = 1, 2, . . . , n. Verichiamo immediatamente che le denizioni date soddisfano le richieste
fatte, ci limitiamo a tal proposito solo alla prima denizione che è lunica che utilizzeremo
(per la seconda la verica è analoga). Calcoliamo quindi la frazione di dati non superiore
(risp. non inferiore) a q
p
:
#i : x
i
q
p
n

_
k+1
n
p k < np < k + 1
k
n
= p k = np
#i : x
i
q
p
n

n k
n
= 1
k
n
1 p,
e la seconda disuguaglianza nella prima riga (risp. la disuguaglianza nellultima riga) diventa
unuguaglianza se e solo se np è un valore intero. La prima disuguaglianza invece dipende
dal fatto che x
k+1
= x
k+2
(risp. x
k+1
= x
k
) o meno.
Il p-esimo quantile viene anche detto 100p-esimo percentile.
Il p-esimo quantile o 100p-esimo percentile forniscono un valore che risulta maggiore o
uguale del 100p% dei dati del campione.
Il 25
o
, 50
o
e 75
o
percentile vengono detti anche primo, secondo e terzo quartile, e indi-
cati con Q
1
, Q
2
, Q
3
. Q
1
, Q
2
, Q
3
sono tre numeri che dividono linsieme di osservazioni
in 4 gruppi contenenti ciascuno circa un quarto dei dati.
Il secondo quartile Q
2
coincide con la mediana.
Anche se è piu corretto annoverare i quantili tra gli indici di posizione, è possibile
ricavare un indice di dispersione, chiamato dierenza interquartile, o IQR (dallin-
glese interquartile range) denito come la distanza fra il primo ed il terzo quartile:
IQR = Q
3
Q
1
Esempio 2.3.7. Altezze di 20 persone di sesso maschile. Campione ordinato in modo crescente
espresso in metri:
1.58, 1.60, 1.66, 1.68, 1.70, 1.74, 1.74, 1.75, 1.75, 1.76, 1.78, 1.78, 1.78, 1.79, 1.80, 1.81,
1.82, 1.84, 1.88, 1.91.
x = 1.7575m, s
2
= 0.0069m
2
, s = 8.3cm
Calcolo di q
0.5
: np = 20 0.5 = 10 è intero. Pertanto:
q
0.50
=
x
10
+x
11
2
=
1.76 + 1.78
2
= 1.77m
Analogamente:
q
0.25
=
x
5
+x
6
2
=
1.70 + 1.74
2
= 1.72m
q
0.75
=
x
15
+x
16
2
=
1.80 + 1.81
2
= 1.805m
IQR = q
0.75
q
0.25
= 1.805 1.72 = 8.5cm. range=x
20
x
1
= 1.91 1.58 = 33cm.
In presenza di dati raggruppati, analogamente al caso della mediana, si pu` o calcolare il
quantile q
individuando la classe cui appartiene e successivamente stimandone il valore.

1. La classe in cui cade sarà quella in corrispondenza alla quale si supera il valore nel
calcolo della frequenza relativa cumulativa, cioè
q
I
k
dove k := mini = 1, . . . , N
c
: F
r
(i) .
2. Determinata la classe è possibile procedere alla stima interpolata del quantile tramite
la relazione
q
=
F
r
(k 1)
F
r
(k) F
r
(k 1)
(M
k
m
k
) +m
k
dove M
k
e m
k
sono, rispettivamente, il massimo ed il minimo valore della classe k e k
è denito come al punto precedente.
Alcune informazioni contenute nella distribuzione di frequenza (e in particolare nei quartili)
possono essere visualizzate gracamente con un boxplot.
baffo
primo quartile
secondo quartile (mediana)
terzo quartile
outliers
baffo
IQR
1
2
3
4
0
Gli outliers sono dati che giacciono fuori dai limiti , la cui correttezza andrebbe accertata.
Possono essere deniti in vari modi.
Ad esempio come quei dati che stanno sotto il 5
o
percentile o sopra il 95
o
percentile.
Altra denizione (usata da Matlab): si calcola un limite superiore U = Q
3
+1.5IQR; il bao
superiore viene prolungato no allultima osservazione che risulta minore o uguale di U. Gli
outliers sono i dati che eccedono questo valore. Si segue analoga procedura per gli outliers
inferiori.
2.3.3 Indici di forma
La skewness
3
=
1
n
n
i=1
_
x
i
x
_
3
`
E una grandezza adimensionale. Può assumere valori sia positivi che negativi.
Se è negativa denota una coda verso sinistra.
Se è positiva denota una coda verso destra.
se la distribuzione è simmetrica, allora la skewness è nulla, ma linverso non è vero.
Per trasformazioni lineari y
i
= ax
i
+b la skewness non cambia:
y
3
=
x
3
.
La curtosi
4
=
1
n
n
i=1
_
x
i
x
_
4
`
E una grandezza adimensionale e non negativa. Misura (in un certo senso) lappiattimento
della distribuzione delle frequenze, poiche assegna un peso elevato agli scarti grandi: valori
elevati della curtosi segnalano distribuzioni signicativamente diverse da x per grandi scarti,
piccoli valori distribuzioni appuntite in corrispondenza di x.
Per trasformazioni lineari y
i
= ax
i
+b la curtosi non cambia:
y
4
=
x
4
.
Momento centrato di ordine k:
m
k
=
1
n
n
i=1
(x
i
x)
k
Se k è pari, allora m
k
0: indice di dispersione (m
2
=
2
) e di forma. Si mostra che esiste
k N
pari (dove N
:= N 0) tale che m
k
= 0 se e solo se per ogni k N
pari si ha
m
k
= 0 cioè se e solo se tutti i dati coincidono.
Se k è dispari, allora m
k
R: indice di simmetria.
2.4. ANALISI COMPARATIVE, CORRELAZIONE TRA VARIABILI 21
2.4 Analisi comparative, correlazione tra variabili
Si eettuano osservazioni simultanee di pi` u variabili su una medesima popolazione (ad esempio
peso e altezza in un campione di persone). I dati in questo caso si dicono multivariati . Ci si
domanda se esistono dei legami (associazione, dipendenza, correlazione) tra le variabili considerate.
2.4.1 Frequenze congiunte per dati multivariati raggruppati in classi
Come nel caso dei dati univariati è spesso utile raggruppare i dati in classi. Si considerino n
osservazioni vettoriali x
i
:= (x
i
(1), . . . , x
i
(k))
n
i=1
e si considerino N
j
classi in cui si suddivi-
dono i valori relativi alla j-esima variabile (o j-esima componente del vettore) C
1
(j), . . . , C
Nj
(j)
(j = 1, . . . , k); le classi risultino denite, come nel caso unidimensionale da una scelta di insiemi
I
i
(j)
Nj
i=1
per ogni j = 1, . . . , k come
C
i
(j) := w 1, . . . , n : x
w
(j) I
i
(j).
Si ottengono cos` delle classi intersezione
C
i1,...,i
k
:=
k
j=1
C
ij
(j).
Deniamo di seguito le frequenze congiunte per dati bivariati.
Denizione 2.4.1. la frequenza assoluta congiunta f
a
(i
1
, . . . , i
k
) relativa alla i
j
-esima classe
della j-esima variabile (per j = 1, 2, . . . , k) è il numero delle osservazioni che ricadono in quelle
classi.
f
a
(i
1
, . . . , i
k
) := #h 1, 2, . . . , n : x
h
(j) I
ij
(j), j = 1, 2, . . . , k
#h 1, 2, . . . , n : h(j) C
ij
(j), j = 1, 2, . . . , k
= #C
i1,...,i
k
.
essendo n il numero totale delle osservazioni ed 1 i
j
N
j
per ogni j = 1, . . . , k.
Esempio 2.4.2. Il numero di persone per le quali laltezza è compresa tra 1.65 e 1.70 metri, e il
peso è compreso tra 75 e 80 Kg.
Proprietà:
i1=1,...,N1
.
.
.
.
.
.
.
.
.
i
k
=1,...,N
k
f
r
(i
1
, . . . , i
k
) = n.
Denizione 2.4.3. La frequenza relativa congiunta f
r
(i
1
, . . . , i
k
) è denita come il rapporto
f
a
(i
1
, . . . , i
k
)/n.
Proprietà:
i1=1,...,N1
.
.
.
.
.
.
.
.
.
i
k
=1,...,N
k
f
r
(i
1
, . . . , i
k
) = 1.
Denizione 2.4.4. La frequenza cumulativa congiunta assoluta F
a
(i
1
, . . . , i
k
) è il numero
totale delle osservazioni che ricadono in una delle classi no alla i
1
compresa per la prima variabile,
no alla i
2
compresa per la seconda variabile e cos` dicendo no alla i
k
compresa per la k-esima
variabile:
F
a
(i
1
, . . . , i
k
) =
j1=1,...,i1
.
.
.
.
.
.
.
.
.
j
k
=1,...,i
k
f
a
(j
1
, . . . , j
k
)
dove le classi sono state ordinate per valori crescenti. Analogamente si denisce la frequenza
cumulativa congiunta relativa
Denizione 2.4.5. Si supponga di dividere le k variabili in due insiemi disgiunti x(y
1
), . . . , x(y
h
)
e x(r
1
), . . . , x(r
d
) cosicche d +h = k; in tal caso chiameremo frequenza marginale assoluta
relativa al primo gruppo di variabili la quantità
f
a, x(y1)x(y
h
)
(i
y1
, . . . , i
y
h
) =
ir
1
=1,...,Nr
1
.
.
.
.
.
.
.
.
.
ir
d
=1,...,Nr
d
f
a
(i
1
, . . . , i
k
)
#w 1, . . . , n : x
w
(y
1
) I
iy
1
(y
1
), . . . , x
w
(y
h
) I
iy
h
(y
h
)
#
h
i=1
C
iy
h
(y
h
).
Analogamente si denisce la frequenza marginale relativa:
f
r, x(y1)x(y
h
)
(i
y1
, . . . , i
y
h
) = f
a, x(y1)x(y
h
)
(i
y1
, . . . , i
y
h
)/n.
Dalle frequenze marginali si pu` o ricavare la frequenza congiunta solo in casi molto specici,
ossia se le due variabili sono indipendenti , come vedremo pi` u avanti nel corso. In generale nemmeno
dalla conoscenza di tutte le marginali si pu` o risalire alla congiunta.
La media e la varianza per ciascuna variabile si deniscono nel modo naturale a partire dalle
marginali.
Osservazione 2.4.6. Nel caso bidimensionale, si considerano coppie (x
i
, y
i
)
n
i=1
, suddivise in N
x
e N
y
classi rispetto alla prima e seconda coordinata, siano esse C
x
(i)
Nx
i=1
e C
y
(j)
Ny
j=1
. Allora,
ad esempio, le frequenze assolute congiunta e marginali prendono la forma
f
a
(i, j) := #C
x
(i) C
y
(j), f
x
a
(i) =
Ny
j=1
f
a
(i, j) f
y
a
(j) =
Nx
i=1
f
a
(i, j)
e analogamente per la frequenza relativa.
2.4.2 Covarianza, coeciente di correlazione
In questo paragrafo supporremo che k sia pari a 2 avremo quindi due set di variabili. Almeno
inizialmente supporremo di avere i dati grezzi (x
i
, y
i
)
n
i=1
.
Denizione 2.4.7. La covarianza campionaria delle variabili x e y è il numero
s
xy
=
1
n 1
n
i=1
(x
i
x)(y
i
y) =
1
n 1
n
i=1
x
i
y
i
n
n 1
x y
Come per la varianza, anche nel caso della covarianza si trova in alcuni testi la denizione
con n al denominatore al posto di n 1.
Vale la propriet` a: s
xy
= s
yx
.
Vale la propriet` a:
s
2
x+y
= s
2
x
+s
2
y
+ 2s
xy
Dimostrazione. Mostriamo innanzitutto che x +y = x +y:
x +y =
1
n
n
i=1
(x
i
+y
i
) =
1
n
n
i=1
x
i
+
1
n
n
i=1
y
i
= x +y
Dunque:
s
2
x+y
=
1
n 1
n
i=1
(x
i
+y
i
x y)
2
=
=
1
n 1
n
i=1
(x
i
x)
2
+ (y
i
y)
2
+ 2(x
i
x)(y
i
y) = s
2
x
+s
2
y
+ 2s
xy
s
x,y
= s
xy
Infatti:
s
x,y
=
1
n 1
n
i=1
(x
i
x)(y
i
y) =
=
1
n 1
n
i=1
(x
i
x)(y
i
y) = s
xy
Covarianza calcolata in base ai dati raggruppati:
s
xy

1
n 1
N1
i=1
N2
j=1
f
a
(i, j)(x
i
x)(y
j
y)
Denizione 2.4.8. Il coeciente di correlazione campionario di x e y è il numero
xy
=
s
xy
s
x
s
y
=
n
i=1
(x
i
x)(y
i
y)
_
n
j=1
(x
j
x)
2
n
k=1
(y
k
y)
2
Il coeciente di correlazione ha lo stesso segno della covarianza.
Le variabili x e y si dicono
direttamente correlate se s
xy
> 0 (e dunque se
xy
> 0),
inversamente correlate se s
xy
< 0,
non correlate se s
xy
= 0.
1
xy
1
Per mostrarlo si noti che
0 s
2
x
sx
+
y
sy
= s
2
x
sx
+s
2
y
sy
+ 2s x
sx
,
y
sy
= 2 + 2
s
xy
s
x
s
y
da cui
xy
1. Ragionando in modo analogo su s
2
x
sx
y
sy
deduciamo che
xy
1.

xy
= 1 se e solo se esistono a e b tale che y
i
= ax
i
+b.
xy
ha lo stesso segno di a.

xy
è invariante per trasformazione ane: se x
i
= ax
i
+b, y
i
= cy
i
+d, si ha
x
y
=
xy
Osservazione 2.4.9. Trovare una correlazione tra due variabili x e y non signica aver trovato
un legame di causa-eetto tra loro, ma semplicemente unindicazione qualitativa sulla monotonia
congiunta delle due variabili (questa indiazione diventer` a meno qualitativa e pi` u quantitativa
nella regressione lineare). Una prima ragione risiede nel fatto che la correlazione è simmetrica
nello scambio tra x e y quindi non è ben chiaro se il fenomeno rilevato con x debba essere causato
dal fenomento rilevato con y o viceversa. Una seconda ragione è che entrambi gli eetti potrebbero
essere causati da un elemento che non abbiamo preso in considerazione.
Un esempio è il seguente.
`
E noto che il succo di arancia ha eetti beneci sui postumi di un
consumo elevato di alcool. Per cui conduciamo il seguente esperimento: facciamo consumare una
grande quantità di alcool ad un gruppo di persone e poi facciamo fare a loro un test cognitivo. Inne
facciamo bere una grande quantità di succo di arancia e successivamente facciamo ripetere un test
analogo. Se una persona alloscuro dellesperimento (e della sua sequenza temporale) confrontiasse
i dati quantità di succo di arancia assunta e errori nel test vedrebbe probabilmente una
correlazione positiva. Potrebbe quindi erroneamente concludere che (1) fare molti errori nei test
aumenta il consumo di succo di arancia oppure (2) consumare succo di arancia fa aumentare il
numero di errori nel test. Se poi si decidesse di confrontare i dati quantità di succo di arancia
assunta e dierenza tra errori nel secondo test ed errori nel primo test vedrebbe probabilmente
una correlazione negativa che porterebbe a concludere che assumere succo di arancia migliora
le capacità cognitive. Se inne decidesse di confrontare i dati quantità di succo di alcool e
dierenza tra errori nel secondo test ed errori nel primo test vedrebbe probabilmente ancora
una correlazione negativa che porterebbe a concludere che assumere alcool migliora le capacità
cognitive.
Approfondimento
Ricordiamo che dato uno spazio vettoriale normato (X, | |) completo (si pensi
ad esempio a R
k
), gli elementi di una collezione al pi` u numerabile (i.e. nita o
numerabile) v
i
iI
si dicono linearmente indipendenti se e solo se ogni volta che
iI
a
i
v
i
= 0 si ha a
i
= 0 per ogni i I. Si dimostra immediatamente che se la
norma deriva da un prodotto scalare , allora v
i
iI
sono linearmente dipendenti
se e solo se esiste a
i
iI
successione di scalari non tutti nulli tale che
iI
a
i
v
i
converge e v
j
,
iI
a
i
v
i
= 0 per ogni j I. Come corollario si ha che v
1
, . . . , v
n
sono linearmente dipendenti se e solo se la matrice n n

C := (v
i
, v
j
)
n
i,j=1
non è invertibile i.e. det(C) = 0.
Un altro corollario è che tra v
1
, . . . , v
n
(questa volta si supponga che lo spazio sia
R
k
) esiste una relazione ane non banale, i.e. esistono degli scalari a
0
, a
1
, . . . , a
n
non tutti nulli tali che

a
0
1 +a
1
v
1
+ +a
n
v
n
= 0 (2.1)
se e solo se det(Cov(v
1
, . . . , v
n
)) = 0 dove 1 è il vettore con tutte le coordinate pari
ad 1, mentre
Cov(v
1
, . . . , v
n
) := (Cov(v
i
, v
j
))
n
i,j=1
.
Si osservi, infatti, che se vale lequazione 2.1 si ha necessariamente a
0
=
a
i
v
i
dove v
i
è la media delle coordinate del vettore i-esimo
v
i
:=
1
k
k
j=1
v
i
(j).
Quindi a
0
, . . . , a
n
non sono tutti nulli e se deniamo v
i
:= v
i
v
i
1 allore lequazione
2.1 è equivalente a
a
1
v
1
+ +a
n
v
n
= 0
applico quindi il precedente risultato.
2.4.3 Scatterplot, o diagramma di dispersione
Lo scatterplot (comando di Matlab plot) è un metodo graco utile per stimare se esistono
delle correlazioni tra due variabili. Si mette in ascissa una variabile, in ordinata unaltra, e si
rappresentano le singole osservazioni con dei punti.
Se punti con ascissa piccola hanno ordinata piccola, e punti con ascissa grande hanno ordinata
grande, allora esiste una correlazione diretta tra le due variabili (
xy
> 0).
Viceversa quando al crescere delluna laltra decresce si ha correlazione inversa (
xy
< 0).
Se i punti formano una nuvola indistinta i dati sono pressoche scorrelati.
Esempio 2.4.10. (x
i
, y
i
) = (11, 4), (51, 22), (40, 20), (62, 30), (33, 15).
0 10 20 30 40 50 60 70 80
0
5
10
15
20
25
30
35
40
x
y
I dati sono fortemente correlati. Infatti
xy
= 0.9913.
Esempio 2.4.11. (x
i
, y
i
) = (21, 25), (12, 28), (32, 15), (44, 11), (27, 20).
0 5 10 15 20 25 30 35 40 45 50
0
5
10
15
20
25
30
x
y
I dati sono inversamente correlati. Infatti
xy
= 0.9796.
2.4.4 Regressione lineare semplice
Ricerca di una relazione ane tra le variabili x e y. Stiamo supponendo di avere
y
i
= ax
i
+b +r
i
(1)
dove r
i
è un residuo che vogliamo quanto pi` u piccolo possibile in qualche senso che dovremo
specicare.
Chiameremo x
i
predittore e y
i
responso.
La retta che cerchiamo si chiama retta di regressione semplice (si dice semplice perche
coinvolge un solo predittore), o anche retta dei minimi quadrati.
Alla forma (1) si pu` o essere arrivati dopo eventuali trasformazioni dei dati.
Per stimare al meglio i coecienti a e b utilizziamo il principio dei minimi quadrati:
minimizziamo la quantità
f(a, b) =
n
i=1
r
2
i
=
n
i=1
[y
i
(ax
i
+b)]
2
Dal calcolo dierenziale sappiamo che dobbiamo imporre:
f(a, b)
a
=
n
i=1
2x
i
[y
i
(ax
i
+b)] = 0
f(a, b)
b
=
n
i=1
2 [y
i
(ax
i
+b)] = 0
.
Otteniamo quindi:
a =
n
i=1
(x
i
x)(y
i
y)
n
i=1
(x
i
x)
2
=
s
xy
s
2
x
b = y ax = y
s
xy
s
2
x
x
20 30 40 50 60 70 80
100
120
140
160
180
200
220
d
P
i
i
La retta di regressione è quella che rende minima la somma dei quadrati delle lunghezze d
i
dei
segmenti verticali congiungenti i punti osservati con la retta stessa.
. La matrice hessiana risulta
Hf(a, b) = 2
_
n
i=1
x
2
i
n
i=1
x
i
n
i=1
x
i
n
_
quindi, se n 2 e per almeno due coppie (x
i
, y
i
) e (x
j
, y
j
) si ha x
i
,= x
j
, si ottiene immediatamente
n
i=1
x
2
i
> 0, det(Hf(a, b)) = n
n
i=1
x
2
i

_
n
i=1
x
i
_
2
> 0
che implica che ogni punto stazionario è un minimo. Nota:
n
i=1
r
i
= 0.
Per stimare la qualità di una regressione possiamo utilizzare i seguenti criteri:
Il coeciente di correlazione
xy
deve essere vicino a 1 o a -1 (
2
xy
vicino ad 1).
Lesame visivo dello scatterplot delle due variabili: i dati devono essere vicini alla retta di
regressione.
Lesame del graco dei residui: in ascissa i valori previsti, in ordinata i valori dei residui. La
nuvola dei punti deve avere un aspetto omogeneo, senza segni di curvatura, allargamenti o
restringimenti.
Un graco dei residui che presenti curvatura è un indizio che una dipendenza lineare
non spiega bene i dati. Si pu` o tentare di correggere questo difetto con trasformazioni
di x e/o y, oppure si pu` o provare a passare a una regressione multipla (che deniremo
pi` u avanti).
Un allargarsi/restringersi della nuvola di punti è un indizio che gli errori non sono tutti
dello stesso tipo al variare di i. Si scelga quella combinazione di trasformazioni che
danno la nuvola dei residui pi` u omogenea possibile.
2.4.5 Regressione lineare multipla
Il responso y è spiegato da pi` u predittori x = (x
(1)
, x
(2)
, . . . , x
(d)
). Ipotizziamo il modello teorico
y
i
= a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
+r
i
(1)
I coecienti a
0
, a
1
, . . . , a
d
sono stimati usando il principio dei minimi quadrati: si rende minima
la quantità
f(a
0
, a
1
, . . . , a
d
) =
n
i=1
r
2
i
=
n
i=1
_
y
i
(a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
)
_
2
Dobbiamo imporre:
f(a
0
, a
1
, . . . , a
d
)
a
0
=
n
i=1
_
y
i
(a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
)
_
= 0
f
a
k
=
n
i=1
2x
(k)
i
_
y
i
(a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
)
_
= 0, k = 1, . . . , d
Questo sistema lineare di d + 1 equazioni in d + 1 incognite ammette una soluzione unica
(supponendo che il determinante sia non nullo); tale soluzione, essendo lim
a+
f(a) = +, è
sicuramente un minimo.
`
E comodo riscrivere il sistema di equazioni in forma matriciale: posto
y =
_
_
y
1
y
2
.
.
.
y
n
_
_
X =
_
_
1 x
(1)
1
x
(2)
1
. . . x
(d)
1
1 x
(1)
2
x
(2)
2
. . . x
(d)
2
.
.
.
.
.
.
.
.
.
.
.
.
1 x
(1)
n
x
(2)
n
. . . x
(d)
n
_
_
r =
_
_
r
1
r
2
.
.
.
r
n
_
_
a =
_
_
a
0
a
1
.
.
.
a
d
_
_
(2.2)
Il sistema da risolvere
X
T
Xa = X
T
y
ammette soluzione è
a = (X
T
X)
1
X
T
y.
Lequazione y
i
= a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
è lequazione di un iperpiano. Esso rapp-
resenta quelliperpiano che rende minima la somma dei quadrati delle lunghezze d
i
dei segmenti
congiungenti i punti osservati alliperpiano stesso
Come per la regressione lineare semplice possiamo essere arrivati al modello lineare (1) dopo
aver fatto trasformazioni sul responso e/o sui predittori.
Tra i predittori possiamo inserire anche potenze e prodotti dei predittori fondamentali.
Se i predittori sono tutti potenze di un unico predittore fondamentale, si parla di regressione
polinomiale.
Il graco dei residui, ossia lo scatterplot dei punti (a
0
+a
1
x
(1)
i
+a
2
x
(2)
i
+ +a
d
x
(d)
i
, r
i
), è anche
in questo caso uno strumento di analisi graca per controllare la bont` a della regressione.
Valgono le considerazioni gi` a fatte nel caso della regressione semplice.
Deniamo
la devianza totale DT =
n
i=1
(y
i
y)
2
,
la devianza spiegata DS =
n
i=1
( y
i
y)
2
(dove y
i
sono i valori previsti y
i
= a
0
+
d
k=1
a
k
x
(k)
i
),
la devianza dei residui DR =
n
i=1
(y
i
y
i
)
2
.
Vale la propriet` a DT = DS +DR. Infatti:
DT DS DR =
n
i=1
[(y
i
y)
2
( y
i
y)
2
(y
i
y
i
)
2
]
=
n
i=1
[(y
i
2y + y
i
)(y
i
y
i
) (y
i
y
i
)
2
] =
n
i=1
2( y
i
y)(y
i
y
i
)
=
n
i=1
d
k=1
a
k
f
a
k
+ 2(a
0
y)
f
a
0
= 0.
Il coeciente di determinazione multipla R
2
denito da
R
2
=
DS
DT
= 1
DR
DT
è sempre compreso tra 0 e 1 ed è un indice della frazione della variabilità di y spiegata dal
modello. R
2
vicino a 1 è un buon indizio. Si noti che nel caso della regressione semplice
R
2

2
xy
.
Modelli con retta di regressione per lorigine: Si ipotizza che il responso deve essere nullo
quando i predittori sono nulli. In altre parole il coeciente a
0
viene posto uguale a 0: y
i
=
a
1
x
(1)
i
+ a
2
x
(2)
i
+ + a
d
x
(d)
i
+ r
i
. Si procede come prima col principio dei minimi quadrati, ma
si ottengono d equazioni nelle d incognite a
1
, . . . , a
d
. La soluzione cambia.
Nota: non è pi` u vero che DT = DS +DR.
Approfondimento Metodo dei minimi quadrati. Questo metodo si realizza in R
n
(dove n è
lampiezza del campione). Si cerca di minimizzare la distanza euclidea
|y a
0
a
1
x
(1)
a
d
x
(d)
|
dove
y = (y
1
, . . . , y
n
)
x
(1)
= (x
(1)
1
, . . . , x
(1)
n
)

x
(d)
= (x
(d)
1
, . . . , x
(d)
n
).
Dalla teoria degli spazi di Hilbert (o dallo studio di R
n
) si sa che il minimo della
distanza tra un punto ed un sottospazio lineare chiuso si realizza nella proiezione
del punto sul sottospazio, in questo caso il sottospazio è quello generato dai vettori
1l, x
(1)
, . . . , x
(d)
. Inoltre si sa che se S è un sottospazio lineare chiuso di uno spazio
di Hilbert 1 (si pensi pure al caso 1 = R
n
con lusuale prodotto scalare) allora per
ogni y 1 e v S si ha
|y v|
2
= |y P
S
y|
2
+|P
S
y v|
2
,
dove P
S
rappresenta loperatore proiezione su S. Nel caso specico la precedente
equazione risulta
|y y1l|
2
= |y y|
2
+| y y1l|
2
.
Approfondimento Alla forma matriciale del sistema di equazioni date dal sistema dei minimi
quadrati si arriva in maniera semplice nel seguente modo. Se f e g sono due
funzioni a valori in uno spazio di Hilbert reale 1 (si pensi al solito caso 1 = R
n
con lusuale prodotto scalare) entrambe F-dierenziabili in x
0
(nel caso 1 = R
n
signica dierenziabili in x
0
) e se denotiamo con J
F
f(x
0
, ) e J
F
g(x
0
, ) i due
dierenziali allora f, g è F-dierenziabile in x
0
e vale
J
F
f, g(x
0
, h) = J
F
f(x
0
, h), g(x
0
) +f(x
0
), J
F
g(x
0
, h)
per ogni valore del vettore incremento h. Nel caso
f(a) = g(a) := y Xa
si ha pertanto J
F
f(a, h) = Xh e quindi il minimo è soluzione dellequazione
0 = J
F
f, g(x
0
, h) = Xh, y Xa, h R
n+1
,
ma essendo Xh, y Xa = h, X
T
y X
T
Xa ed essendo h, x = 0 per ogni h se
e solo se x = 0, si ha, equivalentemente,
X
T
y X
T
Xa = 0.
Cap. 3. Calcolo delle probabilità
Scopo: si vogliono ricavare dei modelli matematici per esperimenti aleatori.
3.1 Denizione assiomatica: spazi misurabili, misure, mi-
sure di probabilità
Incominciamo ad introdurre alcuni concetti astratti che ci saranno utili in seguito. In tutto questo
paragrafo supporremo di avere uninsieme che chiameremo spazio campionario oppure spazio
degli eventi elementari. Utilizzeremo la solita notazione insiemistica: in particolare A B :=
x A : x , B e, avendo lo spazio in mente, per ogni A chiameremo A
:= A il
complementare di A.
Denizione 3.1.1. Chiamiamo -algebra su una collezione T di sottoinsiemi di soddis-
facente le seguenti propriet` a:
(i) T;
(ii) se A T allora A
T
(iii) se A
i
iN
è una collezione di insiemi di T allora
iN
A
i
T.
Valgono le propriet` a (provare per esercizio):
1. T;
2. se A
i
iN
iN
A
i
T;
3. se A
i
n
i=1
n
i=1
A
i
T;
4. se A
i
n
i=1
n
i=1
A
i
T;
5. se A, B T allora A B T.
Denizione 3.1.2. Una coppia (, T) dove T è una -algebra su , prende il nome di spazio
misurabile e gli elementi della -algebra prendono il nome di insiemi misurabili.
In particolare quando / è una collezione di sottoinsiemi di esiste ed è unica la -algebra
generata (/) cos` denita:
(/) :=
B-algebre su :BA
B.
Nel caso in cui lo spazio misurabile sia su R
n
la -algebra sarà sempre quella generata dai rettangoli
(nel caso n = 1 sono gli intervalli) detta -algebra di Borel e simboleggiata da !
n
.
Esempio 3.1.3. Dato un insieme vi sono due -algebre immediatamente a disposizione:
31
32 CAPITOLO 3. CALCOLO DELLE PROBABILIT
`
A
la -algebra banale , ,
la -algebra totale costituita T() da tutti i sottoinsiemi di .
Denizione 3.1.4. Dati due spazi misurabili (, T) ed (
1
, T
1
), una funzione f :
1
prende
il nome di funzione T T
1
misurabile (o pi` u semplicemente funzione misurabile) se e solo se
f
1
(A) := : f() A T, A T
1
.
Osservazione 3.1.5. Spesso nel seguito utilizzeremo le seguenti abbreviazioni:
f = a indica : f() = a
a < f b indica : a < f() b
f I indica : f() I
Si mostra immediatamente che se T
1
= (/) allora una funzione f è misurabile se e solo se
f
1
(A) T per ogni A /; pertanto per tutte le funzioni f : R la misurabilit` a (rispetto a
!) equivale a f
1
(I) T per ogni I R intervallo (per semplicit` a potrete assumere questa come
denizione, almeno nel caso reale); in particolare ogni funzione f : R
n
R
m
continua risulta
!
n
!
m
misurabile.
Una propriet` a che si potrebbe dimostrare senza troppo sforzo è che data f : R
n
di
componenti (f
1
, . . . , f
n
) allora f è misurabile se e solo se lo sono f
1
, . . . , f
n
.
Approfondimento In realtà data una collezione di funzioni f
I
denite su (, T) a valori
rispettivamente in (
, T
) allora esiste una -algebra, detta -algebra prodotto
I
T
su
tale che la funzione da a valori in
()
I
è misurabile se e solo se lo è f
per ogni I. La -algebra di Borel !

n
è la
-algebra prodotto di n copie di !.
Esercizio 3.1.6. Mostrare che data una funzione f :
1
e dei sottoinsiemi di
1
, A, B, A
I
,
allora:
1.
f
_
_
I
A
_
=
_
I
f (A
)
2.
f
1
_
_
I
A
_
=
_
I
f
1
(A
)
3.
f
1
(A B) = f
1
(A) f
1
(B)
4.
f
1
_
I
A
_
=
I
f
1
(A
)
5.
f
1
_
A
_
= f
1
(A)
6.
f
_
I
A
I
f (A
) .
3.1. DEFINIZIONE ASSIOMATICA: SPAZI MISURABILI, MISURE, MISURE
DI PROBABILIT
`
A 33
Data una funzione f :
1
e dove (
1
, T
1
) è uno spazio misurabile allora la pi` u piccola
-algebra su che rende misurabile f è
f
1
(T
1
) := B : A T
1
: B = f
1
(A);
tale -algebra acquisterà un particolare signicato nel prossimo paragrafo. A tal proposito si pu` o
mostrare che data una collezione / di sottoinsiemi di
1
la sigma algebra generata dalla collezione
f
1
(/) coincide con f
1
((/)) cioè (f
1
(/)) = f
1
((/)).
Introduciamo inne la cosiddetta misura di probabilità.
Denizione 3.1.7. Sia (, T) uno spazio misurabile; una funzione P : T [0, +] si dice
misura di probabilità se e solo se soddisfa le seguenti propriet` a:
(i) P() = 1
(ii) se A
i
i=1
è una collezione di insiemi misurabili tali che i ,= j implica A
i
A
j
= allora
P
_
_
i=1
A
i
_
=
i=1
P(A
i
).
Valgono le seguenti propriet` a:
P() = 0;
se A
i
n
i=1
è una collezione di insiemi misurabili a due a due disgiunti (i.e. i ,= j implica
A
i
A
j
= ) allora
P
_
n
_
i=1
A
i
_
=
n
i=1
P(A
i
);
Approfondimento Questa propriet` a di additivit` a non implica la (ii) della denizione prece-
dente (detta -additivit` a). Lesempio si pu` o costruire in = N ispirandosi al
Teorema 3.2.6 e alla teoria degli spazi di Banach (troppo complessa per essere
trattata in queste note). Infatti si potrebbe mostrare che (l
, il duale di l
,
pu` o essere identicato con lo spazio delle misure nite additive su N, mentre
l
1
pu` o essere identicato con il sottoinsieme (proprio) di (l
contenente
tutte e sole le misure -additive. Questi risultati sono legati alla teoria dei
limiti di Banach.
se A, B T sono tali che A B allora P(A) P(B);
P(A) [0, 1] per ogni A T;
se A, B T sono tali che A B allora P(A B) = P(A) P(B);
P(A B) = P(A) +P(B) P(A B);
A
i
n
i=1
una collezione nita di insiemi misurabili allora
P
_
k
_
i=1
A
i
_
=
n
j=1
(1)
j+1
1i1<<ijn
P(A
i1
A
ij
)
(formula di Poincarè o principio di inclusione-esclusione, per la dimostrazione si veda
il Paragrafo 3.6);
`
A
se A
i
iI
è una collezione al pi` u numerabile di insiemi misurabili tali che i ,= j implica
P(A
i
A
j
) = 0) allora
P
_
_
iI
A
i
_
=
iI
P(A
i
);
Se A
i
iI
è una P-partizione al pi` u numerabile (i.e. (i) A
i
T per ogni i I, (ii)
P(
iI
A
i
) = 1 e (iii) se i ,= j allora P(A
i
A
j
) = 0) si ha
P(B) =
iI
P(B A
i
)
dove B T (formula delle probabilità totali).
Se gli eventi soddisfano A
i+1
A
i
(risp. A
i+1
A
i
) per ogni i N, allora
P
_
n
_
i=1
A
i
_
P
_
_
i=1
A
i
_ _
risp. P
_
n
i=1
A
i
_
P
_
i=1
A
i
_ _
se n + (continuit` a della misura).
Per qualsiasi famiglia di eventi A
i
iI
con I al pi` u numerabile si ha
P
_
_
iI
A
i
_
iI
P(A
i
)
(si dimostra per induzione sulla cardinalità di I per I nito e quindi passando al limite ed
utilizzando la continuit` a della misura). In particolare si ha che se P(A
i
) = 0 (risp. P(A
i
) = 1)
per ogni i I allora
P
_
_
iI
A
i
_
= 0, P
_
iI
A
i
_
= 1.
Approfondimento Una misura di probabilit` a è un particolare caso di misura positiva secondo
la seguente denizione.
Denizione 3.1.8. Sia (, T) uno spazio misurabile; una funzione P : T [0, +]
si dice misura positiva se e solo se soddisfa le seguenti propriet` a:
(i) P() = 0
(ii) se A
i
i=1
è una collezione di insiemi misurabili tali che i ,= j implica A
i
A
j
=
allora
P
_
_
i=1
A
i
_
=
i=1
P(A
i
).
Per mostrare che questa denizione è pi` u generale (per esercizio) si dimostri innan-
zitutto che dalla propriet` a (ii) si ha che P() 0, + e che se P() = 1 allora
necessariamente P() = 0; quindi se P soddisfa le richieste della Denizione 3.1.7
allora deve necessariamente soddisfare quelle della Denizione 3.1.8.
Si osservi inoltre che data una serie a termini non negativi
i=1
i
per ogni funzione
biettiva : N N si ha
i=1
i
=
i=1
(i)
N +
convergenza e divergenza incondizionata.
3.2. DEFINIZIONE ASSIOMATICA: EVENTI E VARIABILI ALEATORIE 35
Data una funzione misurabile f :
1
, allora la funzione
P
f
(A) := P(f
1
(A)), A T
1
risulta essere una misura di probabilit` a su (
1
, T
1
) (provare per esercizio) che prende il nome di
legge di f. Se la funzione misurabile è a valori in R
n
, sia f := (f
1
, . . . , f
n
) allora la sua legge
prende il nome di legge congiunta delle funzioni f
1
, . . . , f
n
. Se g :
1

2
(dove (
2
, T
2
) è un
nuovo spazio misurabile) è un altra funzione misurabile allora g f risulta misurabile e la legge
P
gf
= (P
f
)
g
. La legge congiunta di f
1
, . . . , f
n
è univocamente determinata dai suoi valori
P
(f1,...,fn)
(I
1
I
n
) P
_
n
i=1
f
1
i
(I
i
)
_
, I
1
, . . . , I
n
R intervalli.
Denizione 3.1.9. Uno spazio misurabile (, T) è detto discreto se e solo se è al pi` u numer-
abile. In tal caso, se non esplicitamente detto, considereremo T := T().
Una misura di probabilit` a P su uno spazio misurabile (, T) si dice misura discreta se e solo se
esiste un sottoinsieme misurabile S T al pi` u numerabile tale che P(S) = 1. Se P è una misura di
probabilit` a su (, T) e (
1
, T
1
) è un altro spazio misurabile, una funzione misurabile f :
1
si dice discreta se esiste un sottoinsieme S
1
discreto tale che f S T e P(f S) = 1
(o equivalentemente P
f
(S) = 1).
In particolare una funzione misurabile f è discreta se e solo se lo è la sua legge P
f
; inoltre
se (, T) è discreto, ogni misura di probabilit` a su di esso è discreta (ma esistono misure discrete
denite su spazi non discreti), mentre se (
1
, T
1
) è discreto allora ogni funzione misurabile a valori
in esso è discreta (ma esistono funzioni discrete denite su spazi non discreti).
Osservazione 3.1.10. Sia f
i
iI
una famiglia di funzioni misurabili tali che f :
i
dove (, T)
è uno spazio misurabile e gli elementi della collezione (
i
, T
i
, P
(i)
) sono spazi di probabilit` a; si
dice che le funzioni f
i
iI
sono identicamente distribuite se e solo se per ogni i, j I le leggi
soddisfano P
(i)
fi
= P
(j)
fj
.
Questo non signica che le variabili coincidano, infatti non è detto nemmeno che siano denite
sullo stesso spazio.
Osservazione 3.1.11. Tutte le denizioni date, a proposito di insiemi misurabili e funzioni mis-
urabili, nel presente paragrafo si estendono ai paragra successivi dove adotteremo un nuovo
linguaggio e parleremo, rispettivamente, di eventi e variabili aleatorie.
3.2 Denizione assiomatica: eventi e variabili aleatorie
Un esperimento aleatorio è un esperimento che a priori pu` o avere diversi esiti possibili, e il cui
esito eettivo dipende dal caso.
Esempio 3.2.1.
1. (a) Si estraggono sei palline da un campione di 90 palline numerate progressivamente, e si
guardano i numeri estratti.
(b) Si entra in una classe di studenti e si conta il numero di assenti.
2. (a) Si lancia ripetutamente una moneta nche non esce testa; si conta il numero di lanci.
(b) Si telefona ogni minuto a un determinato numero nche non lo si trova libero. Si conta
il numero di tentativi.
3. (a) Si accende una lampadina e si misura il suo tempo di vita.
(b) Si misura laltezza di un individuo scelto a caso in un gruppo di persone.
`
A
Lo spazio su cui ambientiamo i possibili stati che determinano gli esiti di un esperimento
aleatorio è uno spazio di probabilità, cioè uno spazio misurabile con una misura di probabilit` a
(, T, P). Linsieme dei possibili stati è i cui elementi a volte prendono il nome di even-
ti elementari; lo spazio prende il nome di spazio campionario o spazio degli eventi
elementari.
Gli insiemi della -algebra T prendono il nome di eventi. Si osservi che in generale un evento
elementare non è un evento (in quanto non è un sottoinsieme di ma un elemento di ); in
generale, dato un evento elementare , non è detto nemmeno che il singoletto T e
quindi che sia un evento. Quando i singoletti appartengono tutti ad T (caso molto frequente),
li chiameremo ancora eventi elementari abusando un po della nomenclatura.
La nostra interpretazione è: il caso pesca un evento elementare ; noi diremo che
un evento A T accade in corrispondenza alla scelta di se e solo se A. La probabilit` a
dellevento A sarà P(A).
Esempio 3.2.2. Sia := (0, 0), (0, 1), (1, 0), (1, 1) dove (a, b) lo interpretiamo come il risultato di
due lanci di una moneta (0 è testa, 1 è croce). Scegliamo T := T() e come misura di probabilit` a
P(A) := #A/4. Allora levento al primo lancio esce croce sarà A := (1, 0), (1, 1) e la sua
probabilit` a è 1/2. Levento (0, 0) si interpreta come in entrambi i lanci è uscita testa ed
ha probabilit` a 1/4, mentre levento (1, 0), (0, 1), (1, 1) è levento in almeno un lancio è uscita
croce ed ha probabilit` a 3/4.
Lo spazio campionario è quindi detto discreto, in accordo con la Denizione 3.1.9, se i suoi
elementi sono in numero nito oppure uninnità numerabile (es. 1 e 2).
`
E detto continuo se è
pi` u numeroso, ad esempio R o un suo intervallo (es. 3).
Negli esempi 1a e 1b gli eventi elementari sono in numero nito.
Negli esempi 2a e 2b sono uninnità numerabile ( = N).
Negli esempi 3a e 3b sono uninnità non numerabile ( = R o un intervallo di R).
Esempi di eventi.
1a: le palline estratte hanno numeri progressivi contigui.
1b: non vi sono pi` u di 3 assenti.
2a: si ottiene testa dopo non meno di 10 lanci e non pi` u di 20.
2b: non si aspetta pi` u di 10 minuti.
3a: la lampadina dura almeno 300 ore.
3b: la persona misura meno di 1.80 metri.
Rappresentazione insiemistica degli eventi.
Linguaggio degli insiemi Linguaggio degli eventi
evento certo
evento impossibile
insieme A si verica levento A
insieme A
non si verica A
A B si vericano A o B (qui o ha il signicato latino di vel,
cioè almeno uno dei eventi due si verica)
I
A
almeno uno degli eventi della collezione A
I
si verica
A B si vericano sia A che B
I
A
tutti gli eventi della collezione A
I
si vericano
AB si verica A e non si verica B
A B = A e B sono incompatibili
B A B implica A
AB := (A B) (B A) uno ed uno solo dei due eventi si verica (è il latino aut
Alcune propriet` a degli insiemi; A, B e C sono sottoinsiemi qualsiasi di :
A A = A idempotenza dellunione
A A = A idempotenza dellintersezione
A = A
A =
A =
A = A
A A
=
A A
=
A B = B A commutativit` a dellunione
A B = B A commutativit` a dellintersezione
A (B C) = (A B) C associativit` a dellunione
A (B C) = (A B) C associativit` a dellintersezione
A (B C) = (A B) (A C) distributività dellunione risp. intersez.
A (B C) = (A B) (A C) distributività dellintersez. risp. unione
(A B)
= A
legge di De Morgan
(A B)
= A
legge di De Morgan
(A
= A
Quindi in relazione a un evento siamo interessati a calcolarne la probabilit` a. Nei nostri esempi:
1a: prob. che le palline estratte abbiano numeri progressivi contigui.
1b: prob. che non vi siano pi` u di 3 assenti.
2a: prob. che si ottenga testa dopo non meno di 10 lanci e non pi` u di 20.
2b: prob. di aspettare non pi` u di 10 minuti.
3a: prob. che la lampadina duri almeno 300 ore.
3b: prob. che la persona misuri meno di 1.80 metri.
Esercizio 3.2.3. Supponiamo che i pezzi prodotti da una certa macchina possano presentare due
tipi di difetti, che chiameremo a e b.
`
E stato stabilito che la probabilit` a che un pezzo presenti il
difetto a è 0.1, la probabilit` a che non presenti il difetto b è 0.8, la probabilit` a che presenti entrambi
i difetti è 0.01.
Qual è la probabilit` a che un pezzo non presenti alcun difetto?
Soluzione.
Indichiamo con A levento il pezzo presenta il difetto a e con B levento il pezzo presenta il difetto
b. Le informazioni si traducono in: P(A) = 0.1, P(B
) = 0.8, P(A B) = 0.01.

Levento richiesto è levento A
= (A B)
. Pertanto, dalla Denizione 3.1.7 e propriet` a

seguenti, si ha
P(A
) = P((A B)
) = 1 P(A B) = 1 [P(A) +P(B) P(A B)] =

= P(B
) +P(A B) P(A) = 0.8 + 0.01 0.1 = 0.71

Denizione 3.2.4. Dato uno spazio di probabilit` a (, T, P) ed uno spazio misurabile (
1
, T
1
)
(generalmente (R
n
, !
n
)), conveniamo di chiamare ogni funzione T T
1
misurabile una variabile
aleatoria (o pi` u semplicemente variabile) a valori in
1
. Tutte le denizioni inerenti alle funzioni
misurabili si estendono quindi alle variabili aleatorie.
Osservazione 3.2.5. Levento prende il nome di evento impossibile, mentre levento prende
il nome di evento certo. Sar` a chiaro nel Capitolo 5 che possono esistere eventi A T non
impossibili (i.e. A ,= ) tali che P(A) = 0 (di conseguenza esisteranno anche eventi non certi
(i.e. A ,= ) tali che P(A) = 1 detti eventi quasi certi). Matematicamente questi eventi non
creano problemi, la loro interpretazione sarà quella di eventi pi` u improbabili di qualsiasi evento di
probabilit` a strettamente positiva, ma comunque possibili.
`
A
Operativamente la scelta di includere certi eventi nella -algebra dipenderà dalla interpre-
tazione nellambito dellesperimento che stiamo modellizzando: se rappresentano un evento che
risulta teoricamente (per ragioni siche o di altra natura) impossibile allora possono essere elimi-
nati.
Approfondimento Il problema della scelta dello spazio campionario. Supponiamo di avere degli
spazi misurabili (
, T
)
I
, una famiglia di leggi P
S
SI:S nito
, tali che
_
S

,
S
T
, P
S
_
è uno spazio di probabilit` a; qui con
:= f : I
_
I
: f()
, I
si intende il prodotto cartesiano degli spazi
I
e
I
T
è una particolare
-algebra su
detta -algebra prodotto di T
I
. Sotto alcune ipote-
si di consistenza (date dal Teorema di Kolmogorov che qui non arontiamo),
linterpretazione è che esse siano le leggi congiunte di sottofamiglie nite di vari-
abili aleatorie. Quello che il teorema dimostra è che esiste ununica misura di
probabilit` a P sullo spazio
_
I

,
I
T
_
che estende la famiglia di leggi
P
S
SI:S nito
; inoltre è possibile costruire su questo spazio la famiglia di variabili
aleatorie Z
i
di cui queste sono le leggi congiunte. Se ora (, T, P) è un altro
spazio in cui vive una famiglia di variabili X
I
; tutte gli eventi di cui possiamo
calcolare la probabilit` a relativi a questa famiglia, sono nelle -algebre,
i
T
e
T
1
T, generate da eventi del tipo
Z
1
E
1
, . . . , Z
n
E
n
n N,
i
I i = 1, . . . , n, E
i
T
i
i = 1, . . . , n
X
1
E
1
, . . . , X
n
E
n
n N,
i
I i = 1, . . . , n, E
i
T
i
i = 1, . . . , n
per cui vale
P(Z
1
E
1
, . . . , Z
n
E
n
) = P
S
(E
1
E
n
) = P(X
1
E
1
, . . . , X
n
E
n
)
dove S :=
1
, . . . ,
n
. Si dimostra ancora che esiste una funzione misurabile
J :
tale che
J
1
(Z
1
E
1
, . . . , Z
n
E
n
) = X
1
E
1
, . . . , X
n
E
n
.
Si conclude quindi che T
1
= J
1
(
I
T
) ed P = P
J
, pertanto non importa la
realizzazione specica dello spazio di probabilit` a che si sceglie ma solo la legge. Nel
seguito spesso non faremo riferimento ad alcuno spazio di probabilit` a, ma solo alla
legge.
Interpretazione. A priori il risultato di un esperimento si pu` o modellizzare con una variabile
aleatoria X denita sullo spazio degli eventi elementari che rappresenta linsieme degli stati che
contengono tutte le informazioni necessarie al mio esperimento; nei casi pi` u semplici il risultato
dellesperimento sarà modellizzabile pi` u semplicemente con un evento (esperimento a due risultati).
Se lo stato del sistema è allora, a posteriori, il risultato dellesperimento sar` a X().
Viceversa, se sappiamo che lesperimento ha dato un risultato nellintervallo I allora lo stato del
sistema appartiene a X
1
(I). In questo modo appare chiaro che lo stato pu` o essere osservato,
in generale, solo attraverso la conoscenza dei risultati di uno o pi` u esperimenti.
3.2.1 Come si assegnano le probabilità
Ora sappiamo cosè uno spazio di probabilit` a; ma come si sceglie lo spazio giusto, o meglio, la
legge giusta per rappresentare il fenomento che si sta studiando? Questo problema, di natura
strettamente applicativa, è simile a quello che si incontra continuamente nello studio delle scienze
siche o naturali.
Negli spazi discreti (sotto lipotesi che la -algebra sia quella totale, i.e. ogni sottoinsieme è
un evento) cè una procedura che permette di costruire tutte le misure possibili a partire dalla
determinazione del valore della misura su alcuni eventi speciali.
Sia quindi uno spazio discreto e
i
iI
(dove I N), i = 1, . . . , gli eventi elementari. Ogni
evento A pu` o essere visto come unione nita o innita (numerabile) di eventi elementari (e perciò
disgiunti). Allora, dalla Denizione 3.1.7,
P(A) = P
_
_
i:iA
_
=
i:iA
P(
i
)
Quindi se conosciamo le probabilit` a p
i
= P(
i
) degli eventi elementari, risulta completamente
denita la funzione di probabilit` a su .
Vale infatti il seguente Teorema.
Teorema 3.2.6. Se p
i
iI
è una successione di numeri positivi allora
P(A) :=
i:iA
p
i
denisce una misura di probabilit` a su (, T()). Tale misura è lunica con la proprietà P(
i
) =
p
i
per ogni i I.
Esempio 3.2.7.
= N, p
i
=
1
2
i
, i = 1, 2, . . .
Verichiamo che p
i
denisce una probabilit` a:
0 p
i
1, P() =
i=1
p
i
=
i=1
_
1
2
_
i
=
1
1 1/2
1 = 1
Calcoliamo ad esempio la probabilit` a dellevento A numero pari :
P(A) =
i=1
P(2i) =
i=1
p
2i
=
i=1
_
1
4
_
i
=
1
1 1/4
1 =
1
3
.
Vedremo in seguito che la misura appena introdotta descrive lesperimento quanti lanci di una
moneta non truccata devo fare prima che esca testa per la prima volta?
Esaminiamo di seguito due approcci possibili alla costruzione di particolari misure.
La probabilità classica. Consideriamo il caso in cui lo spazio campionario è nito. Facciamo
lulteriore ipotesi che gli eventi elementari siano equiprobabili :
=
1
, . . . ,
n
, p
k
=
1
n
per ogni k = 1, . . . , n.
Seguendo lo schema generale per spazi discreti, la probabilit` a dellevento A è
P(A) =
iA
1
n
=
#A
n
=
#A
#
dove #A rappresenta il numero degli eventi elementari che costituiscono levento A (detti casi
favorevoli allevento A).
Dunque la probabilit` a classica di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili .
`
A
1 10 100 1000 10000
0
0.2
0.4
0.6
0.8
Frequenza relativa dellevento testa in una successione di lanci
Esempio 3.2.8. Estraiamo due palline da unurna che contiene 60 palline bianche e 40 palline nere.
In questo caso n = C
100,2
= 100 99/2 = 4950
(C
n,k
è il coeciente binomiale e rappresenta il numero di combinazioni di k oggetti tra n):
C
n,k
=
_
n
k
_
=
n(n 1)(n 2) . . . (n k + 1)
k!
=
n!
k!(n k)!
I modi possibili di estrarre 2 palline nere è #A = C
40,2
= 40 39/2 = 780.
La probabilit` a che le due palline estratte siano nere è: p = #A/n = 0.158.
Lidea frequentista di probabilità. La probabilit` a dellevento A è il limite della frequenza
relativa con cui A si verica in una lunga serie di prove ripetute sotto condizioni simili.
Da questo punto di vista la probabilit` a è dunque una frequenza relativa. La legge forte dei
grandi numeri a cui faremo qualche cenno nel Paragrafo 7.2.3, in qualche modo giustica questo
approccio.
Esempio 3.2.9. Si lancia una moneta n volte e si considera la frequenza relativa dellevento Testa
(numero di volte in cui si presenta T diviso per n). Allaumentare di n tale frequenza relativa
tende a stabilizzarsi intorno al valore limite 0.5, che è la probabilit` a di T.
3.3 Probabilità condizionata
Ci chiediamo quale sia la probabilit` a di un evento A nellipotesi che levento B si verichi.
Denizione 3.3.1. Sia B un evento con P(B) > 0. Si chiama probabilità di A condizionata
a B il numero
P(A[B) =
P(A B)
P(B)
3.3. PROBABILIT
`
A CONDIZIONATA 41
Nel caso della probabilit` a classica (ossia di n eventi elementari equiprobabili con p
i
= 1/n),
dato B ,= si ha:
P(A[B) =
#(A B)
#
#B
#
=
#(A B)
#B
Si considera B come nuovo spazio campionario e si fa riferimento solo agli eventi elementari
che appartengono sia ad A che a B.
La mappa A P(A[B), ssato B, è eettivamente una probabilit` a. Infatti P(A[B) 0;
inoltre P([B) = 1 poiche B = B; inne data una successione di eventi incompatibili
A
i
,
P
_
_
i=1
A
i
[B
_
=
P((
i=1
A
i
) B)
P(B)
=
P((A
1
B) (A
2
B) . . . )
P(B)
Essendo A
i
B
i=1
incompatibili, P((A
1
B) (A
2
B) . . . ) =
i=1
P(A
i
B). Pertanto
P
_
_
i=1
A
i
[B
_
=
i=1
P(A
i
[B)
La mappa B P(A[B), ssato A, non è una probabilit` a.
Ad esempio, mentre è vero che P([B) = 1, in generale P(A[) = P(A) che pu` o essere
strettamente minore di 1.
P(A B) = P(A[B)P(B) per ogni coppia di eventi A, B tali che P(B) > 0 (altrimenti,
ricordiamo, la probabilit` a condizionata P(A[B) non è denita).
In generale, se P(B) (0, 1),
P(A)
max(P(B), P(B
))
P(A[B) +P(A[B
)
P(A)
min(P(B), P(B
))
Se lo spazio campionario è nito (e gli eventi elementari sono equiprobabili), la denizione
data sopra trova una piena giusticazione: poiche levento B si è vericato, si tratta di
determinare la probabilit` a dellevento A B prendendo come nuovo spazio campionario
linsieme B. Agli eventi elementari di A si attribuiscono nuove probabilit` a
i
= p
i
/p(B). Si
ha dunque:
P(A[B) =
AB
i
=
AB
p
i
B
p
i
=
P(A B)
P(B)
Se A
i
iI
(con I N) è una P-partizione di tale che P(A
i
) > 0 per ogni i I e B è un
evento qualsiasi allora
P(B) =
jI
P(B[A
j
)P(A
j
)
(si veda la formula delle probabilit` a totali).
Se A
i
iI
(con I N) è una P-partizione di tale che P(A
i
) > 0 per ogni i I e B è un
evento con probabilit` a P(B) > 0 allora vale, per ogni i I ssato,
P(A
i
[B) =
P(A
i
B)
P(B)
=
P(B[A
i
)P(A
i
)
jI
P(B[A
j
)P(A
j
)
(formula di Bayes).
`
A
Esempio 3.3.2. Una confezione contiene 25 transistors di buona qualità, 10 difettosi (cioè
che si rompono dopo qualche ora), e 5 guasti. Un transistor viene scelto a caso e messo in
funzione. Sapendo che non è guasto, qual è la probabilit` a che sia di buona qualità?
Evento A: il transistor scelto a caso è di buona qualità.
Evento B: il transistor scelto a caso è difettoso.
Evento C: il transistor scelto a caso è guasto.
P(A) = 25/40, P(B) = 10/40, P(C) = 5/40.
P(A[C
) =
P(A C
)
P(C
)
=
P(A)
1 P(C)
=
25/40
35/40
=
5
7
Esercizio 3.3.3. Problema delle tre carte: supponiamo di avere tre carte da gioco, una con
faccia rossa e laltra nera, una con entrambe le facce rosse e una con entrambe le facce nere.
Si estrae una carta a caso e la si mette sul tavolo. Se la faccia visibile è rossa, qual è la
probabilit` a che la faccia coperta sia rossa?
Soluzione.
Sia A levento la faccia coperta è rossa.
Sia B levento la faccia visibile è rossa.
Dobbiamo calcolare P(A[B).
Levento AB è levento abbiamo scelto la carta con entrambe le facce rosse la cui probabilit` a
è pari a 1/3.
Levento B ha probabilit` a 1/2 poichè vi sono in totale tante facce rosse quante facce nere.
Quindi
P(B[A) =
1/3
1/2
=
2
3
Esercizio 3.3.4. Quando piove Adalfonso esce di casa con probabilit` a 1/3, quando il tempo
è sereno esce con probabilit` a 2/3. Sapendo che piove con probabilit` a 1/4, calcolare:
1. la probabilit` a che in un giorno qualsiasi Adalfonso esca di casa;
2. la probabilit` a che oggi piova dato che è uscito di casa.
Soluzione.
Sia P :=oggi piove e U :=Adalfonso oggi esce di casa, allora P(P) = 1/4 e P(U[P) = 1/3
mentre P(U[P
) = 2/3. Dalla formula delle probabilit` a totali

P(U) = P(U[P)P(P) +P(U[P
)P(P
) =
1
3
1
4
+
2
3
3
4
=
7
12
,
da cui direttamente (oppure utilizzando la formula di Bayes),
P(P[U) =
P(U[P)P(P)
P(U)
=
1/12
7/12
=
1
7
.
Esercizio 3.3.5. In un gioco televisivo viene messo in palio un 1 milione di euro. Per vincerlo il
concorrente dovrà indovinare fra tre buste qual è quella che contiene lassegno. Il concorrente
sceglie a caso una busta; a questo punto il conduttore mostra una delle due buste che sa
essere vuota, orendo al concorrente di cambiare la propria busta con quella rimanente.
Qual è la probabilit` a di vincere il premio conservando la prima busta scelta?
3.3. PROBABILIT
`
A CONDIZIONATA 43
Qual è la probabilit` a di vincere cambiando la busta?
Qual è la probabilit` a di vincere se gioca a testa e croce fra le due strategie?
Soluzione.
Cominciamo con un ragionamento intuitivo. Il presentatore pu` o sempre aprire una busta
vuota, quindi lapertura della busta vuota non cambia il contenuto di quella scelta dal
concorrente; pertanto visto che la probabilit` a a priori di scegliere la busta contenente la
promessa di pagamento è 1/3, se il concorrente decide di conservare la prima busta scelta,
la probabilit` a di vincere è 1/3. Con la seconda strategia, consistente nel cambiare la busta
che si ha in mano con la busta rimanente dopo che il conduttore ne ha mostrata una vuota,
il concorrente vince se e solo se inizialmente ha scelto una delle due buste vuote. Pertanto,
con la strategia del cambio della busta, la probabilit` a di vincere è pari a 2/3.
Rendiamo pi` u rigoroso il ragionamento. Sia W = Il concorrente sceglie la busta vincente
e P = il presentatore apre una busta vuota. Chiaramente P(W) = 1/3 e P(P) = 1,
pertanto V è indipendente da ogni altro evento (incluso W); infatti P(W)P(P) = P(W) =
P(W P) + P(W P
) = P(W P), poiche 0 P(W P
) P(P
) = 0. Quindi
P(W[P) = P(W P)/P(P) = P(W) = 1/3. Quindi se non cambia la busta vince con
probabilit` a 1/3, il che implica che se cambia la busta vince con probabilit` a 2/3.
Per lultimo punto, poniamo T = Esce testa, V = Il concorrente vince e supponiamo
che, se esce testa, il concorrente sceglie la prima strategia, ovvero non cambia la busta. Se
gioca a testa o croce fra le due strategie abbiamo, per la formula delle probabilit` a totali, che:
P(V ) = P(V [T)P(T) +P(V [T
)P(T
) = 1/3 1/2 + 2/3 1/2 = 1/2.
Esercizio 3.3.6. Un signore ha due gli e supponiamo che il sesso di ciascuno dei sue sia
indipendente da quello dellaltro e che la probabilit` a che nasca un maschio sia pari ad 1/2.
1. Ci dice di avere almenu un maschio, qual è la probabilit` a di avere due maschi?
2. Lo incontriamo in giro con uno dei suoi gli e vediamo che è un maschio, qual è la
probabilit` a che entrambi siano maschi?
Soluzione.
1. Sia := (M, M), (M, F), (F, M), (F, F) con la probabilit` a uniforme. Levento al-
meno uno dei due è un maschio è (M, M), (M, F), (F, M) =: A e P(A) = 3/4, levento
entrambi sono maschi è (M, M) =: B da cui
P(B[A) =
P(A B)
P(A)
=
P(B)
P(A)
=
1
3
.
2. Sia
1
:= 1, 2 (M, M), (M, F), (F, M), (F, F) con la probabilit` a uniforme e sia Y
cos` denita:
Y (i, w
1
, w
2
) := w
i
che rappresenta il sesso del glio che incontro. Quindi levento incontro un glio
maschio è (1, M, M), (2, M, M), (1, M, F), (2, F, M) =: A (P(A) = 1/2)), mentre
levento entrambi i gli sono maschi è (1, M, M), (2, M, M) (P(B) = 1/4). Pertanto
P(B[A) =
P(A B)
P(A)
=
P(B)
P(A)
=
1
2
.
`
A
Una seconda soluzione è la seguente: siano X e Y due variabili aleatorie equidistribuite con
range rispettivamente in 0, 1 e
1
:= (0, 0),
2
:= (0, 1),
3
:= (1, 0),
4
:= (1, 1) (con la
convenzione 0 maschio, 1 femmina) e con probabilit` a condizionate
P(X = 0[Y =
i
) :=
_
_
1 i = 1
1/2 i 2, 3
0 i = 4.
La variabile X ci dice il sesso del glio che vediamo e Y ci dice la coppia dei sessi dei due gli
(nellordine). Lambientazione esiste per il Teorema di Kolmogorov e la formula di Bayes ci
da
P(Y =
1
[X = 0) =
P(X = 0[Y =
1
)P(Y =
1
)
4
i=1
P(X = 0[Y =
i
)P(Y =
i
)
=
1/4
1/4 + 2 1/4 1/2
=
1
2
.
Approfondimento
Cerchiamo di capire meglio e, al tempo stesso, generalizzare linterpretazione della
probabilit` a condizionata. Supponiamo di avere una P-partizione A
i
iI
. A priori
si ha P() =
iI

i
P([A
i
) con
i
= P(A
i
) (formula delle probabilit` a totali); in par-
ticolare, a priori, la probabilit` a di un evento B è quindi P(B) =
iI
P(A
i
)P(B[A
i
).
Linformazione che A
i0
avviene, ci porta a modicare i pesi
i
iI
(precisamente
i0
= 1 ed
i
= 0 per ogni i ,= i
0
) ottenendo una misura di probabilit` a a posteriori
P() = P([A
i0
).
Immagniamo ora di avere uninformazione dierente, cioè che le probabilit` a
degli eventi A
i
iI
sono date da una successione
i
iI
(dove
i
0 per ogni i I
e
iI

i
= 1). In questo caso utilizziamo questa nuova informazione ottenendo una
misura a posteriori P() =
iI

i
P([A
i
). Questo generalizza il caso precedente.
Esercizio 3.3.7. Durante unindagine si sa che un sospetto è colpevole con proba-
bilità pari a 0.6. Il sospetto ha una certa caratteristica sica che è condivisa dal 20%
della popolazione. Ulteriori indagini mostrano che il colpevole ha la stessa caratter-
istica. Qual è la nuova probabilit` a di colpevolezza del sospetto? Se invece le nuove
indagini mostrassero che la probabilit` a che il colpevole abbia la caratteristica è 0.9,
e quella che il sospetto abbia la caratteristica 0.7, qual è la nuova probabilit` a di
colpevolezza del sospetto in questo caso?
Soluzione.
Siano G =il sospetto è colpevole e C =il sospetto ha la caratteristica. I dati
del problema si traducono in P(G) = 0.6, P(C[G) = 1 e P(C[G
) = 0.2. Utilizzando
la formula di Bayes si ha
P(G[C) =
1 0.6
1 0.6 + 0.2 0.4
=
15
16
0.882
P(G[C
) = 0;
in particolare, a priori, P(C) = 1 0.6 + 0.2 0.4 = 0.68. Applichiamo quando visto
in precedenza dove la P-partizione è A
1
= C e A
2
= C
.
Nel primo caso linformazione mi porta ad utilizzare una nuova misura P() =
1
P([C) + (1 )P([C
) dove = 1, pertanto la risposta è P(G) = P(G[C) =

15/17 0.882.
Nel secondo caso invece = 0.8 pertanto P(G) = 0.7 P(G[C) + 0.3 P(G[C
).
I dati del problema si traducono in P(G) = 0.6, P(C[G) = 0.9 e P(C[G
) = 0.2.
3.4. INDIPENDENZA DI EVENTI 45
Utilizzando la formula di Bayes si ha
P(G[C) =
0.9 0.6
0.9 0.6 + 0.2 0.4
=
27
31
0.871
P(G[C
) =
0.1 0.6
0.1 0.6 + 0.8 0.4
=
3
19
0.158;
in particolare, a priori, P(C) = 0.9 0.6 + 0.2 0.4 = 0.62. Pertanto P(G) =
0.7 27/31 + 0.3 3/19 0.657.
3.4 Indipendenza di eventi
Intuitivamente, due eventi A e B si dicono indipendenti se il vericarsi di uno dei due non modica
la probabilit` a che laltro accada.
Denizione 3.4.1. Due eventi A e B si dicono indipendenti se e solo se
P(A B) = P(A)P(B)
o equivalentemente (nel caso in cui P(A) > 0)
P(B[A) = P(B)
e analogamente, sotto lipotesi P(B) > 0,
P(A[B) = P(A).
Esempio 3.4.2. Unurna contiene 6 palline rosse e 4 palline bianche. Ne estraggo una, ne guardo
il colore, la reintroduco e ne estraggo una seconda. Qual è la probabilit` a che entrambe siano
bianche?
Gli eventi B
i
= la i-esima pallina estratta è bianca si considerano indipendenti. Pertanto
P(B
1
B
2
) = P(B
1
)P(B
2
) =
4
10

4
10
= 0.16.
Si noti che se lestrazione fosse avvenuta senza reimmissione, i due eventi B
1
e B
2
non sarebbero
stati pi` u indipendenti.
Osservazione 3.4.3. Quando la misura di probabilit` a è fornita, allora due eventi sono indipendenti
o meno in accordo alla Denizione 3.4.1. Quando invece si cerca di modellizzare un problema o
unesperimento, in generale la misura non è fornita, ma va costruita in base ai dati e ad alcune
considerazioni: una di queste potrebbe essere, ad esempio, la richiesta di indipendenza di alcune
coppie (o alcuni insiemi) di eventi.
Denizione 3.4.4. Gli eventi / := A
i
iI
si dicono indipendenti se per ogni sottofamiglia nita
A
i1
, . . . A
i
k
di / (dove i
1
, . . . , i
k
I) vale
P(A
i1
A
i
k
) = P(A
i1
) . . . P(A
i
k
).
Osservazione 3.4.5. Eventi indipendenti sono sicuramente indipendenti a due a due. Non è vero
però il viceversa: controesempio di Bernstein. Consideriamo un tetraedro con le facce di questi
colori: 1 blu, 1 rossa, 1 gialla, 1 rossa blu e gialla. Lanciamo il tetraedro e osserviamo se un certo
colore compare sulla faccia appoggiata. Consideriamo i tre eventi:
B = esce il colore blu.
R = esce il colore rosso.
G = esce il colore giallo.
Chiaramente P(B) = P(R) = P(G) = 1/2.
P(B R) = P(R G) = P(B G) = 1/4 = P(B)P(R) = P(R)P(G) = P(B)P(G): gli eventi B, R
e G sono a due a due indipendenti.
Per` o P(B R G) = 1/4 ,= P(B)P(R)P(G) = 1/8: B, R e G non sono indipendenti.
`
A
Se A, B sono due eventi soddisfacenti A B allora A e B sono indipendenti se e solo se
(1 P(A))P(B) = 0.
Due eventi incompatibili ciascuno di probabilit` a strettamente positiva non sono mai indipen-
denti!
Sia / := A
i
iI
una famiglia di eventi indipendenti, e sia B una collezione ottenuta da /
prendendo per ogni evento A, levento stesso oppure il suo complementare (ma mai entrambi)
(i.e. scelta una funzione f : /
AA
A, A
con la propriet` a che f(a) A, A
, allora
B = B
f
:=
AA
f(A)); la collezione B cos` ottenuta è una famiglia di eventi indipendenti.
La dimostrazione si conduce per induzione.
Esempio 3.4.6. Siano A
1
, . . . , A
n
eventi indipendenti, allora per denizione sappiamo che P(A
1
A
n
) = P(A
1
) P(A
n
), daltro canto è possibile calcolare immediatamente anche lunione
P
_
n
_
i=1
A
i
_
= 1 P
_
n
i=1
A
1
_
= 1
n
i=1
P(A
i
) = 1
n
i=1
(1 P(A
i
)).
Teorema 3.4.7. Siano A
1
, . . . , A
n
eventi indipendenti. Allora:
1. se P(A
i
) < 1 per ogni i allora si ha che P(
n
i=1
A
i
) < 1 e quindi
n
i=1
A
i
,= ;
2. se P(A
i
) > 0 per ogni i allora si ha che P(
n
i=1
A
i
) > 0 e quindi
n
i=1
A
i
,= .
Dimostrazione. Le due aermazioni sono equivalenti (basta passare ai complementari). Per mostrare
(2) si noti che
P
_
n
i=1
A
i
_
=
n
i=1
P(A
i
) > 0.
Quindi se gli eventi A
1
, . . . , A
n
sono tali che P(A
i
) < 1 per ogni i e P(
n
i=1
A
i
) = 1 allora gli
eventi non possono essere indipendenti.
Esercizio 3.4.8. Siano A
i
iE
e B
j
jH
due famiglie ciascuna composta da eventi a due a due
disgiunti tali che, per ogni i E, j H, A
i
e B
j
sono indipendenti. Mostrare che, se E ed H
sono al pi` u numerabili, allora anche
iE
A
i
e
jH
B
j
sono eventi indipendenti.
Soluzione.
Essendo A
i
A
j
= per ogni i, j E tali che i ,= j e B
i
B
j
= per ogni i, j H tali che i ,= j
allora
P
__
_
iE
A
i
_
_
_
jH
B
j
__
= P
_
_
iE,jH
A
i
B
j
_
=
iE,jH
P(A
i
B
j
)
=
iE,jH
P(A
i
)P(B
j
) =
iE
P(A
i
)
jH
P(B
j
) = P
_
_
iE
A
i
_
P
_
_
jH
B
j
_
dove nella seconda uguaglianza si è utilizzato il fatto che A
i
B
j
iE,jH
è una famiglia di eventi
a due a due disgiunti.
La denizione di indipendenza si estende anche alle variabili aleatorie nel seguente modo.
Denizione 3.4.9. Una famiglia di variabili aleatorie A := X
I
(X
, dove
(
, T
)
I
è una collezione di spazi misurabili) si dice composta da variabili indipendenti se
e solo se per ogni sottoinsieme nito S I e per ogni collezione E
S
tale che E
si ha
che X
1
(E
)
S
è una famiglia di eventi indipendenti.
3.5. FUNZIONE DI RIPARTIZIONE E FUNZIONE DEI QUANTILI 47
Una propriet` a immediata è che X
1
, . . . , X
n
sono variabili aleatorie indipendenti a valori in R
se e solo se per ogni scelta di E
1
, . . . , E
n
!
P
(X1,...,Xn)
(E
1
E
n
) = P
_
n
i=1
X
1
i
(E
i
)
_
=
n
i=1
P(X
1
i
(E
i
)) =
n
i=1
P
Xi
(E
i
).
Nel seguito, spesso modicheremo la notazione e scriveremo X
1
E
1
, . . . , X
n
E
n
al posto
di X
1
E
1
X
n
E
n
.
Denizione 3.4.10. Una famiglia di variabili X
i
iI
si dice composta da variabili i.i.d se sono
indipendenti ed identicamente distribuite (cioè ammettono la stessa legge).
Osservazione 3.4.11. La denizione di indipendenza di n variabili aleatorie è equivalente a
P
(X1,...,Xn)
(E
1
E
n
) = P
_
n
i=1
X
1
i
(E
i
)
_
=
n
i=1
P(X
1
i
(E
i
)) =
n
i=1
P
Xi
(E
i
).
per ogni scelta di E
1
, . . . , E
n
!. Tale propriet` a richiede una sola condizione, mentre quella di
indipendenza di n eventi richiedeva che P(A
i1
A
i
k
) = P(A
i1
) . . . P(A
i
k
) per ogni k n e per
ogni scelta degli indici i
1
, . . . , i
k
tutti distinti. Le due denizioni sembrerebbero diverse, tuttavia,
per larbitrariet` a della scelta degli intervalli I
i
, esse in realtà sono analoghe. Infatti se scegliamo
I
i
= R per i > k, allora P(X
i
) = 1 per i > k, e
P(X
1
I
1
, X
2
I
2
, . . . , X
k
I
k
) = P(X
1
I
1
)P(X
2
I
2
) . . . P(X
k
I
k
)
Inne notiamo che se X
i,j
iI,j=1,...,ni
è una famiglia di variabili indipendenti e f
1
, . . . , f
k
sono funzioni misurabili tali che f
i
: R
ni
C
i
(dove (C
i
,
i
) sono spazi misurabili generici, si
pensi ad esempio al caso (C
i
,
i
) = (R, !) per ogni i) allora le variabili Z
i
denite come
Z
i
:= f
i
(X
i,1
, . . . , X
i,ni
)
sono indipendenti. In altre parole, funzioni che agiscono su insiemi disgiunti di variabili indipen-
denti sono, a loro volta, indipendenti.
Se invece sapessimo solo che X
1
e X
3
sono indipendenti e che X
2
e X
3
sono indipendenti allora
in generale non è vero che f(X
1
, X
2
) e X
3
sono indipendenti. Lo mostriamo con un cotroesempio
che coinvolge tre eventi (prendendo le tre funzioni indicatrici si ha lesempio per variabili aleatorie).
Supponiamo che = 1, 2, . . . 8 e P sia equidistribuita. Siano A := 1, 2, 3, 4, B := 3, 4, 5, 6
e C := 3, 4, 7, 8. Allora P(A) = P(B) = P(C) = 1/2 e P(A B) = P(A C) = P(B C) =
P(A B C) = 1/4. Quindi sono addirittura a due a due indipendenti (ma non indipendenti),
ma, ad esempio, A B non è indipendente da C.
3.5 Funzione di ripartizione e funzione dei quantili
3.5.1 Funzione di ripartizione
Di grande importanza è lo studio della funzione di ripartizione.
Denizione 3.5.1. Data una misura di probabilit` a su (R
n
, !
n
) si dice funzione di ripar-
tizione di di F
(t
1
, . . . , t
n
) := ((, t
1
] (, t
n
]). La funzione di ripartizione di una
variabile aleatoria X è denita come la funzione di ripartizione della sua legge P
X
; cioè, nel caso
unidimensionale, F
X
(t) = P
X
((, t]) = P((, t]).
Per una funzione di ripartizione F valgono le seguenti propriet` a.
F : R
n
[0, 1]
`
A
Si dimostra che F è una funzione di ripartizione se e solo se valgono le propriet` a seguenti:
1. dati s
1
t
1
, . . . , s
n
t
n
allora F(s
1
, . . . , s
n
) F(t
1
, . . . , t
n
)
2.
lim
(s1,...,sn)(t1,...,tn)
s1t1,...,sntn
F(s
1
, . . . , s
n
) = F(t
1
, . . . , t
n
)
3.
lim
t1+
...
...
tn+
F(t
1
, . . . , t
n
) = 1
lim
t1
...
...
tn
F(t
1
, . . . , t
n
) = 0
Se e sono due leggi le cui funzioni di ripartizione soddisfano F
= F
allora = .
Una famiglia X
1
, . . . , X
n
di variabili aleatorie è composta da elementi indipendenti se e solo
se
F
(X1,...,Xn)
(t
1
, . . . , t
n
) =
n
i=1
F
Xi
(t
i
).
Nel caso monodimensionale n = 1 la funzione di ripartizione è evidentemente non decres-
cente, continua da destra, avente limite da sinistra, lim
x
F(x) = 0 e lim
x+
F(x) = 1;
inoltre linsieme dei punti di discontinuit` a
x R : lim
tx
F(t) ,= lim
tx
+
F(t) x R : lim
tx
F(t) ,= F(x)
è al pi` u numerabile. Inoltre se X è la variabile aleatoria di cui F è la funzione di ripartizione
allora per ogni x R si ha F(x) lim
tx
F(t) = P
X
(x) e lim
xx
F(x) = P(X < x).
Date le variabili X
1
, . . . , X
n
, la funzione di ripartizione F
(X1,...,Xn)
prende il nome di fun-
zione di ripartizione congiunta. Si dimostra facilmente che, supponendo di aver diviso
le n variabili in due insiemi X
y1
, . . . , X
y
h
e X
r1
, . . . , X
r
d
cosicche d + h = n, per la
funzione di ripartizione marginale F
(Xy
1
Xy
h
)
(t
y1
, . . . , t
y
h
) relativa al primo gruppo di
variabili vale:
F
(Xy
1
Xy
h
)
(t
y1
, . . . , t
y
h
) = P(X
y1
t
y1
, . . . , X
y
h
t
y
h
) lim
tr
1
+
...
...
trn
+
F
(X1,...,Xn)
(t
1
, . . . , t
n
)
Sia X una variabile aleatoria ed F
X
la sua funzione di ripartizione. Se a, b R sono tali che
F
X
(a), F
X
(b) (0, 1), allora scelti A X a, X a e B X b, X b, si
ha che A e B non possono essere indipendenti (è conseguenza del Teorema 3.4.7).
3.5.2 Funzione dei quantili
Concentriamo ora la nostra attenzione sulle funzioni di ripartizione a valori reali (anche se analoghe
denizioni e propriet` a potrebbero essere estese anche al caso multidimensionale).
Denizione 3.5.2. Per ogni funzione di ripartizione F (cioè per ogni funzione reale non decres-
cente, continua da destra e tale che lim
x+
F(x) = 1 e lim
x
F(x) = 0) si chiama funzione
quantile Q
F
o pseudoinversa di F la funzione cos` denita
Q
F
(x) := inft : F(t) x mint : F(t) x, x (0, 1).
Se F = F
X
allora si scrive Q
X
al posto di Q
FX
.
3.6. PRINCIPIO DI INCLUSIONE-ESCLUSIONE 49
Si osservi che luguaglianza tra il min e linf segue dalla continuit` a da destra della funzione di
ripartizione F.
Valgono a tal proposito le seguenti propriet` a:
la funzione Q
F
: (0, 1) R è non decrescente (e quindi con limiti da destra e sinistra,
essendo monotona), continua da sinistra.
F Q
F
(x) x, x (0, 1)
in particolare il segno di uguaglianza vale se e solo se x Rg(F), dove questultimo è
linsieme delle immagini di F (cioè Rg(F) := y R : x R : F(x) = y).
Q
F
F(t) t, t R
in particolare il segno di uguaglianza vale se e solo se per ogni s < t si ha F(s) < F(t).
Se esiste (a, b) R tale che F[
(a,b)
: (a, b) (0, 1) è una funzione biettiva (cioè iniettiva e
suriettiva) allora Q
F
è la funzione inversa di F[
(a,b)
.
Se Y = aX +b con a > 0 allora Q
Y
= aQ
X
+b infatti
F
Y
(t) P(aX +b t) P
_
X
t b
a
_
F
X
_
t b
a
_
,
da cui passando allestremo inferiore su t e notando che t (t b)/a è continua e crescente
si ha
Q
X
() =
Q
Y
() b
a
.
La conoscenza della funzione quantile permette di risolvere i problemi del tipo: data una
variabile aleatoria X reale ed un valore (0, 1) calcolare il minimo valore t tale che P(X t) ;
tale valore è t = Q
X
().
Osservazione 3.5.3. Ovviamente
Q
F
F(t) = infs : F(s) F(t) t
inoltre, per la continuit` a da destra di F,
F Q
F
(x) = F(infs : F(s) x) t.
3.6 Principio di Inclusione-Esclusione
Approfondimento Riprendiamo il principio di inclusione-esclusione che abbiamo visto nel para-
grafo 3.1. Ne esiste una versione pi` u generale che è la seguente. In questo paragrafo
consideriamo un insieme X generico; sia R
SX
linsieme delle funzioni f denite su
S
X
e chiamiamo S
X
:= A X : A nito.
Teorema 3.6.1. Deniamo I, J : R
SX
R
SX
come
(If)(A) :=
B:BA
i(A, B)f(B), A S
X
(Jf)(A) :=
B:BA
j(A, B)f(B), A S
X
`
A
dove i, j : (A, B) S
X
S
X
: A B. Se per ogni A, A
1
S
X
tale che A
1
A
B:A1BA
i(A, B)j(B, A
1
) = (A, A
1
) :=
_
0 A ,= A
1
1 A = A
1
allora I(Jf) = f
Dimostrazione. Per ogni A S
X
(I(Jf))(A) =
B:BA
i(A, B)(Jf)(B) =
B:BA
i(A, B)
A1:A1B
j(B, A
1
)f(A
1
)
=
A1:A1A
_
_

B:A1BA
i(A, B)j(B, A
1
)
_
_
f(A
1
)
=
A1:A1B
(A, A
1
)f(A
1
) = f(A)
Il seguente corollario è pi` u chiaro dal punto di vista intuitivo e di pi` u immediata
applicazione.
Corollario 3.6.2. Date f, g allora le seguenti aermazioni sono equivalenti
1. g(A) =
S:SA
f(S), per ogni A S
X
,
2. f(A) =
S:SA
(1)
|A||S|
g(S), per ogni A S
X
,
dove [ [ denota la cardinalit` a. Similmente, se X è nito allora le seguenti
aermazioni sono equivalenti
1. g(A) =
S:XSA
f(S), per ogni A S
X
,
2. f(A) =
S:XSA
(1)
|A||S|
g(S), per ogni A S
X
,
Dimostrazione. Per dimostrare lenunciato è suciente mostrare che i(A, S) =
1 e j(A, S) = (1)
|A||S|
soddisfano
B:A1BA
i(A, B)j(B, A
1
) =
B:A1BA
j(A, B)i(B, A
1
) = (A, A
1
). Infatti
B:A1BA
i(A, B)j(B, A
1
) =
B:A1BA
(1)
|B||A1|
=
|A||A1|
j=0
B:A1BA,|B|=|A1|+j
(1)
j
=
|A||A1|
j=0
[B : A
1
B A, [B[ = [A
1
[ +j[(1)
j
=
|A||A1|
j=0
_
[A[ [A
1
[
j
_
(1)
j
= (1 1)
|A||A1|
=
_
1 [A[ = [A
1
[
0 [A[ , = [A
1
[.
3.6. PRINCIPIO DI INCLUSIONE-ESCLUSIONE 51
Inoltre
B:A1BA
j(A, B)i(B, A
1
) =
B:A1BA
(1)
|A||B|
= (1)
|A||A1|
B:A1BA
(1)
|B||A1|
=
_
1 [A[ = [A
1
[
0 [A[ , = [A
1
[.
Per mostrare la seconda parte si applichi la prima alle funzioni f
1
e g
1
denite
da f
1
(A) := f(X A) e g
1
(A) := g(X A).
Vediamo ora alcune forme alternative del principio di inclusione-esclusione che
sono utili nelle applicazioni.
Proposizione 3.6.3. Siano (, T, P) uno spazio di probabilit` a e A
i
n
i=1
una
collezione nita di insiemi misurabili allora
P
_
k
_
i=1
A
i
_
=
n
j=1
(1)
j+1
1i1<<ijn
P(A
i1
A
ij
).
La stessa formula vale nel caso (, T, P) sia un generico spazio misurabile se, in
pi` u, P
_
k
i=1
A
i
_
< +.
Dimostrazione. Sia X := 1, . . . , n e si deniscano
f(A) := P
_
_
_
_

iX\A
A
i
_
_
iA
( A
i
)
_
_
_
g(A) := P
_
_

iX\A
A
i
_
_
.
Chiaramente g(A) =
S:SA
f(S), per ogni A S
X
, pertanto dal Corollario 3.6.2
si ha f(A) =
S:SA
(1)
|A||S|
g(S), per ogni A S
X
. Poiche f(X) = P(
iX
(
A
i
) e g(X) = P() si ha
P
_
k
i=1
( A
i
)
_
=
B:BX
(1)
|X\B|
P
_
_

iX\B
A
i
_
_
(dove
i
A
i
= ) da cui
P
_
k
_
i=1
(A
i
)
_
= P() P
_
k
i=1
( A
i
)
_
=
A:AX,A=
(1)
|A|+1
P
_
iA
A
i
_
.
Per il caso generale si pu` o sempre scegliere :=
iX
A
i
che ha misura totale
nita per ipotesi.
Unaltra importante applicazione del principio di inclusione-esclusione è la
seguente.
Si supponga che X = P
i
un insieme nito di propriet` a che possono essere
godute o meno dagli elementi di un generico insieme nito . Deniamo, per ogni
`
A
S P
N
(S) =[ : soddisfa tutte le P

i
S[
N
=
(S) =[ : soddisfa tutte e sole le P
i
S[
dove N
() = [[. Chiaramente f(S) := N
(S) e g(S) := N
=
(S) soddisfano
g(A) =
S:XSA
f(S), per ogni A S
X
; dal Corollario 3.6.2 si ha il seguente
risultato.
Proposizione 3.6.4. Per ogni S X si ha che
N
=
(S) =
J:SJX
(1)
|J||S|
N
(J).
3.7 Adabilità
Supponiamo di avere un sistema costituito da vari sottositsemi in serie o in parallelo. Si consideri
una caratteristica Z che ciascun sottosistema pu` o avere o non avere (ad esempio, X potrebbe essere
il sistema ha durata superiore ad un tempo T). La probabilit` a che il sistema (o il sottosistema)
abbia la caratteristica Z si chiama adabilità.
Supponiamo che vi siano n sottosistemi e che li-esimo sottosistema abbia quindi adabilit` a
a
i
. Supponiamo inoltre che gli eventi lelemento i-esimo ha la caratteristica Z
n
i=1
siano in-
dipendenti. Si considerino i due sistemi P ed S ottenuti mettendo gli n sottosistemi in parallelo
e in serie rispettivamente.
Quando gli elementi sono messi in serie si suppone che il sistema S abbia la caratteristica Z
se e solo se tutti i sottosistemi ce lhanno. Pertanto ladabilità a
S
di S si calcola come
a
S
=
n
i=1
a
i
.
Viceversa quando gli elementi sono messi in parallelo si suppone che il sistema P abbia la carat-
teristica Z se e solo se almeno un sottosistema ce lha. Pertanto ladabilità a
P
di P si calcola
passando attraverso gli eventi complementari lelemento i-esimo non ha la caratteristica Z
n
i=1
,
ottenendo
a
P
= 1
n
i=1
(1 a
i
).
Iterando opportunamente queste due formule si possono costruire le adabilit` a di sistemi comp-
lessi.
Esercizio 3.7.1. Abbiamo a disposizione n tipi di componenti di adabilit` a a
1
, . . . , a
n
; di ciascun
tipo ne vogliamo utilizzare k e sono indipendenti gli uni dagli altri. Cosa ci conviene fare, in termini
di adabilit` a del sistema nale, mettere in serie n sistemi ciascuno formato da k componenti di
ugual adabilit` a in parallelo oppure mettere in parallelo k sistemi ciascuno formato da n elementi
(uno per ciascun tipo) in serie?
Cosa si pu` o dire nel caso in cui i componenti siano generici (cioè non necessariamente indipen-
denti) e di adabilit` a qualsiasi?
Soluzione.
Mostriamo che mettere in serie n elementi ciascuno formato da k elementi dello stesso tipo in
parallelo è sempre pi` u conveniente piuttosto che che mettere in parallelo k elementi ciascuno
formato da n componenti (uno per tipo) in serie. In realtà i due sistemi hanno ugual adabilit` a
se (e solo se) n = 1 oppure k = 1 oppure a
i
= 0 per qualche i oppure a
i
= 1 per ogni i.
3.7. AFFIDABILIT
`
A 53
Le due adabilit` a si calcolano facilmente
A
1
=
n
i=1
(1 (1 a
i
)
k
)
A
2
= 1 (1
n
i=1
a
i
)
k
.
Mostriamo che se a
i
[0, 1] per ogni i = 1, . . . , n allora
n
i=1
(1 (1 a
i
)
k
) 1 (1
n
i=1
a
i
)
k
e luguaglianza si verica se e solo se k = 1 oppure n = 1 oppure a
i
= 0 per qualche i oppure
a
i
= 1 per ogni i.
Che ciascuna di queste condizioni implichi luguaglianza è ovvio, supponiamo quindi che a
i

(0, 1) per ogni i, n, k > 1. Deniamo le seguenti funzioni:
G
n
(a
1
, . . . , a
n
) :=
n
i=1
(1 (1 a
i
)
k
) (1 (1
n
i=1
a
i
)
k
)
F(a, b) := (1 (1 a)
k
)(1 (1 b)
k
) (1 (1 ab)
k
);
si vede facilmente che
G
n
(a
1
, . . . , a
n
) = (1 (1 a
n
)
k
)G
n1
(a
1
, . . . , a
n1
) +F(
n1
i=1
a
i
, a
n
).
Mostriamo quindi che F(a, b) 0 e che la disuguaglianza è stretta se a, b (0, 1) e k > 1. Infatti
F(a, b) = (1 a)
k
((1 b)
k
1) +b(1 a)
k1
j=0
(1 ab)
j
(1 b)
k1j
= b(1 a)
k1
j=0
(1 ab)
j
(1 b)
k1j
(1 a)
k
b
k1
j=0
(1 b)
j
= b(1 a)
_
_
k1
j=0
(1 b)
j
_
(1 ab)
kj1
(1 a)
k1
_
_
_
0
dal momento che
(1 ab)
k1j
(1 a)
k1j
(1 a)
k1
e la prima disuguaglianza è stretta se b ,= 1.
Terminiamo mostrando lasserto per induzione su n; per n = 1 g
1
(a
1
) = 0 pertanto la
proposizione è vericata. Se vale per n 1 allora
G
n
(a
1
, . . . , a
n
) = (1 (1 a
n
)
k
)G
n1
(a
1
, . . . , a
n1
) +F(
n1
i=1
a
i
, a
n
) > 0
poiche
n1
i=1
a
i
, a
n
(0, 1) e quindi F(
n1
i=1
a
i
, a
n
) > 0.
Nel caso generico basta osservare che, detta A
ij
la probabilit` a che il componente nella riga i
e colonna j funzioni, allora evidentemente si ha che la probabilit` a che il primo sistema funzioni
è P
_
j
A
ij
_
, mentre quella del secondo sistema è P
_
i
A
ij
_
. Facilmente
j
A
ij

i
A
ij
da cui si ha che ladabilità del primo sistema non è inferiore a quella del secondo.
`
A
Cap. 4. Variabili aleatorie discrete
Da questo capitolo in poi, se non altrimenti specicato, considereremo solo variabili aleatorie a
valori in R oppure, pi` u in generale, in R
n
.
Abbiamo gi` a introdotto le variabili aleatorie discrete, ma vediamo un altro esempio.
Esempio 4.0.2. Sia lo spazio campionario generato dal lancio di due dadi: la scelta minimale
per questo spazio è = 1, 2, . . . , 6 1, 2, . . . , 6 = (1, 1), (1, 2), . . . , (6, 6). Deniamo X la
somma dei numeri che si vericano:
(i, j) i +j
In genere quello che ci interessa di una variabile aleatoria è di calcolare la probabilit` a che essa
assuma determinati valori .
Nellesempio precedente del lancio di due dadi ci pu` o interessare di conoscere la probabilit` a
che la somma dei numeri sia pari a 5, oppure che sia inferiore a 7, ecc..
Abbiamo visto che una legge discreta è univocamente determinata a partire da un insieme S
al pi` u numerabile e dai valori che assume sugli eventi elementari.
Pi` u precisamente data una qualsiasi misura P di probabilit` a S := : P() > 0 è al pi` u
numerabile e P(S) =
S
P() 1 dove luguaglianza è vericata se e solo se la misura è
discreta.
Pertanto, per una v.a. discreta a valori in un insieme di numeri reali S := x
i
: i I dove
I N, la legge univocamente determinata dai valori p
i
che rappresentano, al variare di i I, la
probabilit` a che la variabile aleatoria assuma il valore x
i
.
La funzione reale
x
i
p
X
(x
i
) = P(X = x
i
)
viene chiamata densità (discreta) di X, o funzione di probabilità.
Precisamente, la legge è data da:
P
X
(A) := P(X A) =
xiA
p
X
(x
i
).
Alcuni testi indicano con x P(X = x), x R con il nome di funzione densità (discreta).
Nellesempio precedente del lancio di due dadi, la v.a. assume valori interi compresi tra 2 e 12.
La densità di X è data dalla seguente tabella:
X 2 3 4 5 6 7 8 9 10 11 12
p
X
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
la funzione di ripartizione della v.a. X discreta si calcola come:
F
X
(x) =
i:xix
p
X
(x
i
)
55
56 CAPITOLO 4. VARIABILI ALEATORIE DISCRETE
1 2 3 4 5 6 7 8 9 10 11 12 13
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
Densit` a discreta della v.a. somma dei punti di due dadi
Osservazione 4.0.3. Se esiste un riordinamento : N N tale che i x
(i)
sia crescente, allora
la funzione di ripartizione della una v.a. discreta è costante a tratti: nellintervallo [x
i
, x
i+1
) è
costante, mentre in x
i+1
cresce della quantità p
X
(x
i+1
).
Nel nostro esempio del lancio di due dadi la funzione di ripartizione è data dalla seguente
tabella:
X x < 2 [2, 3) [3, 4) [4, 5) [5, 6) [6, 7)
F
X
0
1
36
3
36
6
36
10
36
15
36
X [7, 8) [8, 9) [9, 10) [10, 11) [11, 12) x 12
F
X
21
36
26
36
30
36
33
36
35
36
1
Quella che segue è una serie di condizioni equivalenti per una variabile aleatoria per essere
discreta.
Teorema 4.0.4. Sia X una variabile aleatoria a valori in Y , allora le seguenti condizioni sono
equivalenti.
1. X è una v.a. discreta;
2. esiste una successione (y
i
, p
i
)
iJ
con J N tale che (y
i
, p
i
) Y (0, 1] per ogni i J,
iJ
p
i
= 1 e P(X = y
i
) = p
i
:
3. la legge P
X
è una misura di probabilit` a discreta;
4.
yY :P(X=y)>0
P(X = y) = 1.
In tal caso linsieme dei valori possibili è V = y Y : P(X = y) > 0 = y
i
: i J e per
ogni A Y si ha
P
X
(A) := P(X A) =
yA:P(X=y)>0
P(X = y)
yAV
p
X
(y).
57
1 2 3 4 5 6 7 8 9 10 11 12 13
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Funzione di ripartizione della v.a. somma dei punti di due dadi
Denizione 4.0.5. Date n variabili aleatorie X
1
, . . . , X
n
, la funzione p
X1,...,Xn
(o P
(X1,...,Xn)
)
denita da
p
X1,...,Xn
(y
1
, . . . , y
n
) = P(X
1
= y
1
, . . . , X
n
= y
n
) P
(X1,...,Xn)
(y
1
y
n
)
è detta densità congiunta di X
1
, . . . , X
n
.
Osservazione 4.0.6. Si osservi che la legge congiunta P
(X1,...,Xn)
è discreta se e solo se ciascuna delle
leggi P
Xi
n
i=1
è discreta (per mostrarlo si utilizzi il fatto che disuguaglianza
S
P() 1
diviene un uguaglianza se e solo se la legge è discreta).
Come gi` a detto nei paragra precedenti si denisce la funzione di ripartizione congiunta delle
v.a. X
1
, , X
n
F
X1,...,Xn
(t
1
, . . . , t
n
) = P(X
1
t
1
, . . . , X
n
t
n
) =
u1t1
untn
p
X1,...,Xn
(u
1
, . . . , u
n
).
Denizione 4.0.7. Supponiamo di dividere le n variabili X
1
, . . . , X
n
in due insiemi X
y1
, . . . , X
y
h
e X
r1
, . . . , X
r
d
cosicche d + h = n, allora la densità marginale p
Xy
1
, ,Xy
h
(u
y1
, . . . , u
y
h
),
relativa al primo gruppo di variabili, è:
p
Xy
1
, ,Xy
h
(u
y1
, . . . , u
y
h
) = P(X
y1
= u
y1
, , X
y
h
= u
y
h
) =
ur
1
,...,ur
d
p
X1,...,Xn
(u
1
, . . . , u
k
).
Lindipendenza di n variabili aleatorie si traduce nella seguente:
p
X1,...,Xn
(y
1
, . . . , y
n
) = p
X1
(y
1
) p
Xn
(y
n
)
dove p
Xi
indica la densità di probabilit` a della v.a. X
i
.
Esempio 4.0.8. Unurna contiene 5 palline numerate da 1 a 5. Estraiamo due palline, con reim-
missione della prima pallina. Siano X
1
e X
2
i risultati della prima e della seconda estrazione
rispettivamente. Se si suppone che ogni coppia di risultati abbia la stessa probabilit` a, allora
P(X
1
= i, X
2
= j) =
1
25
= P(X
1
= i)P(X
2
= j)
pertanto X
1
e X
2
sono eventi indipendenti.
Esempio 4.0.9. Unurna contiene 5 palline numerate da 1 a 5. Estraiamo due palline senza reim-
missione. Siano Y
1
e Y
2
i risultati della prima e della seconda estrazione rispettivamente. Se
si suppone che ognuna delle 20 coppie di risultati abbia la stessa probabilit` a, allora per i ,= j
P(Y
1
= i, Y
2
= j) =
1
20
mentre P(Y
1
= i)P(Y
2
= j) =
1
25
pertanto Y
1
e Y
2
non sono eventi
indipendenti.
4.1 Valore atteso per variabili aleatorie discrete
Nei prossimi due paragra introdurremo il calcolo di media e varianza per variabili aleatorie
discrete; per un cenno al calcolo di questi indici nel caso di una variabile aleatoria generica si veda
il capitolo 6.
Sia X una v.a. discreta che assume i valori x
1
, . . . , x
n
, e sia p
X
la sua densità di probabilit` a.
Si chiama valore atteso, o media, o speranza matematica di X, e la si denota con E(X), la
quantità
E(X) =
n
i=1
x
i
p
X
(x
i
).
Se i valori della v.a. sono uninnità numerabile, la somma diventa una serie; in tal caso si dice
che X ammette valor medio se e solo se
i=1
[x
i
[p
X
(x
i
) < (convergenza assoluta* della
serie). In questo caso il valor medio è denito da
E(X) =
i=1
x
i
p
X
(x
i
);
il valore atteso E(X) quindi è denito a condizione che la serie converga assolutamente. In tal
caso il valore medio è ben denito, nel senso che, preso un qualsiasi riordinamento : N N della
serie, di ha
i=1
x
(i)
P
X
(x
(i)
) =
i=1
x
i
P
X
(x
i
)
(convergenza incondizionata).
Esempio 4.1.1. Consideriamo la variabile aleatoria associata al lancio di due dadi. Il valore atteso
è
E(X) = 2
1
36
+ 3
2
36
+ 4
3
36
+ 5
4
36
+ 6
5
36
+ 7
6
36
+
+8
5
36
+ 9
4
36
+ 10
3
36
+ 11
2
36
+ 12
1
36
= 7
Proprietà del valore atteso (per dimostrare alcune di esse sono necessarie le denizioni generali
del Capitolo 6 le cui nozioni sono per` o facoltative).
1. Per una trasformazione ane della v.a. il valore atteso si trasforma in maniera ane, cioè:
E(aX +b) = aE(X) +b
E(X
1
+ +X
n
) = E(X
1
) + +E(X
n
)
2. Valore atteso di una funzione di v.a.: sia X una v.a. e f una funzione continua su R. Allora
il valore atteso di f(X) esiste se e solo se
k
[f(x
k
)[p
X
(x
k
) < +
e vale
E(f(X)) =
k
f(x
k
)p
X
(x
k
).
4.2. VARIANZA PER VARIABILI ALEATORIE DISCRETE 59
3. Valore atteso di una funzione di pi` u v.a.: si supponga di avere una collezione nita di
v.a. (discrete) X
1
, . . . , X
n
di cui si conosca la legge congiunta P
(X1,...,Xn)
e sia f : R
n
R
una funzione misurabile; allora la variabile f(X
1
, . . . , X
n
) ammette media se e solo se
u1,...,un
p
X1,...,Xn
(u
1
, . . . , u
n
)[f(u
1
, . . . , u
n
)[ < +
e vale
E(f(X
1
, . . . , X
n
)) =
u1,...,un
p
X1,...,Xn
(u
1
, . . . , u
n
)f(u
1
, . . . , u
n
).
4. Se X
1
, . . . , X
n
sono v.a. indipendenti allora X
1
X
2
X
n
ammette valore atteso se e solo se
ciascuna variabile X
i
ammette valore atteso; inoltre
E(X
1
X
2
X
n
) = E(X
1
)E(X
2
) E(X
n
).
Si noti che la precedente relazione non implica lindipendenza, ma ne è solo implicata!
Esercizio 4.1.2. Nella trasmissione di unimmagine il colore di ogni pixel è descritto da un vettore
a 8 bits (a
1
, . . . , a
8
), dove gli a
i
possono valere 0 oppure 1. Durante la trasmissione di ogni bit si
pu` o avere un errore con probabilit` a p
b
= 2 10
4
, indipendentemente da un bit allaltro.
1. Qual è la probabilit` a che un singolo pixel venga trasmesso correttamente?
2. Per unimmagine composta da 512 256 = 131072 pixels quale sarà il numero medio di
pixels distorti?
Soluzione.
1. Consideriamo levento A
i
= li-esimo bit non è stato distorto (i = 1, . . . , 8). La probabilit` a p
p
che un singolo pixel venga trasmesso correttamente è
p
p
= P(A
1
A
8
) = P(A
1
) . . . P(A
8
) = (1 p
b
)
8
0.9984
2. Deniamo la v.a. X
i
che vale 1 se li-esimo pixel è stato distorto, 0 altrimenti. Si ha
P(X
i
= 1) = 1 0.9984 = 1.6 10
3
. Chiamiamo H
n
=
n
i=1
X
i
. Il valor medio che cerchiamo è
E(H
n
) con n = 131072:
E(H
n
) = E
_
n
i=1
X
i
_
= nE(X
1
) 131072 1.6 10
3
= 209.7
4.2 Varianza per variabili aleatorie discrete
Deniamo ora gli indici caratteristici di dispersione (la varianza, la deviazione standard) di una
variabile aleatoria discreta.
Denizione 4.2.1. Sia X una v.a. discreta avente valore atteso nito. Si denisce varianza di
X la quantità
Var(X) = E((X E(X))
2
)
purche questo valore sia nito. In caso contrario X non ha varianza nita.
La varianza di una v.a. dunque rappresenta una misura della sua dispersione rispetto al valore
atteso E(X).
Proprietà della varianza (per dimostrare alcune di esse sono necessarie le denizioni generali
del Capitolo 6 le cui nozioni sono per` o facoltative); si supponga, a tal proposito, che la variabile
assuma valori x
i
iJ
dove J N.
1. Var(X) = E(X
2
) E(X)
2
.
2. Per calcolare la varianza possiamo ricorrere alla formula:
Var(X) =
iJ
[x
i
E(X)]
2
p
X
(x
i
)
iJ
x
2
i
p
X
(x
i
) E(X)
2
.
che si ottiene sfruttando le propriet` a del valore atteso di una funzione di variabili aleatorie.
3. Var(X) 0 e vale Var(X) = 0 se e solo se esiste x R tale che P(X = x) = 1.
4. Var(aX +b) = a
2
Var(X) per qualsiasi valore di a, b R
5. Se X
1
, X
2
, . . . , X
n
sono v.a. indipendenti , allora
Var(X
1
+X
2
+ +X
n
) = Var(X
1
) + Var(X
2
) + + Var(X
n
)
Se le v.a. non sono indipendenti questa propriet` a non vale. Ad esempio, scelta una qualsiasi
variabile aleatoria X con varianza non nulla, allora Var(X + X) = Var(2X) = 4Var(X) ,=
Var(X) + Var(X).
Denizione 4.2.2. La deviazione standard, o scarto quadratico medio, è denito come
X
=
_
Var(X)
Denizione 4.2.3. Sia X una v.a. con valore atteso
X
e varianza
2
X
nite. Si dice standard-
izzata di X la v.a.
Z =
X
X
X
Z ha valore atteso nullo e varianza pari a 1. Infatti
E
_
X
X
X
_
=
1
X
(E(X)
X
) =
1
X
(
X

X
) = 0
Var
_
X
X
X
_
=
1
X
Var(X) =

X
X
= 1.
4.3 Analisi comparative tra variabili aleatorie discrete
Denizione 4.3.1. Siano X e Y due v.a. aventi varianza nita; si denisce la covarianza di X
e Y come:
cov(X, Y ) = E((X E(X))(Y E(Y )))
La covarianza viene anche denotata con il simbolo
XY
.
Proprietà della covarianza:
1. cov(X, Y ) = cov(Y, X)
2. cov(X, Y ) = E(XY ) E(X)E(Y )
3. cov(X, X) = Var(X)
4. cov(aX +b, cY +d) = a c cov(X, Y )
5. Var(X +Y ) = Var(X) + Var(Y ) + 2cov(X, Y )
Da questa propriet` a discende che condizione necessaria (ma non suente!) anche due
v.a. X e Y siano indipendenti è che cov(X, Y ) = 0. Infatti, se sono indipendenti allora
E(XY ) = E(X)E(Y ). Perciò cov(X, Y ) = E(XY ) E(X)E(Y ) = 0.
4.3. ANALISI COMPARATIVE TRA VARIABILI ALEATORIE DISCRETE 61
Esempio 4.3.2. Si consideri la seguente legge congiunta (per p (0, 1/3))
p
X,Y
X = 1 X = 0 X = 1 Marginale di Y
Y = 0 p/4 (1 p)/2 p/4 1/2
Y = 1 3p/4 (1 3p)/2 3p/4 1/2
Marginale di X p 1 2p p
allora E(X) = 0, E(Y ) = 1/2, E(XY ) = 0 da cui cov(X, Y ) = 0 ma, ad esempio, P
X,Y
(1, 0) =
p/4 ,= p/2 = p
X
(1)p
Y
(0) pertanto X e Y non sono indipendenti.
Denizione 4.3.3. Siano X e Y due v.a. aventi entrambe varianza nita e strettamente positiva;
si denisce coeciente di correlazione di X, Y , la quantità
XY
=

XY
Y
=
cov(X, Y )
_
Var(X)Var(Y )
Il coeciente di correlazione è sempre compreso tra -1 e 1. Due variabili aleatorie si dicono
incorrelate o scorrelate se cov(X, Y ) = 0 e dunque se
XY
= 0. Se due v.a. X, Y sono indipendenti,
allora sono incorrelate (ma non vale il viceversa!).
Nel caso in cui
XY
= 1, si dimostra che le v.a. sono linearmente dipendenti: Y = aX + b.
La costante a ha lo stesso segno di
XY
.
Esercizio 4.3.4. Unurna contiene k palline nere e n k palline bianche. Se ne estraggono due
senza rimpiazzo. Deniamo le v.a. X
1
e X
2
:
X
1
= 1 se la 1
a
pallina estratta è nera,
X
1
= 0 se la 1
a
pallina estratta è bianca,
X
2
= 1 se la 2
a
pallina estratta è nera,
X
2
= 0 se la 2
a
pallina estratta è bianca.
Calcolare il coeciente di correlazione tra X
1
e X
2
.
Soluzione.
P(X
1
= 1) = P(X
2
= 1) =
k
n
; P(X
1
= 0) = P(X
2
= 0) =
n k
n
E(X
1
) = E(X
2
) =
k
n
1 +
n k
n
0 =
k
n
; E(X
2
1
) = E(X
2
2
) =
k
n
1 +
n k
n
0 =
k
n
Var(X
1
) = Var(X
2
) = E(X
2
1
) [E(X
1
)]
2
=
k(n k)
n
2
cov(X
1
, X
2
) =
_
1
k
n
__
1
k
n
_
P(X
1
= 1, X
2
= 1)+
+
_
1
k
n
__
k
n
_
P(X
1
= 1, X
2
= 0) +
_
k
n
__
1
k
n
_
P(X
1
= 0, X
2
= 1)+
+
_
k
n
__
k
n
_
P(X
1
= 0, X
2
= 0)
=
_
1
k
n
__
1
k
n
_
k
n
(k 1)
(n 1)
+ 2
_
k
n
__
1
k
n
_
k
n
(n k)
(n 1)
+
+
_
k
n
__
k
n
_
n k
n
(n k 1)
(n 1)
=
k(n k)
n
2
(n 1)
X1X2
=
cov(X
1
, X
2
)
_
Var(X
1
)Var(X
2
)
=
1
n 1
.
Analogie tra variabile aleatoria e insiemi di dati numerici:
dati numerici variabile aleatoria
n-upla di numeri (x
1
, . . . , x
n
) v.a. X
f
r
(k) = #x
i
[x
i
classe(k)/n (i = 1, . . . , n) x
i
p
X
(x
i
) = P(X = x
i
)
x =
Nc
i=1
x
i
f
r
(i) E(X) =
n
i=1
x
i
p
X
(x
i
)
2
=
Nc
i=1
f
r
(i)(x
i
x)
2
Var(X) =
n
i=1
(x
i
E(X))
2
p
X
(x
i
)
xy
=
Nc
i=1
f
r
(i)(x
i
x)(y
i
y) cov(X, Y ) =
n
i=1
(x
i
E(X))
(y
i
E(Y ))p
XY
(x
i
, y
i
)
4.4 Modelli discreti di variabili aleatorie
4.4.1 Variabili di Bernoulli e Binomiali, processo di Bernoulli
Denizione 4.4.1. Si chiama variabile di Bernoulli una variabile aleatoria discreta X a valori
in 0, 1. con probabilit` a, rispettivamente, 1 p e p (dove p è un numero reale in [0, 1]). p
viene chiamato parametro della variabile di Bernoulli. Convenzionalmente levento X = 1 con
probabilit` a p viene chiamato successo mentre quello con probabilit` a 1p viene chiamato insuccesso.
A volte si generalizza la denizione chiamando variabile di Bernoulli generalizzata (o
pi` u semplicemente ancora variabile di Bernoulli) ogni variabile aleatoria che ammette solo due
valori.
Esempio 4.4.2. Il lancio di una moneta è un esperimento di Bernoulli. Se la moneta non è truccata
il parametro p vale 1/2.
Esempio 4.4.3. Lancio due dadi e considero successo levento la somma dei punti dei due dadi è
7, e insuccesso levento complementare. ll parametro p vale 1/6.
La variabile aleatoria di Bernoulli si indica con X B(p) e prende il valore 1 in caso di successo
e 0 in caso di insuccesso:
p
X
(1) = p p
X
(0) = 1 p.
In modo compatto:
p
X
(a) = p
a
(1 p)
1a
, a = 0, 1.
Lesperimento associato ad una variabile di Bernoulli prende il nome di esperimento di
Bernoulli o prova di Bernoulli.
Denizione 4.4.4. Si dice processo di Bernoulli una successione al pi` u numerabile X
i
iI
(dove I N) di esperimenti di Bernoulli di uguale parametro p, tra loro indipendenti.
Nel caso I numerabile si parla di processo di Bernoulli illimitato.
Denizione 4.4.5. Consideriamo un processo di Bernoulli di parametro p, di n prove. Si denisce
binomiale di parametri n e p, e la si scrive X B(n, p), la v.a. che conta il numero complessivo
di successi ottenuti nelle n prove. Dunque B(n, p) è la somma di n v.a. Bernoulliane di parametro
p, indipendenti tra loro:
X =
n
i=1
X
i
, X B(n, p), X
i
B(p).
Esempio 4.4.6. Si controllano 100 pezzi prodotti e si registra il numero di pezzi difettosi.
4.4. MODELLI DISCRETI DI VARIABILI ALEATORIE 63
Teorema 4.4.7. La v.a. binomiale di parametri n e p pu` o assumere valori interi compresi tra 0
e n. La sua densit` a discreta è:
p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, 2, . . . , n,
dove
_
n
k
_
:=
n!
k!(n k)!
.
Dimostrazione. La probabilit` a P
X1...Xn
(a
1
, . . . , a
n
), per lindipendenza degli eventi, vale:
P
X1...Xn
(a
1
, . . . , a
n
) = p
X1
(a
1
) . . . p
Xn
(a
n
) =
= p
a1
(1 p)
1a1
. . . p
an
(1 p)
1an
= p
n
i=1
ai
(1 p)
n
n
i=1
ai
Levento k successi nelle n prove si esprime come
(a
1
, . . . , a
n
) : a
i
0, 1, i = 1, . . . , n,
n
i=1
a
i
= k
_
(a1,...,an){0,1}
n
:
n
i=1
ai=k
(a
1
, . . . , a
n
),
dove lunione è disgiunta e ciascun addendo ha probabilità
P
X1...Xn
(a
1
, . . . , a
n
) = p
k
(1 p)
nk
.
Tale evento pu` o quindi essere ottenuto come unione disgiunta delle
_
n
k
_
scelte diverse delle n-uple
(a
1
, . . . , a
n
), pertanto
P
X
(k) =
_
n
k
_
p
k
(1 p)
nk
.
Osservazione 4.4.8. Ricordiamo che n v.a. X
1
, . . . , X
n
sono identicamente distribuite se e solo se
hanno la stessa legge; ad esempio nel caso discreto questo è equivalente ad
p
X1
(x) = p
X2
(x) = = p
Xn
(x) x.
Questo non vuol dire che le variabili siano identiche!
Lindipendenza pu` o infatti cambiare drasticamente un modello. Ad esempio, sia H
n
= X
1
+
+X
n
con X
i
Bernoulliane indipendenti tra di loro: H
n
è una binomiale H
n
B(n, p). Invece,
se X
1
= X
2
= = X
n
, le v.a. X
i
non sono indipendenti, e H
n
= X
1
+ + X
n
= nX
1
. H
n
assume soltanto i due valori 0 e n, e la densità di probabilit` a associata è p(n) = p, p(0) = 1 p.
Esercizio 4.4.9. Una compagnia aerea sa che in media il 10% dei passeggeri che hanno prenotato
non si presenta alla partenza. In base a questa considerazione accetta 32 prenotazioni su 30 posti
liberi. Supponendo che i comportamenti dei passeggeri siano indipendenti, qual è la probabilit` a
che almeno uno rimanga a terra?
Soluzione.
Sia X la v.a. che vale 0 se il passeggero con prenotazione non si presenta, 1 se si presenta.
X B(0.9). Gli eventi sono 32, e cerchiamo la probabilit` a che la binomiale di parametri n = 32
e p = 0.9 abbia valore maggiore di 30:
p(H
32
> 30) =
_
32
31
_
0.9
31
0.1
1
+
_
32
32
_
0.9
32
0.1
0
0.122 + 0.034 = 0.156
Sia X B(P). Allora
E(X) = 0 p
X
(0) + 1 p
X
(1) = p
Var(X) = (0 p)
2
p
X
(0) + (1 p)
2
p
X
(1) = p
2
(1 p) + (1 p)
2
p = p(1 p).
Sia ora X B(n, p). Siccome X è somma di n v.a. Bernoulliane indipendenti , si avrà:
E(X) = E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
) = np
Var(X) = Var
_
n
i=1
X
i
_
=
n
i=1
Var (X
i
) = np(1 p)
dove nella seconda catena di uguaglianze abbiamo utilizzato l indipendenza delle variabili di
Bernoulli X
i
n
i=1
.
4.4.2 Variabili Geometriche
Denizione 4.4.10. Consideriamo una successione X
i
i=1
di prove Bernoulliane indipendenti di
parametro p. Si chiama geometrica la v.a. che rappresenta il numero di prove necessario anche
si presenti per la prima volta levento successo. La indicheremo X Geo(p) ed è denita come
X := mini : X
i
= 1
dove min := +.
La funzione di probabilit` a associata è:
p
X
(k) = p(1 p)
k1
, k = 1, 2, 3, . . .
Infatti questa è la probabilit` a che in k prove Bernoulliane le prime k 1 siano insuccessi e
lultimo sia un successo. Si osservi che P(X > k) = (1 p)
k
per ogni k N.
La variabile X è a priori discreta a valori in N
+. Se p = 0 evidentemente p
X
(k) = 0
per ogni k N
da cui p
X
(+) = 1. Nel caso in cui p (0, 1] allora si possono seguire due strade
equivalenti:
P(X = +) = lim
k+
P(X > k) = 0
P(X = +) = 1 P(X N
) = 1
+
i=1
p
X
(i)
= 1
+
i=1
p(1 p)
i1
= 1 p
1
1 (1 p)
= 0
dove si è utilizzato il seguente risultato (provare per induzione)
n
i=0
a
i
=
_
n + 1 se a = 1
1a
n+1
1a
se a ,= 1.
In qualsiasi dei due modi lo si aronti, si ha che P(X N
) = 1 pertanto la variabile pu` o essere

considerata discreta a valori in N
. Dora in poi considereremo X Geom(p) con p (0, 1].

Assenza di memoria della legge geometrica. Sia X Geo(p) Si considerino gli eventi A
k
:=
X > k (per ogni k = 1, 2, . . .). Supponiamo che si sappia che X > k e ci si chieda quale sia la
probabilit` a che X > k +n con n N. Quello che vogliamo calcolare è la probabilit` a condizionata
(si osservi che A
k+n
A
k
)
P(X > k +n[X > k) = P(A
k+n
[A
k
) :=
P(A
k+n
A
k
)
P(A
k
)
=
P(A
k+n
)
P(A
k
)
=
(1 p)
k+n
(1 p)
k
= (1 p)
n
= P(X > n).
Questa propriet` a, detta assenza di memoria, signica che se sappiamo che il primo successo di
un processo di Bernoulli non è ancora avvenuto dopo k prove, allora la probabilit` a che si debbano
attendere almeno altre n prove è la stessa per ogni k N. Si potrebbe mostrare che lunica legge
discreta sullinsieme N avente la propriet` a di assenza di memoria, è proprio la legge geometrica.
Se X Geo(p) allora si pu` o mostrare che
E(X) =
_
i=1
ip(1 p)
i1
=
1
p
p (0, 1]
+ p = 0.
Nel caso in cui p (0, 1] calcoliamo la varianza come
Var(X) =
i=1
i
2
p(1 p)
i1
1
p
2
=
1
p
2

1
p
.
Approfondimento Esempio 4.4.11. Consideriamo il seguente esperimento. Siano X
i
iN
una sequenza
di variabili discrete iid a valori in Y e con legge p
y
yY
tale che p
y
> 0 per ogni
y Y . Si consideri una sequenza nita w = (y
1
, . . . , y
l
) Y
l
e sia N := mink :
X
kl+j
= y
j
, j = 1, . . . , l listante in cui per la prima volta esce la stringa w
nella sequenza X
i
iN
. Pi` u avanti daremo un cenno al calcolo di E(N) che però
necessita di tecniche pi` u ranate (teoria delle Martingale).
Per ora occupiamoci del caso pi` u semplice in cui Y = 0, 1, p
0
= p
1
= 1/2 e
w
1
= (0, 0), w
2
= (0, 1). Osserviamo che P(X
1
= 0, X
2
= 0) = P(X
1
= 0, X
2
=
1) = 1/4. Inoltre se cerchiamo la probabilit` a dellevento A
1
:=esce prima (0, 0)
di (0, 1) vediamo immediatamente che se T è la variabile ((1/2) che governa la
prima uscita di 0 allora la probabilit` a di A
1
si pu` o scivere, usando lindipendenza
delle X
i
iN
, come
P(X
T+1
= 0) =
i=0
P(X
T+1
= 0[T = i)P(T = i) =
i=0
P(X
i+1
= 0[T = i)/2
i
=
1
2
i=0
1
2
i
= 1/2.
Quindi la probabilit` a che esca prima (0, 0) oppure (0, 1) è identica.
Sia ora N
i
listante di prima uscita di w
i
(per i = 1, 2). Sia, come sopra T
listante di prima uscita di 0. Anche esca (0, 1) bisogna che prima esca uno 0 (al
tempo T) e poi si attenda la prima uscita di un 1, chiamiamo questo ulteriore lasso
di tempo

T. Quindi T
2
= T +

T. Per lassenza di memoria (o, equivalentemente,
per lindipendenza) T,

T ((1/2) da cui E(T
2
) = E(T) +E(
T) = 4. Viceversa, per
luscita di (0, 0) dobbiamo attendere che esca il primo 0, se il carattere seguente è 0
abbiamo nito altrimenti se è 1 dobbiamo attendere il primo 0 successivo e cos` via.
In maniera rigorosa, sia la sequenza S
i
iN
denita induttivamente da S
i+1
:=
minn 1 : X
Si+1+n
= 0. Chiaramente S
i
iN
sono iid distribuite come ((1/2)
e S
i+1
rappresenta il tempo di attesa dopo listante S
i
+ 1 per vedere comparire
di nuovo O per la prima volta. Notiamo che se deniamo Z
n
:= X
n
i=1
(Si+1)
si ha che Z
n
nN
sono iid distribuite come B(1/2). Sia quindi, Q la variabile
((1/2) che conta la prima uscita di 0 nella sequenza Z
n
nN
. Allora E(N
1
) =
E(
Q
i=1
(S
i
+ 1)) = E(Q) + E(
Q
i=1
S
i
). Si osservi che, essendo Q, S
1
, S
2
, . . .
una famiglia di variabili indipendenti, allora, utilizzando il Teorema di convergenza
monotona (o il Teorema di Beppo Levi) per commutare il valore atteso e la serie,
E(N
1
) = E(Q) +E
_
Q
i=1
S
i
_
= 2 +E
_

k=0
1l
{Q=k}
Q
i=1
S
i
_
= 2 +
k=0
E
_
1l
{Q=k}
k
i=1
S
i
_
= 2 +
k=0
E
_
1l
{Q=k}
_
E
_
k
i=1
S
i
_
= 2 +
k=0
P(Q = k)kE(S
1
) = 2 +E(Q) E(S
1
) = 6
(lo stesso risultato si sarebbe ottenuto con lattesa condizionata E([Q = k); si veda
ad esempio lEsercizio 10.5.20). Naturalmente si ha anche, per simmetria nello
scambio tra 0 e 1, che i valori attesi per le prime uscite di (1, 1) e (1, 0) sono 6 e 4
rispetivamente.
Nel caso generale,si pu` o mostrare che, denito
I := i = 1, . . . , l : y
j
= y
li+j
, j = 1, . . . , i
(ovviamente l I), allora
E(N) =
iI
i
j=1
p
1
yj
.
Nel caso di w
1
si ha I
1
= 1, 2 mentre per w
2
si ha I
2
= 2 da cui E(N
1
) =
1/(p
0
+p
0
p
1
) = 6, mentre E(N
2
) = 1/(p
0
p
1
) = 4.
4.4.3 Variabili di Poisson, processo di Poisson
La legge di Poisson si costruisce come limite (in maniera precisa si dice limite in legge o limite
in distribuzione) di una successione di variabili binomiali B(n, /n) (n [1/] dove > 0).
Approfondimento
Vediamo in che senso una variabile di Poisson è limite di una successione di
Binomiali. Sia X
k
B(n
k
, p
k
) dove n
k
e n
k
p
k
R se k . Allora
P(X
k
= i) =
_
n
k
i
_
p
i
k
(1 p
k
)
n
k
i
Si osservi che lesistenza di p
i
:= lim
k+
P(X
k
= i) implica in generale
i=0
p
i

1. In questo caso, considerando che
lim
k+
_
1

k
n
k
_
n
k
= e
se
k
(quando k ) allora si ha
lim
n+
(1 p
k
)
n
k
i
= lim
k+
_
1
p
k
(n
k
i)
n
k
i
_
n
k
i
= e
,
lim
n+
n
k
!
(n
k
i)!
p
i
k
=
i
,
pertanto
P(X
k
= i) =
1
i!
n
k
!p
i
k
(n
k
i)!
(1 p
k
)
n
k
i

i
i!
e
.
Denizione 4.4.12. Una variabile X si dice di Poisson di parametro > 0 se
P(X = i) =
_
i
i!
e
i N
0 altrimenti.
Si scrive pertanto X P().
Per quanto faremo in seguito ci interessa generalizzare la precedente denizione al caso = 0
e = +: diremo che una variabile X a valori in N := N + ha legge P(0) (risp. P(+))
se e solo se P(X = 0) = 1 (risp. P(X = +) = 1).
Osservazione 4.4.13. Sia X il numero di utenti che chiamano un centralino telefonico in un giorno.
Si vuole conoscere la distribuzione di probabilit` a di X, sapendo che il numero n delle persone che
potrebbero chiamare il centralino è molto grande , che le azioni di questi utenti sono indipendenti,
e che in media si vericano chiamate al giorno.
Allora X è una variabile di Bernoulli X B(n, /n), e la sua densità di probabilit` a è
p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, . . . , n.
Sapendo che, se X B(n, p), allora E(X) = np = e supponendo ignoto (ma grande) il numero
n allora ha senso modellizzare con una sorta di limite per n +:
p(k) = lim
n+
_
n
k
__
n
_
k
_
1

n
_
nk
=

k
k!
e
, k = 0, 1, . . .
=

k
k!
lim
n
n(n 1) (n k + 1)
n
k
lim
n
_
1

n
_
n
lim
n
_
1

n
_
k
=

k
e
k!
.
Esempio 4.4.14. Un lo di rame di lunghezza L metri possiede delle imperfezioni. Sappiamo che
in media si vericano imperfezioni ogni L metri, e che le posizioni delle imperfezioni sul lo
sono variabili casuali indipendenti. Vogliamo sapere la funzione di probabilit` a della v.a. numero
di imperfezioni del lo di lunghezza L.
Altri esempi che danno luogo alla stessa distribuzione di probabilit` a sono:
1. il numero di automobili che passa per un determinato incrocio in un determinato intervallo
di tempo;
2. il numero di persone che si reca in un negozio in un giorno feriale;
3. il numero di guasti che si vericano in un impianto in un giorno lavorativo;
4. il numero di pixels difettosi di uno schermo a cristalli liquidi;
Approfondimento Pi` u delicata è la denizione del processo di Poisson: premettiamo alla
denizione vera e propria un esempio.
Esempio 4.4.15. Riprendiamo lesempio 1 e chiediamoci come varia la variabile
aleatoria che governa il numero delle imperfezioni in L metri al variare della lunghez-
za L? Quello che ci si aspetta è che sezioni disgiunte del lo si comportino tutte come
Poisson indipendenti tra loro e che a lunghezza uguale corrisponda parametro della
legge di Poisson uguale (uniformità del lo). Queste condizioni sono compatibili e
danno origine ad un processo (la cui esistenza è garantita da un teorema).
Denizione 4.4.16. Sia (X, , ) uno spazio con misura . Una famiglia di vari-
abili aleatorie X
si dice processo di Poisson di intensità se e solo

se
1. Se
i
n
i=1
sono disgiunti allora X
1
, . . . , X
n
sono indipendenti;
2. X
P(());
3. X
() è una misura di conteggio per ogni (i.e. esiste A = A
tale che (B) = #A B).

Esempio 4.4.17. Supponiamo che il numero di telefonate medio che arrivano ad un
centralino in un giorno sia 10. Ci chiediamo quale sia la probabilit` a che in 3.5 giorni
ne arrivino 25.
Lo spazio (X, , ) in questo caso è (R, !, ) dove è univocamente determinata
dai valori sugli intervalli (a, b] (b > a)
((a, b]) = [b a[ (Processo stazionario).
Sappiamo che esiste un processo di Poisson di cui sia lintensit` a: interpretiamo
le variabili aleatorie X
(a,b]
come il numero di telefonate che arrivano al centralino
nellintervallo di tempo (a, b]. In questo caso X
(a,b]
P(((a, b])) = P([ba[), per-
tanto il numero di telefonate che arrivano al centralino dipende solo dalla lunghezza
dellintervallo. La costante si calcola sapendo che 10 = E(X
(0,1]
) = . Pertanto
X
(0,3.5]
P(35) quindi
P(X
(0,3.5]
= 25) = e
35
35
25
25!
1.62 10
2
.
Osservazione 4.4.18. In generale, stabilita lintensit` a del processo , la legge di X
è univocamente determinata dal parametro () che ne rappresenta anche il valore

medio.
Perche si sceglie un processo di Poisson per modellizzare fenomeni come il numero
di telefonate ad un centralino in un dato intervallo di tempo o il numero di difetti
in una data area di materiale e cos` via?
La risposta è contenuta nel seguente teorema.
Teorema 4.4.19. Sia N
t
n0
una collezione di variabili aleatorie a valori in
N +. Allora, dato > 0 le seguenti condizioni
(a1) per ogni t 0 si ha N
t
P(t),
(a2) se (a
i
, b
i
]
n
i=1
sono intervalli disgiunti allora N
bi
N
ai
n
i=1
sono variabili
indipendenti,
sono equivalenti alle seguenti
(b1) N
0
= 0 q. c.
(b2) se (a
i
, b
i
]
n
i=1
sono intervalli disgiunti allora N
bi
N
ai
n
i=1
sono variabili
indipendenti
(b3) N
h+t
N
h
h0
hanno la stessa distribuzione
(b4)
P(N
t
2)
t
t0
0
(b5)
P(N
t
1) t
t
t0
0.
Proprietà.
Calcoliamo il valore atteso della legge di Poisson P():
E(X) =
k=0
kp
X
(k) =
k=0
ke
k
k!
= e
k=1
k1
(k 1)!
= e
j=0
j
j!
=
Calcoliamo la varianza:
Var(X) =
k=0
k
2
p
X
(k) E(X)
2
=
k=0
k(k 1)
e
k
k!
+
k=0
k
e
k
k!

2
=
2
e
k=2
k2
(k 2)!
+E(X)
2
=
2
e
j=0
j
j!
+
2
=
2
+
2
= .
Siano X
1
, . . . , X
n
v.a. indipendenti con legge di Poisson X
i
P(
i
) (
i
possono essere
diversi tra loro). Allora
X
1
+ +X
n
P(
1
+ +
n
).
Cap. 5. Variabili aleatorie
assolutamente continue
Per semplicit` a in questo capitolo ci limiteremo al caso reale unidimensionale, cioè al caso di variabili
aleatorie a valori in R.
Assumiamo che lo spazio campionario degli eventi sia uno spazio non discreto, e che i valori
che pu` o assumere la v.a. X formino un insieme continuo su R.
La legge della v.a., come nel caso della v.a. discreta, è lapplicazione
A P(X A) =: P
X
(A) per ogni A !;
osserviamo che la legge è univocamente determinata dai suoi valori
I P(X I) =: P
X
(I) per ogni intervallo I R.
Denizione 5.0.20. Una variabile aleatoria (o la sua legge) si dice assolutamente continua (o
pi` u semplicemente continua) se e solo se esiste una funzione (misurabile ed integrabile) f : R R
tale che
P
X
(A) =
_
A
f
X
(t)dt A !
(o equivalentemente, per ogni A intervallo reale), tale funzione prende il nome di densità (con-
tinua) della v.a. X.
Osservazione 5.0.21. Condizione necessaria e suciente anche f
X
sia una densità continua è
_
f
X
(t) 0 t R
_
R
f
X
(t)dt = 1
Attenzione: f
X
(x) non è una funzione di probabilit` a nel senso del precedente capitolo. In
particolare f
X
(x) ,= P(X = x), e non necessariamente f
X
(x) 1.
P(a X b) = P(a < X < b) per ogni a, b R.
La legge della v.a. continua è non nulla solo su intervalli non degeneri, mentre è nulla in
singoli punti o insiemi numerabili di punti. Pertanto P(X = a) = 0 per ogni a R.
Nel caso di variabili aleatorie continue il calcolo della funzione di ripartizione è piuttosto
semplice:
F
X
(t) = P(X t) =
_
t
f
X
(x)dx.
Nei punti in cui la densità f
X
(t) è continua, F
X
(t) è derivabile, e F
X
(t) = f
X
(t).
71
72 CAPITOLO 5. VARIABILI ALEATORIE ASSOLUTAMENTE CONTINUE
Approfondimento Una condizione necessaria e suciente anche X sia una v.a. continua è che
la sua funzione di ripartizione F
X
soddis la seguente propriet` a: per ogni > 0
esiste =
> 0 tale che per ogni scelta di n intervalli reali disgiunti [a

i
, b
i
]
n
i=1
(con n N
) soddisfacenti
n
i=1
[b
i
a
i
[ si abbia
n
i=1
[F
X
(b
i
) F
X
(a
i
)[
(assoluta continuità).
Si dimostra inoltre che se una variabile aleatoria è continua allora esiste una densità
che coincide con la derivata della funzione di ripartizione F
X
dove questultima è
denita.
Diamo di seguito due condizioni sucienti anche una funzione di ripartizione F
ammetta densità:
(Per chi conosce lintegrale di Lebesgue) Una funzione di ripartizione F am-
mette densità se è derivabile ovunque, tranne al pi` u un numero nito di punti
dove per` o è continua; una densità è f := F
(denita 0 per esempio dove F
non è denita).
(Per chi conosce lintegrale di Riemann) Una funzione di ripartizione F am-
mette densità se è derivabile ovunque, tranne al pi` u un numero nito di punti
dove per` o è continua, e la derivata è Riemann integrabile; una densità è
f := F
(denita 0 per esempio dove F
non è denita).
5.1 Valore atteso per variabili aleatorie continue
Diamo nel seguito denizioni e propriet` a per le v.a. continue di quantità analoghe a quelle gi` a
denite per le v.a. discrete.
Denizione 5.1.1. Una variabile aleatoria assolutamente continua X con densità f
X
si dice che
ammette media se e solo se _
R
[t[f
X
(t)dt < +;
in tal caso si chiama valore atteso, o media, o speranza matematica della v.a. X, il numero
E(X) =
_
R
tf
X
(t)dt
a condizione che lintegrale sia nito.
Proprietà
Sia X una variabile continua, a ,= 0 e b R allora Y = aX +b è una variabile continua con
densità
f
Y
(t) = f
X
_
t b
a
_
1
[a[
.
E(aX
1
+b) = aE(X
1
) +b
E(X
1
+ +X
n
) = E(X
1
) + +E(X
n
)
X
1
, . . . , X
n
indipendenti: E(X
1
X
2
. . . X
n
) = E(X
1
)E(X
2
) . . . E(X
n
).
valore atteso di una funzione di v.a.: data una funzione g : R R misurabile (ad esempio g
continua) allora g X ammette media se e solo se
_
R
[g(t)[f
X
(t)dt < +
5.2. VARIANZA E COVARIANZA PER VARIABILI ALEATORIE CONTINUE73
(ad esempio g misurabile e limitata); in tal caso il valore medio è
E(g(X)) =
_
R
g(t)f
X
(t)dt.
5.2 Varianza e covarianza per variabili aleatorie continue
Denizione 5.2.1. Si denisce varianza di una v.a. continua X il numero
Var(X) = E((X E(X))
2
) =
_
R
[t E(X)]
2
f
X
(t)dt
_
R
t
2
f
X
(t)dt E(X)
2
.
a condizione che lintegrale esista nito.
Proprietà
Var(X) = E(X
2
) [E(X)]
2
=
_
R
t
2
f
X
(t)dt
__
R
tf
X
(t)dt
_
2
Var(aX +b) = a
2
Var(X)
X
1
,. . . ,X
n
indipendenti: Var(X
1
+ +X
n
) = Var(X
1
) + + Var(X
n
)
Per ogni v.a. continua X si ha Var(X) > 0; la variabile
Y :=
X E(X)
_
Var(X)
si dice standardizzata di X.
Come per le v.a. discrete (si veda la Denizione 3.4.1) se X e Y sono due v.a. aventi varianza
nita allora la covarianza di X e Y risulta:
cov(X, Y ) = E((X E(X))(Y E(Y )))
Ricordiamo che la covarianza viene anche denotata con il simbolo
XY
e che ha le seguenti
propriet` a:
1. cov(X, Y ) = cov(Y, X)
2. cov(X, Y ) = E(XY ) E(X)E(Y )
3. cov(X, X) = Var(X)
4. cov(aX +b, cY +d) = a c cov(X, Y )
5. Var(X +Y ) = Var(X) + Var(Y ) + 2cov(X, Y )
Anche nel caso delle v.a. continue una condizione necessaria (ma non suente!) anche due
v.a. X e Y siano indipendenti è che cov(X, Y ) = 0.
5.3 Modelli continui di variabili aleatorie
5.3.1 Densità uniforme
Diciamo che la v.a. X ha densità uniforme sullintervallo [a, b] (X U(a, b)) se e solo se
f
X
(t) =
1
b a
1l
[a,b]
(t)
-3 -2 -1 0 1 2 3
t
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
N(0, 1)
Densit` a normale standard A(0, 1) e sua funzione di ripartizione

dove 1l
[a,b]
è la funzione indicatrice dellintervallo [a, b] che vale 1 allinterno dellintervallo e 0
fuori.
P(t
1
< X < t
2
) =
_
t2
t1
1
b a
1l
[a,b]
(t)dt =
[[a, b] [t
1
, t
2
][
b a
Nota: la funzione f
X
(t) in questo caso è discontinua.
Calcoliamo il valore atteso e la varianza di una variabile uniforme X U([a, b]).
E(X) =
_
b
a
t
b a
dt =
b +a
2
;
mentre
Var(X) =
_
b
a
t
2
b a
dt
_
a +b
2
_
2
=
(b a)
2
12
.
5.3.2 Densità gaussiana (o normale)
Densit` a gaussiana standard
Una v.a. X si dice normale standard (e si scrive X A(0, 1)) se la sua densità f
X
è
f
X
(t) =
1
2
e
t
2
/2
Si dimostra che questa funzione è integrabile su R con integrale pari a 1. Ovviamente si ha
P(a < X < b) =
1
2
_
b
a
e
t
2
/2
dt
e la funzione di ripartizione vale
F
X
(t) (t) =
1
2
_
t
e
x
2
/2
dx.
Calcoliamo valore atteso e varianza della normale standard.
E(X) =
1
2
_
R
te
t
2
/2
dt = 0
5.3. MODELLI CONTINUI DI VARIABILI ALEATORIE 75
-6 -4 -2 0 2 4 6
t
0
0.2
0.4
0.6
0.8
f
X
(
t
)
N(0, 1)
N(0, 4)
N(4, 0.25)
Alcuni esempi di densità gaussiana
poiche lintegranda è una funzione dispari.
E(X
2
) =
1
2
_
R
t
2
e
t
2
/2
dt =
1
2
_
R
t
_
te
t
2
/2
_
dt =
=
te
t
2
/2
+
1
2
_
R
e
t
2
/2
dt = 1
Var(X) = E(X
2
) [E(X)]
2
= 1
Densit` a gaussiana.
Una v.a. Y si dice gaussiana (o normale) (e si scrive Y A(,
2
) con R e > 0)
quando è possibile scriverla come:
Y = X + con X A(0, 1)
Si ha pertanto
P(a < Y < b) = P(a < X + < b) = P
_
a
< X <
b
_
=
=
1
2
_ b
e
t
2
/2
dt =
1
2
_
b
a
e
1
2
(
t
)
2
dt
Quindi una v.a. continua è gaussiana se e solo se la sua densità è
f
Y
(t) =
1
2
e
1
2
(
t
)
2
per qualche R e > 0.
La funzione di ripartizione vale
F
X
(t) =
1
2
_
t
1
2
(
x
)
2
dx =
_
x
_
Calcoliamo valore atteso e varianza della gaussiana Y A(,
2
). Sia X la v.a. normale
standard: X A(0, 1).
E(Y ) = E(X +) = E(X) + =
Var(Y ) = Var(X +) =
2
Var(X) =
2
Si dimostra che se X
1
, . . . , X
n
sono n v.a. indipendenti con distribuzione gaussiana X
i

A(
i
,
2
i
), e a
i
n
i=1
, b
i
n
i=1
sono due successioni reali, allora
n
i=1
(a
i
X
i
+b
i
) A
_
n
i=1
(a
i
i
+b
i
),
n
i=1
a
2
i
2
i
_
. (5.1)
Osservazione 5.3.1. In generale se due variabili aleatorie normali non sono indipendenti, non si
pu` o concludere che la loro somma sia ancora una variabile normale. Inoltre, anche assumendo che
due variabili aleatorie X, Y siano normali, non è detto che cov(X, Y ) = 0 implichi che le variabili
siano indipendenti. Mostriamo tutto ciò con un esempio.
Sia X una variabile aleatoria con distribuzione A(0, 1) e si denisca la variabile Y
(al variare
di R) come segue
Y
() :=
_
X() if [X()[
X() if [X()[ < .
Si osservi che
Y
ha distribuzione A(0, 1);

X ed Y
non sono indipendenti: infatti

P(X , Y ) = 0 ,= P(X )P(Y );
X() +Y
() =
_
2X() if [X()[
0 if [X()[ < ,
quindi X +Y
non è normale s > 0;
cov(X, Y
) =E[XY
] E[X]E[Y
] = E[X]E[Y
]
=E[X
2
I
|X|
] E[X
2
I
|X|<
] = 2E[X
2
I
|X|
] 1,
ora essendo E[X
2
I
|X|
] continua e poiche
lim
+
E[X
2
I
|X|
] = 0, lim
0
E[X
2
I
|X|
] = 1,
allora esiste un valore
0
> 0 (precisamente
0
= q
3/4
, dove q
1
è la funzione quantile
della normale standard, si vedano i Paragra 3.5 e 5.4) tale che cov(X, Y
0
) = 0.
Come costruzione concreta per X si prenda lo spazio di probabilit` a ((0, 1), B
(0,1)
, m
l
) e come
variabile aleatoria la funzione quantile
1
.
5.3.3 La legge esponenziale
Sia X = X
t
t0
un processo di Poisson di intensit` a scalare (ossia X
t
P(t)). Si dice
v.a. esponenziale di parametro , e si denota con Y Esp() la v.a. Y che misura listante del
primo successo del processo di Poisson. Y dunque è una v.a. continua.
Ad esempio se il processo di Poisson è quello che descrive il numero di guasti nel tempo in
un apparecchio meccanico, la v.a. che descrive il tempo di attesa del suo primo guasto è una
v.a. esponenziale.
Troviamo lespressione della densità esponenziale. Dalla denizione:
P(Y > t) = P(X
t
= 0) = e
t
per t > 0, P(Y > t) = 1 per t 0
5.3. MODELLI CONTINUI DI VARIABILI ALEATORIE 77
Quindi la funzione di ripartizione è
F
Y
(t) = P(Y t) = 1 P(Y > t) = 1 e
t
per t > 0, F
Y
(t) = 0 per t 0
La densità di Y è la derivata della f.d.r.:
f
Y
(t) = e
t
per t > 0, f
Y
(t) = 0 per t 0
Calcoliamo valore atteso e varianza della legge esponenziale:
E(Y ) =
_
R
tf
Y
(t)dt =
_
+
0
te
t
dt = te
t
+
0
+
_
+
0
e
t
dt =
1
E(Y
2
) =
_
R
t
2
f
Y
(t)dt = t
2
e
t
+
0
+
_
+
0
2te
t
dt =
2
2
perciò
Var(Y ) = E(Y
2
) [E(Y )]
2
=
1
2
La legge esponenziale descrive anche il tempo di attesa tra due successi consecutivi in un
processo di Poisson.
Nellesempio dei guasti di un apparecchio meccanico essa fornisce la probabilit` a del tempo di
attesa tra due guasti successivi. Il valor medio 1/ viene anche detto tempo medio tra due guasti .
Una propriet` a importante della legge esponenziale è la sua assenza di memoria: se aspetti-
amo un successo nel processo di Poisson, e dopo un tempo T non si è vericato, la probabilit` a di
dover aspettare ancora per un tempo t è uguale a quella che avevamo in partenza. Formalmente:
P(Y > T +t[Y > T) = P(Y > t)
Infatti
P(Y > T +t[Y > T) =
P(Y > T +t, Y > T)
P(Y > T)
=
P(Y > T +t)
P(Y > T)
=
e
(T+t)
e
T
= e
t
= P(Y > t).
Osservazione 5.3.2. Si pu` o dimostrare che se una variabile assolutamente continua gode della
propriet` a di assenza di memoria, allora ha legge esponenziale.
5.3.4 La legge gamma
Sia X un processo di Poisson di intensit` a . Si dice gamma la v.a. che misura listante delln-esimo
successo del processo di Poisson. Si scrive Y (n, ).
Poiche il tempo di attesa tra due successi consecutivi è una v.a. di legge Esp(), e poiche gli
eventi sono indipendenti, la legge gamma è somma di n v.a. i.i.d. di legge Esp(). La funzione
di ripartizione F
Y
(t) = 1 P(Y > t) si ottiene notando che levento Y > t signica ln-esimo
successo avviene dopo listante t e coincide con levento il numero di successi no allistante t è
n 1. Perciò
F
Y
(t) = 1 P(Y > t) = 1 P(X n 1) = 1
n1
k=0
e
t
(t)
k
k!
La densità continua è la derivata della f.d.r.:
f
Y
(t) =
d
dt
F
Y
(t) =
n1
k=0
e
t
(t)
k
k!

n1
k=1
e
t
(t)
k1
(k 1)!
= e
t
(t)
n1
(n 1)!
0 2 4 6 8
t
0
0.5
1
1.5
f
Y
(
t
)
(2,4)
(2,3)
(2,2)
(2,1)
(3,1)
(4,1)
Densit` a delle leggi (n, )
Denizione 5.3.3. Una variabile assolutamente continua X si dice gamma di parametri 0
e > 0 (si scrive X (, )) se e solo se la sua densità è
X
(t) := 1l
(0,+)
(t)
e
t
t
1
()
dove () :=
_
+
0
e
t
t
1
dt.
Nel caso particolare n = 1 la legge gamma coincide con la legge esponenziale: (1, ) =
Esp(), e f
Y
(t) = e
t
Il valore atteso e la varianza della legge gamma sono semplici da ottenere poiche Y (n, )
è somma di n v.a. i.i.d. X Esp():
E(Y ) = nE(X) =
n
, Var(Y ) = nVar(X) =
n
2
.
Pi` u in generale si pu` o mostrare che se Y (, ) si ha E(Y ) = / e Var(Y ) = /
2
per
ogni 0, > 0.
Se X
1
, . . . , X
n
sono variabili aleatorie indipendenti tali che X
i
(
i
, ) allora
n
i=1
X
i

_
n
i=1
i
,
_
.
5.4 Quantili per una variabile aleatoria assolutamente con-
tinua
In molti problemi statistici occorre ragionare in direzione inversa, ossia assegnato (0, 1),
determinare x tale che P(X x) = .
`
E evidente che esiste almeno una soluzione a questa
equazione in x se e solo se Rg(F
X
) (i.e. #F
1
X
() 1), mentre esiste al pi` u una soluzione se
e solo se #F
1
X
() 1.
Per una variabile aleatoria assolutamente continua, essendo la funzione di ripartizione F una
funzione continua, allora per ogni (0, 1) esiste una soluzione allequazione F
X
(x) = . Pertanto
F
X
(Q
FX
()) = . Tale soluzione è unica se e solo se F
X
è strettamente crescente; questo avviene,
5.4. QUANTILI PER UNA VARIABILE ALEATORIA ASSOLUTAMENTE
CONTINUA 79
per esempio, nel caso in cui la densità
X
soddisfa
X
(t) > 0 per ogni t R tranne un insieme
al pi` u numerabile di punti. Inne notiamo che P(X x) = P(X < x) poiche, per ogni variabile
assolutamente continua, vale P(X = x) = 0.
Nota: nel resto di questo paragrafo supporremo sempre che la funzione di ripartizione F
X
sia
strettamente crescente.
Sotto queste ipotesi quindi la funzione dei quantili (si veda il Paragrafo 3.5) è linversa della
funzione di ripartizione:
P(X q
) F(q
) = , q
= F
1
() Q
FX
().
Denizione 5.4.1. Si denisce quantile di ordine (o quantile -esimo) per una variabile
aleatoria continua con funzione di ripartizione strettamente crescente X, il valore della funzione
dei quantili in corrispondenza al valore , i.e. Q
FX
() (spesso indicato semplicemente come q
).
Ovviamente vale la propriet` a:
P(X > q
1
) P(X q
1
) = .
Denizione 5.4.2. Una legge P
X
su R, si dice simmetrica se e solo se per ogni A !
P
X
(A) = P
X
(A)
dove A := t : t A.
Teorema 5.4.3. Una variabile assolutamente continua X ha legge simmetrica se e solo se esiste
una versione della densit` a f tale che f(x) = f(x). Se X soddisfa la precedente condizione allora
F
X
(t) +F
X
(t) = 1 per ogni t R e q
+q
1
= 0. Inoltre
P([X[ q
(1+)/2
) =
Dimostrazione. Dimostriamo solo la seconda parte. Dalla simmetria si ha
F
X
(t) = P(X t) = P(X t) = P(X > t) = 1 P(X t) = 1 F
X
(t).
Poichè F
X
(q
) = e q
FX(t)
= t si ha
q
1
= q
1FX(q)
= q
FX(q)
= q
.
Inne dalla simmetria e dallassoluta continuit` a, si ha P(X x) = P(X x) = 1 P(X x)
da cui
P([X[ < x) = 1 P(X x) P(X > x) = 2P(X x) 1
pertanto
P([X[ x) = P(X x) =
1 +
2
x = q
(1+)/2
.
Un caso particolare estremamente utile riguarda i quantili della normale standard. Con-
sideriamo la v.a. normale standard X A(0, 1) di densità f
X
(t) = (t) =
1
2
e
t
2
/2
e f.d.r.
F
X
(t) = (t) =
1
2
_
t
e
u
2
/2
du
Il quantile q
è lunico numero che soddisfa

(q
) = P(X < q
) =
0 0.2 0.4 0.6 0.8 1
-10
-5
0
5
10
q
Quantili della normale standard

Per la simmetria della legge gaussiana rispetto a x = 0 si ha:
(x) = 1 (x), x R, q
1
= q
, (0, 1).
(q
) = 1 (q
) = 1
Sempre per la propriet` a di simmetria si ha anche:
P([X[ < q1+
2
) = P([X[ > q
1
2
) = .
Inne è possibile calcolare i quantili di una normale A(,
2
) da quelli di una normale standard
qualora questi ultimi fossero noti. Infatti se Y = X+ dove X A(,
2
) allora Q
Y
( soddisfa
= P(Y Q
Y
()) = P
_
X
Q
Y
()
_
da cui, per denizione, Q
Y
() = () + (come abbiamo gi` a mostrato nel Paragrafo 3.5).
Alcuni quantili della normale standard sono riassunti nella seguente tabella:
0.90 0.95 0.975 0.99 0.995 0.999 0.9995
q
1.2816 1.6449 1.96 2.3263 2.7578 3.0902 3.2905

5.5 Utilizzo delle tavole e approssimazione della normale
standard
Si possono utilizzare le tavole per calcolare i valori assunti dalla funzione di ripartizione e della
sua inversa (cioè per calcolare i quantili).
Nelle tavole standard si possono trovare valori della funzione di ripartizione (t) in cor-
rispondenza a tutti i valori t [0, 3.3] con scarto di 0.01. Nella tabella al posto (i, j) (riga i e
colonna j) si trova il valore di ((i 1) 0.1 + (j 1) 0.01).
Supponiamo, ad esempio, di voler calcolare il valore (2.33); si guarda nella tabella il valore sulla
24-esima riga (contrassegnata da 2.3) e 4-a colonna (contrassegnata da 0.03) cioè 0.9901. Nel caso
di valori t negativi si pu` o utilizzare la formula (t) = 1 (t). Se invece il valore t non fosse in
tabella possiamo distinguere due casi:
(i) se t > 3.3 allora essendo la funzione di ripartizione crescente si ha che (t) > (3.3) 0.997,
in genere si accetta lapprossimazione ad 1;
5.5. UTILIZZO DELLE TAVOLE E APPROSSIMAZIONE DELLA NORMALE
STANDARD 81
(ii) se t
1
< t < t
2
, dove t
1
, t
2
sono valori tabulati, si pu` o applicare la cosiddetta approssimazione
lineare:
(t)
t t
1
t
2
t
1
((t
2
) (t
1
)) + (t
1
).
Ad esempio se si volesse calcolare il valore (2.334), procediamo scegliendo t
1
:= 2.33,
t
2
:= 2.34 da cui
(2.334)
2.334 2.33
2.34 2.33
(0.9904 0.9901) + 0.9901 0.9902
contro il valore approssimato calcolato da Matlab normcdf(2.334) 0.9902.
Per il calcolo del quantile si procede in maniera inversa, essendo questultimo il valore
1
.
Supponiamo di voler calcolare il quantile q
0.7324
, si cerca nella tabella (zona centrale) il valore che in
questo caso è al posto (7, 3) corrispondente alla riga identicata da 0.6 e la colonna identicata da
0.02, pertanto q
0.7324
0.62. Se il valore di fosse in (0, 1/2) si utilizza luguaglianza q
= q
1
.
Se il valore non è compreso in tabella, allora si cercano due valori
1
,
2
in tabella tali che
1
< <
2
; supponendo che (t
1
) =
1
e (t
2
) =
2
si pu` o utilizzare lapprossimazione lineare
q
1
(t
2
t
1
) +t
1
.
Ad esempio si voglia calcolare q
0.23
; utilizzando la formula q
= q
1
cerchiamo il valore
q
0.77
. Dalla tabella vediamo che
(0.73) = 0.7673 < 0.77 < 0.7704 = (0.74)
da cui
q
0.77

0.77 0.7673
0.7704 0.7673
(0.74 0.73) + 0.73 0.7387
pertanto q
0.23
0.7387 contro il valore approssimato calcolato con Matlab norminv(0.23)
0.7388.
Cap. 6. Alcuni cenni al calcolo
degli indici per variabili aleatorie
generiche
6.1 Integrazione rispetto ad una misura positiva
Approfondimento Si supponga di avere uno spazio (, T, P) dove P è una misura positiva qualsiasi
(si pensi pure ad una misura di probabilit` a). Una funzione f : R := R
+, si dice semplice se e solo se #Rg(f) < + i.e. se e solo se esistono
a
1
, . . . , a
n
R e M
1
, . . . , M
n
T tali che
f() =
n
i=1
a
i
1l
Mi
(), .
Si estendono a R le operazioni nella maniera seguente:
a + + := +, a + := ,
a + := , a := +,
a :=
_
_
a > 0
a < 0
0 a = 0.
Si denisce lintegrale di una funzione semplice a valori in [0, +]
_
fdP :=
n
i=1
a
i
(M
i
),
lo si estende alle funzioni misurabili non negative f a valori in [0, +] come
_
fdP := sup
__
gd : g funzione semplice, f g
_
.
Una funzione misurabile f si dice integrabile se e solo se
_
[f[dP < +; questo

equivale a dire che le due funzioni misurabili non negative f
+
() := max(0, f())
e f
() := min(0, f()) sono entrambe integrabili e per denizione

_
fdP :=
_
f
+
dP
_
dP.
83
84
CAPITOLO 6. ALCUNI CENNI AL CALCOLO DEGLI INDICI PER
VARIABILI ALEATORIE GENERICHE
A volte si preferisce dare una denizione pi` u debole richiedendo che almeno una
delle due funzioni f
+
ed f
sia integrabile, la denizione è poi la stessa con le

convenzioni adottate sopra (debole integrabilità). Inne si denisce, per ogni
M T, e per ogni funzione integrabile f
_
M
fdP :=
_
1l
F
fdP.
Denizione 6.1.1. Una propriet` a T, dipendente da , si dice che vale quasi
ovunque (o in gergo probabilistico quasi certamente) se e solo se esiste un
insieme M T tale che P(M
) = 0 e per ogni M la propriet` a T vale.

Se f e g sono due funzioni integrabili e a, b R allora af +bg è integrabile e
vale _
(af +bg)dP = a
_
fdP +b
_
gdP.
Se f e g sono due funzioni integrabili e f g quasi certamente allora
_
fdP
_
gdP
e vale luguaglianza se e solo se f = g quasi certamente.
Se f è integrabile allora f è quasi certamente nita.
Sia f : R integrabile e g : R R misurabile; allora g f (è sicuramente
misurabile) è integrabile rispetto alla misura P se e solo se g è integrabile
rispetto alla legge P
f
e vale
_
g fdP =
_
R
gdP
f
.
In particolare se deniamo
_
A
fdP :=
_
1l
A
fdP (dove A è un qualsiasi
sottoinsieme misurabile di ) si ha
_
g
1
(A)
g fdP =
_
A
gdP
f
dove A è un sottoinsieme misurabile di R.
Se P
f
(A) =
_
A
f
dx si ha che
_
g
1
(A)
g fdP =
_
A
gdP
f
=
_
A
g
f
dx.
6.2. MEDIA E VARIANZA 85
6.2 Media e varianza
Approfondimento Da qui in poi supporremo che P sia una misura di probabilit` a e che una
variabile sia a valori in R (e non in R).
Denizione 6.2.1. Si denisce valore medio di una variabile integrabile X il
valore
E(X) :=
_
XdP.
Valgono le seguenti propriet` a
Sia X è una variabile, è integrabile se e solo se
_
R
[x[dP
X
< +
e vale
E(X) =
_
R
xdP
X
.
Se F(t) := P(X t) allora X è integrabile se e solo se
_
(0,+)
(1 F(t))dt +
_
(,0)
F(f)dt < +
e vale
E(X) =
_
(0,+)
(1 F(t))dt
_
(,0)
F(f)dt.
Pi` u in particolare
_
X
+
dP =
_
(0,+)
(1 F(t))dt
_
dP =
_
(,0)
F(f)dt.
Denizione 6.2.2. Si denisce varianza di una variabile X il valore
Var(X) := E((X E(X))
2
)
qualora E(X
2
) < + (la variabile risulta automaticamente integrabile).
Valgono le seguenti propriet` a.
Var(X) 0 e vale Var(X) = 0 se e solo se X è quasi certamente costante.
86
Per il calcolo della varianza vale:
Var(X) = E(X
2
) E(X)
2
=
_
(X E(X))
2
dP =
_
R
(x E(X))
2
dP
X
=
_
X
2
dP E(X)
2
=
_
R
x
2
dP
X
E(X)
2
.
Il valore atteso minimizza la funzione v(y) := E((X y)
2
). Infatti v(y) =
E(X
2
) E(X)
2
+ (E(X) y)
2
che ha un minimo in y = E(X).
`
E possibile dimostrare che le denizioni appena date si riducono a quelle viste nei
precedenti capitoli nel caso di variabili discrete ed assolutamente continue.
Approfondimento Analogamente a quanto visto in uno degli approfondimenti del Capitolo 2, si
ha che tra le relazioni seguenti, valide per variabili aleatorie X
1
, . . . , X
n
tali che
E([X
i
[
2
) < + per ogni i,
1. esistono a
i
n
i=1
scalari non tutti nulli tali che
n
i=1
a
i
X
i
= 0, q.c. lineare dipendenza;
2. esistono a
i
n
i=0
scalari non tutti nulli tali che
n
i=1
a
i
X
i
+a
0
= 0, q.c. dipendenza ane;
3. det(E(X
i
X
j
)
i,j
) = 0;
4. det(cov(X
i
, X
j
)
i,j
) = 0;
5. le variabili non sono a due a due scorrelate;
6. le variabili non sono indipendenti (in senso probabilistico);
sussistono le seguenti implicazioni
(1) (3)
(2) (4)
(5)
(6)
Quindi lindipendenza probabilistica implica quella lineare (e quella ane), ma
non vale il viceversa. Come controesempio basta considerare una coppia X e Y
di variabili gaussiane a media nulla, scorrelate ma non indipendenti. Con queste
prescrizioni
det
_
Var(X) 0
0 Var(Y )
_
,= 0
che implica sia lindipendenza ane che quella lineare.
6.3. SUPPORTO DI UNA MISURA E VALORI ASSUNTI DA UNA FUNZIONE
MISURABILE 87
6.3 Supporto di una misura e valori assunti da una funzione
misurabile
Approfondimento Supponiamo ora che lo spazio di misura (, T, P) sia dotato della -algebra
di borel T = () rispetto ad una topologia . Lobbiettivo è quello di trovare
un insieme M T ragionevolmente piccolo tale che P(M
) = 0 e quindi P(A) =
P(A M) per ogni A T.
Deniamo range essenziale di una funzione misurabile f : X Y dove
(Y, (
Y
)) è uno spazio misurabile con -algebra di borel, linsieme essrg(f) :=
y Y : P(f
1
(V )) > 0, V
Y
t.c. x V (per questa denizione non è
importante che T sia una -algebra di borel).
Per risolvere il nostro problema, si potrebbe utilizzare la cosiddetta misura
esterna ed individuare un insieme M in generale non misurabile, oppure attenersi
alla seguente strategia. Ricordiamo che si dice topologia II-numerabile se e solo
se ammette una base numerabile di aperti. Esempi di spazi topologici II-numerabile
sono gli spazi R
n
con lusuale topologia euclidea.
Teorema 6.3.1. Sia (, T, P) uno spazio di misura dotato di una -algebra di borel
generata da una topologia . Siano
M := x X : P(V ) > 0, V t.c. x V , M
1
:=
_
V :P(V )=0
V.
M è chiuso, M
1
= M
è aperto, quindi sono entrambi misurabili. Inoltre, se è

II-numerabile allora P(M
1
) = 0.
In particolare se P = P
Z
con Z funzione misurabile a valori in X, allora M =
essrg(Z). Se P
Z
è discreta allora M := x X : P
Z
(x) > 0. Se X = R
n
e P
Z
è assolutamente continua rispetto alla misura di Lebesgue allora M = ess supp();
in particolare se supp() := x : (X) > 0 è un intervallo ristretta al quale è
continua, allora M = supp().
In generale M, generato da P
Z
, si interpreta come linsieme dei valori possibili
per la funzione misurabile Z.
88
Cap. 7. Teorema Centrale del
Limite e Legge dei grandi numeri
7.1 Teorema Centrale del Limite ed approssimazioni gaus-
siane
7.1.1 Teorema Centrale del Limite
Teorema 7.1.1. Sia X
i
i1
una successione di v.a. (a valori in R) indipendenti identicamente
distribuite con valore atteso E(X
i
) = e varianza nita Var(X
i
) =
2
> 0. Deniamo quindi la
v.a. media campionaria X
n
nel modo seguente
X
n
=
1
n
n
i=1
X
i
;
evidentemente la variabile aleatoria X
n
restituisce, per ogni ssato, la media campionaria
dei valori numerici X
1
(), . . . , X
n
(). Allora denita la media campionaria standardizzata
H
N
come
H
n
=
X
n
E(X
n
)
_
Var(X
n
)
=
X
n
n
vale, per ogni t ssato e per n :
H
n
n+
Y A(0, 1), in legge i.e. P(H
n
t)
n+
(t) =
1
2
_
t
e
x
2
/2
dx (7.1)
dove il secondo limite è uniforme rispetto a t.
Di conseguenza possiamo ritenere accettabili le seguenti approssimazioni:
X
n
Y A
_
,

2
n
_
, P(X
n
t)
_
n(t )
_
H
n
= X
1
+ +X
n
Z A(n, n
2
), P(H
n
t)
_
t n
n
_
.
(7.2)
Nota. Le precedenti approssimazioni sono in realtà delle uguaglianze nel caso in cui la legge delle
variabili X
i
i1
sia una normale A(,
2
) (per lequazione (5.1)).
Linterpretazione statistica di questo teorema è la seguente: sia X
1
, . . . , X
n
un campione casuale
di ampiezza n estratto da una popolazione di distribuzione qualsiasi, avente valore atteso e
varianza
2
. Allora, al crescere di n, la media campionaria standardizzata H
n
tende a distribuirsi
con legge normale standard.
89
90
CAPITOLO 7. TEOREMA CENTRALE DEL LIMITE E LEGGE DEI GRANDI
NUMERI
0 2 4 6 8 10 12
t
0
0.2
0.4
0.6
0.8
1
f.d.r di N(5.1, 3.57)
f.d.r di N(5.1, 3.57) con corr. di cont.
f.d.r di B(17,0.3)
Graco della f.d.r. della legge B(17, 0.3), della sua approssimazione normale e della sua
approssimazione normale con correzione di continuit` a.
Quanto debba essere grande n anche lapprossimazione della media campionaria con la legge
normale standard sia accettabile dipende dalla legge di partenza. Una regola empirica è di
richiedere che n 30. Questo valore va aumentato se la legge di partenza è fortemente asim-
metrica, e pu` o essere diminuito se essa è fortemente simmetrica: ad es. per la legge uniforme
lapprossimazione è gi` a buona per n = 10.
Correzione di continuità. Se la variabile aleatoria che vogliamo approssimare con la legge
normale è discreta, conviene correggere la legge normale in modo da tenere conto del fatto che la
funzione di probabilit` a è costante a tratti.
Precisamente, supponiamo che di avere una v.a. X che assume valori interi, come nel caso della
binomiale e che per essa valga unapprossimazione del tipo X Y A(n, n
2
) (ad esempio la
variabile H
n
dove X
i
sono variabili che assumono valori interi). Allora essendo P(X t) costante
per t [k, k + 1) con k intero, (ricordiamo infatti che P(X k) = P(X < k + 1)) si pone il
problema di quale valore utilizzare nellapprossimazione. Infatti si ha,
P(X k) = P(X < k + 1)

n(k)
_
,=
_
n(k+1)
_
.
Convieniamo allora di usare lapprossimazione
P(X k) = P(X < k + 0.5)
_
n(k + 0.5 )
_
;
questa procedura prende il nome di correzione di continuità.
Approfondimento Denizione 7.1.2. Date f, f
1
, f
2
, . . . : X Y dove (Y, d) è uno spazio metrico (si
pu` o pensare a (R
n
, | |
n
)), si dice che la convergenza f
n
f è uniforme rispetto a
x se e solo se per ogni > 0 esiste n = n
tale che per ogni m n e per ogni x X

si ha che d(f(x), f
n
(x)).
Si pu` o dimostrare che f
n
f uniformemente rispetto ad x se e solo se per ogni
successione x
n
si ha
lim
n+
d(f
n
(x
n
), f(x
n
)) = 0.
7.1. TEOREMA CENTRALE DEL LIMITE ED APPROSSIMAZIONI
GAUSSIANE 91
In particolare se F
Xn
(t) F
X
(t) per ogni t ed F
X
è continua allora la convergenza
è uniforme rispetto a t. Questo è il caso descritto dal Teorema Centrale del Limite.
7.1.2 Approssimazioni gaussiane
Il Teorema Centrale del Limite viene spesso utilizzato per approssimare con una legge normale
una legge pi` u dicile da trattare o addirittura incognita; non arontiamo qui il problema del-
laccuratezza dellapprossimazione. Tali approssimazioni prendono il nome di approssimazioni
gaussiane o normali e si basano sulle equazioni (7.2).
Osservazione 7.1.3. Supponiamo che X
1
, . . . , X
n
sia una successione di variabili i.i.d. provenienti
tutte da una legge che ammette media e varianza , allora, detto X
n
:= H
n
/n dove H
n
:=
n
i=1
X
i
, si ha
X
n
n

H
n
n
n
Y A(0, 1)
H
n
Y A(n, n
2
)
X
n
Y A(,
2
/n)
dove, come detto in precedenza, le approssimazioni sono in realtà uguaglianze nel caso in cui la
legge di partenza sia una legge normale A(,
2
) in virt` u dellequazione (5.1).
Le approssimazioni pi` u utilizzate sono le seguenti.
Approssimazione normale di una Binomiale. Siano X
i
B(p) n v.a. Bernoulliane i.i.d., e
sia H
n
= X
1
+ + X
n
B(n, p). La media di una variabile di Bernoulli è = p e la sua
varianza
2
= p(1 p).
Dal Teorema Centrale del Limite possiamo aermare che, per n grande,
H
n
Y A(n, n
2
) = A(np, np(1 p)),
X
n
Z A(,
2
/n) = A(p, p(1 p)/n),
P(H
n
t)
_
t np
_
np(1 p)
_
senza correzione di continuit` a
.P(H
n
k)
_
k + 0.5 np
_
np(1 p)
_
con correzione di continuit` a, k N
Una buona norma è quella di applicare lapprossimazione normale della binomiale quando
sono vericate le condizioni np > 5, n(1p) > 5. Ricordiamo che se n è grande e p è piccolo,
la binomiale pu` o essere approssimata dalla legge di Poisson P(np) (si veda il Paragrafo 4.4.3).
Approssimazione normale di una Poisson. Poichè se X
1
, . . . , X
n
i.i.d. distribuite come P(1)
implica H
n
=
n
i=1
X
i
P(n) si mostra in generale che una buona approssimazione per
una variabile di Poisson X P() con 5 ( non necessariamente intero) è rappresentata
da Y A(, ). Quidni
P(X t)
_
t
_
senza correzione di continuit` a
.P(X k)
_
k + 0.5
_
con correzione di continuit` a, k N.
Approssimazione normale di una variabile di legge . Sappiamo che se X
1
, . . . , X
n
sono
i.i.d. di legge (1, ) allora H
n
:
n
i=1
X
i
(n, ) si mostra in generale che una buona
approssimazione per una variabile X (, ) è Y A(/, /
2
), da cui
P(X t)
_
t /
/
_
.
92
NUMERI
Esercizio 7.1.4. Si lanci una moneta non truccata per 400 volte e si calcoli la probabilit` a che il
numero di teste che escono sia compreso tra 180 e 210 (compresi gli estremi).
Soluzione.
Poichè i lanci sono indipendenti, la variabile N che conta il numero di teste uscite ha legge
B(400, 1/2) da cui, utilizzando lapprossimazione normale suggerita dal Teorema Centrale del
Limite, si ha N Y A(200, 100). Pertanto
P(180 N 210) = P(N 210) P(N < 180) = P(N 210.5) P(N 179.5)

_
210.5 200
10
_
_
179.5 200
10
_
= (1.05) (2.05)
= (1.05) + (2.05) 1 0.8531 + 0.9798 1 = 0.8329.
7.2 Legge dei Grandi Numeri
Date n v.a. X
i
(i = 1, . . . , n), richiamiamo la denizione di v.a. media campionaria X
n
:
X
n
=
1
n
n
i=1
X
i
introdotta nei precedenti paragra.
Il valore atteso della v.a. media campionaria è
E(X
n
) = E
_
1
n
n
i=1
X
i
_
=
1
n
n
i=1
E(X
i
)
Siano ora X
1
, X
2
, . . . v.a. indipendenti identicamente distribuite con media nita e varianza
nita
2
. Il valore atteso della v.a. media campionaria è
E(X
n
) =
1
n
n
i=1
E(X
i
) =
Mentre la varianza vale:
Var(X
n
) = Var
_
1
n
n
i=1
X
i
_
=
1
n
2
n
i=1
Var(X
i
) =

2
n
Ossia la varianza diminuisce al crescere del campione di v.a..
In denitiva, la media campionaria, a priori, non è detto che coincida con il valore atteso
della legge del campione (cioè la legge comune a tutte le variabili X
i
i1
), tuttavia il valore atteso
della media campionaria è il valore atteso della legge del campione. In pi` u la varianza tende a 0
in maniera monotona se n tende allinnito, questo induce a pensare che la probabilit` a che X
n
sia
vicino a aumenti allaumentare di n.
7.2.1 Disuguaglianza di Chebychev
Proposizione 7.2.1. Sia X una v.a. con valore atteso e varianza
2
. Sia un numero reale
positivo pressato. Vale la seguente disuguaglianza:
P([X [ )

2
2
Dimostrazione. Diamo la dimostrazione per una v.a. discreta X con legge determinata, al soli-
to, dai pesi p
i
i
, ma notiamo che la disuguaglianza vale per tutte le variabili aleatorie (e la
dimostrazione è sostanzialmente identica nel caso delle variabili continue).
7.2. LEGGE DEI GRANDI NUMERI 93
Sia A lintervallo dei valori di X compresi tra e +, e sia A
, al solito, il complementare
di A rispetto ad R:
A = x : [x [ < , A
= x : [x [
Scriviamo la varianza come:
2
=
i
(x
i
)
2
p
X
(x
i
) =
i:xiA
(x
i
)
2
p
X
(x
i
) +
j:xjA
(x
j
)
2
p
X
(x
j
)
Considerato che
i:xiA
(x
i
)
2
p
X
(x
i
) è una quantità certamente non negativa, e che per ogni
x A
vale (x )
2

2
, alla ne si ha:
j:xjA
(x
j
)
2
p
X
(x
j
)
2
j:xjA
p
X
(x
j
).
Ovviamente
j:xjA
p
X
(x
j
) = P([X [ ), pertanto, dalla precedente disuguaglianza,
discende direttamente la disuguaglianza di Chebychev.
La disuguaglianza di Chebychev pu` o essere scritta equivalentemente nelle seguenti utili forme
alternative:
P([X [ )
1
2
P([X [ < ) 1
1
2
7.2.2 Legge debole dei grandi numeri
Teorema 7.2.2. Siano X
1
, X
2
, . . . v.a. indipendenti identicamente distribuite con media nita .
Allora per ogni > 0 vale
P([X
n
[ > ) 0 per n
Questo fatto si esprime dicendo che la successione di v.a. X
n
tende in probabilit` a a per
n .
Dimostrazione. Dimostriamo la legge nellipotesi che esista nita la varianza Var(X
i
) =
2
(la
legge per` o è vera anche se non esiste la varianza).
Applichiamo la disuguaglianza di Chebychev alla v.a. X
n
:
P
_
[X
n
[

n
_
2
per ogni > 0
Scegliamo =
n/:
P
_
[X
n
[
_
2
n
per ogni > 0
Per n si ottiene la tesi.
Osservazione 7.2.3. Nel caso esista nita la varianza , la legge debole dei grandi numeri pu` o anche
essere provata a partire dal Teorema Centrale del Limite. Se = 0 è banale. Se ,= 0, essendo la
convergenza nellequazione (7.1) uniforme, si ha, equivalentemente che, per ogni successione t
n
,
lim
n+
[P(H
n
(t
n
) (t
n
)[ = 0.
Pertanto,
lim
n
P([X
n
[ > ) = lim
n
P([X
n
[
n/ >
n/) = lim
n
_
2(
n/) 1
_
= 1.
94
NUMERI
7.2.3 Legge forte dei grandi numeri
Teorema 7.2.4. Siano X
1
, X
2
, . . . v.a. indipendenti identicamente distribuite con media nita .
Allora
P
_
: lim
n
X
n
=
_
= 1.
La dimostrazione è pi` u complessa che nel caso della legge debole e pertanto la omettiamo. Si
dimostra inoltre che la legge forte dei grandi numeri implica la legge debole.
Il signicato del precedente teorema è che con probabilit` a 1 la media campionaria di n es-
trazioni indipendenti di valori dalla stessa legge tende, per n che tende allinnito al valore atteso
della legge. Questo oltre a giusticare in qualche modo lapproccio frequentista, suggerisce,
unitamente alle propriet` a del valore atteso e della varianza della v.a. X
n
viste in precedenza, di
stimare il valore con il valore a posteriori X
n
() =: x
n
; tutto questo sarà oggetto dello studio
del prossimo capitolo.
Applichiamo il precedente teorema al seguente caso: sia X
i
i
una successione i.i.d. di variabili
aleatorie e Q la loro comune funzione dei quantili. Sia (0, 1) e sia N
n
:= #i = 1, 2, , n :
X
i
Q(). La legge dei grandi numeri ci dice che, con probabilit` a 1, si ha lim
n
N
n
/n = ,
quindi Q
diviene un buon modello a priori del quantile di ordine (calcolato a posteriori sul
campione).
Cap. 8. Statistica inferenziale:
stime
La distribuzione di probabilit` a di una v.a., dipendente da uno o pi` u parametri , permette di
assegnare una probabilit` a a qualsiasi campione. Scopo della statistica inferenziale è di procedere
allinverso, ossia a partire dai dati di un campione di una popolazione, si vuole determinare il
parametro incognito .
Esempio 8.0.5. Un sondaggio eseguito su un campione di n votanti mette in luce che una frazione p
di essi ha votato per un certo partito. Il modello che potremmo utilizzare è il seguente: la persona
i-esima sarà rappresentata da una variabile di Bernoulli di parametro incognito q e supporremo le
variabili indipendenti. La legge è determinata univocamente dal parametro q [0, 1]. Eseguito il
sondaggio (quindi a posteriori ) qual è la miglior stima che possiamo dare per q? Quanto adabile
è la nostra stima?
La prima domanda è un problema di stima puntuale, mentre la seconda è un problema di stima
per intervalli .
Esempio 8.0.6. Una macchina produce componenti meccanici di dimensioni specicate con un
livello di tolleranza dato. Al di fuori dei limiti di tolleranza il pezzo viene giudicato difettoso. Il
produttore vuole garantire che la percentuale dei pezzi difettosi non superi il 5%. Il modello di
produzione è ben rappresentato mediante un processo di Bernoulli di v.a. X
i
che vale 1 se li-esimo
pezzo è difettoso e 0 altrimenti: X
i
B(p). Il parametro incognito è p, e si vuole stimarlo sulla
base di osservazioni a campione.
Nei prossimi paragra utilizzeremo spesso la notazione vettoriale (considereremo quindi stima-
tori per parametri vettoriali reali); pertanto, ad esempio, considereremo valori attesi di v.a. vetto-
riali: questultime ammettono valore atteso se e solo se ogni componente ammette valore atteso ed
il vettore dei valori attesi ha come componenti i valori attesi di ciascuna componente. Utilizzeremo
la notazione | | e , rispettivamente per indicare la norma ed il prodotto scalare.
8.1 Modello statistico parametrico
Denizione 8.1.1. Un modello statistico parametrico è una famiglia di leggi di v.a., dipen-
denti da uno o pi` u parametri : /
. La legge è nota a meno dei parametri dove è

un opportuno insieme (in genere R oppure R
n
).
Denizione 8.1.2. Un campione casuale di dimensione n estratto da una popolazione di legge
/
è una n-upla di v.a. X

1
, . . . , X
n
i.i.d. ciascuna con legge /
.
Osservazione 8.1.3. Si osservi che lo spazio di probabilit` a su cui sono denite X
1
, . . . , X
n
, ssato il
modello statistico parametrico, in generale ha una misura di probabilit` a P
dipendente da .
Denizione 8.1.4. Consideriamo una v.a. X avente densità di probabilit` a /
, dove R
m
.
Si dice statistica una v.a. T = t
n
(X
1
, X
2
, . . . , X
n
) funzione del campione casuale (X
1
, X
2
, . . . , X
n
).
La funzione t
n
: R
n
R
m
deve essere !
n
!
m
misurabile.
N.B.: T NON deve dipendere in modo esplicito da .
95
96 CAPITOLO 8. STATISTICA INFERENZIALE: STIME
Ad esempio, la media campionaria X
n
=
1
n
n
i=1
X
i
di n v.a. è una statistica.
Denizione 8.1.5. Si dice stimatore del parametro una statistica usata per stimare o, pi` u
in generale, una sua funzione g(). Assegnata la statistica T = t
n
(X
1
, X
2
, . . . , X
n
), una volta
estratto un particolare campione (x
1
, x
2
, . . . , x
n
), il valore = t
n
(x
1
, x
2
, . . . , x
n
) si dice stima di
g().
Osservazione 8.1.6. lo stimatore è una variabile aleatoria, mentre la stima è un numero reale.
Ricordiamo che il nostro modello di campionamento, a priori, è rappresentato da una successione
nita X
1
, . . . , X
n
di variabili aleatorie i.i.d. ciascuna delle quali rappresenta il risultato delli-esimo
elemento del campione; se lo stato è allora in corrispondenza ad esso (cioè a posteriori)
osserveremo il campione x
1
= X
1
(), . . . , x
n
= X
n
(). Allo stesso modo se osserviamo il campione
x
1
, . . . , x
n
sappiamo che si è vericato levento X
i
= x
i
, i = 1, . . . , n. Se decidiamo quindi
di calcolare a posteriori t(x
1
, . . . , x
n
) per stimare g(), il modello di questa stima, a priori, è la
variabile aleatoria t(X
1
, . . . , X
n
).
Nota. In generale per stimare g() si utilizzerà una procedura valida per ogni ampiezza n del
campione, questo signica che si determiner` a una successione T
n
nN
dove ciascuna statistica
T
n
si costruisce da una funzione misurabile t
n
denita su R
n
.
Proprietà degli stimatori .
Correttezza. Uno stimatore T di g() si dice corretto, o non distorto, se E
(T) = g()
per ogni (ricordiamo che la legge, e quindi anche il valor medio, di T dipende da ; nel
seguito talvolta, per semplicit` a di notazione, sottintenderemo i pedici ).
Uno stimatore non corretto si dice distorto e la quantità E
(T) g() si dice distorsione

dello stimatore.
Correttezza Asintotica. Una famiglia di stimatori T
n
= t
n
(X
1
, X
2
, . . . , X
n
), n = 1, 2, . . .,
si dice asintoticamente corretta se la distorsione si annulla al crescere dellampiezza del
campione:
lim
n
E
(T
n
) g() = 0, .
Consistenza. Una famiglia di stimatori si dice semplicemente consistente o debolmente
consistente se
lim
n
P
([T
n
g()[ ) = 1 > 0, .
Si pu` o mostrare che vi sono famiglie di stimatori corretti non consistenti e, viceversa, famiglie
di stimatori consistenti che non sono nemmeno asintoticamente corretti.
Esempio 8.1.7. Siano X
n
i.i.d. con media e tali che P(X
i
= ) < 1. Si consideri la
funzione reale t
n
(x
1
, . . . , x
n
) := x
1
; allora la famiglia di stimatori corrispondente T
n
, dove
T
n
= X
1
, è una famiglia di stimatori corretti ma non è consistente.
Lesempio di una famiglia di stimatori non asintoticamente corretta ma consistente è pi` u
complesso e non lo vedremo.
Errore quadratico medio (EQM) di uno stimatore T di g() è denito come
EQM(T) EQM
(T) := E
(|T g()|
2
).
Si osservi che,
E
(|T g()|
2
) = E
(|T|
2
) 2E
(T), g() +|g(|

2
) = Var
(T) +|E
(T) g()|
2
.
Una famiglia di stimatori T
n
di g() si dice consistente in media quadratica se e solo
se
lim
n+
EQM
(T
n
) = 0, .
8.1. MODELLO STATISTICO PARAMETRICO 97
Teorema 8.1.8. Per una famiglia di stimatori T
n
di g() le seguenti aermazioni sono equiv-
alenti.
(i) la famiglia è consistente in media quadratica;
(ii) la famiglia è semplicemente consistente e lim
n+
Var
(T
n
) = 0;
(iii) la famiglia è asintoticamente corretta e lim
n+
Var
(T
n
) = 0.
Dimostrazione.
Approfondimento
(i) (iii). Dalla denizione di EQM si ha che
lim
n+
EQM
(T
n
) = 0
_
lim
n+
Var
(T
n
) = 0
lim
n+
(E
(T
n
) g()) = 0.
(ii) = (iii). Si osservi che da Var
(T
n
) 0 se n +, utilizzando la
disuguaglianza di Chebychev, per ogni ,
P
(|T
n
E
(T
n
)| > )
Var
(T
n
)
2
0, n +,
pertanto
lim
n+
P
(|T
n
E
(T
n
)| ) = 1, .
Utilizzando la disuguaglianza triangolare
|g() E
(T
n
)| |g() T
n
| +|T
n
E
(T
n
)| (per ogni )
se, per assurdo, |g()E
(T
n
)| > > 0 per inniti valori di n allora |g()T
n
|
/2 e |T
n
E
(T
n
)| /2 sono disgiunti pertanto
1 P
(|T
n
E
(T
n
)| /2) +P
(|g() T
n
| /2)
e quindi P
(|g() T
n
| /2) , 1 se n + da cui lassurdo.
(iii) = (ii). Ancora dalla disuguaglianza triangolare
|g() T
n
| |T
n
E
(T
n
)| +|g() E
(T
n
)| (per ogni )
e da (iii) esiste n
0
tale che per ogni n n
0
si ha |g() E
(T
n
)| < /2 quindi, per
ogni n n
0
,
P(|g() T
n
| ) P(|T
n
E
(T
n
)| +|g() E
(T
n
)| )
P(|T
n
E
(T
n
)| +/2 )
= P(|T
n
E
(T
n
)| /2) 1 se n +,
da cui si ha la semplice consistenza.
It teorema precedente garantisce che, sotto lipotesi Var(T
n
) 0 per n + allora le
semplice consistenza e lasintotica correttezza sono equivalenti.
Osservazione 8.1.9. Poichè in generale E(h T) ,= h(E(T)), si ha che se T è uno stimatore non
distorto di g() allora h T è uno stimatore, in generale distorto, di h(g()) (la non distorsione si
ha nel caso h(x) := ax +b).
Un esempio è la ricerca di uno stimatore non distorto per il parametro di una distribuzione
esponenziale. Sappiamo che il valore atteso di una variabile X Esp() è E(X) = 1/ pertanto
saremmo tentati di stimare utilizzando la famiglia di stimatori 1/X
n
= n/
n
i=1
X
i
. Questo
è uno stimatore soltanto asintoticamente corretto, mentre calcoli semplici (si utilizzi la densità
gamma introdotta nel Paragrafo 5.3.4) mostrano che uno stimatore corretto è
T
n
:=
n 1
n
i=1
X
i
n 1
nX
n
.
8.2 Stima puntuale
Scopo della stima puntuale è di utilizzare opportune statistiche per stimare i valori dei parametri
incogniti della distribuzione di partenza. Vedremo nei prossimi paragra esempi di statistiche per
stimare il valore atteso e la varianza di una distribuzione. Nella sezione successiva ci proporremo
di fornire degli intervalli ai quali riteniamo plausibile che tali parametri appartengano. Questa
parte della statistica inferenziale viene chiamata stima per intervalli . Noi cercheremo, se possibile,
famiglie consistenti di stimatori corretti.
8.2.1 Stima puntuale della media
La media campionaria X
n
=
1
n
n
i=1
X
i
di n v.a. i.i.d. è una statistica; si pu` o aermare che è uno
stimatore corretto e debolmente consistente (in virt` u della legge forte dei grandi numeri) del valore
atteso comune g() := E
(X
i
). Nel caso in cui Var(X
i
) =
2
< +, allora il teorema precedente
garantisce la consistenza in media quadratica poiche Var(X
n
) =
2
/n 0 se n +.
Esempi. Nellesempio visto in precedenza della produzione di componenti meccanici, il modello
statistico parametrico è la famiglia di leggi di Bernoulli B(p), p è il parametro da determinare; La
media campionaria T
n
= X
n
è uno stimatore non distorto e consistente di p.
Per una v.a. normale A(,
2
) i parametri sono = (,
2
). La media campionaria è uno
stimatore non distorto e consistente di g() := .
Lo stesso discorso si applica alle altre v.a. notevoli:
Per la binomiale X B(n, p), = (n, p), la media campionaria è uno stimatore di E
(X) = np =:
g().
Per lesponenziale X Exp(), = , la media campionaria è uno stimatore di E
(X) = 1/.
Per il modello Gamma X (n, ), = (n, ), la media campionaria è uno stimatore di E
(X) =
n/.
Date n v.a. i.i.d. X
i
, e scelta una serie di sequenze di numeri reali
(n)
i

n
i=1
(n = 1, 2, . . .)
la v.a. T
n
=
n
i=1
(n)
i
X
i
con
n
i=1
(n)
i
= 1 è uno stimatore corretto del valore atteso =
E
(X
i
).
`
E facile altres` vedere che se
n
i=1
(n)
i
= 1, e la legge di X
i
ammette varianza
2
allora
EQM(T
n
) = Var(T
n
) =
n
i=1
(
(n)
i
)
2
; (il cui valore minimo si ha per
1
= =
n
= 1/n) ed è
anche debolmente consistente se e solo se
n
i=1
(
(n)
i
)
2
0 per n .
8.2.2 Stima puntuale della varianza
Siano n variabili aleatorie i.i.d. X
i
aventi valore atteso comune = E
(X
i
) e varianza
2
=
Var
(X
i
).
Consideriamo la statistica, dipendente da una successione di numeri reali positivi a
n
+
n=1
S
2
n
=
1
a
n
n
i=1
(X
i
X
n
)
2
.
Calcoliamo il valor medio di

S
2
n
:
E(
S
2
n
) =
1
a
n
n
i=1
E[(X
i
X
n
)
2
]
8.2. STIMA PUNTUALE 99
Per completare il calcolo riscriviamo

S
2
n
come
S
2
n
=
1
a
n
n
i=1
[(X
i
) (X
n
)]
2
=
1
a
n
n
i=1
(X
i
)
2
+
n
a
n
(X
n
)
2
2(X
n
)
1
a
n
n
i=1
(X
i
)
=
1
a
n
n
i=1
(X
i
)
2
n
a
n
(X
n
)
2
da cui
E(
S
2
n
) = E
_
1
a
n
n
i=1
(X
i
)
2
n
a
n
(X
n
)
2
_
=
1
a
n
_
n
i=1
E[(X
i
)
2
] nE[(X
n
)
2
]
_
=
1
a
n
n
2
1
a
n
2
=
n 1
a
n
2
.
La statistica

S
2
n
è dunque uno stimatore asintoticamente corretto della varianza
2
= Var
(X
1
) =:
g() se e solo se a
n
/n 1 se n +; la distorsione è E(
S
2
n
)
2
=
2
((n 1)/a
n
1) e quindi
S
2
n
è uno stimatore corretto se e solo se a
n
= n 1. Questo giustica la scelta fatta nel capitolo
sulla statistica descrittiva per stimare la varianza.
In maniera euristica si pu` o spiegare questo fatto notando che la presenza delladdendo X
n
al
posto della media vera introduce un errore nel calcolo messo in mostra dallequazione
n
i=1
(X
i
X
n
)
2
=
n
i=1
(X
i
)
2
n(X
n
)
2
.
Deniamo quindi uno stimatore corretto di
2
come:
S
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
;
per questo nuovo stimatore vale quindi E(S
2
n
) =
2
. La v.a. S
2
n
prende il nome di varianza
campionaria. Si pu` o dimostrare con calcoli facili ma noiosi che S
2
n
è uno stimatore consistente
in media quadratica:
lim
n
Var(S
2
n
) = 0
purche E((X
i
)
4
) < o, equivalentemente, E(X
4
i
) < +
Approfondimento
Si mostri prima per esercizio che
S
2
n
=
1
2n(n 1)
n
j=1
n
i=1
(X
i
X
j
)
2
=
1
n(n 1)
n
j=1
i>j
(X
i
X
j
)
2
.
Ovviamente, senza perdita di generalit` a si pu` o supporre che E(X
i
) = 0 per ogni
i, altrimenti si utilizzino

X
i
:= X
i
E(X
i
) osservando che Var(
X
i
) =
2
e che lo
stimatore della varianza campionaria

S
2
n
relativo alle nuove variabili coincide con
S
2
n
.
Deniamo
(4)
:= E(X
4
); con facili calcoli si ottiene
Var(S
2
n
) =
1
4n
2
(n 1)
2
n
i,j,h,k=1
E((X
i
X
j
)
2
(X
h
X
k
)
2
)
4
=
1
4n
2
(n 1)
2
n
i,j,h,k=1
E
_
X
2
i
X
2
h
2X
2
i
X
h
X
k
+X
2
i
X
2
k
2X
i
X
j
X
2
h
+ 4X
i
X
j
X
h
X
k
2X
i
X
j
X
2
k
+X
2
j
X
2
h
2X
2
j
X
h
X
k
+X
2
j
X
2
k
_
4
=
1
4n
2
(n 1)
2
_
4n
2
n
i,h=1
E(X
2
i
X
2
h
) 8n
n
i,j,k=1
E(X
i
X
j
X
2
k
)
+ 4
n
i,j,h,k=1
E(X
i
X
j
X
h
X
k
)
_
4
da cui, ricordando che E(X
i
) = 0 per ogni i ed utilizzando lindipendenza, si ha
Var(S
2
n
) =
1
4n
2
(n 1)
2
_
(4n
2
8n + 12)n(n 1)
4
+ (4n
2
8n + 4)n
(4)
_
4
=
_
n
2
2n + 3
n(n 1)
1
_
4
+

(4)
n
=
3 n
n(n 1)
4
+

(4)
n
0 se n +.
In pratica, una volta estratto un particolare campione (x
1
, x
2
, . . . , x
n
), si ottiene il valore
corrispondente di s
2
n
:
s
2
n
=
1
n 1
n
i=1
(x
i
x)
2
ossia s
2
n
è la varianza campionaria dei dati x
1
, . . . , x
n
.
Osservazione 8.2.1. Se è noto il valore atteso E(X
i
) = della v.a. X
i
, allora per stimare la varianza
si pu` o usare la statistica seguente:
T
n
=
1
n
n
i=1
(X
i
)
2
Attenzione: T
n
è una statistica solo se il valore atteso E(X
i
) = è noto; altrimenti è un
parametro incognito e T
n
non è pi` u una statistica.
Dimostriamo che T
n
è uno stimatore corretto di
2
:
E(T
n
) =
1
n
n
i=1
E[(X
i
)
2
] =
1
n
n
i=1
E(X
2
i
2X
i
+
2
) =
=
1
n
n
i=1
_
E(X
2
i
) 2E(X
i
) +
2
_
=
1
n
n
i=1
_
E(X
2
i
)
2
_
=
2
Esempio. Vogliamo stimare i parametri r e di una popolazione con distribuzione (r, ).
Eettuiamo un campionamento e consideriamo gli stimatori X
n
e S
2
n
. I loro valori attesi sono
rispettivamente E(X
n
) = r/ e E(S
2
n
) = r/
2
. Dunque X
n
e S
2
n
sono stimatori non distorti
dei parametri r/ e r/
2
. Nella pratica, a campionamento eettuato otteniamo i valori x
n
e s
2
n
.
Risolvendo per r e otteniamo le stime

= x
n
/s
2
n
e r = x
2
n
/s
2
n
.
Si pu` o anche dire che X
n
/S
2
n
e X
2
n
/S
2
n
sono stimatori (distorti!) rispettivamente di ed r.
8.3. STIMA PER INTERVALLI: LEGGI NOTEVOLI 101
0 2 4 6 8 10
0
0.1
0.2
0.3
0.4
n=1
n=2
n=3
n=4
n=5
Funzione densità della v.a. chi-quadrato
2
(n) per alcuni valori di n.
8.3 Stima per intervalli: leggi notevoli
Uno stimatore T, come ad esempio X
n
, fornisce, a campionamento eseguito, una stima del valore
di del quale è per` o ignota laccuratezza. Descriviamo questa propriet` a degli stimatori dicendo che
forniscono una stima puntuale del/dei parametro(i) incogniti. Se lo stimatore è asintoticamente
corretto e consistente E(T) dar` a una stima sempre pi` u accurata al crescere dellampiezza del cam-
pione (in virt` u della disuguaglianza di Chebychev); tuttavia non sempre è possibile aumentare n.
`
E necessario quindi un metodo per ottenere dal campione stesso anche una stima dellaccuratezza
della stima puntuale. Questo metodo consiste nella costruzione di un intervallo, detto intervallo
di condenza o intervallo duciario, che verosimilmente contenga il valore vero del parametro
incognito. In tale ottica, parliamo di stima per intervalli di .
Per stimare i parametri di una distribuzione normale, è utile denire alcune distribuzioni
continue.
8.3.1 Legge chi-quadrato
Denizione 8.3.1. Si dice legge chi-quadrato con n gradi di libertà, la legge di una variabile
aleatoria
Y =
n
i=1
X
2
i
,
dove X
i
sono n v.a. indipendenti, ciascuna di legge A(0, 1). Si scrive Y
2
(n) ed è univocamente
determinata.
Come vedremo, la legge chi-quadrato è utile per stimare la varianza di una popolazione normale.
Proprietà. Si dimostra che la legge
2
(n) coincide con la legge gamma di parametri n/2,
1/2:
2
(n) = (n/2, 1/2). Da questa propriet` a si possono ricavare molte informazioni sulla legge
chi-quadrato:
La funzione densità è:
f
Y
(t) = c
n
t
n/21
e
t/2
per t > 0, f
Y
(t) = 0 per t 0
Il valore di c
n
viene ottenuto imponendo la relazione
_
+
0
c
n
t
n/21
e
t/2
= 1.
il valore atteso: ricordando la propriet` a che il valore atteso della (r, ) è pari a r/,
E(Y ) = E
_
n
i=1
X
2
i
_
=
n/2
1/2
= n
la varianza: ricordando la propriet` a che la varianza della (r, ) è pari a r/
2
,vale:
Var(Y ) = Var
_
n
i=1
X
2
i
_
=
n/2
1/4
= 2n
Se Y
1
e Y
2
sono v.a. indipendenti con leggi rispettive Y
1

2
(n), Y
2

2
(m), allora
Y
1
+Y
2

_
n
2
+
m
2
,
1
2
_
=
2
(n +m)
Dal Teorema Centrale del Limite se Y
n

2
(n) si ha che Y
n
è approssimabile con una
variabile di legge A(n, 2n) nel senso che
lim
n+
_
P(Y t)
_
t n
2n
__
= 0.
Indichiamo con
2
(n) i quantili della legge chi-quadrato:

P(Y
2
(n)) =
I valori dei quantili sono tabulati per i primi valori di n. Per n grande (n > 30) si possono
determinare i quantili da quelli della normale, sfruttando lapprossimazione normale:
_
t n
2n
_
= , q
(n) n
2n
,
2
(n) q
2n +n
Unapprossimazione leggermente migliore di questa, valida sempre per n > 30, è
(n)
1
2
_
q
2n 1
_
2
.
Limportanza della legge chi-quadrato è dovuta alle seguenti propriet` a:
Siano X
1
, X
2
, . . . , X
n
, n v.a. normali i.i.d. di legge X
i
A(,
2
). Allora
La somma delle standardizzate al quadrato vale
n
i=1
_
X
i
_
2

2
(n)
Questa propriet` a discende direttamente dalla denizione della legge chi-quadrato come som-
ma di quadrati di v.a. normali standard indipendenti.
Se X
n
è la media campionaria,
n
i=1
_
X
i
X
n
_2

2
(n 1)
la media viene sostituita con la media campionaria X
n
, e la v.a. trovata ha legge chi-
quadrato con un grado di libert` a in meno.
Non dimostreremo questa propriet` a. Intuitivamente si pu` o capire che le n v.a. X
i
X
n
non
sono pi` u indipendenti, poiche la loro somma è nulla. Questa relazione sottrae un grado di
libert` a alla somma dei loro quadrati.
In termini della varianza campionaria S
2
n
=
1
n1
n
i=1
(X
i
X
n
)
2
, la formula precedente si
pu` o riscrivere come
(n 1)
2
S
2
n

2
(n 1)
8.3. STIMA PER INTERVALLI: LEGGI NOTEVOLI 103
Si dimostra inne che, se il campione proviene da una famiglia normale, la varianza campi-
onaria S
2
n
e la media campionaria X
n
sono v.a. tra loro indipendenti. Questa propriet` a non
è semplice da dimostrare e non vale in generale per una legge qualsiasi.
Esercizio 8.3.2. Una ditta produce bulloni del diametro medio di 2cm. Dallesperienza passata
è noto che la deviazione standard del loro diametro è di 0.1cm. Si pu` o supporre inoltre che
il diametro eettivo di un bullone abbia una distribuzione normale. Una seconda ditta intende
comprare una partita di bulloni ma non crede ai parametri forniti dalla prima ditta sul valor medio
e sulla varianza, e pone come requisito che la varianza campionaria di 20 pezzi scelti a caso non
superi (0.12cm)
2
. Qual è la probabilit` a che la partita venga scartata?
Soluzione.
Applichiamo la formula (n 1)S
2
n
/
2

2
(n 1) con n = 20, = 0.1cm. Poniamo Y
2
(19).
P
_
S
2
n
> (0.12cm)
2
_
= P
_
Y >
19 0.12
2
0.1
2
_
= P(Y > 27.36) 0.1
Il valore di P(Y > 27.36) è stato ricavato dalle tavole.
8.3.2 Legge t di Student
La legge t di Student è utile per stimare il valor medio di una popolazione normale quando non
sia nota la varianza.
Denizione 8.3.3. Si dice Legge t di Student con n gradi di libertà, la legge di una v.a.
T =
Z
_
Y/n
, dove Z A(0, 1), Y
2
(n)
e si richiede che Z e Y siano indipendenti. Si usa scrivere T t(n).
Si pu` o calcolare esplicitamente la densità della t(n):
f
T
(t) = c
n
_
1 +
t
2
n
_
(n+1)/2
il coeciente di normalizzazione c
n
si ricava imponendo che
_
+
f
T
(t)dt = 1; si potrebbe mostrare
che
c
n
=
((n + 1)/2)
n
1/2
(n/2)
.
.
Proprietà.
Per n , la legge t(n) tende alla normale standard A(0, 1). Infatti è facile stabilire che
lim
n
_
1 +
t
2
n
_
(n+1)/2
= e
t
2
/2
;
la giusticazione precisa viene da un teorema della teoria della misura che prende il nome
di Teorema della Convergenza Dominata osservando che
c
n
_
1 +
t
2
n
_
(n+1)/2
2(1 +t
2
)
, t R, , n N.
La densità della t(n) è una funzione simmetrica pari, perciò il valore atteso è nullo.
La varianza vale n/(n 2) per n > 2 (mentre è innita se n = 1, 2); pertanto la varianza è
sempre maggiore di uno, e tende a 1 per n .
-4 -3 -2 -1 0 1 2 3 4
0
0.1
0.2
0.3
0.4
n=1
n=5
N(0,1)
Funzione densità della v.a. t di Student t(n) e confronto con la normale standard A(0, 1)
Indichiamo con t
(n) i quantili della legge t(n):

P(T t
(n)) =
Per la simmetria della funzione densità, valgono le seguenti propriet` a, del tutto simili a quelle
relative ai quantili della normale:
P(T t
1
(n)) = , P([T[ t
1
2
(n)) = , P([T[ t 1+
2
(n)) = .
Per valori di n maggiori di 120 si possono approssimare i quantili della t(n) con quelli della
normale standard. Per n minore di 120 i valori si ricavano dalle tavole.
Limportanza della legge t di Student è dovuta alla seguente propriet` a: siano X
1
, X
2
, . . . , X
n
,
n v.a. normali i.i.d. di legge X
i
A(,
2
). Allora
X
n
S
n
/
n
t(n 1)
Infatti, sappiamo che X
n
A(,
2
/n), e dunque
X
n
n
A(0, 1)
Daltra parte, abbiamo visto in precedenza che
(n 1)
2
S
2
n

2
(n 1)
Essendo S
2
n
e X
n
indipendenti, otteniamo
X
n
S
n
/
n
=
X
n
n
_
S
2
n
/
2
t(n 1)
Esercizio 8.3.4. La ditta che vuole decidere se comprare la partita di bulloni dellesempio prece-
dente, procede a una misurazione a campione di 50 bulloni, e trova che il diametro medio del
campione è di 2.04cm con una deviazione standard campionaria di 0.15cm. Supponendo ancora
8.4. STIMA PER INTERVALLI: INTERVALLI DI CONFIDENZA 105
che il diametro dei bulloni segua una legge normale, calcolare la probabilit` a che il valore medio
dierisca di meno di 0.1cm dal valore dichiarato di 2cm.
Soluzione.
Si considera la v.a.
T
n
=
X
n
S
n
/
n
dove S
n
è la deviazione standard campionaria. Per quanto visto prima T
n
ha distribuzione t di
Student con n 1 gradi di libert` a. Dunque
P
_
t
<
X
n
S
n
/
n
< t
_
=
P(X
n
t
S
n
/
n < < X
n
t
S
n
/
n) =
Imponiamo
X
n
t
S
n
/
n = 1.99, X
n
t
S
n
/
n = 2.01
t
= (X
n
1.99)
n/S
n
2.357, t
= (X
n
2.01)
n/S
n
1.414
Dalle tavole risulta 0.9888, 0.9182. Pertanto la probabilit` a cercata è 0.07.
8.4 Stima per intervalli: intervalli di condenza
Sia X
1
, . . . , X
n
un campione aleatorio estratto da una popolazione di legge /
. Siano T
1
=
t
1
(X
1
, . . . , X
n
) e T
2
= t
2
(X
1
, . . . , X
n
) due statistiche, e sia g() una funzione del (dei) parametro(i)
. Fissato [0, 1], lintervallo aleatorio (T
1
, T
2
) si dice intervallo di condenza per g(), al
livello del 100% se
P
(T
1
< g() < T
2
) =
per ogni . A campionamento eseguito, lintervallo ottenuto [t
1
(x
1
, . . . , x
n
), t
2
(x
1
, . . . , x
n
)]
si chiama intervallo di condenza per g(), al livello del 100%, calcolato dal campione. Questo
intervallo perde il signicato di probabilit` a: non è vero che la probabilit` a che g() sia compresa
tra t
1
(x
1
, . . . , x
n
) e t
2
(x
1
, . . . , x
n
) è pari ad . Per questo motivo si parla di condenza e non di
probabilit` a. A priori laermazione è vera, ma a posteriori non cè pi` u nulla di aleatorio.
`
E vero invece che se eettuassimo numerosi campionamenti e calcolassimo per ciascuno di questi
lintervallo di condenza allo stesso livello, ci aspettiamo, in virt` u della Legge dei Grandi Numeri
Forte, che una proporzione del 100% degli intervalli contenga il valore di g().
Approfondimento
In generale dati due insiemi X e Y ed una funzione f : X T(Y ) (dove T(Y )
è linsieme delle parti di Y ), si denisce f
: Y T(X), la funzione dinsieme

coniugata, come
x f
(y) y f(x);
ovviamente (f
= f. Sia ora (X, T) uno spazio misurabile, una funzione f :

X T(Y ) si dice misurabile se e solo se per ogni y Y si ha f
(y) = x X :
y f(x) T (cioè misurabile rispetto alla -algebra T
1
su T(Y ) generata dagli
insiemi del tipo
A
y
:= A Y : y A.
Se ora (X, T, P) = (, T, P) è uno spazio di probabilit` a e g : Y dove è
lo spazio dei parametri, allora una famiglia di funzioni misurabili, parametrizzate
da f
: T(Y ) prende il nome di intervallo di condenza per g() a

livello [0, 1] se e solo se
P
(g() f
) .
Quindi in generale esistono inniti intervalli di condenza di livello ssato; ve-
dremo in seguito quali ragionevoli ipotesi aggiungere, caso per caso, per determinare
univocamente la forma dellintervallo.
8.4.1 Intervalli di condenza per la media
Utilizzando i risultati descritti sopra ci proponiamo ora di costruire gli intervalli duciari per la
media nei due casi in cui rispettivamente la varianza sia nota e la varianza sia incognita. Ricor-
diamo che in generale P = P
e di conseguenza E = E
e Var = Var
; nel seguito sottintenderemo

quasi sempre la dipendenza da cos` da rendere pi` u compatta la notazione.
Intervallo duciario per la media di una popolazione con varianza nota.
Consideriamo un campione casuale (X
1
, X
2
, . . . , X
n
) di ampiezza n estratto da una popo-
lazione avente valor medio incognito e varianza
2
nota. Lo stimatore per è la media
campionaria X
n
per la quale supporremo che
X
n
A
_
,

2
n
_
.
Questa relazione è esatta se la legge della popolazione è normale, mentre vale solo asintoti-
camente per n altrimenti (in virt` u del Teorema Centrale del Limite).
La standardizzata di X
n
Z
n
=
X
n
n
è distribuita secondo la normale standard
Z
n
A(0, 1).
Fissato il livello di condenza , possiamo aermare che
P
_
[X
n
[
/
n
q1+
2
_
=
ovvero
P([X
n
[ q1+
2
n
) =
Gli estremi dellintervallo sono
= X
n
n
q1+
2
Abbiamo dunque costruito un intervallo casuale, centrato sul valore (casuale) X
n
, avente
ampiezza ssata nota 2q
(1+)/2
/
n. Tale intervallo casuale ha probabilit` a di contenere

il valore vero .
Una volta eseguito il campionamento ed ottenuta la stima del valor medio x
n
si ottiene
lintervallo di condenza
_
x
n
q1+
2
/
n, x
n
+q1+
2
n
_
.
N.B. A campionamento eseguito, non si pu` o pi` u tuttavia aermare che esso contiene con
probabilit` a .
Osservazione 8.4.1. Si noti che lampiezza dellintervallo duciario, ssati ed n, è tanto
pi` u grande quanto maggiore è il livello di ducia poiche q
(1+)/2
per 1. Pertan-
to innalzare il livello duciario aumenta il margine di errore su . Se si vuole mantenere
un margine di errore pressato, e nel contempo un livello duciario elevato, è necessario au-
mentare n; si noti come lampiezza 2q
(1+)/2
/
n decresca come 1/
n; quindi per diminuire

lerrore di un ordine di grandezza è necessario aumentare lampiezza del campione di due
ordini di grandezza.
Se la variabile aleatoria di partenza è una Bernoulliana, per un campione sucientemente
grande si ottiene lintervallo di condenza inserendo al posto di il valore
_
x
n
(1 x
n
) (si
veda il paragrafo 8.4.3 per maggiori dettagli).
Approfondimento In generale, come abbiamo gi` a detto, lequazione P(g() I
) = (o
pi` u in generale la disequazione P(g() I
) ) pu` o avere innite soluzioni

rispetto allintervallo di condenza I
(che chiameremo intervallo di con-

denza a livello ). Quello che abbiamo fatto in precedenza suggerisce un
metodo piuttosto generale per ottenere intervalli di condenza. Supponiamo
di avere la famiglia di stimatori T
n
per la grandezza g() e di costruire una
famiglia di variabili aleatorie parametriche Q(T
n
, ) la cui legge non dipenda
da ; Q(T
n
, ) prende il nome di quantità pivotale. A questo punto se g
è una funzione a valori in R e la legge della quantità pivotale ha funzione
di ripartizione F si ha P(Q(T
n
, ) (a, b]) = F(b) F(a); estendiamo per
comodit` a il dominio di F nel seguente modo
F(+) := 1, F() := 0.
Si osservi che una buona richiesta potrebbe essere Q(, ) (a, b] per su-
cientemente grande e per ogni .
A questo punto supponiamo di poter risolvere rispetto a nel seguente senso
Q(T
n
, ) (a, b] g() I
a,b
dove lintervallo I
a,b
è casuale e dipende anche da n. Se siamo in grado di
fare tutto questo, quello che ci rimane da fare è operare una scelta opportuna
per la coppia (a, b) in maniera che F(b) F(a) = (0, 1) (ove questo
sia possibile). Per fare questo dobbiamo mettere altre condizioni (non molto
restrittive) sulla legge F.
Supponiamo che la legge F sia strettamente crescente e continua e sia q
la
sua funzione quantile estesa nel seguente modo
q
0
:= , q
1
:= +.
Quindi F : [, +] [0, 1] è una funzione biettiva continua con inversa
q anchessa continua. Sia (0, 1); si vede facilmente che per ogni scelta
di a [, +] tale che F(a) [0, 1 ] si ha che esiste un unico valore
b [q
, +] tale che
F(b) F(a) =
(quindi (a, b) = (q
, q
+
) per qualche [0, 1 ]).
Denizione 8.4.2. La scelta = 0 porta ad un intervallo unilatero sin-
istro, = 1 porta ad un intervallo unilatero destro, mentre la scelta
= (1 )/2 porta ad un intervallo bilatero.
Nel caso della media abbiamo scelto un intervallo bilatero di lunghezza
minima.
Intervallo duciario per la media di una popolazione con varianza incognita.
Consideriamo come nel caso precedente un campione casuale (X
1
, X
2
, . . . , X
n
) di ampiezza
n estratto da una popolazione con legge normale A(,
2
) (o, alternativamente, si supponga
che la popolazione abbia legge con media e varianza
2
e lampiezza del campione sia
molto elevata). Costruiamo la v.a.
T
n
=
X
n
S
n
/
n
t(n 1).
Fissato il livello duciario abbiamo:
P([T
n
[ t 1+
2
(n 1)) =
P
_
[X
n
[
S
n
/
n
t 1+
2
(n 1)
_
=
P
_
[X
n
[ t 1+
2
(n 1)
S
n
n
_
=
I due valori estremi di sono
= X
n
S
n
n
t 1+
2
(n 1)
Osservazione 8.4.3. Anche in questo caso lintervallo duciario è centrato su X
n
, tut-
tavia la sua ampiezza 2t 1+
2
(n1)S
n
/
n non è pi` u nota a priori, ma è a sua volta una

v.a..
Fissato un livello duciario , lampiezza dellintervallo e quindi lerrore nella stima
di tende a zero (quasi certamente) per n (in generale la convergenza non è
monotona), poiche S
2
n
è uno stimatore consistente di
2
.
Esercizio 8.4.4. Un laboratorio di analisi controlla il quantitativo medio di catrame contenuto
in una certa marca di sigarette. In un campione di 30 sigarette si trovano i seguenti valori
per la media campionaria x
n
e la deviazione standard campionaria s
n
:
x
n
= 10.92mg, s
n
= 0.51mg
Si determini lintervallo duciario per il quantitativo medio di catrame al livello del 99%
Soluzione.
= 0.99
1 +
2
= 0.995 t
0.995
(29) 2.756
Gli estremi dellintervallo sono
10.92 2.756
0.51
30
, 10.92 + 2.756
0.51
30
10.92 0.25, 10.92 + 0.25
Si noti che se avessimo considerato la deviazione standard campionaria come il valore vero
ed avessimo considerato il quantile q
0.995
2.33 avremmo trovato un intervallo duciario
leggermente pi` u stretto:
10.92
0.51
30
2.33 10.92 0.22
8.4.2 Intervalli di condenza per la varianza
Ci proponiamo di costruire gli intervalli duciari per la varianza nei due casi in cui rispettivamente
il valor medio sia noto e il valor medio sia incognito.
Intervallo duciario per la varianza di una popolazione con media nota.
Partiamo come prima da un campione casuale (X
1
, X
2
, . . . , X
n
) di ampiezza n estratto
da una popolazione con legge normale A(,
2
) (o, alternativamente, si supponga che la
popolazione abbia legge con media e varianza
2
e lampiezza del campione sia molto
elevata).
Essendo nota, la v.a.
T
2
n
=
1
n
n
i=1
(X
i
)
2
è uno stimatore corretto per la varianza
2
. Si ha poi, in virt` u di quanto visto nel paragrafo
8.3.1,
nT
2
n
2

2
(n).
Nei casi visti in precedenza del calcolo di intervalli di condenza per il valor medio si pro-
cedeva a costruire un intervallo centrato sullorigine e tale che la probabilit` a che la v.a. stan-
dardizzata appartenga a detto intervallo sia . Qui il procedimento va modicato perche la
densità della legge chi-quadrato non è simmetrica rispetto allorigine.
Si possono adottare pi` u punti di vista: quello di maggiorare la varianza (è il caso ad esempio
in cui si voglia avere una stima di errori sperimentali), quello in cui si voglia costringere la
varianza allinterno di un intervallo (è il caso in cui si vuole determinare il valore esatto della
varianza) e, pi` u raramente, quello di minorare la varianza.
Nel primo caso otteniamo una maggiorazione sul valore della varianza imponendo che
P
_
nT
2
n
2

2
(n)
_
= P
_
nT
2
n
2

2
1
(n)
_
=
P
_
nT
2
n
2
1
(n)
_
= .
Otteniamo lintervallo duciario:
_
0,
nT
2
n
2
1
(n)
_
.
Nel secondo caso, poniamo Y
2
(n).
`
E ragionevole considerare un intervallo [a, b], 0 <
a < b, tale che P(a < Y < b) = , e inoltre che P(Y < a) = P(Y > b) (ossia le code hanno
uguale probabilit` a):
P(Y < a) = P(Y > b) =
1
2
Si ricava:
a =
2
1
2
(n), b =
2
1+
2
(n).
Con questa scelta dellintervallo possiamo scrivere
P
_
2
1
2
(n)
nT
2
n
2

2
1+
2
(n)
_
=
ovvero
P
_
nT
2
n
2
1+
2
(n)

2
nT
2
n
2
1
2
(n)
_
=
Il valore esatto
2
della varianza ha probabilit` a di essere contenuto nellintervallo aleatorio
_
nT
2
n
2
1+
2
(n)
,
nT
2
n
2
1
2
(n)
_
.
Nellultimo caso si ha, analogamente al primo caso
P
_
nT
2
n
2

2
(n)
_
= P
_
nT
2
n
(n)
_
=
da cui otteniamo lintervallo duciario:
_
nT
2
n
(n)
, +
_
.
Intervallo duciario per la varianza di una popolazione con media incognita.
Partiamo sempre da un campione casuale (X
1
, X
2
, . . . , X
n
) di ampiezza n estratto da una
popolazione con legge normale A(,
2
) (o, alternativamente, si supponga che la popolazione
abbia legge con media e varianza
2
e lampiezza del campione sia molto elevata).
La v.a. T
2
n
che abbiamo usato in precedenza, ora non è pi` u una statistica poiche è funzione
della media che non è nota.
La v.a. varianza campionaria invece è uno stimatore corretto:
S
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
dove, per quanto visto nel paragrafo 8.3.1,
(n 1)S
2
n
2

2
(n 1).
Come nel caso precedente, distinguiamo i tre casi in cui vogliamo rispettivamente maggiorare
la varianza, costringerla in un intervallo opportuno oppure minorarla.
Nel primo caso imponiamo che
P
_
(n 1)S
2
n
2

2
(n 1)
_
= P
_
(n 1)S
2
n
2

2
1
(n 1)
_
=
P
_
(n 1)S
2
n
2
1
(n 1)
_
= .
Lintervallo di condenza della varianza con livello è dunque
_
0,
(n 1)S
2
n
2
1
(n 1)
_
.
Nel secondo caso poniamo Y
2
(n 1) e consideriamo un intervallo di condenza [a, b]
tale che
P(Y < a) = P(Y > b) =
1
2
P
_
2
1
2
(n 1)
(n 1)S
2
n
2

2
1+
2
(n 1)
_
=
ovvero
P
_
(n 1)S
2
n
2
1+
2
(n 1)

2
(n 1)S
2
n
2
1
2
(n 1)
_
=
Il valore esatto
2
della varianza ha probabilit` a di essere contenuto nellintervallo aleatorio
_
(n 1)S
2
n
2
1+
2
(n 1)
,
(n 1)S
2
n
2
1
2
(n 1)
_
.
Nel terzo ed ultimo caso si ha,
P
_
(n 1)S
2
n
2

2
(n 1)
_
= P
_
(n 1)S
2
n
(n 1)
_
=
da cui otteniamo lintervallo duciario:
_
(n 1)S
2
n
(n 1)
, +
_
.
8.4.3 Intervalli di condenza per una popolazione
Supponiamo di voler campionare una legge di Bernoulli di parametro p incognito. Siano quindi
X
1
, . . . , X
n
i.i.d. con legge B(p).
Premettiamo il seguente lemma.
Lemma. Siano x
1
, . . . , x
n
numeri reali in 0, 1. Allora se x
n
:= (1/n)
n
i=1
x
i
n
i=1
(x
i
x
n
)
2
= nx
n
(1 x
n
).
Dim. Osserviamo che x
i
0, 1 per ogni i se e solo se x
i
= x
2
i
, pertanto
n
i=1
(x
i
x
n
)
2
=
n
i=1
x
2
i
nx
2
n
=
n
i=1
x
i
nx
2
n
= n(x
i
x
2
i
).
Si osservi che dal precedente lemma si ottiene immediatamente che la varianza campionaria S
2
n
di un campione proveniente da una legge bernoulliana è noto se si conosce la media campionaria
x
n
(ma in generale non vale il viceversa, essendo S
2
n
lo stesso se prendiamo y
n
:= 1 x
n
al posto
di x
n
). Infatti si ottiene
S
2
n
=
n
n 1
x
n
(1 x
n
).
Approfondimento Lemma. Sia f : X R una funzione misurabile rispetto a (X, T, ). Se
f(x)(1 f(x)) = 0 per quasi ogni x e f è integrabile, allora
_
X
_
f
_
X
fd
_
2
d =
_
X
fd
_
1
_
X
fd
_
.
Essendo p corrispondente al valore medio, utilizziamo come stimatore non distorto la media
campionaria
X
n
:=
1
n
n
i=1
X
i
.
Dal Teorema Centrale del Limite abbiamo che
X
n
p
_
p(1 p)/n
Y A(0, 1)
da cui
P
_
X
n
p
_
p(1 p)/n
q1+
2
_

pertanto
X
n
p
_
p(1 p)/n
q1+
2
(X
n
p)
2
q
2
1+
2
p(1 p)
n
p
2
_
1 +
q
2
1+
2
n
_
p
_
2X
n
+
q
2
1+
2
n
_
+X
2
n
0
X
n
X
n
(1 X
n
)
n
q1+
2
+
q1+
2
2n
p X
n
+
X
n
(1 X
n
)
n
q1+
2
+
q1+
2
2n
che è una prima possibile scelta per lintervallo di condenza bilatero per il parametro p.
Una seconda possibilità è data dalla seguente approssimazione
X
n
p
S
n
/
n
Y
n
t(n 1)
da cui, essendo
S
2
n
=
1
n 1
i=1
(X
i
X
n
)
2
n
n 1
X
n
(1 X
n
).
si ha
P
_
_
X
n
p
_
X
n
(1 X
n
)/(n 1)
t 1+
2
(n 1)
_
_

cioè
X
n
p
_
X
n
(1 X
n
)/(n 1)
t 1+
2
(n 1)
X
n
t 1+
2
(n 1)
_
X
n
(1 X
n
)/(n 1) p X
n
+t 1+
2
(n 1)
_
X
n
(1 X
n
)/(n 1).
che è una seconda possibile scelta per lintervallo di condenza bilatero.
Per comodit` a di calcolo, giusticata anche dal fatto che generalmente n è molto grande,
prendiamo come intervallo di condenza bilatero per il parametro p di una popolazione il seguente
p
_
_
X
n
q1+
2
X
n
(1 X
n
)
n
, X
n
+q1+
2
X
n
(1 X
n
)
n
_
_
.
Osserviamo che, per n grande, i due intervalli calcolati in precedenza non sono dissimili da
questultimo.
Esempio 8.4.5. Arontiamo un problema reale: ci viene commissionato un exit-poll per un certo
partito.
Soprassediamo sulla problematica della scelta del campione se non per osservare che lampiezza
n deve essere sucientemente grande per poter applicare il Teorema Centrale de Limite ma non
troppo relativamente al numero degli elettori, per poter assumere che ogni elettore del campione,
rispetto alla domanda ha votato per il partito A? sia ben rappresentato da una prova di Bernoulli
(ciascun elettore del campione viene assunto indipendente dagli altri). Se il campione fosse troppo
ampio bisognerebbe ricorrere alluso della cosiddetta legge ipergeometrica. Un campione su-
ciente per il numero di elettori italiani (circa 40000000) ha un ampiezza tra i 5000 ed i 10000. Il
problema è che lintervistato potrebbe avere dei problemi a rivelare la sua vera scelta, per cui si
ricorre al seguente stratagemma: si prende una moneta truccata che abbia probabilit` a q ,= 1/2 di
successo (diciamo testa), a tale scopo un dado è una buona scelta. Ciascun intervistato lancia
la moneta (senza che nessuno lo veda) e se esce testa dir` a la verità altrimenti dir` a il falso (perchè
questo mascheramento funzioni, è necessario che p (0, 1)).
Come stimiamo a livello di condenza di la percentuale di elettori del partito A?
Modellizziamo il problema come segue: si prendono due processi di Bernoulli indipendenti
X
i
n
i=1
ed Y
i
n
i=1
di parametri, rispettivamente, p e q; il primo processo, che vale 1 se li-esimo
intervistato ha votato per A e 0 altrimenti, ha parametro p da stimare, mentre il secondo, che
simula il lancio della moneta e vale 1 se esce testa e 0 altrimenti, ha parametro noto e dierente da
1/2. La risposta delli-esimo intervistato alla domanda ha votato per il partito A è determinata
nella maniera seguente: sarà si se X
i
= 1 ed Y
i
= 1 o se X
i
= 0 ed Y
i
= 0, sarà 0 altrimenti. In
denitiva è una variabile Z
i
che vale
Z
i
:=
_
1 se X
i
= Y
i
0 se X
i
,= Y
i
cioè è un processo di Bernoulli di parametro
P(X
i
= Y
i
) = pq + (1 p)(1 q) = 2pq + 1 p q =: h.
Si noti che la funzione p 2pq +1 p q è iniettiva (da [0, 1] su [min(q, 1 q), max(q, 1 q)]) se
e solo se q ,= 1/2 (altrimenti vale 1/2 per ogni valore di p); linversa vale p = (h +q 1)/(2q 1).
Pertanto è possibile risalire al valore di p se e solo se q ,= 1/2. Il problema della stima di p si
riduce cos` a quello della stima di h. Lintervallo di condenza a livello sappiamo essere
h
_
z
n
q1+
2
_
z
n
(1 z
n
)
n
, z
n
+q1+
2
_
z
n
(1 z
n
)
n
_
da cui, nel caso q (1/2, 1],
p
_
_
z
n
q1+
2
_
zn(1zn)
n
2q 1
+
q 1
2q 1
,
z
n
+q1+
2
_
zn(1zn)
n
2q 1
+
q 1
2q 1
_
_
mentre, nel caso q [0, 1/2),
p
_
_
1 q
1 2q

z
n
+q1+
2
_
zn(1zn)
n
2q 1
,
1 q
1 2q
+
z
n
q1+
2
_
zn(1zn)
n
2q 1
_
_
.
Notiamo che, per rendere piccola la probabilit` a che la stima di h porti ad un valore di p negativo
o superiore ad 1 è meglio prendere q vicino ad 1/2.
Cap. 9. Statistica inferenziale:
test dipotesi
9.1 Denizioni
9.1.1 Ipotesi statistica
Sia /
una famiglia di leggi di probabilit` a di una certa popolazione statistica, uno o pi` u
parametri tutti o in parte incogniti (nella maggiorparte dei casi la legge /
sarà completamente
specicata, per ogni da una densità f
X
(, )).
Si dice ipotesi statistica unasserzione sul valore vero dei parametri incogniti.
Unipotesi statistica si dice semplice se specica completamente la legge f
X
(x, ), altrimenti si
dice composta.
Esempi . Supponiamo che una certa grandezza sia distribuita normalmente secondo la legge
A(, 4), allora
Lipotesi = 5 è semplice perche specica completamente la legge normale.
Lipotesi 3 è composta perche non specica completamente la legge normale.
In generale, come nel capitolo precedente, il valore di varia allinterno di un insieme detto
spazio dei parametri e unipotesi su ha la forma

0
dove
0
è un sottoinsieme di . Lipotesi è semplice se e solo se
0
contiene un solo punto.
Lipotesi che intendiamo sottoporre a verica si dice ipotesi nulla, si indica con H
0
e viene
ritenuta vera no a prova contraria. Nella costruzione di un test, si sceglie come H
0
lipotesi alla
quale si è disposti a rinunciare solo in caso di forte evidenza del contrario.
Esempi .
H
0
: = 4
H
0
: > 5
H
0
: 0.1 p 0.7
Lipotesi alternativa H
1
sarà del tipo
1
dove
1
0
= . Nella maggiorparte dei casi
sceglieremo la cossiddetta ipotesi complementare ad H
0
, cioè
0

0
.
Esempi .
H
0
: = 4, H
1
: ,= 4
H
0
: > 5, H
1
: 5
H
0
: 0.1 p 0.7, H
1
: p < 0.1, p > 0.7
115
116 CAPITOLO 9. STATISTICA INFERENZIALE: TEST DIPOTESI
9.1.2 Verica dipotesi
Si dice verica dipotesi, o test dipotesi il procedimento con cui si decide, sulla base di una
stima ottenuta dai dati campionari, se accettare o meno lipotesi.
Ad esempio, se lipotesi nulla fosse H
0
: = 4 per una distribuzione normale A(, 1), si
potrebbe pensare di usare come stimatore la media campionaria di un campione. Non sarebbe
per` o ragionevole richiedere che il valore della media campionaria ottenuto sia esattamente uguale
a 4, perche entrano in gioco le uttuazioni statistiche.
`
E pi` u sensato richiedere che il valore medio
si situi in un intorno opportunamente piccolo del valore 4.
Nella esecuzione di un test si possono avere i seguenti esiti
il test accetta H
0
quando (dato che) H
0
è vera. La decisione è corretta.
il test riuta H
0
quando (dato che) H
0
è vera. In questo caso si commette un errore di I
tipo o Ia specie.
il test accetta H
0
quando (dato che) H
0
è falsa. In questo caso si commette un errore di II
tipo o IIa specie.
il test riuta H
0
quando (dato che) H
0
è falsa. La decisione è corretta.
Utilizzeremo il verbo accettare come sinonimo di non riutare; tuttavia dal punto di vista
matematico si potrebbe vedere che è pi` u probabile commettere un errore quando si accetta H
0
rispetto a quando la si riuta, per questo motivo a volte si sostituisce accettare H
0
con non
posso riutare H
0
o non ho elementi sucienti per riutare H
0
. Non riutare H
0
prende il
nome di conclusione debole, mentre riutare H
0
si dice conclusione forte.
Riassumendo:
H
0
è vera H
0
è falsa
Riutiamo H
0
Errore di Ia specie Decisione corretta
Accettiamo H
0
Decisione corretta Errore di IIa specie
Lerrore del Ia specie è considerato pi` u grave di quello di IIa specie. In altre parole
noi cercheremo di impostare il test (cioè sceglieremo H
0
ed H
1
) anchè lerrore di Ia specie sia
quello che vorremmo evitare di commettere.
Esempio 9.1.1. Consideriamo il processo ad un imputato. Formuliamo prima lipotesi H
0
: lim-
putato è colpevole. Otteniamo la tabella seguente:
H
0
: Limputato è colpevole H
1
: Limputato è innocente
Viene assolto Errore di Ia specie Decisione corretta
Viene condannato Decisione corretta Errore di IIa specie
Mentre se assumessimo come ipotesi H
0
: limputato è innocente otterremmo:
H
0
: Limputato è innocente H
1
: Limputato è colpevole
Viene condannato Errore di Ia specie Decisione corretta
Viene assolto Decisione corretta Errore di IIa specie
Ritenendo che sia pi` u grave condannare un innocente rispetto a lasciare un colpevole in libert` a,
dobbiamo scegliere lipotesi nulla H
0
come nel secondo caso: limputato è innocente.
Esempio 9.1.2. Due persone giocano con un dado. Una delle due persone ha il sospetto che il dado
sia truccato. Decide di eettuare un gran numero di lanci e di registrare il numero di volte in cui
esce il 6. Lipotesi nulla è H
0
: p(6) = 1/6 (ipotesi innocentista). Il test dipotesi sarà del tipo:
riuto H
0
se [X
n
1/6[ > k (per un valore opportuno di k), dove X
n
è la media campionaria
delle v.a. Bernoulliane X
i
B(1/6) che valgono 1 se alli-esimo lancio del dado è venuto il 6.
9.1. DEFINIZIONI 117
Esempio 9.1.3. Una ditta produce bicchieri con spessore medio alla base dichiarato di 4mm. Prima
di decidere se mettere in vendita il prodotto vuole eettuare delle misurazioni su un campione.
Sapendo che gli acquirenti riterranno importante che lo spessore abbia una valore minimo garantito
(per ragioni di robustezza dei bicchieri), ma soprattutto essendo importante far partire le vendite
del prodotto al pi` u presto formula lipotesi H
0
: lo spessore medio della base è almeno pari a quello
dichiarato. Il test dipotesi sarà: riuto H
0
se X
n
< k per un opportuno valore di k.
La scelta di H
0
ed H
1
dipende quindi dai punti di vista, cioè dipende da quale errore si cerca
di non commettere.
Esempio 9.1.4. Unepidemia di meningite è scoppiata e si dispone della percentuale p di ammalati
nella prima settimana (stima della probabilit` a di ammalarsi di questanno p), nonche della stessa
percentuale p
0
relativa allanno precedente (stima della probabilit` a di ammalarsi dellanno prece-
dente p
0
). Listituto di sanità vuole capire se lepidemia dellanno in corso sia pi` u pericolosa di
quella dellanno precedente.
Punto di vista cautelativo: non si vuole correre il rischio di sottovalutare lepidemia, quindi non
si vuole correre il rischio di pensare che p < p
0
se non è vero. Questultimo deve diventare quindi
lerrore di Ia specie e pertanto la scelta di H
0
(risp. H
1
) sarà p p
0
(risp. p < p
0
).
Punto di vista non allarmistico: non si vuole correre il rischio di sopravvalutare lepidemia e dif-
fondere il panico tra la popolazione, quindi non si vuole correre il rischio di pensare che p > p
0
se
non è vero. Questa volta la scelta di H
0
(risp. H
1
) sarà p p
0
(risp. p > p
0
).
9.1.3 Regione critica e funzione potenza
Fissate le ipotesi
H
0
:
0
H
1
:
1
il test dipotesi consiste nello scegliere una statistica appropriata T = t(X
1
, . . . , X
n
) (in generale a
valori in R
m
), e nello stabilire una regola di decisione per accettare o riutare lipotesi. In generale
T sarà uno stimatore di .
Precisamente, adottiamo la seguente regola di decisione: si riuti H
0
se (dopo il campionamento)
t(x
1
, . . . , x
n
) I, dove I R
m
. Allora linsieme !( delle realizzazioni campionarie che portano
a riutare H
0
, cioè
!( = (x
1
, . . . , x
n
) : t(x
1
, . . . , x
n
) I
è detta regione critica, o di riuto del test.
Esempio 9.1.5. H
0
è lipotesi dellesempio 9.1.3: lo spessore medio della base del bicchiere è almeno
pari a quello dichiarato. La statistica è la media campionaria X
n
; ssiamo k e stabiliamo la regola
di decisione si riuti H
0
se X
n
< k; linsieme ! è linsieme dei possibili risultati campionari che
forniscono una media campionaria nella regione critica:
!( = (x
1
, . . . , x
n
) : x
n
< k
Una volta denita la regione critica, si pu` o pensare di calcolare, per ogni valore possibile del
parametro incognito, la probabilit` a che lipotesi venga riutata.
Denizione 9.1.6. Fissato il test, lo stimatore T e linsieme I che determina la regione di riuto
dellipotesi nulla, si denisce la funzione potenza Pot : [0, 1] nel seguente modo:
Pot() = Pot
I
() := P
(T I).
Nel caso in cui
0
allora Pot() rappresenta la probabilit` a di un errore di Ia specie, mentre se

1
allora 1 Pot() è la probabilit` a di commettere un errore di IIa specie.
Nota. Qualche volta scriveremo, abusando un po della notazione, Pot(y) = P(T I[ = y);
in realtà, nel nostro approccio (detto non Bayesiano), non è una variabile aleatoria e quindi
A non è un evento signicativo (i.e. è oppure ).
Nellesempio precedente, supponiamo che lo spessore della base dei bicchieri segua una legge
normale con varianza
2
nota; il parametro incognito è , e
Pot() = P
(X
n
< k)
Si pu` o calcolare esplicitamente Pot(), ricordando che
Xn
/
n
A(0, 1):
P
_
X
n
n
< q
()
_
= ()
P
_
X
n
< +q
()
n
_
= ()
Poniamo +q
()
n
= k:
q
()
=
(k )
, Pot() = () =
_
(k )
_
9.1.4 Livello di signicatività
Deniamo ora il livello di signicatività, anche detto ampiezza del test. Consideriamo il
problema di verica dellipotesi
H
0
:
0
contro
H
1
:
1
(dove, ricordiamo,
0

1
= ; solitamente
1
=
0
). Lampiezza, o livello di signicatività
del test basato su un campione di dimensione n con regione critica
!( = (x
1
, . . . , x
n
) : t(x
1
, . . . , x
n
) I
è denito come
= sup
0
Pot() = sup
0
P(t(X
1
, . . . , X
n
) I);
quindi rappresenta la massima probabilit` a di riutare lipotesi nulla, quando questa è vera;
è cioè la massima probabilit` a di fare un errore di Ia specie. Pi` u è piccolo, pi` u siamo con-
denti in una decisione corretta, quando la regola di decisione ci porta a riutare lipotesi nulla.
Contemporaneamente si pu` o calcolare la massima probabilit` a di errore di IIa specie
:= sup
1
(1 Pot()) = 1 inf
1
Pot().
Nella pratica il valore di viene stabilito a priori, prima di eseguire il campionamento, e
linsieme I = I
viene ottenuto di conseguenza.

Quindi quello che cercheremo di fare è, per ciascun test, operare una scelta di insiemi I
(0,1)
con alcune propriet` a:
(i) implica I
(ii)
(0,1)
I
=
(iii)
_
(0,1)
I
= R
m
(iv) sup
0
Pot
I
() = , per ogni (0, 1).
Per alcuni aspetti che saranno chiari nel Paragrafo 9.1.5 pu` o essere utile estendere la denizione
della regione critica anche ai casi 0, 1 nel seguente modo:
(v) si consideri I
[0,1]
con la convenzione I
0
:= e I
1
:= R
m
.
Quindi si possono prendere in considerazione le propriet` a (i), (ii), (iii) e (iv) oppure (i), (iv) e
(v); questultima implica evidentemente
[0,1]
I
=
_
[0,1]
I
= R
m
analoghe, rispettivamente, di (ii) e (iii).
Valori tipici per il livello di signicativit` a sono 0.1, 0.05, 0.01.
Nellesempio precedente scegliamo un livello di signicativit` a e cerchiamo il valore di k cor-
rispondente.
sup
4
P(X
n
< k) = sup
4
_
k
/
n
_
=
_
k 4
/
n
_
Scegliendo
k = 4 +
q
n
= 4
q
1
n
otteniamo proprio
sup
4
P(X
n
< k) = (q
) =
Dunque al livello di signicativit` a , la regola di decisione dellipotesi nulla lo spessore alla base è
almeno pari a quello dichiarato è si riuti H
0
se x
n
< 4
q1
n
.
Riassumiamo i passi di un test statistico:
1. Si scelgono lipotesi nulla H
0
e la sua alternativa H
1
. Nella scelta va condotto un giudizio su
quale delle due ipotesi sia la pi` u importante o, pi` u precisamente quale ipotesi non vorremmo
riutare nel caso fosse vera (questultima diventer` a H
0
).
2. Si sceglie una statistica per stimare il parametro su cui eettuare il test, e si stabilisce la
forma della regione critica (ad esempio: si riuti H
0
se X
n
< k; k è ancora indeterminato).
3. Si sceglie il livello di signicativit` a a cui si vuole eseguire il test. Pi` u è piccolo e
pi` u dicilmente riuteremo lipotesi nulla, e pi` u certi saremo di non sbagliare quando la
riutiamo.
4. Si determina la regione del riuto in funzione del valore scelto (ad esempio si riuti H
0
se
X
n
< 4
q1
n
).
5. Si esegue il campionamento, si calcola la statistica denita nel punto 2 e si vede se il risultato
appartiene o meno alla regione di riuto: in caso positivo si riuta lipotesi nulla, in caso
negativo la si accetta.
9.1.5 P-value
Supponiamo che le propriet` a (i), (ii), (iii) e (iv) (oppure (i), (iv) e (v)) denite nel paragrafo 9.1.4
siano soddisfatte. Poiche k dipende dal livello di signicativit` a impostato, una stessa ipotesi che
è stata riutata diciamo al livello dell 1% pu` o essere invece accettata ad un livello inferiore.
Esiste un livello di signicativit` a limite, detto P-value, pari al pi` u basso livello di signicativit` a
a cui i dati campionari consentono di riutare lipotesi nulla.
Denizione 9.1.7. Dato un test,
H
0
:
0
H
1
:
1
uno stimatore T : R
n
R
m
e linsieme delle regioni critiche !(
:= T I
con le propriet` a
specicate sopra, allora, dopo aver campionato ed ottenuto la stima t = t(x
1
, . . . , x
n
), si chiama
P-value il valore denito da
:= inf (0, 1) : t I
sup (0, 1) : t , I
.
Approfondimento
La seconda uguaglianza si dimostra ricordando che in uno spazio totalmente
ordinato (X, ) (ad esempio R con il suo ordinamento naturale) per ogni A X
sono equivalenti:
1. x A, y x = y A;
2. x A
, y x = y A
;
Inoltre se per (X, ) vale la propriet` a che per ogni x, y tali che x < y esiste z tale
che x < y < z (per esempio R con il suo ordinamento naturale), allora ciascuna
delle due precedenti equivale a ciascuna delle due seguenti:
1. Esiste sup(A
) se e solo se esiste inf(A) ed in tal caso sup(A) = inf(A
).
2. Esiste sup(A
) se e solo se esiste inf(A) ed in tal caso sup(A
) inf(A).
Lesistenza di un tale valore è garantita dalle propriet` a (i), (ii) e (iii) della famiglia I
(0,1)
(unidentica colnclusione si otterrebbe utilizzando laltro set (i), (iv) e (v)).
La procedura decisionale diviene quindi Riuto H
0
a livello se e solo se > (in virt` u
della propriet` a (i)); il caso = va esaminato separatamente, ad esempio se I
sono intervalli
aperti (e sotto opportune ipotesi di continuit` a) t , I
. In generale valori di vicini al P-value

non danno indicazioni forti ne in un senso ne nellaltro.
Sotto opportune ipotesi di continuit` a che non è qui il caso di specicare (saranno tutte soddis-
fatte nei casi che considereremo), soddisfa lequazione t I
(dove A è lusuale frontiera di

A R
m
).
In tutti i casi che considereremo, lo si otterrà ponendo luguaglianza al posto della disuguaglianza
che denisce la regione critica del test.
Nellesempio precedente, il P-value è soluzione dellequazione
x
n
= 4
q
1
n
ossia
=
_
x
n
4
/
n
_
Un P-value molto piccolo signica che H
0
pu` o venire riutata con tranquillità.
Un P-value basso ma non piccolissimo, dellordine dei consueti livelli di signicativit` a (cioè
0.01, 0.05, ...) vuol dire che la decisione di riutare H
0
dipende fortemente dal livello di
signicativit` a impostato.
Un P-value alto vuol dire che H
0
pu` o essere plausibilmente accettata.
Ritornando alle propriet` a (i)(iv) del Paragrafo 9.1.4 e al loro legame con il P-value, osserviamo
che
se cadesse la propriet` a (ii) allora potrebbe accadere che t
n
(x
1
, . . . , x
n
) I
per ogni
(0, 1), in tal caso deniamo := 0 (si veda ad esempio il Paragrafo 9.2 nel caso H
0
: ,=
0
e x
n
=
0
);
se cadesse la propriet` a (iii) allora potrebbe accadere che t
n
(x
1
, . . . , x
n
) , I
per ogni
(0, 1), in tal caso deniamo := 1 (si veda ad esempio il Paragrafo 9.2 nel caso H
0
: =
0
e x
n
=
0
).
Ovviamente a questo punto potremmo equivalentemente scegliere di soddisfare il set di pro-
priet` a (i), (iv) e (iv).
9.1.6 Confronto tra errore di Ia specie ed errore di IIa specie
Approfondimento
Consideriamo il test
H
0
:
0
H
1
:
1
.
Supponiamo di scegliere lo stimatore T e le regioni critiche
T I
al variare di (0, 1) soddisfacenti le propriet` a del paragrafo 9.1.4. Sia inoltre la

funzione potenza (che dipende anche dal parametro (0, 1))
Pot(, ) = P
(T I
).
Denizione 9.1.8. Se vale
sup
0
Pot(, ) inf
1
Pot(, )
per ogni (0, 1) allora il test prende il nome di test non distorto.
Se un test è non distorto e vale = sup
0
Pot(, ) allora, denito il valore
massimo dellerrore di IIa specie
:= sup
1
(1 Pot(, )), si ha +
1.
Tuttavia nel caso in cui valga la propriet` a molto frequente
sup
0
Pot(, ) = inf
1
Pot() ( )
allora +
= 1 e quindi se diminuiamo il rischio di errore di Ia specie aumentiamo

automaticamente il rischio di commettere un errore di II specie.
Quindi scegliere valori di troppo bassi porta ad accettare H
0
ma la probabilit` a
di commettere un errore (IIa specie) pu` o essere alta; viceversa scegliere valori di
troppo alti porta a riutare H
0
ma la probabilit` a di commettere un errore (Ia
specie) pu` o essere alta. Pertanto valori tipici per il livello di signicativit` a del test
vanno da 0.01 a 0.1.
Esempio 9.1.9. Nellesempio 9.1.3 si ha
Pot(, ) =
_
q
+
4
/
n
_
= inf
<4
_
q
+
4
/
n
_
= .
9.1.7 Scambio delle ipotesi
Approfondimento
Consideriamo i due test
T
1
_
H
0
:
0
H
1
:
1
T
2
_
H
0
:
1
H
1
:
0
,
dove, al solito,
0
,
1
sono due sottoinsiemi disgiunti dello spazio . Supponiamo
di scegliere lo stimatore T e le regioni critiche, rispettivamente,
T I
T J
,
con (0, 1) soddisfacenti le usuali propriet` a. Deniamo, a campionamento
avvenuto, i due P-value
:= inf (0, 1) : t I
, := inf (0, 1) : t J
e le rispettive funzioni potenza (che dipendono anche dal parametro (0, 1))
Pot(, ) = P
(T I
), Pot
1
(, ) = P
(T J
).
Ricordiamo quindi che
sup
0
Pot(, ) = , sup
1
Pot
1
(, ) = ,
per ogni (0, 1). Distinguiamo tre casi:
1.
`
E possibile scegliere le regioni di riuto in maniera che I
1
(per ogni
(0, 1)) se e solo se
sup
0
P
(T I
) inf
1
P
(T I
),
ed in tal caso + 1.
Per sincerarsene basta osservare che T I
se e solo se , se J
1
I
allora si ha che
= T I
= T , J
1
= 1
e quindi passando al sup
si ha + 1. Per il viceversa si procede in

maniera analoga (sotto opportune ipotesi di continuit` a).
2.
`
1
(per ogni
sup
0
P
(T I
) inf
1
P
(T I
),
(cioè se e solo se il test T
0
è non distorto) ed in tal caso + 1.
3.
`
= J
1
(per ogni
sup
0
P
(T I
) = inf
1
P
(T I
)
ed in tal caso + = 1. Per provarlo basta utilizzare i due punti precedenti.
9.2. VERIFICA DI IPOTESI SULLA MEDIA (VARIANZA NOTA) 123
Il caso di gran lunga pi` u frequente nel seguito sarà lultimo. In questo caso,
supponendo 1/2 (senza perdit` a di generalit` a), allora = 1 > 1/2.
a) I due test sono concordi a livello se e solo se (, 1 ).
b) I due test sono discordi a livello se e solo se min(, 1 ) < .
9.1.8 Confronto tra regioni di riuto e intervalli di condenza
Approfondimento Osserviamo che cè una relazione molto stretta tra intervalli di condenza e
regioni di accettazione (cioè il complementare delle regioni di riuto). Lo schema
è il seguente, dato un campione X
1
, . . . , X
n
proveniente da una legge /
e uno
stimatore T di , quello che si fa è cercare una quantità pivotale Q(T, ) di legge
P
X
e degli insiemi H
per (0, 1) tali che P

X
(H
) = P(Q(T, ) H
) = . Ad
esempio una buona richiesta potrebbe essere che per ogni esista
[0, 1)
tale che per ogni > ) si abbia Q(, ) H
. A questo punto si costruiscono

due famiglie di insiemi S
T,
e J
,
R
m
tali che
S
T,
Q(T, ) H
T J
,
;
osserviamo che S
T,
è un insieme di condenza a livello , mentre linsieme T
J
,
è una regione di riuto a livello 1 , cioè T J
,
è una regione di
accettazione. Se quindi deniamo, con (0, 1) ssato, f : R
m
T()
f(t) := S
t,
allora la funzione di insieme coniugata è, per denizione,
f
() = J
,
.
Esempio. Si consideri il test =
0
(Paragrafo 9.2).
9.2 Verica di ipotesi sulla media (varianza nota)
Arontiamo in modo sistematico il problema del test di ipotesi sulla media. Iniziamo dal caso in
cui la varianza
2
della popolazione sia nota.
Supponiamo per cominciare che lipotesi nulla sia
H
0
:
0
mentre
H
1
: <
0
è lipotesi alternativa.
Il primo passo nella costruzione del test è la scelta di una statistica, detta statistica
test, mediante la quale si stima il parametro incognito a partire dai dati campionari.
Nel caso della media la statistica è naturalmente la media campionaria
X
n
=
1
n
n
i=1
X
i
per la quale vale (esattamente o asintoticamente)
X
n
N
_
,

2
n
_
Osserviamo che stiamo vericando lipotesi
0
che rigetteremo solo nel caso che la
stima ottenuta dal campione sia nettamente al di sotto di
0
.
Fissiamo allora un valore k <
0
e decidiamo di accettare H
0
se risulter` a x
n
k e di
riutarla in caso contario.
La regione critica del test è linsieme dei valori campionari
!( = (x
1
, . . . , x
n
) : x
n
< k
Come scegliere k?
Fissando il livello di signicativit` a del test, viene ssato di conseguenza il valore di
k. Per legare k ad partiamo dalla seguente espressione
P
_
X
n
< k
_
= P
_
X
n
n
<
k
/
n
_
= () Pot().
Poiche X =
Xn
/
n
A(0, 1) (vale approssimativamente per un campione numeroso
in virt` u del Teorema Centrale del Limite, o per un campione qualsiasi estratto da una
popolazione gaussiana), otteniamo
P
_
X <
k
/
n
_
= ().
Il valore massimo di questa probabilit` a, al variare di in H
0
(cioè per
0
), viene
assunto in =
0
. Pertanto
k
0
/
n
= q
q
1
k =
0
q
1
n
Lipotesi H
0
:
0
sarà accettata (al livello ) se la media stimata x
n
risulta maggiore
o uguale di k, altrimenti sarà rigettata:
riuto H
0
se
x
n
0
/
n
< q
1
Poiche k dipende dal livello di signicativit` a impostato, una stessa ipotesi che è stata
riutata ad un certo livello pu` o essere invece accettata ad un livello inferiore.
Il P-value si ottiene ponendo luguaglianza al posto della disuguaglianza precedente:
x
n
0
/
n
= q
1
=
_
x
n
0
/
n
_
Osservazione 9.2.1. Notiamo che il P-value è in generale una funzione complicata di n
perche dipende non solo dal valore numerico n ma anche dal valore numerico della media
campionaria x
n
. Inoltre, anche supponendo che la varianza campionaria sia costante in n il
P-value pu` o avere andamenti monotoni opposti. Prendiamo ad esempio il test appena visto,
9.2. VERIFICA DI IPOTESI SULLA MEDIA (VARIANZA NOTA) 125
il cui P-value è =
_
xn0
/
n
_
. Si vede immediatamente che, supponendo x
n
costante in
n, se per qualche n
0
si ha > 1/2 (i.e x
n0

0
> 0) allora 1 quando n ; viceversa
se < 1/2 (i.e x
n0

0
< 0) allora 0 quando n .
Il tipico esempio è il seguente. In un test sulla media a varianza nota dove H
0
:
0
e H
1
: <
0
si riuta (risp. non si riuta) H
0
ad un livello < 1/2 (risp. > 1/2) in
corrispondenza ad un campione di ampiezza n. Se ora prendiamo un campione di ampiezza
m > n per il quale vale x
m
= x
n
cosa succede al P-value?
R. Il P-value diminuisce (risp. aumenta). Ci` o è dovuto al fatto che riutare (risp. non
riutare) H
0
ad un livello < 1/2 (risp. > 1/2) implica che < 1/2 (risp. < 1/2).
Il caso in cui lipotesi nulla e quella alternativa sono
H
0
:
0
, H
1
: >
0
si tratta in modo del tutto analogo al precedente o, in alternativa, ci si riconduce al caso
precedente ponendo Y
i
:= X
i
, E(Y
i
) = =: e
0
:=
0
e testando lipotesi H
0
:

0
contro H
1
: <
0
.
Si riuta H
0
se
x
n
0
/
n
> q
1
Il P-value è
=
_
0
x
n
/
n
_
Consideriamo il caso in cui lipotesi nulla e quella alternativa sono
H
0
: =
0
, H
1
: ,=
0
In questo caso il test deve essere costruito in modo da riutare uno scostamento, di qualunque
segno, maggiore di un certo k da determinarsi a partire da .
Per determinare la relazione tra k ed scriviamo
P
0
_
[X
n
0
[ > k
_
= P
0
_
[X
n
0
[
/
n
>
k
/
n
_
=
da cui, ricordando che per una v.a. X A(0, 1) si ha
P([X[ > q
1
2
) =
otteniamo
k
/
n
= q
1
2
k = q
1
n
.
Fissato si riuter` a H
0
se
[x
n
0
[ > q
1
n
Il P-value viene ottenuto ponendo luguaglianza
[x
n
0
[ = q
1
n
da cui si ricava
= 2 2
_
[x
n
0
[
/
n
_
.
Consideriamo inne il caso in cui lipotesi nulla e quella alternativa siano
H
0
: ,=
0
, H
1
: =
0
Analogamente al caso precedente riuteremo lipotesi nulla se la media campionaria è ra-
gionevolmente vicina al valore
0
. Per determinare la relazione tra k ed scriviamo
P
_
[X
n
[ < k
_
= P
_
[X
n
[
/
n
<
k
/
n
_
= ().
Osserviamo che lestremo superiore della funzione () su ,=
0
, per continuit` a si ha in
=
0
; inoltre, ricordando ancora che per una v.a. X A(0, 1) si ha
P([X[ < q1+
2
) =
otteniamo
k
/
n
= q1+
2
k = q1+
2
n
.
Fissato si riuter` a H
0
se
[x
n
0
[ < q1+
2
n
.
Il P-value viene ottenuto, al solito, ponendo luguaglianza
[x
n
0
[ = q1+
2
n
da cui si ricava
= 2
_
[x
n
0
[
/
n
_
1.
Esempio 9.2.2. Da una popolazione normale di media incognita e deviazione standard = 3
si estrae un campione di ampiezza 20, e si sottopone a test lipotesi nulla H
0
: = 100.
a) Troviamo la regione critica ai livelli dell1%, del 5% e del 10%.
Per quanto visto sopra la regione critica del test è data da quei valori di x
n
per cui si
ha
[x
n
100[
/
n
> q
1
2
con
0.01 0.05 0.1
q
1
2
2.578 1.96 1.6449
b) Supponendo di avere estratto un campione per cui x
n
= 98.5, si tragga una conclusione,
per ciascuno dei tre livelli di signicativit` a.
Sostituiamo nella formula precedente x
n
con 98.5:
[x
n
100[
/
n
=
[98.5 100[
3/
20
2.2361
al livello dell1% lipotesi nulla viene accettata, mentre ai livelli del 5% e del 10% viene
riutata.
9.3. TEST SU UNA FREQUENZA (GRANDI CAMPIONI) 127
c) Calcoliamo inne il P-value:
= 2 2
_
[x
n
0
[
/
n
_
= 2 2
_
[98.5 100[
3/
20
_
0.0253
Tutte le ipotesi nulle relative a test con livello di signicativit` a inferiore al 2.53% sono
accettate, mentre quelle con livello maggiore sono riutate.
Riassumiamo i risultati ottenuti in questa sezione nella tabella seguente:
H
0
H
1
Riutare H
0
se P-value
=
0
,=
0
[z[ > q
1/2
2 2([z[)

0
>
0
z > q
1
(z)

0
<
0
z < q
1
(z)
,=
0
=
0
[z[ < q
(1+)/2
2([z[) 1
dove z =
x
n
0
/
n
9.3 Test su una frequenza (grandi campioni)
Vogliamo sottoporre a verica dipotesi un campione tratto da una popolazione Bernoulliana
X
i
B(p).
Consideriamo le ipotesi nulle
H
0
: p = p
0
; H
0
: p p
0
; H
0
: p p
0
; H
0
: p ,= p
0
e le loro rispettive alternative
H
1
: p ,= p
0
; H
1
: p > p
0
; H
1
: p < p
0
; p = p
0
.
Utilizziamo la propriet` a che, se il campione è sucientemente numeroso, la media campionaria
tende a una v.a. normale:
X
n
=
1
n
n
i=1
X
i
A
_
p,
p(1 p)
n
_
Perciò
X
n
p
_
p(1 p)/n
A(0, 1).
Possiamo ragionare come nella sezione precedente. Lunica dierenza è che la deviazione stan-
dard viene sostituita con
_
p
0
(1 p
0
); tale risultato si raggiunge con calcoli analoghi a quelli
fatti in precedenza per la media, tenendo conto del fatto che la funzione p (ap)/
_
p(1 p)/n
è una funzione decrescente da (0, 1) in R, per ogni a [0, 1] ed n N
; vale infatti
a p
_
p(1 p)/n
=
n
_
a
_
1 p
p
(1 a)
_
p
1 p
.
_
Pertanto, come nel caso precedente, il valore massimo della potenza (su
0
) viene assunto in
p = p
0
; otteniamo in denitiva la tabella seguente
H
0
H
1
Riutare H
0
se P-value
p = p
0
p ,= p
0
[z[ > q
1/2
2 2([z[)
p p
0
p > p
0
z > q
1
(z)
p p
0
p < p
0
z < q
1
(z)
p ,= p
0
p = p
0
[z[ < q
(1+)/2
2([z[) 1
dove z =
x
n
p
0
_
p
0
(1 p
0
)/n
Esempio 9.3.1. Un partito politico ha ricevuto nelle ultime elezioni il 35% dei voti. Quattro anni
dopo, da un sondaggio dopinione basato su 300 interviste si è trovato che il 32% degli intervistati
ha dichiarato di essere disposto a votare per quel partito. Ci si chiede se, rispetto al risultato
elettorale, la situazione del partito sia peggiorata.
Si tratta di un test dipotesi sul parametro p di una popolazione Bernoulliana B(p). Se pren-
diamo il punto di vista propagandistico (il partito non vuole ammettere facilmente di aver perso
consensi) allora lipotesi da vericare (ipotesi nulla) è
H
0
: p 0.35
mentre lipotesi alternativa è
H
1
: p < 0.35
La standardizzata vale
z =
x
n
p
0
_
p
0
(1 p
0
)/n
=
0.32 0.35
_
0.35 0.65/300
1.0894
Il P-value corrispondente al dato campionario è
= (z) (1.0894) 0.1380
Lipotesi H
0
viene accettata da ogni test il cui livello di signicativit` a sia inferiore al P-value,
cioè al 13.8%.
9.4 Verica di ipotesi sulla media (varianza incognita)
Consideriamo ora il caso in cui la varianza
2
della popolazione sia incognita.
Riprendiamo per cominciare la verica dellipotesi
H
0
:
0
, H
1
: <
0
Come nel caso a varianza nota, ssiamo un valore k <
0
e decidiamo di riutare H
0
se x
n
dovesse
risultare inferiore a k. La probabilit` a che X
n
< k, dato è
P
_
X
n
< k
_
= P
_
X
n
S
n
/
n
<
k
S
n
/
n
_
=
= P
(T
n
< t
()
) = ().
Nella espressione precedente si è sostituito con il suo stimatore S
n
e siamo passati dalla
standardizzata
Xn
/
n
A(0, 1) alla v.a.
T
n
=
X
n
S
n
/
n
t(n 1)
Seguendo lo stesso ragionamento del caso a varianza nota possiamo dire che
= sup
0
() = (
0
)
e quindi ssato il livello di signicativit` a abbiamo
P(T
n
< t
1
) =
9.5. VERIFICA DIPOTESI SULLA VARIANZA 129
ovvero
k
0
S
n
/
n
= t
1
Una volta eettuato il campionamento ed ottenute le stime x
n
ed s
n
riuteremo H
0
se
x
n
0
s
n
/
n
< t
1
Osservazione 9.4.1. Il procedimento seguito è esatto se la popolazione da cui si estrae il campione
è normale; è ancora approssimativamente valido, per popolazioni non normali, se il campione è
sucientemente numeroso.
Il P-value viene ottenuto ponendo
t
1
=
x
n
0
s
n
/
n
Ragionando in modo del tutto analogo si ottengono facilmente le regioni critiche e i P-value
nei casi H
0
:
0
, H
0
: mu =
0
e H
0
: ,=
0
.
I risultati sono riassunti nella tabella seguente.
H
0
H
1
Riutare H
0
se P-value
=
0
,=
0
[t[ > t
1/2
(n 1) t
1/2
(n 1) = [t[

0
>
0
t > t
1
(n 1) t
1
(n 1) = t

0
<
0
t < t
1
(n 1) t
1
(n 1) = t
,=
0
=
0
[t[ < t
(1+)/2
(n 1) t
(1+)/2
(n 1) = [t[
dove t =
x
n
0
s
n
/
n
9.5 Verica dipotesi sulla varianza
Sia X
1
, . . . , X
n
un campione aleatorio estratto da una popolazione normale A(,
2
). Ci proponi-
amo di sottoporre a verica lipotesi H
0
riguardante la varianza
2
.
Esempio 9.5.1. In un processo di produzione di wafer al silicio si richiede che la varianza dello
spessore del singolo wafer sia al pi` u di 0.5 micron. Avendo riscontrato una varianza campionaria di
0.64 micron su un campione di 50 wafer, si vuole sottoporre a verica con livello di signicativit` a
= 0.05 lipotesi H
0
: la deviazione standard dello spessore dei wafer è minore o uguale a 0.5
micron.
Lanalisi è diversa a seconda che il valore medio sia noto o incognito.
Trattiamo innanzitutto il caso in cui sia ignoto. Una statistica test appropriata per la
varianza della popolazione è la varianza campionaria
S
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
Sottoponiamo a verica lipotesi
H
0
:
2

2
0
Il test dipotesi sarà del tipo:
riuto H
0
se S
2
n
> k
per un valore opportuno di k da stabilire in funzione del livello di signicativit` a scelto.
Precisamente k viene ottenuto imponendo che
sup
(0,0]
P(S
2
n
> k) = .
La v.a. (n 1)S
2
n
/
2
ha una legge chi-quadrato con n 1 gradi di libert` a.
Il sup della probabilit` a viene assunto per =
0
, infatti:
P
(S
2
n
> k) = P
_
(n 1)S
2
n
2
>
k(n 1)
2
_
= P
_
Y
n
>
k(n 1)
2
_
dove Y
n

2
(n1). Il il secondo membro della disuguaglianza è decrescente in
2
, e pertanto
la probabilit` a è crescente. Dunque lestremo superiore viene assunto in corrispondenza al
valore massimo per , cioè in
0
.
Otteniamo dunque:
P
_
(n 1)S
2
n
2
0
>
2
1
(n 1)
_
=
dove
2
1
(n 1) è il quantile 1 della legge
2
(n 1).
P
_
S
2
n
>

2
0
n 1
2
1
(n 1)
_
=
il valore di k è perciò
k =

2
0
n 1
2
1
(n 1)
e la regola di decisione del test è in denitiva:
riuto H
0
se (n 1)S
2
n
/
2
0
>
2
1
(n 1).
Il P-value viene ottenuto ponendo luguaglianza
2
1
=
(n 1)S
2
n
2
0
.
Nellesempio 9.5.1 dei wafer di silicio, abbiamo
(n 1)S
2
n
2
0
=
49 0.64
0.5
= 62.72,
2
0.95
(49) 66.34,
pertanto lipotesi H
0
viene accettata.
Il P-value è dato da:
2
1
= 62.72 0.09
Per ogni livello di signicativit` a inferiore al 9% lipotesi nulla viene accettata, mentre per
ogni livello di signicativit` a superiore al 9% viene riutata.
Ragionando in modo analogo per le ipotesi nulle di altro tipo (H
0
:
2
=
2
0
, H
0
:
2
,=
2
0
e
H
0
:
2

2
0
), si ottiene la seguente tabella:
H
0
H
1
Riutare H
0
se P-value
2
=
2
0

2
,=
2
0

2
>
2
1
2
(n 1) o
2
<
2
2
(n 1) = min(
0
, 1
0
)
2

2
0

2
>
2
0

2
>
2
1
(n 1)
2
1
(n 1) =
2
2

2
0

2
<
2
0

2
<
2
(n 1)
2
(n 1) =
2
2
,=
2
0

2
=
2
0

2
(1)/2
(n 1) <
2
<
2
(1+)/2
(n 1) = [2
0
1[
dove
2
=
(n 1)s
2
n
2
0
, s
2
n
=
1
n 1
n
i=1
(x
i
)
2
,
2
0
(n 1) =
2
.
9.6. TEST CHI-QUADRATO DI BUON ADATTAMENTO 131
Nel caso in cui il valore medio sia noto, la statistica test appropriata è
T
2
n
=
1
n
n
i=1
(X
i
)
2
Si ha poi
nT
2
n
2

2
(n)
Le formule della tabella precedente rimangono invariate, a patto di sostituire
2
con la
quantità nt
2
n
/
2
0
, e di sostituire n 1 con n nel numero dei gradi di libert` a della legge
chi-quadrato:
H
0
H
1
Riutare H
0
se P-value
2
=
2
0

2
,=
2
0

2
>
2
1
2
(n) o
2
<
2
2
(n) = min(
0
, 1
0
)
2

2
0

2
>
2
0

2
>
2
1
(n)
2
1
(n) =
2
2

2
0

2
<
2
0

2
<
2
(n)
2
(n) =
2
2
,=
2
0

2
=
2
0

2
(1)/2
(n) <
2
<
2
(1+)/2
(n) = [2
0
1[
dove
2
=
nt
2
n
2
0
, t
2
n
=
1
n
n
i=1
(x
i
)
2
,
2
0
(n) =
2
.
9.6 Test chi-quadrato di buon adattamento
Supponiamo di avere n osservazioni di una variabile X raggruppate in N
c
classi. Le classi possono
rappresentare
valori assunti da una variabile discreta: ogni classe raggruppa le osservazioni che assumono
un determinato valore o un gruppo di valori.
Intervalli di valori assunti da una variabile continua.
caratteristiche qualitative assunte da una variabile categorica (colori, pariti votati, ecc.).
Sia f
r
(k) la frequenza relativa della k-esima classe.
Supponiamo di possedere una stima teorica dei valori che dovrebbe assumere la frequenza
relativa. Ci poniamo il problema di valutare la bont` a di adattamento delle frequenze osservate
alle frequenze teoriche ipotizzate.
Ci chiediamo se la legge esponenziale sia adeguata a descrivere il fenomeno osservato.
Per risolvere questo tipo di problema si considera la seguente statistica test:
Q :=
Nc
i=1
(np
i
f
a
(i))
2
np
i
= n
Nc
i=1
(p
i
f
r
(i))
2
p
i
=
Nc
i=1
f
a
(i)
2
np
i
n = n
_
Nc
i=1
f
r
(i)
2
p
i
1
_ (9.1)
dove f
a
(i) sono le frequenze assolute introdotte nel Capitolo 2 (f
a
(i) = nf
r
(i)), cioè il numero
di osservazioni del campione appartenente alla i-esima classe. Si noti che np
i
sono le frequenze
assolute ipotizzate dalla teoria. In dipendenza dai dati a disposizione (frequenze assolute o relative
si pu` o utilizzare indierentemente una qualsiasi delle forme equivalenti della statistica Q denita
dallequazione 9.1.
La statistica Q viene detta chi-quadrato calcolato dal campione. Q è tanto pi` u piccola
quanto migliore è ladattamento delle frequnze osservate a quelle ipotizzate. Si pu` o allora pensare
di utilizzare Q per fare un test di adattamento, nel modo seguente:
Lipotesi nulla è H
0
: le osservazioni provengono da una popolazione distribuita secondo le
frequenze relative attese p
1
, p
2
, . . . , p
Nc
.
La procedura decisionale del test è del tipo:
si riuti H
0
se Q > k, per un valore di k opportuno.
Il teorema seguente permette di determinare la costante k una volta ssato il livello di signi-
catività :
Teorema 9.6.1. Estraiamo un campione casuale di ampiezza n da una popolazione ripartita in
N
c
classi di frequenze relative teoriche p
1
, p
2
, . . . , p
Nc
(dove p
i
> 0 e
Nc
i=1
p
i
= 1). Sia f
a
(i) la
frequenza assoluta osservata (estratta) relativa alla classe i-esima. Allora la statistica
Q =
Nc
i=1
(np
i
f
a
(i))
2
np
i
è una v.a. la cui legge tende (in legge) alla legge chi-quadrato
2
(N
c
1) per n .
Se le frequenze relative attese p
i
, invece di essere assegnate a priori, sono calcolate dopo aver
stimato r parametri incogniti dai dati del campione, allora la legge limite di Q è
2
(N
c
1 r).
Il teorema ci permette di calcolare una regione di riuto a livello ; infatti sotto lipotesi H
0
(cioè se H
0
è vera) il teorema garantisce che la legge di Qè (approssimativamente) una
2
(N
c
1r)
(con r eventualmente pari a 0), pertanto la probabilit` a di entrare in una regione critica del tipo
Q > k (che sottolipotesi H
0
è la probabilit` a di commettere un errore di Ia specie) è calcolabile
esplicitamente. Pi` u precisamente, il suo valore è in corrispondenza di un preciso valore di k che
si ricava come segue
= P(Q > k) 1 = P(Q k) k =
2
1
(N
c
1 r).
Quindi la procedura decisionale del test dipotesi è:
si riuti H
0
se Q >
2
1
(N
c
1) (oppure Q >
2
1
(N
c
1 r) se r è il numero di parametri
stimati dai dati).
Alternativamente si calcola il P-value risolvendo lequazione Q =
2
1
(N
c
1) (oppure
Q =
2
1
(N
c
1 r)).
Il teorema è applicabile a condizione che le frequenze assolute attese verichino np
i
5 per
ogni i, altrimenti la legge per Q non sarebbe ben approssimabile con la legge chi-quadrato. Se
risultasse che np
i
< 5 per qualche valore di i, allora bisognerebbe accorpare opportunamente
alcune classi contigue, nche la condizione non è vericata.
Esempio 9.6.2. La legge ipotizzata per il tempo di vita in mesi di una lampadina è una legge
esponenziale X Exp(0.33). Su un campione di 100 lampadine sono state riscontrate le seguenti
durate:
freq. oss. f
r
freq. ipotizzata p
X 1 0.39 1 e
0.33
0.281
1 < X 2 0.24 e
0.33
e
0.66
0.202
2 < X 3 0.12 e
0.66
e
0.99
0.145
3 < X 5 0.16 e
0.99
e
1.65
0.180
5 < X 10 ( 5 < X) 0.09 e
1.65
0.192
9.7. TEST CHI-QUADRATO DI INDIPENDENZA 133
Eettuiamo il test di adattamento per un livello di signicativit` a del 10% (dove lultima classe
diviene 5 < X):
Q = 100
_
(0.39 0.281)
2
0.281
+
(0.24 0.202)
2
0.202
+
(0.12 0.145)
2
0.145
+
+
(0.16 0.180)
2
0.180
+
(0.09 0.192)
2
0.192
_
8.3219
mentre
2
1
(N
c
1) =
2
0.9
(4) 7.7794
Risulta Q > 7.7794: lipotesi nulla viene riutata.
Il valore del P-value per il test è dato da:
2
1
(N
c
1) = Q 8.1%
Per livelli di signicativit` a minori dell8.1% lipotesi nulla viene accettata.
Supponiamo adesso che la durata di vita delle lampadine segua una legge esponenziale di
parametro incognito, e ricaviamo il valore di dal campione: = 99/(100 x) 0.46 (per la stima
utilizziamo le classi originali del problema in modo da ottenere un risultato pi` u preciso). Il nuovo
valore di Q è pari a 0.6834. Lo dobbiamo confrontare con
2
1
(N
c
1 1) =
2
0.9
(3) 6.2514.
Questa volta lipotesi nulla viene accettata. Si noti che la legge chi-quadrato possiede solo tre
gradi di libert` a, in quanto è stato stimato a partire dal campione e ciò toglie un grado di libert` a.
Il P-value è pari a 0.877, valore estremamente elevato: lapprossimazione esponenziale risulta
ottima.
Osservazione 9.6.3. Il test di buon adattamento in realtà controlla solo che le frequenze speri-
mentali N
i
/n
Nc
i=1
siano in buon accordo (o meno) con quelle teoriche p
i
(relative alle classi
X I
i
), pertanto qualsiasi altra variabile aleatoria Y per la quale P(Y I
i
) = p
i
P(X I
i
)
otterrebbe lo stesso risultato tramite il test. Anche in questo caso la conclusione forte è riutare
H
0
.
9.7 Test chi-quadrato di indipendenza
Questo test viene applicato al seguente problema: date n osservazioni congiunte di due variabili,
ci si chiede se le due variabili sono indipendenti tra loro.
Il problema era stato arontato per variabli numeriche nel primo capitolo mediante il calcolo del
coeciente di correlazione. Il metodo che esponiamo ora è alternativo e pu` o essere applicato anche
a variabili di tipo categorico.
Consideriamo il caso di due variabili X e Y associate alla medesima popolazione; eettuiamo
un campionamento e raggruppiamo i dati in classi. Se le due variabili sono indipendenti, allora
P(X A
i
, Y B
j
) = P(X A
i
)P(Y B
j
)
dove A
i
sono le classi relative alla variabile X, e B
j
quelle relative a Y .
La probabilit` a P(X A
i
) pu` o essere stimata con la frequenza marginale relativa f
rX
(i), e
analogamente P(Y B
j
) f
rY
(j). Lipotesi di indipendenza si traduce nella
f
teor
r
(i, j) = f
rX
(i)f
rY
(j)
Mentre per le frequenze assolute:
f
teor
a
(i, j) = f
aX
(i)f
aY
(j)/n
Costruiamo la statistica chi-quadrato calcolata dai dati:
Q =
N1
i=1
N2
j=1
(f
a
(i, j) f
aX
(i)f
aY
(j)/n)
2
f
aX
(i)f
aY
(j)/n
Per quanto abbiamo visto prima, per n sucientemente grande e per una suddivisione in classi
con almeno 5 elementi in ogni classe, la statistica Q è approssimabile con una legge chi-quadrato.
I gradi di libert` a della legge chi-quadrato si calcolano in questo modo: Il numero di classi è in
totale N
c
= N
1
N
2
. I valori di f
rX
(i) per i = 1, . . . , N
1
1 sono stimati dal campione (lultimo
valore, per i = N
1
viene ricavato dal fatto che deve essere
N1
i=1
f
rX
(i) = 1). Analogamente anche
i valori di f
rY
(j) per j = 1, . . . , N
2
1 sono stimati dal campione. In totale i parametri stimati
dal campione sono in numero N
1
1 +N
2
1. Dunque il numero dei gradi di libert` a della legge
chi-quadrato è
N
c
1 (N
1
1 +N
2
1) = N
1
N
2
N
1
N
2
+ 1 = (N
1
1)(N
2
1)
Lipotesi nulla è
H
0
: le variabili X e Y sono indipendenti tra loro.
Il test sullipotesi di indipendenza è:
si riuti H
0
se Q >
2
1
((N
1
1)(N
2
1)).
Esercizio 9.7.1. A un campione di 150 persone è stato chiesto il colore e lanimale preferiti. I
risultati sono presentati nella seguente tabella:
rosso blu verde giallo totale
gatto 7 17 16 13 53
cane 8 28 22 9 67
cavallo 5 10 9 6 30
totale 20 55 47 28 150
Ci chiediamo se il colore preferito è indipendente dallanimale preferito, per un livello di
signicativit` a del 10%.
Soluzione.
Applichiamo la formula trovata sopra: si riuta lipotesi dindipendenza se Q >
2
1
((N
1

1)(N
2
1)).
Q 3.2983, mentre
2
1
((N
1
1)(N
2
1)) =
2
0.9
(6) 10.6446: lipotesi nulla viene accettata,
ossia si pu` o concludere che le due variabili colore e animale sono indipendenti. Il P-value è dato
da
2
1
(6) = 3.2983: 77.1%.
9.8 Verica dipotesi sulla dierenza tra due medie
Vogliamo confrontare le medie di due popolazioni diverse, estraendo un campione casuale da
ciascuna.
Si consideri il caso di due popolazioni normali indipendenti: X A(
X
,
2
X
), Y A(
Y
,
2
Y
).
Estraiamo dalla prima un campione casuale di ampiezza n
X
, e dalla seconda una campione di
ampiezza n
Y
; n
X
e n
Y
non sono necessariamente uguali.
Vogliamo confrontare le medie delle due popolazioni; formuliamo a tale ne una delle seguenti
ipotesi nulle:
H
0
:
x
Y
, H
0
:
X

Y
= , H
0
:
X

Y
,= , H
0
:
x
Y

dove è un numero reale ssato.
I test di verica delle ipotesi cambiano a seconda che le varianze siano note oppure incognite.
Tratteremo due casi: quello in cui
2
X
e
2
Y
sono entrambe note, quello in cui
2
X
e
2
Y
sono
9.8. VERIFICA DIPOTESI SULLA DIFFERENZA TRA DUE MEDIE 135
incognite ma uguali e quello in cui sono incognite ma non necessariamente uguali. Nella pratica,
il caso in cui
2
X
e
2
Y
sono entrambe incognite si pu` o ricondurre a quello in cui esse siano note,
purche i campioni siano sucientemente grandi (n
X
, n
Y
> 30), usando le varianze campionarie
come se fossero i valori esatti delle varianze.
Le varianze
2
X
e
2
Y
sono entrambe note. Si costruisce la statistica test
X
nX
Y
nY
A
_
X

Y
,

2
X
n
X
+

2
Y
n
Y
_
ossia
X
nX
Y
nY
(
X

Y
)
_
2
X
nX
+

2
Y
nY
A(0, 1)
Le regole di decisione dei test si ricavano allo stesso modo di quelle trovate nel precedente
capitolo sulla media di una popolazione gaussiana a varianza nota.
Riassumiamo i risultati nella tabella seguente:
H
0
H
1
Riutare H
0
se P-value
X

Y
=
X

Y
,= [z[ > q
1/2
2 2([z[)
X

Y

X

Y
> z > q
1
(z)
X

Y

X

Y
< z < q
1
(z)
X

Y
,=
X

Y
= [z[ < q
(1+)/2
2([z[) 1
dove z =
x
nX
y
nY

_
2
X
nX
+

2
Y
nY
Il secondo caso è quello in cui le varianze sono entrambe incognite ma uguali:
2
X
=
2
Y
=
2
.
Si considera la seguente statistica:
T =
X
nX
Y
nY
(
X

Y
)
_
(n
X
1)S
2
X
+ (n
Y
1)S
2
Y
n
X
+n
Y
2
_
1
n
X
+
1
n
Y
_
Dove S
2
X
e S
2
Y
sono le varianze campionarie dei due campioni. T ha una legge t di Student
con n
X
+n
Y
2 gradi di libert` a. Infatti:
(n
X
1)S
2
X
2

2
(n
X
1),
(n
Y
1)S
2
Y
2

2
(n
Y
1)
per la propriet` a della legge
2
la loro somma è anchessa una legge chi-quadrato, con n
X
+n
Y
2
gradi di libert` a:
S
2
=
(n
X
1)S
2
X
2
+
(n
Y
1)S
2
Y
2

2
(n
X
+n
Y
2)
La variabile aleatoria
X
nX
Y
nY
(
X

Y
)
_
_
2
nX
+

2
nY
_
ha legge A(0, 1). Pertanto per denizione della legge t di Student:
X
nX
Y
nY
(
X

Y
)
_
(n
X
1)S
2
X
+ (n
Y
1)S
2
Y
n
X
+n
Y
2
_
1
n
X
+
1
n
Y
_
=
X
nX
Y
nY
(
X

Y
)

2
n
X
+

2
n
Y
_
S
2
/(n
X
+n
Y
2)
t(n
X
+n
Y
2)
Le regole di decisione dei test si ricavano allo stesso modo di quelle trovate nel precedente
capitolo sulla media di una popolazione gaussiana a varianza incognita.
H
0
H
1
Riutare H
0
se P-value
X

Y
=
X

Y
,= [t[ > t
1/2
(n) t
1/2
(n) = [t[
X

Y

X

Y
> t > t
1
(n) t
1
(n) = t
X

Y

X

Y
< t < t
1
(n) t
1
(n) = t
X

Y
,=
X

Y
= [t[ < t(n)
(1+)/2
t
(1+)/2
(n) = [t[
dove t =
x
nX
y
nY

_
(n
X
1)s
2
X
+ (n
Y
1)s
2
Y
n
X
+n
Y
2
_
1
n
X
+
1
n
Y
_
, n = n
X
+n
Y
2
Lultimo caso che contempliamo è quello in cui entrambe le varianze sono incognite e non
necessariamente uguali; in tal caso si potrebbe mostrare che lo stimatore da utilizzare è
X
nX
Y
nY
(
X

Y
)
_
S
2
X
/n
X
+S
2
Y
/n
Y
t()
dove il grado di libert` a dipende dal campionamento e vale
=
(s
2
X
/n
X
+s
2
Y
/n
Y
)
2
(s
2
X
/n
X
)
2
/(n
X
1) + (s
2
Y
/n
Y
)
2
/(n
Y
1)
.
Pertanto
H
0
H
1
Riutare H
0
se P-value
X

Y
=
X

Y
,= [t[ > t
1/2
() t
1/2
() = [t[
X

Y

X

Y
> t > t
1
() t
1
() = t
X

Y

X

Y
< t < t
1
() t
1
() = t
X

Y
,=
X

Y
= [t[ < t()
(1+)/2
t
(1+)/2
() = [t[
dove t =
x
nX
y
nY

_
s
2
X
/n
X
+s
2
Y
/n
Y
Esercizio 9.8.1. Losservazione dei tempi di cui hanno bisogno i clienti di un ucio postale per
eettuare le loro operazioni ha dato i seguenti risultati: su 150 persone il tempo medio ad op-
erazione allo sportello A è risultato pari a 85 secondi, con una deviazione standard campionaria
di 15 secondi, mentre allo sportello B su 200 persone la media è stata di 81 secondi e deviazione
standard 20 secondi.
Al livello di condenza del 5% ci domandiamo se è plausibile che i clienti passino pi` u tempo al
primo sportello che al secondo.
Soluzione.
Lipotesi nulla è
9.8. VERIFICA DIPOTESI SULLA DIFFERENZA TRA DUE MEDIE 137
H
0
:
A

B
dove
A
e
B
sono i tempi medi passati rispettivamente agli sportelli A e B. Siamo nel caso di
varianze incognite, non necessariamente uguali. Approssimiamo i valori delle varianze vere con
quelli delle varianze campionarie essendo n
A
, n
B
> 30 e quindi utilizziamo il test per due medie a
varianze note:
2
A
= 15
2
,
2
B
= 20
2
.
La regola di decisione del test è: si riuti H
0
se z > q
0.95
, con
z =
x
A
y
B
_
2
A
nA
+

2
B
nB
=
85 81
_
225
150
+
400
200
2.1381
Il quantile vale q
0.95
= 1.6449. Pertanto lipotesi nulla viene riutata.
Calcoliamo inne il P-value: = (2.1381) 1.6%.
Esercizio 9.8.2. In Lombardia negli ultimi 4 inverni sono stati registrati, durante i mesi di Novem-
bre, Dicembre e Gennaio, i seguenti casi di meningite
99/00 13
00/01 15
01/02 20
02/03 18
Supponendo che il numero di abitanti sia rimasto sostanzialmente invariato in questi anni (e pari
a 8.940.000) e tenendo come livello di riferimento la media dei primi 3 anni di monitoraggio, si
vuole decidere se lepidemia di questanno sia pi` u preoccupante.
1. Si adotti il punto di vista precauzionale (non si vuole correre il rischio di sottovalutare
lepidemia): si formuli lipotesi nulla adeguata e si discuta la validità dellipotesi con un
livello di signicativit` a del 5%.
2. Si adotti il punto di vista non allarmistico (non si vuole sopravvalutare lepidemia): si formuli
lipotesi nulla adeguata, si calcoli il P-value e si discuta la validità dellipotesi.
3. Si ripeta il punto (1) utilizzando il confronto tra le medie del 2002 e del 2003 per decidere
se questanno l epidemia sia pi` u virulenta.
4. Si studi la possibilità che la media dei primi 3 anni sia uguale a quella dellultimo anno
supponendo che nellultimo anno non siano stati registrati 10 casi (e che quindi in totale
siano 28).
Soluzione.
1. La media campionaria dei primi tre anni (assunta come vera) sul campione di ampiezza
n = 8940000 è p
0
:= (13 + 15 + 20)/(3n) 1.7897 10
6
, mentre p = 18/n 2.0134 10
6
.
Il test
H
0
:p p
0
H
1
:p < p
0
ha come regione critica (o regione di riuto) e P-value
p p
0
_
p
0
(1 p
0
)/n
< q
=
_
p p
0
_
p
0
(1 p
0
)/n
_
.
Essendo p > p
0
lipotesi nulla non pu` o essere riutata a livelli inferiori a 0.5. In ogni caso si
ha
p p
0
_
p
0
(1 p
0
)/n
0.5
q
0.05
1.6449
=
_
p p
0
_
p
0
(1 p
0
)/n
_
0.6915.
2. Questa volta si tratta di studiare il test
H
0
:p p
0
H
1
:p > p
0
ha come regione critica e P-value
p p
0
_
p
0
(1 p
0
)/n
> q
1
= 1
_
p p
0
_
p
0
(1 p
0
)/n
_
.
Eseguendo i calcoli si ha
q
10.05
1.6449
=
_
p p
0
_
p
0
(1 p
0
)/n
_
0.3185
pertanto ancora non si pu` o riutare lipotesi nulla (equivalentemente utilizzando la regione
critica o il P-value).
3. Si considerano p
1
= 18/n e p
2
= 20/n ed il test
H
0
:p
1
p
2
H
1
:p
1
< p
2
ha come regione critica (o regione di riuto) e P-value
p
1
p
2
_
p
1
(1 p
1
)/n +p
2
(1 p
2
)/n
< q
=
_
p
1
p
2
_
p
1
(1 p
1
)/n +p
2
(1 p
2
)/n
_
.
p
1
p
2
_
p
1
(1 p
1
)/n +p
2
(1 p
2
)/n
18 + 20
0.3244
=
_
p
1
p
2
_
p
1
(1 p
1
)/n +p
2
(1 p
2
)/n
_
0.3728
quindi non possiamo riutare lipotesi nulla al livello di signicativit` a del 5%.
9.9. VERIFICA DIPOTESI PER DUE VARIABILI ACCOPPIATE 139
4. Si considerano n
1
:= n, n
2
:= 3n, p
1
= 28/n
1
3.132 10
6
e p
2
= (20 + 13 + 15)/n
2

1.7897 10
6
ed il test
H
0
:p
1
= p
2
H
1
:p
1
,= p
2
ha come regione di accettazione e P-value
q
/2
<
p
1
p
2
_
p
1
(1 p
1
)/n
1
+p
2
(1 p
2
)/n
2
< q
1/2
= 2
_
1
_
[p
1
p
2
[
_
p
1
(1 p
1
)/n
1
+p
2
(1 p
2
)/n
2
__
.
p
1
p
2
_
p
1
(1 p
1
)/n
1
+p
2
(1 p
2
)/n
2
2.0785
q
0.975
= q
0.025
1.9600
0.0377
pertanto riutiamo lipotesi nulla al livello di signicativit` a del 5%.
9.9 Verica dipotesi per due variabili accoppiate
Sipponiamo di avere un campione di X
1
, . . . , X
n
variabili che rappresentano la misurazione di
una certa grandezza su soggetti dierenti (non è richiesta indipendenza o identica distribuzione).
Supponiamo ora di operare sui soggetti una procedura che introduca in maniera additiva un
disturbo W
i
di legge (,
2
) (o di legge qualsiasi se n è sucientemente grande). Se ora rimisuriamo
per gli stessi soggetti la grandezza in questione ci aspettiamo di osservare una variabile Y
i
=
X
i
+ W
i
; nellipotesi di indipendenza (ed identica distribuzione per W
1
, . . . , W
n
potremo testare
.
Lesempio classico potrebbe essere lecacia di un farmaco per abbassare la pressione arteriosa
dei pazienti; per accertare se il farmaco è ecace si pu` o rilevare la pressione di n pazienti prima
e dopo la somministrazione e vedere se mediamente la pressione arteriosa è scesa.
Analogamente potremmo pensare di dover accertare lecacia di un nuovo tipo di marmitta
per auto; la procedura potrebbe quindi consistere nel misurare le emissioni di alcune sostanze
prima e dopo lutilizzo della nuova marmitta.
Deniamo quindi W
n
:= X
n
Y
n
e supponiamo di voler testare una delle seguenti ipotesi
nulle
H
0
:
x
Y
, H
0
:
X

Y
= , H
0
:
X

Y
,= , H
0
:
x
Y

contro le rispettive alternative; questo equivale a voler testare rispettivamente
H
0
:
W
, H
0
:
W
= , H
0
:
W
,= , H
0
:
W

a varianza incognita. Utilizziamo quindi il seguente stimatore
T :=
X
n
Y
n
S
n
/
n

W
n
S
n
/
n
dove
S
2
n
=
1
n 1
n
i=1
(X
i
Y
i
(X
n
Y
n
))
2
1
n 1
n
i=1
(W
i
W
n
)
2
.
I risultati sono riassunti nella tabella seguente.
H
0
H
1
Riutare H
0
se P-value
X

Y
=
X

Y
,= [t[ > t
1/2
(n 1) t
1/2
(n 1) = [t[
X

Y

X

Y
> t > t
1
(n 1) t
1
(n 1) = t
X

Y

X

Y
< t < t
1
(n 1) t
1
(n 1) = t
X

Y
,=
X

Y
= [t[ < t(n 1)
(1+)/2
t
(1+)/2
(n 1) = [t[
dove t =
x
n
y
n
s
n
/
n
s
2
n
=
1
n 1
n
i=1
(x
i
y
i
(x
n
y
n
))
2
.
Esercizio 9.9.1. Unindustria ha messo a punto un programma per ridurre le ore perse per incidenti
sul lavoro. Si sono calcolate, per ciascuno dei 10 stabilimenti simili le ore perse (siano X
i
) per gli
incidenti nel mese antecedente allintroduzione della procedura e nel mese successivo (siano Y
i
).
Sapendo che
10
i=1
(Y
i
X
i
) = 21.5 mentre
10
i=1
(Y
i
X
i
)
2
= 127.25 si pu` o ritenere davvero
ecace il programma al 5%? Si pu` o ritenere che la media delle ore perse si sia ridotta di 2 ore al
5%?
Soluzione.
Per stabilire lecacia del programma tramite una conclusione forte (cioè per avere una forte
evidenza della sua ecacia) scegliamo H
0
:
Y

X
e H
1
:
Y
<
X
.
Se Z
i
:= Y
i
X
i
allora Z
10
= 2.15 mentre S
2
10
= (127.25 10 (2.15)
2
)/9 9.003.
Utilizziamo la seguente regione di riuto a livello
T =
Z
10
S
10
/
n
< t
(9)
dove la stima di T è t = 2.266 (essendo = 0). Dalle tavole t
0.05
(9) = t
0.95
(9) = 1.833114
quindi riuto H
0
al livello 0.05.
Alternativamente, stimiamo il P-value come segue: 2.266 = t
(9) t
1
(9) da cui 2.266 =
t
1
(9). Essendo
t
0.975
(9) = 2.262159 < 2.266 < 2.821434 = t
0.99
(9)
si ha t
0.975
(9) < t
1
(9) < t
0.99
(9) da cui 0.025 < < 0.01 (anche se di fatto t
0.975
(9) t
1
(9)
da cui 0.025 ).
Per la seconda parte si utilizza la seguente regione di riuto a livello
T =
Z
10
S
10
/
n
< t
(9)
dove stavolta la stima di T è t = 0.1581 (essendo = 2) che non ci consente di riutare H
0
a
livello 0.05. Similmente al caso precedente si ottiene una stima per il P-value > 0.2.
9.10 Test sulla regressione lineare
In questo paragrafo studieremo ladabilità dei parametri di una regressione lineare (si vedano
i Paragra 2.4.4 e 2.4.5 per i dettagli) e calcoleremo gli intervalli di condenza per i coecienti
della regressione stessa e per le previsioni del nostro modello lineare.
Assumiamo la seguente relazione tra i regressori X
1
, . . . , X
k
e la variabile Y
Y =
0
+
1
X
1
+ +
k
X
k
+
dove è una variabile A(0,
2
); pertanto se consideriamo un campione di ampiezza n avremo
y
i
=
0
+
1
x
(1)
i
+ +
k
x
(k)
i
+
i
, i = 1, 2, . . . , n
oppure, in forma vettoriale, y = X dove la matrice X sarà denita nel prossimo paragrafo.
9.10. TEST SULLA REGRESSIONE LINEARE 141
Nel Paragrafo 2.4.5 abbiamo visto come stimare il coecienti della regressione utilizzando degli
stimatori

j
(dove j = 1, . . . , k), qui approfondiremo lo studio stimando la varianza
2
comune a
tutti gli errori
i
(che supporremo indipendenti).
Successivamente introdurremo dei test in grado di giudicare ladabilita della regressione e
dei singoli coecienti. In questo modo saremo in grado di capire se esiste almeno un regressore X
i
signicativo (con
i
signicativamente diverso da 0) e quali siano invece i regressori trascurabili.
Ci occuperemo inne delle previsioni, cioè di dare un intervallo di condenza per la risposta
del sistema (il valore di Y ) in corrispondenza ad una k-upla (x
1
, . . . , x
k
); tale risposta dovrà
tenere conto dellerrore sulla stima dei coecienti e del suo errore intrinseco di misurazione. Per
questo motivo introduciamo anche il concetto di risposta media del sistema, cioè il valore atteso
di Y condizionato alla k-upla (x
1
, . . . , x
k
); questo valore atteso coinvolge solo lerrore , pertanto
lintervallo di condenza per questa grandezza dipende solo dallincertezza con cui conosciamo i
coecienti della regressione.
Ricordiamo alcune grandezze introdotte nei Paragra 2.4.4 e 2.4.5. Abbiamo denito
la devianza totale DT =
n
i=1
(y
i
y)
2
,
la devianza spiegata DS =
n
i=1
( y
i
y)
2
dove y
i
sono i valori previsti (o pi` u precisamente i valori
attesi delle previsioni) y
i
=
0
+
k
j=1
j
x
(j)
i
),
ed inne la devianza dei residui DR =
n
i=1
(y
i
y
i
)
2
;
vale inoltre la relazione DT = DS +DR. In alcuni testi si utilizzano le abbreviazioni SS
y
o SST,
SSR e SSE rispettivamente per DT, DS e DR.
Deniamo i tre gradi di libert` a delle devianze f
DT
:= n 1, f
DS
:= k e f
DR
:= f
DT
f
DS
=
n (k + 1); ovviamente ha senso fare la regressione solo in presenza di un numero suciente di
dati (n k + 1).
9.10.1 Analisi della varianza
Ricordiamo le denizioni date in precedenza
s
2
x
:=
1
n 1
n
i=1
(x
i
x)
2
=
1
n 1
n
i=1
x
2
i

n
n 1
x
2
=
1
n 1
(
n
i=1
x
2
i

1
n
(
n
i=1
x
i
)
2
)
s
2
y
:=
1
n 1
n
i=1
(y
i
y)
2
=
1
n 1
n
i=1
y
2
i

n
n 1
y
2
=
1
n 1
(
n
i=1
y
2
i

1
n
(
n
i=1
y
i
)
2
)
s
xy
:=
1
n 1
n
i=1
(x
i
x)(y
i
y) =
1
n 1
n
i=1
x
i
y
i
n
n 1
x y =
1
n 1
(
n
i=1
x
i
y
i
1
n
(
n
i=1
x
i
)(
n
i=1
y
i
)).
Supponendo che gli errori
i
siano indipendenti con media 0 e varianza
2
, ricordando che lo
stimatore (vettoriale) dei coecienti della regressione è

:= (X
T
X)
1
X
T
y dove
X =
_
_
1 x
(1)
1
x
(2)
1
. . . x
(k)
1
1 x
(1)
2
x
(2)
2
. . . x
(k)
2
.
.
.
.
.
.
.
.
.
.
.
.
1 x
(1)
n
x
(2)
n
. . . x
(k)
n
_
_
si ottiene immediatamente che
E(
) = E((X
T
X)
1
X
T
y) = E((X
T
X)
1
X
T
(X +)) =
dove è il vettore aleatorio di componenti
i
. Quindi lo stimatore è corretto. Similmente si calcola
la varianza dei coecienti in termini della matrice simmetrica
C := (X
T
X)
1
dove, per convenzione, chiameremo C
i,j
lelemento della riga i + 1 e colonna j + 1 (con i, j =
0, . . . , k); precisamente la matrice di covarianza di

è cov(
) =
2
C cioè cov(
i
,
j
) =
2
C
i,j
,
pertanto in particolare Var(
i
) =
2
C
i,i
. Si pu` o dimostrare che uno stimatore corretto per
2
è

2
=
DR
n k 1
=
n
i=1
(y
i
y
i
)
2
n k 1
.
Attraverso luso di questo stimatore deniamo la stima dellerrore standard se(
i
) del coeciente
i
come
se(
i
) :=
_

2
C
i,i
.
Nel caso di regressione semplice le formule si semplicano nel seguente modo
(X
T
X)
1
=
_
1
(n1)s
2
x
x
(n1)s
2
x
x
(n1)s
2
x
n
i=1
x
2
i
n(n1)s
2
x
_
da cui
se(
1
) =

2
(n 1)s
2
x
=
DR
(n 2)(
n
i=1
x
2
i
n x
2
)
se(
0
) =

2
_
1
n
+
x
2
(n 1)s
2
x
_
=
DR
n(n 2)
n
i=1
x
2
i
(
n
i=1
x
2
i
n x
2
)
.
9.10.2 Intervalli di condenza per i coecienti della regressione
Sotto le ipotesi che gli errori
i
siano indipendenti ed identicamente distribuiti con distribuzione
A(0,
2
) si ha che le osservazioni Y
1
, . . . , Y
n
sono anchesse variabili normali, i.i.d. con media
0
+
k
j=1
x
(j)
i

j
e varianza
2
. Da un noto teorema di teoria delle probabilit` a (chi fosse interessato
veda i vettori aleatori ed in particolare i vettori gaussiani) si ha che le variabili

i
sono normali
con media
i
e varianza
2
C
i,i
. Si mostra che le statistiche
i
_

2
C
i,i
, i = 0, 1, . . . , k
sono distribuite come una t-student con nk1 gradi di libert` a. Pertanto lintervallo di condenza
bilatero a livello per il coeciente
i
è
i
t
((1+)/2,nk1
_

2
C
i,i

i

i
+t
(1+)/2,nk1
_

2
C
i,i
.
Nel caso di regressione semplice gli intervalli sono
1
t
(1+)/2,nk1

2
(n 1)s
2
x

1

1
+t
(1+)/2,nk1

2
(n 1)s
2
x
0
t
(1+)/2,nk1

2
_
1
n
+
x
2
(n 1)s
2
x
_

0

0
+t
(1+)/2,nk1

2
_
1
n
+
x
2
(n 1)s
2
x
_
.
9.10.3 Test sui coecienti della regressione
Il primo test che arontiamo è quello di signicatività della regressione le cui ipotesi sono
H
0
:
1
=
2
= =
k
= 0
H
1
: i 1, 2, . . . , k tale che
i
,= 0.
9.10. TEST SULLA REGRESSIONE LINEARE 143
In caso H
0
non possa essere riutata dovremo rigettare la regressione come non signicativa.
La statistica corretta con cui eseguire il test si dimostra essere
F :=
DS/f
DS
DR/f
DR
=
DS/k
DR/(n k 1)
=
MS
S
MS
R
dove MS
S
= DS/k e MS
R
= DR/(n k 1) sono rispettivamente lerrore medio spiegato e
lerrore medio residuo.
Il criterio di riuto o regione critica del test al livello di signicativit` a è
F > F
1,k,nk1
dove F
,i,j
è il quantile della distribuzione F con i e j gradi di libert` a. Al solito il P-value
soddisfa lequazione F = 1 F
1,k,nk1
.
Il secondo test che analizziamo serve a comprendere se un regressore sia signicativo (i.e. ha
coeciente dierente da 0) oppure no. Pertanto formalizziamo il seguente test:
H
0
:
j
= 0
H
1
:
j
,= 0
cioè supponiamo il regressore non signicativo no a prova contraria. La statistica test appropriata
è
T :=
j
_

2
C
j,j
=
j
se(
j
)
con regione di riuto a livello
t > t
1/2,nk1
o t < t
1/2,nk1
Se h
0
non pu` o essere riutata allora il regressore X
j
pu` o essere cancellato dal modello. Si noti
che, a rigore, questo test controlla la signicativit` a del regressore X
j
quando tutti gli altri regressori
sono presenti; infatti il test dipende da tutti i coecienti. Quindi quello che stiamo confrontanto
è un modello con tutti i regressori compreso X
j
contro un modello con tutti i regressori tranne
X
j
.
9.10.4 Intervalli di condenza per una previsione
Supponiamo di voler stimare la risposta del sistema in corrispondenza al valore
_
_
_
_
_
_
x
(0)
0
x
(1)
0
.
.
.
x
(k)
0
_
_
_
_
_
_
sia pertanto
x
0
:=
_
_
_
_
_
_
_
_
1
x
(0)
0
x
(1)
0
.
.
.
x
(k)
0
_
_
_
_
_
_
_
_
Sappiamo che la risposta del sistema sarà y(x
0
) := x
T
0
+ mentre la risposta media sarà
y
m
(x
0
) := x
T
0
(il termine media si riferisce solo allerrore che è lunico variabile in gioco in
questo momento).
Tuttavia noi non conosciamo i veri valori dei coecienti del vettore , ma solo le stime
=
_
_
_
_
_
_
1
.
.
.
k
_
_
_
_
_
_
pertanto è naturale attendersi di poter calcolare un intervallo di condenza per le due risposte; lin-
tervallo per la risposta, in particolare, dovrà tener conto della presenza dellerrore di misurazione
.
Cominciamo dallintervallo per la risposta media y
m
(x
0
); lo stimatore naturale è y
m
(x
0
) := x
T
0

che ha media x
T
0
e varianza
2
x
T
0
(X
T
X)x
0
. Si potrebbe mostrare che lintervallo di condenza
a livello è
y
m
(x
0
) t
(1+)/2,nk1
_

2
x
T
0
(X
T
X)x
0
y
m
(x
0
) y
m
(x
0
) +t
(1+)/2,nk1
_

2
x
T
0
(X
T
X)x
0
.
Nel caso di regressione semplice lintervallo si riduce a
y
m
(x
0
) t
(1+)/2,nk1
_

2
_
1
n
+
(x
(1)
0
x)
2
(n 1)s
2
x
_
y
m
(x
0
) y
m
(x
0
)
+t
(1+)/2,nk1
_

2
_
1
n
+
(x
(1)
0
x)
2
(n 1)s
2
x
_
,
dove y
m
(x
0
) =

0
+

1
x
(1)
0
.
La stima puntuale per la risposta y(x
0
) è y(x
0
) := x
T
0

, mentre si pu` o mostrare che lintervallo
a livello è
y(x
0
) t
(1+)/2,nk1
_

2
(1 +x
T
0
(X
T
X)x
0
) y(x
0
)
y(x
0
) +t
(1+)/2,nk1
_

2
(1 +x
T
0
(X
T
X)x
0
).
Nel caso di regressione semplice la formula precedente si riduce a
y(x
0
) t
(1+)/2,nk1
_

2
_
1 +
1
n
+
(x
(1)
0
x)
2
(n 1)s
2
x
_
y(x
0
) y(x
0
)
+t
(1+)/2,nk1
_

2
_
1 +
1
n
+
(x
(1)
0
x)
2
(n 1)s
2
x
_
,
dove y(x
0
) =

0
+

1
x
(1)
0
.

Appunti Di Probabilità e Statistica (2012, 144p)

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Probabilità e Statistica (2012, 144p)

Caricato da

Copyright:

Formati disponibili

1

Appunti di Probabilit`a e Statistica

individuando la classe cui appartiene e successivamente stimandone il valore.

sono linearmente dipendenti se e solo se la matrice n n

non tutti nulli tali che

) allora esiste una -algebra, detta -algebra prodotto

tale che la funzione da a valori in

per ogni I. La -algebra di Borel !

almeno uno degli eventi della collezione A

tutti gli eventi della collezione A

) = 0.8, P(A B) = 0.01.

. Pertanto, dalla Denizione 3.1.7 e propriet` a

) = 1 P(A B) = 1 [P(A) +P(B) P(A B)] =

) +P(A B) P(A) = 0.8 + 0.01 0.1 = 0.71

detta -algebra prodotto di T

) = 2/3. Dalla formula delle probabilit` a totali

) = P(W P), poiche 0 P(W P

) = 1/3 1/2 + 2/3 1/2 = 1/2.

) dove = 1, pertanto la risposta `e P(G) = P(G[C) =

con la propriet` a che f(a) A, A

(S) =[ : soddisfa tutte le P

() = [[. Chiaramente f(S) := N

) = 1 pertanto la variabile pu` o essere

. Dora in poi considereremo X Geom(p) con p (0, 1].

si dice processo di Poisson di intensit`a se e solo

() `e una misura di conteggio per ogni (i.e. esiste A = A

tale che (B) = #A B).

`e univocamente determinata dal parametro () che ne rappresenta anche il valore

> 0 tale che per ogni scelta di n intervalli reali disgiunti [a

(denita 0 per esempio dove F

(denita 0 per esempio dove F

Densit` a normale standard A(0, 1) e sua funzione di ripartizione

ha distribuzione A(0, 1);

non sono indipendenti: infatti

non `e normale s > 0;

`e lunico numero che soddisfa

Quantili della normale standard

1.2816 1.6449 1.96 2.3263 2.7578 3.0902 3.2905

[f[dP < +; questo

() := min(0, f()) sono entrambe integrabili e per denizione

sia integrabile, la denizione `e poi la stessa con le

) = 0 e per ogni M la propriet` a T vale.

`e aperto, quindi sono entrambi misurabili. Inoltre, se `e

tale che per ogni m n e per ogni x X

. La legge `e nota a meno dei parametri dove `e

`e una n-upla di v.a. X

(T) g() si dice distorsione

(T), g() +|g(|

(n) i quantili della legge chi-quadrato:

(n) i quantili della legge t(n):

: Y T(X), la funzione dinsieme

= f. Sia ora (X, T) uno spazio misurabile, una funzione f :

: T(Y ) prende il nome di intervallo di condenza per g() a

; nel seguito sottintenderemo

n. Tale intervallo casuale ha probabilit` a di contenere

n; quindi per diminuire

) ) pu` o avere innite soluzioni

(che chiameremo intervallo di con-

n non `e pi` u nota a priori, ma `e a sua volta una

viene ottenuto di conseguenza.

) se e solo se esiste inf(A) ed in tal caso sup(A) = inf(A

) se e solo se esiste inf(A) ed in tal caso sup(A

. In generale valori di vicini al P-value