Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Probabilità e Statistica (E. L. Piazza)
Probabilità e Statistica (E. L. Piazza)
Probabilità e Statistica (E. L. Piazza)
Probabilità
e statistica
appunti di teoria ed esercizi risolti
--
--- --
---
SOCIETA
EDITRICE
-- ESCULAPID
ISBN 978-88-7488-701-9
Fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di cia-
scun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dal-
1'art. 68, comma 4 della legge 22 aprile 1941, n. 633 ovvero dall'accordo stipulato tra SIAE,
AIE, SNS e CNA, CONFARTIGIANATO, CASA, CLAAI, confcommercio, confesercenti
il 18 dicembre 2000.
Le riproduzioni ad uso differente da quello personale potranno avvenire, per un numero di
pagine non superiore al 15% del presente volume, solo a seguito di specifica autorizzazio-
ne rilasciata da AIDRO, via delle Erbe, n. 2, 20121 Milano, Telefax 02-80.95.06, e-mail:
aidro@iol.it
SOCIETÀ
EDITRICE
ESCULAPID
40131 Bologna - Via U. Terracini 30 -Te!. 051-63.40.113 - Fax 051-63.41.136
www.editrice-esculapio.it
probabilità e statistica
Questi appunti sono tratti da lezioni tenute a partire dal 1991 a studenti del primo e
secondo anno di varie Facoltà di Ingegneria del Politecnico di Milano.
Gli argomenti esposti si dividono in più parti. La prima riguarda la Statistica Descrittiva
con una rapida esposizione di temi inerenti all'analisi dei dati osservati; la seconda il
Calcolo delle Probabilità, con l'esposizione dei modelli probabilistici più comuni; la terza
riguarda la Statistica Inferenziale con l'esposizione di tecniche di stima e di verifica di
ipotesi per parametri incogniti presenti nella funzione di distribuzione relativa a una
certa popolazione. Ci sono infine due capitoli che presentano brevemente i modelli di
previsione e i processi stocastici. Ma prima c'è un cuore ...
"Addio", disse la volpe. "Ecco il mio segreto. È molto semplice: non si vede bene che
col cuore. L'essenziale è invisibile agli occhi".
"L'essenziale è invisibile agli occhi", ripeté il piccolo principe, per ricordarselo.
"È il tempo che tu hai perduto per la tua rosa che ha fatto la tua rosa così importante".
"È il tempo che ho perduto per la mia rosa ... " sussurrò il piccolo principe per ricordar-
selo.
"Gli uomini hanno dimenticato questa verità. Ma tu non la devi dimenticare. Tu diventi
responsabile per sempre di quello che hai addomesticato. Tu sei responsabile della tua
rosa ... "
"Io sono responsabile della mia rosa ... " Ripetè il piccolo principe per ricordarselo .
Indice
0.1 Introduzione X
Esempi di modelli Xl
0.2 Tre modelli probabilistici frequenti XlV
0.3 Nota storica XVll
Capitolo 10
10.7 Funzione generatrice di probabilità 247
10.8 Entropia 251
10.9 Compressione di un segnale 253
10.10 Test di avvenuto apprendimento 256
Capitolo 11 Comportamenti asintotici 259
11.1 Il campionamento
11.2 Successioni di va 260
11.3 Convergenza in legge 266
11.4 Teorema centrale del limite 267
Importante: uso del TCL per un test 270
11.5 Approssimazioni via TCL 273
11.6 Altri tipi di convergenze 278
Convergenza in probabilità
Convergenza q.c.* 279
11.7 La legge debole dei grandi numeri 280
11.8 Distribuzioni x2 e t-Student 284
11.9 La distribuzione di Cauchy 295
11.10 La distribuzione della va F di Fisher 296
11.11 Nota storica 298
11.12 Test di avvenuto apprendimento 300
Capitolo 12 Stimatori e stime 303
12.1 Statistiche, stimatori, quantità pivotali 304
12.2 Correttezza 306
12.3 Stime asintotiche 308
12.4 Consistenza
12.5 Stimatore di una distribuzione 309
12.6 Efficienza 311
12.7 Stimatori per via analitica 314
12.8 Metodi per la ricerca di uno stimatore 317
Metodo dei momenti e della massima verosimiglianza
Proprietà degli stimatori MLE 320
Quando non esiste uno stimatore MLE 323
12.9 Riepilogo sul concetto di stimatore
12.10 Test di avvenuto apprendimento 325
Capitolo 13 Stima intervallare 329
13.1 le per la media di una popolazione normale (a 2 nota) 330
13.2 le per la media di una popolazione normale (a 2 ignota) 333
13.3 le per la varianza di una popolazione normale (µ ignota) 336
13.4 Osservazioni importanti 338
13.5 le asintotico per il parametro 0 di una popolazione 339
Bernoulli 340
Binomiale, geometrica 344
Poisson 345
Esponenziale 346
Uniforme continua 347
Un altro le per la proporzione p 348
13.6 le per la differenza di due medie (popolazioni normali)
Caso di medie non note e varianze note
Vll
Capitolo 13
Caso di medie e varianze non note 350
13.7 Test di avvenuto apprendimento 352
Capitolo 14 Verifica delle ipotesi 355
14.1 Test parametrici 356
Caso generale 361
Ipotesi nulla e alternativa - Test e regione critica
Errori di I e II tipo e Potenza del test 362
Tipi di ipotesi 362
Ampiezza del test 363
Il p - value 364
Passi di un test d'ipotesi 364
Test e informazioni sulla popolazione 366
Campioni di grande dimensione: test per la media di una
366
popolazione (varianza nota, momento secondo finito)
Test per la media di una popolazione normale (varian. ignota) 368
Test per la media di una popolazione di Bernoulli 370
Confronto tra il test d'ipotesi per la media di una
popolazione qualunque (varianza nota, campione grande) 372
e per la proporzione di una popolazione di Bernoulli
Il test x 2 per la varianza di una popolazione normale 373
Test per confronto medie e varianze gaussiane 374
Test d'ipotesi e intervalli di confidenza* 374
Test d'ipotesi semplici* 378
Riassunto dei test parametrici 382
14.2 Test non parametrici 387
Test di Pearson ( o test chi-quadrato) 388
Test di Kolmogorov-Smirnov 393
Test q-q plot di normalità 403
Un altro test di normalità 404
Test di indipendenza 406
14.3 Test di avvenuto apprendimento 408
Capitolo 15 Modelli di previsione 411
15.1 Regressione univariata lineare
15.2 Varianza spiegata e varianza residua 414
15.3 Stimatori di bo, b1 e di a 416
Correttezza di boe b1 417
Distribuzione di boe b1
Uno stimatore corretto per a 2 418
15.4 Il coefficiente di variazione r 2 419
15.5 Una pulce nell'orecchio 420
15.6 Inferenza su b1 428
15.7 Predizione di eventi futuri: inferenza sul responso Y 431
15.8 Analisi della varianza: caso univariato 434
15.9 Riassunto di risultati univariati 435
15.10 Regressione multivariata lineare 437
Proprietà del modello gaussiano 442
La legge di S SE e la stima di a 2
Test e intervalli di confidenza per i parametri bi 444
Vlll
Capitolo 15
Test e intervallo di confidenza per a 2 445
15.11 Analisi della varianza 446
15.12 Tabella ANOVA
15.13 Regressione univariata lineare 455
15.14 Riassunto di risultati multivariati 458
15.15 Test di avvenuto apprendimento 460
Capitolo 16 Processi stocastici: cenni 463
16.1 Introduzione
16.2 Processi a tempo discreto 466
16.3 Processo di Poisson 468
16.4 Il moto browniano 470
Gaussianità 472
Media e correlazione del moto browniano 473
16.5 Catene di Markov a tempo discreto 474
Classificazione degli stati 479
Equilibrio 483
16.6 Esempi 484
16.7 Nota storica 493
Capitolo 17 Aggiunte e spiegazioni 495
17.1 Test confronto medie di gaussiane
17.2 Test confronto di varianze di gaussiane 499
17.3 IC del rapporto di varianze di gaussiane 501
17.4 Confronto proporzioni 504
IC per la differenza tra proporzioni
Test per la differenza tra proporzioni 506
17.5 Errori di II tipo 509
Test bilatero per la media di una gaussiana, varianza nota
Curva Operativa Caratteristica 516
Test unilatero per la media di una gaussiana, varianza nota
Curva Operativa Caratteristica 521
Test bilatero per la media di una gaussiana, varianza ignota 522
17.6 Modellazione lineare 527
Una questione di terminologia
Conciliazione formule sulla scomposizione della varianza
Collinearità e matrice di Hilbert 528
17. 7 Legge di propagazione dell'errore 534
Approssimazione della media della va g(X)
Approssimazione della varianza della va g(X) 535
17.8 Convergenza in probabilità a una costante 536
Esercizi vari 538
0.1 Probabilità
0.2 Statistica 565
lX
Appendici
XXl
0.1 Arrotondamento (dei dati)
0.2 Teoria degli insiemi XXll
Diagrammi di Venn xxm
Teoremi di De Morgan
Funzione indicatrice XXlV
0.3 Logica
0.4 Numeri binari xxv
0.5 La formula di Stirling XXVll
0.6 Combinazioni con ripetizione
0.7 Coniche XXVlll
O. Matrici e vettori xxx
0.8 Misure e funzioni misurabili xl
0.9 Serie numeriche xliii
Serie a termini non negativi
0.10 Serie di funzioni xlv
0.11 La funzione r
0.12 Una formula importante per la normale xlvi
0.13 Una formula importante per la media
0.14 Derivazione sotto il segno di integrale xlvii
0.15 Determinante Jacobiano xlviii
0.16 La condizione di Lindeberg xlix
0.17 Correlazioni bizzarre
0.18 Errori dei pollster: elezioni presidenziali Usa 1936 e 1948 li
0.19 L'illusione di sapere (soluzioni) liii
La legge di Bayes
Il paradosso delle 3 scatole
Premesse sui quantili lv
Appendice 2 tavola della N(O, 1) lvii
Appendice 3 tavola della t - Student lviii
Appendice 4 tavola della chiquadrato lix
Appendice 5 tavola della Poisson lx
Appendice 6 tavola della distribuzione F lxii
Appendice 7 funzione di Kolmogorov lxviii
Appendice 8 OC Curve lxxi
Appendice 9 specchio dei legami tra distribuzioni lxxvi
Appendice 10 Le più comuni distribuzioni discrete lxxvii
Appendice 11 Le più comuni distribuzioni continue lxxviii
Appendice 12 specchio sugli intervalli di confidenza lxxix
Appendice 13 specchio dei test d'ipotesi parametrici per gaussiane lxxx
Appendice 14 specchio dei test d'ipotesi per proporzioni lxxxi
Appendice 15 tempi d'attesa lxxxii
Appendice 16 tavola sulla equità dei giochi d'azzardo in Italia lxxxiii
Appendice 17 Itaca lxxxv
Indice analitico lxxxvii
Per familiarizzare con il modo di ragionare matematico si consiglia di imparare almeno
le dimostrazioni di Teoremini e Teoremi accanto ai quali è stato posto il simbolo(:•).
Queste sono, tra l'altro, le dimostrazioni richieste agli orali del mio corso.
X
0.1 Introduzione
Nel dicembre del 1926 Albert Einstein, che aveva vinto il Nobel nel 1921, scrive a Max
Born, che vincerà il Nobel solo nel 1954 ma che già allora era uno dei fisici più eminenti
della Germania e lavorava con Heisenberg: "Tu ritieni che Dio giochi ai dadi col mondo; io
invece ritengo che tutto ubbidisca a una legge". E ancora in un'altra lettera successiva:
"Non vorrei lasciarmi indurre ad abbandonare la causalità rigorosa senza prima aver
lottato in modo assai diverso da come si è fatto finora. L'idea che un elettrone esposto a
una radiazione possa scegliere liberamente l'istante e la direzione in cui spiccare il salto
(da un'orbita di energia all'altra ndr.) è per me intollerabile. Se così fosse, preferirei fare
il ciabattino, o magari il biscazziere, anziché il fisico".
Ora noi non sappiamo se Dio gioca ai dadi o no. È però certo che abbiamo spesso la
sensazione di assistere a una delle innumerevoli partite dove il risultato dipende dal caso.
Se così non fosse potremmo conoscere con certezza il futuro.
Predire un certo futuro valutando "scientificamente" le probabilità di successo è il com-
pito che ci proponiamo affrontando gli argomenti di questo corso.
La nostra indagine riguarderà il mondo reale. Il nostro studio avrà bisogno di farsi
un'immagine "matematica" del particolare aspetto del mondo reale che ci interessa stu-
diare. Tale immagine prende il nome di modello ed è in generale costituita da una o
più equazioni e da una o più funzioni.
previsione
si
sono stati presi in considerazione 1ulli gli no, modifiche alla definizione dei casi possibili
aspe1tidel proble ma che interessano ?
Il matematico o l'ingenere seguono un percorso logico che conduce alla costruzione e alla
verifica di un modello. La correttezza della sua formulazione deve subire un test che
permetta di controllare il "buon adattamento" del modello stesso con il fenomeno del
mondo reale che si è interessati a indagare. È fondamentale perciò avere dimestichezza
Xli
con l'osservazione dei dati e con la valutazione del loro significato. A questo problema è
dedicato il primo capitolo del corso, capitolo che riteniamo di fondamentale importanza.
La narrazione che il celebre matematico Poisson fa dell'origine del Calcolo delle Probabi-
lità è un esempio di questo procedimento. Racconta Poisson che nell'anno 1654, durante
un lungo viaggio in carrozza da Parigi verso Pitou, il cavaliere de Méré, uomo di mondo
e giocatore d'azzardo chiede consiglio all'amico Blaise Pascal 1 . De Meré ben sapeva che,
giocando con un solo dado, se scommetteva alla pari di fare "almeno un 6" con 4 lanci
aveva più chances di vincere che di perdere. Vedremo nel capitolo 2 che la probabilità
di fare almeno un 6 con 4 lanci di un dado è pari a 1 meno la probabilità di non fare
nemmeno un 6, cioè 1 - (~) 4 = 0.51775 > ~- I problemi nascevano nel gioco a 2 dadi,
comune ai suoi tempi. Questa è la domanda di de Meré: se si scommette di fare almeno
una coppia di 6 lanciando due dadi qual è il numero minimo di lanci necessario affinché
le possibilità di vittoria superino quelle di sconfitta? Il cavalier de Méré aveva indivi-
duato due possibili risposte. Suggerita dalla matematica del tempo la prima, errata a
suo parere, cioè 24 lanci. La logica (o il modello) sottostante alla prima risposta era la
seguente: lanciando un dado, a ogni lancio ci sono 6 risultati possibili e occorrono 4 lanci
per avere più chances di fare almeno un 6 che di non farne nessuno; giocando con due
dadi, a ogni lancio ci sono 36 possibilità, 6 volte quelle di prima, e allora i lanci necessari
per fare almeno una coppia di 6 sono anche loro 6 volte quelli di prima cioè 24.
Dalla sua esperienza di incallito giocatore che osservava e si appuntava i risultati di molte
partite, nasceva invece la seconda soluzione, cioè 25 lanci.
Pascal risolve il problema dando ragione all'esperienza di de Meré. La probabilità di fare
almeno una coppia di 6 in 24 lanci è uguale a 1 meno la probabilità di non fare nessuna
35 1
coppia, cioè 1 - ( 36 ) 24 = 0.4914 < 2 mentre la probabilità di fare almeno una coppia di
6 in 25 lanci è 1- (!!)2
= 5 0.50553 > ~-
Esempi di modelli
Lo studio scientifico della realtà avviene attraverso la realizzazione di modelli matematici
(equazioni) che simulano il fenomeno (o il processo) in esame.
L'input del modello è rappresentato da misure di certe quantità, l'output da numeri che
rappresentano altre quantità o le stesse quantità variate.
Quando il modello e le date condizioni (misure) iniziali sono tali da permettere di cono-
scere con certezza lo stato del fenomeno (processo) a ogni istante, il modello è di tipo
deterministico.
Esempio Studio del moto di un grave in caduta libera soggetto solo alla forza di gravità
terrestre, in assenza di attrito.
s(t) = g, (.)
dove si suppone che i consumi dipendano non dal reddito attuale ma da quello dell'anno
precedente in modo lineare, cioè
. ..
·' .... ~..... - . . . •• I :. • I .. . ...
•
• • I••
-:. ..... :· . ..
• • • •
..
••
. . .. .
. ...... :. .. .. ..... . - . .. .. . ..
'
Un sistema di questo genere si ha, per esempio, quando si vuole descrivere il comporta-
mento di un gas (molecole = punti). Si potrebbe pensare di descrivere con un modello
deterministico il comportamento del gas: occorrerebbe conoscere in un certo istante le
singole posizioni di ogni molecola, tutte le forze che agiscono su di essa e la velocità ( a
quell'istante) di ogni molecola. Occorrerebbe scrivere un'equazione differenziale del moto
per ogni molecola e risolverla per determinare il suo movimento. Ciò non è possibile per
due motivi.
1) Il primo è di tipo pratico: se il gas è ottenuto da una mole di una qualunque
sostanza chimica ( cioè da una quantità di peso pari al peso molecolare della sostanza
stessa) il numero di molecole in esso contenute ha ordine di grandezza II pari a 1023 . Il
numero di equazioni da risolvere è perciò "praticamente" in.finito. Ci si accontenta in
questo caso di assegnare la posizione di ciascuna molecola non con certezza ma con una
certa alea di errore, realizzando un modello probabilistico.
2) Il secondo è di tipo teorico: per il principio di indeterminazione di Heisenberg, non
c'è modo di conoscere contemporaneamente posizione e velocità di una singola molecola.
Esempio Lancio di un dado: il dado è un corpo rigido e, anche in questo caso, teorica-
mente, conoscendo esattamente posizione iniziale del dado, la forza e la coppia impresse
al momento del lancio, applicando le equazioni che reggono il movimento di un corpo ri-
gido, si potrebbe, risolvendole, determinare univocamente il movimento del dado e quindi
anche quale faccia si deve presentare superiormente quando il dado si ferma. Noi non
vogliamo ( e inoltre la meccanica quantistica ci dice che il nostro procedimento di misu-
ra relativo alle condizioni iniziali ha dei limiti intrinseci) fare questo. Vogliamo invece
dire qualcosa a proposito della posizione finale del dado senza conoscere nulla riguardo
alla sua posizione iniziale e senza, soprattutto, risolvere nessuna equazione differenziale.
Adottiamo pertanto un atteggiamento probabilistico accontentandoci di predire, con un
certo margine di errore, la faccia che si presenterà .
IIPrincipio di Avogadro: Volumi uguali di gas diversi nelle stesse condizioni di temperatura e di
pressione contengono lo stesso numero di molecole. Almeno idealmente, ogni sostanza chimica può
essere portata allo stato gassoso: ne consegue che una mole di qualsiasi sostanza contiene lo stesso
numero di molecole. Tale numero, detto numero di Avogadro, è pari a N = (6, 02252 ± O, 00028) · 10 23
(IUPAP, International Union of Pure and Applied Physics).
xv
0.2 Tre modelli probabilistici frequenti
Prima di dare una veste matematica rigorosa a strumenti progettati per studiare il
mondo dell'incerto, anticipiamo schematicamente tre tipi di modelli probabilistici che
si presentano con frequenza: bernoulliano, poissoniano, normale
Bernoulliano
Descrive un insieme di prove ripetute in identiche condizioni e indipendenti (nel senso
che il risultato di una prova non influenza le altre prove). Ogni prova dà luogo soltanto
a due risultati: successo o insuccesso (oppure {l} o {O}).
Il modello di Bernoulli si applica per esempio a: lanci di una moneta, esame dei pezzi
difettosi prodotti da una macchina, assicurazioni sulla vita (vita = successo, morte =
insuccesso).
Caratteristiche numeriche che si è interessati a descrivere, dipendenti dall'andamento del
fenomeno sono:
1) Numero di successi in n prove;
e e Ie Ie Ie I, ~ T e
.__I c_._l
_c--'--1
c___.__l
c__._l_cl _c......,.I
....... r___ l _c..__I
l_c....... ___.r
l_r_._l_c...L-1
r____.__r-'--c-'--c
...._____..I ~J
~1//~I tempo d'attesa del k-esimo successo k-esimo successo
Poissoniano
Descrive fenomeni ("arrivi") che si manifestano casualmente nel tempo o nello spazio,
dove il manifestarsi dei fenomeni ubbidisce a questi requisiti:
1) la probabilità di un arrivo in un intervallo di tempo piccolo è proporzionale all'ampiezza
dell'intervallo
2) la probabilità che si verifichino 2 o più arrivi in un intervallo di tempo piccolo è
trascurabile (eventi non frequenti)
3) gli arrivi in due diversi intervalli di tempo non si influenzano l'un l'altro se gli intervalli
non sono sovrapposti.
Il modello di Poisson si applica a: studio degli incidenti lungo un tratto autostradale, va-
lutazione del numero di telefonate in arrivo a un centralino, valutazione delle imperfezioni
su un cavo, ecc.
Le caratteristiche numeriche interessanti sono:
XVI
·B
' ,, ••
r.n
·r-à .a.a
o _____.___l___________.__----:::~-\ -1-1
-~-----·
numero di arrivi nell'intervallodi tempo O
t
ml
. ,, ' ,, -'- .,
0 1
·ili ·B·B k
~ ~ I
fempod'auesadel primo arrivo tcmpod'attcsadc1
k-esimo arrivo
Chiamando "successo" un "arrivo" si può vedere che il modello di Poisson descrive una
situazione che è una sorta di limite della situazione descritta dal modello bernoulliano.
Normale
Moltissimi fenomeni in natura seguono (o quasi) la legge "normale". Per esempio, quando
si misura una grandezza, non ci si ferma mai ad un solo rilevamento: per aumentare la
"precisione" della misura ottenuta, si ripete il rilevamento diverse volte.
Si può pensare di decomporre ogni misura in g + E:8 + E:a : g è la misura "reale" della
grandezza, E:8 è l'errore sistematico, E:a è l'errore accidentale. g e E:8 sono costanti (r::
8
viene stimato una volta per tutte dalla taratura dello strumento); E:a è invece "aleatoria"
e dipende da moltissimi fattori, dei quali ne è in un certo senso la risultante, la somma.
Il comportamento di ca si descrive con il modello normale (a rigore anche E:8 è aleatorio,
perché lo si determina con tecniche probabilistiche, ma lo si considera costante fissato
una volta per tutte).
In modo ingenuo, che preciseremo matematicamente, il comportamento di ogni fenomeno
che possa essere pensato come la somma, la risultante, di diversi fattori che ubbidiscono a
modelli anche diversi da quello normale, è approssimabile con un modello normale (sotto
opportune ma larghe ipotesi).
È il teorema centrale del limite a garantircelo, uno dei teoremi più importanti e
sorprendenti della Matematica.
Considerate come esempio la Figura 0-1 che rappresenta il quincunx, ideato da Francis
Galtonm nel 1873. Un certo numero di palline sono contenute in una specie di imbuto
appoggiato a una parete e possono uscire dal condotto A. Nella loro caduta le palline in-
contrano dei pioli sistemati in un reticolo triangolare. Rimbalzando da un piolo all'altro
le palline finiscono in un raccoglitore diviso a scomparti. Il fatto che una pallina finisca
in uno scomparto piuttosto che in un altro dipende da una miriade di fattori casuali che
contraddistinguono la caduta della pallina stessa. Se fate l'esperimento osserverete che
Illvedi nota storica in fondo al capitolo
XVll
il mucchio delle palline nei vari scomparti ha la forma di una curva gaussiana che identifica
una distribuzione normale. Sul sito http:/ /www.mathsisfun.com/probability / quincunx.html
una immagine suggestiva del suo funzionamento.
T o
o
o
•
• o•
o. • •
• .o .o •
• q • o • •
Figura 0-1:
XV!ll
Quando suo padre lo viene a sapere gli concede di leggere una copia degli Elementi di Euclide.
Nel febbraio del 1640 Blaise Pascal pubblica la sua prima opera matematica: Essay sur les
Coniques.
Per aiutare il padre che lavora in campo fiscale, Pascal lavora dal 1642 al 1645 alla realizzazione
della prima macchina calcolatrice meccanica. A questa invenzione, che verrà prodotta in 50
esemplari nel 1652, viene dato il nome di Pascalina.
Nel 1646 la dedizione di due giovani monaci che curano il padre, seriamente ferito a una gamba,
impressiona Pascal che diviene profondamente religioso.
Continua però la sua vita scientifica e nel 164 7 inizia gli studi sulla pressione atmosferica e
dimostra che il vuoto esiste. Cartesio, incredulo, gli fa visita il 23 settembre ma commenta: "Il
vuoto ce l'ha nella testa".
Nel 1648 Pascal osserva che la pressione atmosferica diminuisce con l'altezza e congettura che
sopra l'atmosfera ci sia il vuoto. Tre anni più tardi pubblica un importantissimo lavoro Expé-
riences nouvelles touchant le vide e nel '53 Traité de l'équilibre, la prima opera nella storia della
scienza che tratta sistematicamente problemi di idrostatica e idrodinamica.
Sempre nel 1653 Pascal pubblica Traité du triangle arithmétique sulle proprietà del cosiddetto
triangolo di Pascal, che altri avevano studiato senza successo prima di lui e che porteranno
Newton a definire i coefficienti dello sviluppo della potenza del binomio.
La sua corrispondenza epistolare con Fermat è considerata basilare per la nascita della teoria
della probabilità.
Nel 1654 affrontano insieme un problema di dadi già studiato da Cardano: è il problema posto
dal cavaliere di Meré a Pascal citato a pagina 38.
Studiano e risolvono insieme anche il problema dei punti: due persone mettono sul piatto 100
ducati ciascuna e giocano a testa e coda decidendo che si porterà a casa il monte premi di
200 ducati chi arriva per primo a 10 teste. Si suppone che quando stanno per esempio 8 a
6 una comunicazione urgente li costringe a interrompere la partita. Il problema dei punti è
così formulato: qual è la divisione equa del monte premi tra i giocatori in quel momento della
partita? Anche questo problema era stato studiato senza successo da altri matematici del tempo,
Cardano, Pacioli e Tartaglia.
Nel 1654, dopo la sua visita al monastero giansenista di Port-Royal des Champs, 30 km a sud
di Parigi, Pascal comincia a pubblicare lavori anonimi su argomenti religiosi.
XIX
I Pensées, una raccolta di riflessioni personali a cui lavora dal 1656 al 1658, rappresentano il più
importante risultato di questa fase della sua vita. Nei Pensées enuncia tra l'altro: "Pesiamo il
guadagno e la perdita prendendo per croce (nel gioco con la moneta) che Dio esiste: se vincete
guadagnate tutto e se perdete non perdete niente; scommettete dunque che esiste senza esitare"
(Pensées, III, 233).
Il suo ultimo lavoro matematico è dedicato alla cicloide una curva nel piano descritta da un
punto di una circonferenza che viene fatta rotolare su una retta immaginaria.
Dopo questo lavoro dedica gli ultimi anni della sua vita a portare sollievo ai poveri girando di
chiesa in chiesa.
Muore all'età di 39 anni.
Ciò lo portò a trarre conclusioni sulla diversa qualità delle razze umane che sono totalmente
inaccettabili alla luce della scienza odierna.
Capitolo 1
Niente è impossibile per chi non deve farlo
Legge di W eiler
Statistica descrittiva
Così Carlo Alberto Salustri (1871-1950), poeta romano più conosciuto con lo pseudonimo
di Trilussa (che si è dato anagrammando il suo cognome), definisce così la statistica:
Sai ched 'è la statistica? È na' cosa / che serve pe fà un conto in generale /
de la gente che nasce, che sta male, / che more, che va in carcere e che sposa.
Ma pè me la statistica curiosa / è dove c'entra la percentuale, /
pè via che, lì,la media è sempre eguale / puro co' la persona bisognosa.
Me spiego: da li conti che se fanno / seconno le statistiche d 'adesso /
risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, /
t'entra ne la statistica lo stesso/ perch'è c'è un antro che ne magna due.
Dietro questa arguta definizione c'è l'intuizione che la Statistica può essere utilizzata dal
Potere per il suo tornaconto. Ciononostante questa scienza rappresenta uno strumento
imprescindibile per descrivere quantitativamente certe caratteristiche della realtà. Le sue
tecniche sono applicate in quasi tutti i campi di indagine e di decisione umani: dall'agri-
coltura alle comunicazioni, dall'urbanistica alla sociologia, dall'economia all'istruzione,
oltre, naturalmente, ai campi scientifici, fisica, ingegneria, medicina, biologia, elettronica.
Quando si raccolgono, ordinano, riassumono, presentano e analizzano dati, relativi a
una popolazione o a un campione parliamo di Statistica descrittiva. Strumenti che
permettono di sintetizare una grande mole di dati per renderli leggibili sono fondamen-
tali. Ci limitiamo a un esempio che nasce dalla fotografia presentando l'istogramma
di un'immagine digitale, utile per sintetizzare i dati dell'esposizione, uno degli elementi
che maggiormente influisce sulla qualità dello scatto. Per semplicità prendiamo a una
2 CAPITOLO 1. STATISTICA DESCRITTIVA
fotografia in bianco e nero, come se il sensore della nostra fotocamera digitale potesse
registrare solo le intensità luminose del soggetto e non i colori. Abbiamo semplificato
ulteriormente simulando con una griglia di 1200 caselline un sensore da 1200 pixel (oggi,
anche il sensore di un telefonino, ha almeno 2 milioni di pixel).
,:,o.,,
29101
30 ,_...,.,,
,,,, ..
,,.
1..
"',,:, ,...i,,u, '"'°'
I> 11
,.o a,'"°,
1.. 1.. ,
, ,u
,,. "''
,i,
" ',
,v '"'"
I 1,a
,,.
,., l>'I
,io,... io
Se la tecnica di registrazione è a 8 bit (quella più diffusa)), significa che a ogni pixel è
associata una stringa di 8 bit, ciascuno dei quali può essere O oppure 1. Quindi, andando
da [00000000] in notazione binaria (O in notazione decimale, che corrisponde al nero
puro), a [11111111] (che corrisponde a 255, bianco puro), si dispone di 256 sfumature di
grigi per riprodurre la realtà. Nella nostra figura, in ogni casellina (pixel) abbiamo messo
un numero compreso tra O e 255. Riportiamo qui la griglia indicando anche l'istogramma
che indica la distribuzione delle frequenze di ciascuno dei 256 numeri.
È facile convincersi che, anche in questo caso dove i pixel sono solo 1200, farsi un'idea
dell'esposizione della fotografia corrispondente davanti a un elenco di 1200 numeri sarebbe
impossibile (con un sensore da 2 megapixel l'elenco sarebbe di 2 miloni di numeri!).
L'istogramma evidenzia subito quali sono in numeri più frequenti. Dalla figura si vede che
l'istogramma è più alto sui numeri intono a 140. I bianchi o i quasi bianchi (parte destra
dell'istogramma) e i neri o i quasi neri (parte sinistra dell'istogramma) sono praticamente
assenti (la loro frequenza è sostanzialmente O).
.:.- ;-.r .. •
3
Da una fotografia vera abbiamo ricavato quest'altra figura. Dalla forma dell'istogram-
ma generato da Photoshop e disassato a sinistra, si intuisce che la fotografia è un po'
sottoesposta.
Ma torniamo alla statistica descrittiva e alla necessità di conoscere una popolazione (di
dati) da un suo sottoinsieme, un campione. Se un campione è estratto secondo deter-
minate regole allora viene considerato rappresentativo della popolazione. In questi casi,
dall'analisi dei dati da esso ricavati, si possono indurre o inferire dati relativi all'intera
popolazione. Quando lo scopo del nostro lavoro è quello di determinare la probabilità che
un'inferenza sia valida per l'intera popolazione stiamo facendo Statistica inferenziale
(vedi capitoli 13 e 14).
La Probabilità è lo strumento (preciso e quantitativo) utilizzato dalla Statistica inferen-
ziale per rendere rigorose le sue conclusioni.
In questo primo capitolo introdurremo brevemente la Statistica descrittiva. Prenderemo
confidenza con alcuni concetti che verranno poi usati, in senso più generale, nei capitoli
success1v1.
popolazio ne esempi
caratteri
obiettivo
professione
..
peso
•,--. -
~ ........._
rlL
•• • ~
~ /
[ll_J_J]
distribuzione
delle frequenze
uuità statistiche osservate
(campione) quantità osservatex 1 x 1 ..., x,; delle osservazioni
Le variabili sono quantitative o numeriche (il numero dei votanti favorevoli a Tizio, la
durata di una lampadina, il numero di lanci che precedono l'uscita della prima "testa").
Le mutabili sono qualitative o categoriche (il colore di un fiore, l'opinione di un
votante). È a volte pratico codificare le mutabili con numeri ponendo, per esempio, 1
per indicare un'opinione favorevole e O per quella contraria, oppure, nel caso dei semi, 1
per il colore giallo, 2 per il rosso, 3 per il bianco.
Quando i dati rilevati sono numerici e molto numerosi è opportuno distribuirli in un certo
numero di classi, in base ai loro valori. Ogni singolo valore categorico di una mutabile
è già di per sé una classe.
Nell'ambito della Statistica descrittiva ci troviamo sempre di fronte a un numero finito
di dati. Anche nel caso di una variabile numerica continua come quella che rappresenta
5
la durata di una lampadina c'è differenza tra l'insieme numerico dei valori che essa può
assumere a priori (che non è limitato superiormente) e l'insieme numerico delle durate
di N lampadine osservate. In ambito descrittivo i valori osservati ammettono sempre un
. .
mm1mo e un massimo.
.
Definizione 1.1.3 Nel caso di mutabile una classe è una qualunque categoria tra quelle
osservate. Nel caso di variabile ci sono due possibilità. La variabile è discreta: in que-
sto caso le classi possono coincidere con i valori osservati. La variabile è continua: in
questo caso si prende un intervallo dell'asse reale che contiene tutti i valori osservati, ge-
neralmente l'intervallo che ha come estremo sinistro il valore minimo (m) come estremo
destro il massimo (M). Si divide tale intervallo in un certo numero K di sottointer-
valli disgiunti che chiameremo classi. Il numero delle classi dipende dagli obiettivi dello
studio. Esse non devono essere troppo numerose (altrimenti viene meno l'opportunità
di raggruppare i dati) né troppo poche (altrimenti c'è una perdita eccessiva di informa-
zione). Faremo uso solo di classi aventi tutte la medesima ampiezza. Cionondimeno
ricordiamo che ci sono casi in cui può essere opportuno scegliere classi di ampiezze di-
verse. Tale tema esula però dagli interessi di questo testo. La regola di Sturges suggerisce
M-m
K = l + 1N
~2 dove N è il numero delle osservazioni. Posto a = K gli intervalli
saranno: [m, m+a]; (m+a, m+2a]; ... (m+(K - l)a, m+Ka = M]. Tutti i valori osser-
vati appartengono allora ad almeno una classe e ogni dato appartiene a una sola e una
sola classe.
Definizione 1.1.4 Il punto medio di una classe si dice valore centrale. I valori centrali
sono spesso utilizzati come rappresentanti di tutte le osservazioni che stanno nella classe.
Definizione 1.1.5 Il numero di dati che appartengono a ciascuna classe è detto fre-
quenza assoluta (J A) della classe.
L'aspetto che ci interessa della popolazione sarà "spiegato" dalla distribuzione delle fre-
quenze nelle varie classi. Si può anche tabellare la frequenza relativa (frequenza asso-
luta diviso numero totale dei dati osservati} di una classe che indicheremo con la lettera
latina minuscola f e chiameremo frequenza tout court.
Parleremo poi di frequenza assoluta cumulata {FAc) e di frequenza relativa cu-
mulata (che indicheremo con la lettera latina maiuscola F e chiameremo semplicemente
frequenza cumulata).
Nel caso di mutabili non ha senso parlare di frequenza cumulata perché non ha senso
pensare a un ordine (crescente) nei valori assunti da esse (che sono qualità}.
Per una variabile (numerica) i cui valori osservati siano stati divisi in classi ( ciascuna
di centro xJ) converremo di indicare la frequenza assoluta e relativa della classe j rispet-
tivamente con f A(xj) e f(xj). Analogamente frequenze cumulate nella classe j saranno
indicate con FA 0 (x'.;) e F(x'.D· Nel centro della classe j riterremo valida l'uguaglianza:
j
dove gli x);, con k ::; j sono i centri delle classi che precedono la classe j.
0.107
30 o 167 28 0.173 0.2 1
25 I 0,153 0,16 0,16 26 150
25 23
'
24
,,
24 0.16 150
0,827
0.667 124
~ ~3 100
100 0.507
15 0,1 0.353 76
53
10 0,06
50
5 am
0+---+----+-----<~-+---+----+----+0 o
o 2 3 4 5 6 o 2 3 4 5 6
frequenze assolute e relative frequenze assolute e relative cumulate
Il grafico delle F (e quindi anche delle F Ac) è quello di una funzione a scala costante a
tratti. La figura indica il modo più appropriato di trattare graficamente osservazioni su
una popolazione discreta nel caso che le classi si riducano a punti.
35 53 38 64 50 32 44 25 49 57 46 58 40 47
56 45 44 68 26 38 78 52 63 40 18 61 45 54 (1.2)
47 36 48 46 35 73 28 50 42 42 35 65
Un diagramma a barre è un grafico che si può utilizzare con variabili numeriche o ca-
tegoriche, in cui l'altezza delle colonne corrisponde, secondo un'unità di misura indicata
sull'asse delle ordinate, alle frequenze (assolute o relative, a seconda delle necessità} rile-
vate per le categorie {in questo caso le classi} o i valori numerici osservati nel campione
prelevato dalla popolazione. Eccone un esempio.
0.15
O.I
0.075
0.025
Ji'equenzeasso/meI relative
0.18
0.15 0.15 0.15
6 0,16
0,14
0,12
O.I
0,08
0,06
0,04
0,02
(18,22/ /22,26/ /26,30/ (30,34/ (34,38/ (38,42/ (42,46/ (46,50/ (50,54/ (54,58/ (58,62/ (62,66/ (66, 70/ (70,74/ (74,78/
classi
X = X1 + X2 + ...+ X N l N
= - Lx; = mx = E[X] (1.4)
N N i=l
Esempio Supponiamo che a un certo punto della sua carriera scolastica uno studente
del secondo anno del Corso di Studio in Ingegneria Matematica, abbia riportato in dieci
materie i seguenti voti (espressi in trentesimi):
(1.5)
Nel caso dei voti, i dati ordinati in modo crescente sono 19, 19, 20, 21, 22, 22, 24, 24, 27, 27
emedx = 22
Osservazioni
1) Ci sono almeno [:] (parte intera di : ) osservazioni x; che soddisfazione la relazione
x;::; medx.
X[N/2] + X[N/2]+1
Infatti se N pari e se ---'--'--'----'------'-- non è una delle osservazioni X; allora ce ne sono
2
N
esattamente 2 .
Esempio: si dispone di 50 dati x; (i= 1, 2, ... , 50) qui riportati in ordine crescente:
Tabella A Tabella B
X1,X2, ... ,XIO 0, 0, 0, 0, 1, 1, 1, 1, 1, 1 XI, X2, ... , X10 0, 0, 0, 0, 1, 1, 1, 1, 1, 1
X11,X12,,,, ,X20 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 X11,X12,,,,,X20 1, 1, 1, 1, 1, 2, 2, 2, 2, 2
X21,X22,,,, ,X30 2, 2, 2, 2, 2, 3, 3, 3, 3, 3 X21, X22,,,,, X30 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
X31,X32,,,, ,X40 3, 3, 3, 4, 4, 4, 4, 4, 4, 4 X31, X32,,,,, X40 3, 3, 3, 3, 3, 4, 4, 4, 4, 4
X41,X42,,,, ,X50 4, 4, 5, 5, 5, 5, 6, 6, 7, 7 X41, X42, , , , , X50 4, 4, 5, 5, 5, 5, 6, 6, 7, 7
xlli.l
2
+ xlli.]+1
2
3+3
25 dati x; ::; 2.5. Per i dati della Tabella B med = 2 = - 2- = 3 e ci sono
35 dati X; ::; 3.
2) La mediana non è influenzata dalle osservazioni estreme: perciò si dice che è un indice
robusto.
3) La mediana non ha senso per le variabili categoriche.
Definizione 1.2.3 La moda di un insieme di dati osservati è il numero che si è pre-
sentato con la f A (o la f) più alta. La moda esiste per definizione solo se esiste almeno
un dato con f A almeno uguale a 2. La moda può non essere unica.
Esempio L'insieme di dati: 20, 23, 33, 15, 17 non ha moda (caso A della figura qui sotto).
L'insieme: 19, 15, 17, 17, 17 ha moda 17 e si dice unimodale (caso C).
L'insieme: 19, 19, 33, 15, 33 ha due mode, 19 e 33 e si dice bimodale (caso B).
10 CAPITOLO 1. STATISTICA DESCRITTIVA
Distribuzioni senza moda, unimodali, bimodali si presentano graficamente in questo mo-
do:
u ~---------
ù.l .. t----tt------<1--1
,.,
u
,., .. t----tt------<1--1
u
u
ù.2 - t----- -< t---1
,.,Il I Il Il
u
Il I Il Il
" " " " " " " " "
A B e
La maggior parte degli indici introdotti in questa sezione si ottengono in Excel® con il
menu "strumenti/ analisi dati/ statistica descrittiva".
l/ q-esimo quantile
Figura 1-1:
Osservazione: come indicato nella figura 1-1 ci sono almeno [N q] osservazioni Xi ::; çq.
Infatti facendo ancora riferimento alle tabelle A e B della sezione precedente per q = O.7
si ha N q = 35 e ç0 _7 = x 35 ; x 36 . Per i dati della tabella A ç0 _7 = 4 ; 4 = 4 = ç0 _7 e
11
ci sono 42 osservazioni tali che Xi ::; 4. Per i dati della tabella B ç0 _7 = 3 ; 4 = 3.5 e ci
sono esattamente 35 osservazioni Xi ::; 3.5 = ç0 _7
Osservazione: medx = ç1 ; 2 = ç0 _5 = Q2, detto anche secondo quartile (50° per-
centile). Altri due quantili notevoli sono ç1 ; 4 = ç0 _25 = Q1 detto primo quartile (25°
percentile) e ç3 ; 4 = ç0 _75 = Q3 terzo quartile (75° percentile).
Esempio 1.3.2 Nel caso delle misure delle sequoie della tabella 1.2 troviamo il primo
X10 + X11
. . . .,
quartile (0.25 quantile): Nq = 40-0.25 = 10 intero percio ç0 _25 = 2 = 38 +
2
38
=
38. Invece ç0 63 (cioè lo 0.63-quantile} poiché N q = 40-0.63 = 25.2 è X[Nq]+I = X26 = 50.
Osservazione
La nostra definizione non è l'unica possibile. In altri libri si può provare chi, per esempio,
prende sempre come quantile X[N q], o chi prende sempre X[N q]+l senza distinguere N q
intero oppure no. Scelta però una definizione (noi ovviamente opteremo per la nostra)
occorre fare attenzione per non confondersi le idee con alcuni risultati. Qui sotto ne
facciamo alcuni esempi. Comunque occorre ricordare queste idea di base:
•) il quantile çqpuò essere oppure no una delle osservazioni;
.. ) alla sua sinistra ci sono [N q] osservazioni cioè CIRCA il 100 · q per cento delle
osservaz10n1.
Vediamo gli esempi:
1 °) Supponiamo di avere 10 osservazioni tutte distinte e di averle riordinate: cerchia-
mo lo 0.5 quantile (cioè la mediana). 10 · 0.5 = 5, intero, ç0 _5 = x5 ; x6 = 5.5. In questo
caso non ci sono ambiguità e il quantile non appartiene alle osservazioni.
X5 ç0,5 X6 X7 Xs Xg X10
5 5.5 6 7 8 9 10
X7 Xs Xg X10 X11
7 8 9 10 11
X5 X6 X7 Xs Xg XlQ
2 2 8 8 9 11
v; = (x; - X) (1.6)
Oss. 3 È facile provare che
N N
LV;=I:(x;-X)=O
i=l i=l
Definizione 1.4.2 Si dice varianza dei dati osservati (o media dei quadrati degli
scarti) il valore
N N N N
2 1 ~ - 2 1 ~ 1 ~ 2 1 ~ 2 -2
ax = N L.,(x; - X) = N L.,(x; - N L., x;) = N L., X; - X (1.7)
i=l i=l i=l i=l
13
e deviazione standard o scarto quadratico medio (SQM) dei dati osservati il valore
l N
CJx = N 2)xi - X) 2 (1.8)
i=l
Osservazione importante
Definizione 1.4.3 Si dice varianza campionaria di N dati osservati da X il valore
2
sx=
1 N
N-l~(xi-X)
- 2
= N-l
1 [ N
~xi-NX
2 -2
l (1.9)
In altri testi viene de.finita come varianza campionaria il valore 1. 'l. La definizione con
la quantità (N -1) al denominatore è giustificata dall'utilizzo della varianza campionaria
come stimatore della varianza di una popolazione in statistica inferenziale (vedi capitolo
12). In tale caso l'utilizzo della espressione con N - l al denominatore costituisce uno
stimatore migliore (corretto) della varianza ignota che si vuole stimare. Si osservi che
già per N > 30 la differenza tra le due definizioni è dell'ordine del millesimo.
Il risultato fornito da Excel® con la funzione VAR su N dati è calcolato con la formula 1.9
mentre la funzione DEV.ST fornisce la radice quadrata sx della varianza campionaria.
Per ottenere i valori delle formule 1. 7 e 1.8 occorre rispettivamente usare i comandi
VAR.POP e DEV.ST.POP di Excel®. Ciò è vero per i risultati ottenuti non solo da
Excel® ma anche dalla maggior parte delle calcolatrici tascabili.
Oss. 4 Dal punto di vista dimensionale, se l'unità di misura dei dati è in centimetri Xi
anche l'unità di misura della media, mediana, moda e deviazione standard è in centimetri
mentre quella della varianza è in cm 2 .
3
/3x _- -1 ~
L,
(Xi-X)
-- (1.10)
N i=l CJx
rappresenta l'indice di simmetria della distribuzione dei dati rispetto alla media. (31 si
dice indice di asimmetria o di skewness.
14 14
12 media
10
coda
1
Vengono poi definiti i dati outlier. Sono osservazioni che finiscono fuori dall'intervallo
(med[X] - k · IQR; med[X] + k · IQR) oppure (E[X] - k · IQR; E[X] + k · IQR), dove k
viende deciso in base al problema. Per R gli outlier sono le osservazioni fuori dai baffi,
cioè minori di Li o maggiori di Ls.
Esempio 1.6.1 Realtà virtuale è il nome assegnato alle capacità di un sistema di simu-
lare situazioni reali. I simulatori di volo sono stati tra i primi programmi realizzati di
realtà virtuale. Per valutare la rapidità di reazione dei piloti a un certo inconveniente
che si presenta su un modello di aereo sono stati sottoposti a prova 42 piloti. Ecco i loro
tempi di risposta in secondi all'emergenza simulata:
11 12 12 13 15 15 15 16 17 20 21 21 21 22
22 22 23 24 26 27 27 27 28 29 29 30 31 32
34 35 37 41 41 42 45 47 50 52 53 56 60 62
Per disegnare il box-plot dei dati si vede che med[X] = 27, Q1 = 21, Q3 = 41,
IQR = Q 3 -Q 1 = 20, Li= Q 1 - l,5-IQR = -9, Ls = Q 3 + 1, 5-IQR = 71. Si conclude
che il box-plot è quello indicato in figura.
21 27 41
-9 71
• I I •
-20 -lii (/ }(/ 211 30 40 50 60 711 8// 9// IO//
Come già visto (esempio 1.1. 7), ha significato una distribuzione in classi di frequenze dei
dati osservati, nel caso provengano da una variabile continua.
Oss. 5 Le frequenze ottenute possono essere confrontate con le frequenze teoriche rica-
vate da un modello probabilistico che descrive, a priori, la distribuzione di tale variabile.
Tale confronto avviene attraverso tecniche di cui parleremo nel capitolo 14.
16 CAPITOLO 1. STATISTICA DESCRITTIVA
Non ci occuperemo degli indici di posizione delle classi rispetto alla loro frequenza.
Illustriamo invece il concetto di media "pesata" o "ponderata" quando la variabile os-
servata è discreta e le classi si riducono a un punto. Indichiamo con x\,i = 1, ... , N i
dati osservati, con x1, j = 1, ... , k i valori osservati tra gli x\ tutti distinti tra loro e con
.fA(x 1) la frequenza assoluta del valore x 1.
Nell'esempio dei voti presi da uno studente del Corso di Studio in Ingegneria Matematica
possiamo considerare 19, 20, 21, 22, 24, 27 come valori possibili di una variabile numerica
discreta X. Delle 10 osservazioni solo 6 sono distinte tra loro e queste hanno frequenze
relative .f rispettivamente pari a 2/10, 1/10, 1/10, 2/10, 2/10, 2/10. La media si può cal-
colare come somma dei valori distinti x 1 ciascuno moltiplicato per la frequenza relativa
corrispondente .f(x 1)
2 1 1 2 2 2
19- + 20- + 21- + 22- + 24- + 27- = 22.5
10 10 10 10 10 10
Si tratta di una media pesata con pesi pari alla frequenza di ciascuno dei valori.
(1.12)
(1.13)
k k
Esercizio 1.7.1 Dimostrare che la.funzione V(a) = I: (x 1-a) 2 f(x 1) dove I: f(x 1) = l
j=l j=l
ammette un unico minimo in a = X.
Come varia la media Se i dati subiscono una trasformazione lineare la media dei dati
trasformati diventa:
l N l N b N
my = - ~ Yi = - ~ (bxi +a)= - ~ xi+ a= bmx +a
N L..,i=I N L..,i=I N L..,i=I
N N
2
ay = N
1~
=-r(Yi - my) 2
= N =-rb (xi -
1~2
mx)
2 22
= b ax
1 -
Definizione 1.8.1 Data una variabile numerica X la variabile Z - X) si dice = -(X
ax
standardizzata di X. Z misura la deviazione di X dalla sua media X in termini di
scarto quadratico medio a x. Vale a dire quando X dista ka da X, Z vale k.
Supponiamo che la nostra indagine disponga, per ciascuna unità statistica osservata, di
valori assunti da due diversi caratteri, che indicheremo come X e Y (e.g. peso e altezza
degli abitanti di un comune, o diametro e peso di una partita di pillole prodotte in
un certo giorno da una casa farmaceutica). A ogni unità viene associata una coppia
di valori, la variabile che indaghiamo è doppia ( ;) , e a questa possiamo estendere le
18 CAPITOLO 1. STATISTICA DESCRITTIVA
classificazioni che abbiamo già fatto per variabili semplici: X e Y possono essere variabili
(numeriche, discrete o continue), o mutabili (categoriche).
Supponiamo perciò di disporre di N osservazioni:{ (xi, Y1),(x2, Y2),... , (xN, YN )}. Come
nel caso univariato ci proponiamo di dare un'occhiata ai dati osservati rappresentandoli
su un grafico.
1.87
1.85
• •
1,81
•
1.76
•
1.72
• •
1.68
•
1.63
1.62 • •
1.57
•
52 54 57 60 65 67 72 80 91
Per ottenere con Excel® un grafico simile a questo usare "autocomposizione grafico",
tipo di grafico "Dispers. (XY)".
ax 2 l"""
= N~(x;-x),
N
-2 2
ay= l""" N
N~(y;-y) -2
i=l
Nel caso bivariato siamo in grado di definire anche due indici che descrivono la relazione
eventuale esistente tra i due caratteri osservati: si tratta della covarianza dei dati
osservati III:
(1.15)
1 N 1 N N
sxy = --L(xi-x)(Yi-y) = --LXiYi- --xy
N - 1 i=l N - 1 i=l N - 1
20 CAPITOLO 1. STATISTICA DESCRITTIVA
delle bombolette spray e del CFC nell'atmosfera. Ma potremmo anche trovare una rela-
zione tra vendita di Ferrari e vendita di diamanti e quindi fare una previsione sui secondi
basandoci sulla vendita delle prime. È difficile però sostenere che un aumento di vendita
di Ferrari "sia la causa" di un aumento di vandita dei diamanti. Invece è facile che sia
l'aumento di vendita di Ferrari che quello di diamanti è "causato" a monte da un aumento
di reddito negli strati alti della popolazione.
Un altro esempio, ancora più evidente, di errata assegnazione di relazione causale tra
due variabili può essere il seguente. Nei primi 20 anni di vita di un essere umano c'è
sicuramente una relazione tra l'età e l'altezza e una relazione fra l'età e il QI ( quoziente
d'intelligenza). Quindi, se esaminiamo la popolazione umana sotto i 20 anni e osserviamo
solo l'altezza e il Q.I., troviamo che c'è una relazione fra le due, perchè al crescere dell'una
cresce anche l'altro. Non possiamo certo però concludere che sia l'aumento dell'altezza
a "provocare" l'aumento del QI.
Il primo passo è quello di intuire la relazione tra X e Y osservando su un grafico l'anda-
mento dei punti (x;, y;), che rappresentano le coppie osservate. Chiameremo Y responso
e X predittore.
IO
9 a 14
12
b 8
e
8 6
7 IO
6 4
8
5
6 2
4
4
3 o
l l o 5 ,• 10
I -1
o
00 2 4 6 8 IO -2 o 5 10 -4
60
d 20
e
50 10
a: nessuna relazione 40 o
30 o IO
b: lineare diretta -IO
10
-20
e: lineare inversa IO
-30
d: curvilineare diretta o
o 5 10 -40
e: curvilineare inversa
Poiché siamo interessati alla regressione lineare la nostra attenzione sarà riservata a
una relazione tra i dati che descrive un andamento "lineare" della nuvola di punti (cioè
punti affollati intorno a una retta, come nei casi b e e della figura) .
Siamo dunque alla ricerca di una relazione f; = bo+ b1x (retta di regressione), che
meglio approssimi la nuvola (x;, y;).
IO
6
~o
o
} errore= 2
re=2
]
errore= 6
o
:l
4
errore= -41 errore= -4
2
o r.,(Y, -y,) = O
o
o 2 4 6 8 IO 12 14 o 2 4 6 8 IO 12 14
1) Se scegliamo di minimizzare la somma degli scarti I:(Yi - i);), vediamo che le rette
dei casi a sinistra e a destra della figura vanno entrambe bene allo scopo, nel senso che
entrambe rendono nulla la somma. Ma una retta, quella di sinistra, interpola meglio i
punti dell'altra. Ciò è dovuto al fatto che, nella somma I:(Yi - i);) errori positivi si
compensano con errori negativi.
:i
errore = -1
4
L;ly,-y ,I= s
o +----.-----,--....---r----. O+--~---.--~-----,
10 IO
2) Si può allora pensare di minimizzare I: I Yi -i); I (figura sopra). In questo caso, la retta
di destra darebbe un'approssimazione migliore dell'altra; tuttavia è ancora intuitivamente
chiaro che la retta di sinistra interpola meglio. L'anomalia è dovuta al fatto che I: I
Yi - i); I tratta con lo stesso peso errori piccoli ed errori grandi (scostamenti piccoli e
scostamenti grandi).
3) Passiamo infine a (sum of squared errors) SSE = I:(Yi -i);) 2 = I:(Yi - bo - b1x;) 2 da
(y; - i);) = (y; - bo - b1 x;) che prendono il nome di errori o residui. SSE ha i seguenti
vantaggi:
a) come in I: I Yi - i); I gli errori non si compensano in segno;
b) l'elevamento al quadrato amplifica gli errori grandi e smorza quelli piccoli;
c) questa quantità, come vedremo, è più maneggevole di I: I Yi - i); I perché è derivabile.
Si noti che SSE è la somma dei quadrati degli scarti dei valori misurati Yi per Y dai
valori previsti dal modello i);.
22 CAPITOLO 1. STATISTICA DESCRITTIVA
Ricerca del minimo
Per minimizzare I:(Yi - bo - b1x;) 2 = SSE(bo, b1) occorre trovare bo e b1 soluzioni di
(1.16)
!
8 1 SSE(bo, b1) =O{::} L x;(Y; - bo - b1x;) =O{=} L x;y; = bo Lx;+ b1 L xl
Posto x = I: x;, 'iJ= I: Yi abbiamo
n n
Sxy = ""'(
L.., X; -
_)(
x Yi - _)
y = ""'
L.., x;y; - (I: x;)(I: y;) = L..,
""' x;y; - nxy
_ = L..,
""' Yi (X; -
_)
x
n
e infine:
b _ Sxy, (1.17)
1--,
Sxx
che rappresentano il minimo cercato. La coppia (bo, b1 ) trovata è l'unico estremante rela-
tivo libero per il polinomio SSE(bo, b1) ~ O. Poiché tale polinomio diventa infinitamente
grande per bo e b1 grandi non esiste massimo (finito) e l'unico estremante trovato è un
mm1mo.
La retta interpolatrice è perciò:
, - Sxy_+Sxy
y=y--x -X (1.18)
Sxx Sxx
Oss. 6 Si osservi che la retta di regressione passa sempre per (x, y).
Esempi
Esempio 1.11.1 Siano assegnate le seguenti coppie (x;, y;) : (100, 40); (200, 45); (300, 50);
(400, 65); (500, 70); (600, 70); (700, 80). Si verifica facilmente che (figura qui sotto lato
a)
'f) = 32.857 + 0.0679 · X
y p
90 70
80 a) 60
70
$0
60
50
,o
40 30
30 ; = 0.0679X+ 32.857
20
p = 0.5 r +30
20
10
10
o X o r
o zoo 400 600 800 o IO 20 .10 ,o $0 60
23
Esempio 1.11.2 Quattro imprese hanno i profitti al netto di tasse e le spese per la
ricerca come da tabella:
Esempio 1.11.3 Una Spa esegue frequentemente controlli tra i dati che risultano dal-
l'inventario reale del magazzino e i dati che risultano a computer. Se il magazzino è ben
gestito il controllore si aspetterà che ci sia una forte correlazione tra le due serie di dati.
Si scelgono 1O articoli e i dati sono i seguenti:
articolo magazzino fisico (Yi) dato da computer (xi)
1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 67
Sxy
Per ricavare il modello Y= bo + b1x che si accorda ai dati occorrono b1
Sxx
I:xy-nxy , ,
I: ' 2 ' _2 = 0.991, bo= y- bi'x = 0.7198. La retta di regressione è quella del grafico
xi -nx
in figura 1-2 che indica una buona correlazione tra i dati.
Esercizio 1.11.1 Un autotrasportatore possiede quattro camion e rileva la seguente
tabella età/costo di manutenzione:
200
150
100
y- 0,9914.r + 0,7198
50
Figura 1-2:
Esempio 1.11.4 Il termine regressione fu usato per la prima volta da Francis Gatton
il quale riteneva che nella trasmissione di un tratto ereditario i valori estremi che lo
caratterizzano, eventualmente presenti nella popolazione, "regrediscono" di generazione
in generazione, verso la media. Per testare questa affermazione lo statistico inglese Karl
Pearson, prese dalla popolazione un campione casuale di 10 padri con rispettivi figli. I
dati risultanti dal campione (in pollici) furono i seguenti:
altezza del padre 60 62 64 65 66 67 68 70 72 74
altezza del figlio 63.6 65.2 66 65.5 66.9 67.1 67,4 68.3 70.1 70
71.00
70.00
y - 0.4646 X + ]5.977
• •
69.00
68.00
67.00 •
66.00 •
• •
65,00
64.00
63.00
60 62 64 66 68 70 72 74
Figura 1-3:
Si vede a occhio che padri piccoli sembrano avere figli un po' più grandi e padri grandi
figli un po' più piccoli. Se fosse vera l'ipotesi di Gatton il responso Y dovrebbe essere
25
tendenzialmente più grande dell'input x quando x è piccolo, mentre dovrebbe accadere il
contrario quando l'input è grande. Cioè la pendenza della retta che interpola i predittori
(altezze dei padri} e i responsi (altezze dei figli) (e che passa per x,y) dovrebbe avere
coefficiente angolare b1 < 1.
Calcolarla per esercizio.
Come nel caso univariato e sempre in ipotesi di continuità delle variabili X e Y che
descrivono i due caratteri delle unità statistiche sotto studio, possiamo dividere le N
osservazioni (xh, Yh) in classi di frequenza. Si procede pensando ai valori della X divisi
in n classi e a quelli della Y divisi in m classi con n =f.m in generale. Le classi (della
X o della Y) saranno individuate dai loro valori centrali, x'f o y'j. La classe (bivariata)
(i, j) sarà quella che contiene le coppie osservate Xh, Yh tali che, contemporaneamente,
xh appartiene alla classe i (della X) e alla classe j (della Y).
Osservazione importante. In tutto il resto del capitolo indicheremo, per una maggior
semplicità di scrittura, i valori centrali delle classi invece che con x'f,y'j semplicemente
con Xi, y 1. È però evidente che i valori centrali (xi, y 1) non appariranno, in generale, tra
le coppie osservate (xh,Yh)-
La frequenza assoluta della classe (i,j) di valori centrali (xi,Yj) prenderà il simbolo
.fA xy(Xi,Yj) e quella relativa fxy(xi,Yj) mettendo in evidenza la dipendenza di tali
frequenze sia dalle due componenti della variabile osservata che dalla coppia dei valori
centrali di ogni classe.
Le componenti della variabile doppia potrebbero anche essere una continua e l'altra
discreta: nel seguito ci limiteremo però al caso di componenti della stessa natura.
Esempio 1.12.1 Riordiniamo i dati del precedente esempio 1. 9.1 suddividendoli in classi
di 1O kg di peso e di 1O cm. di altezza. Tale suddivisione procede separatamente per le due
componenti X e Y della variabile doppia ( ;) che sono di per sé variabili univariate.
Il risultato è rappresentato da una tabella a doppia entrata, dove ogni casella ospita la
frequenza ( assoluta o relativa) della coppia di classi corrispondente.
frequenze assolute
Figura 1-4:
I dati della prima delle tue tabelle (ma per la seconda cambierebbe solo la scala sull'asse
delle frequenze) si possono rappresentare con il seguente grafico (a canne d'organo, a
sinistra nella figura 1-4):
Nel caso che i dati si vogliano rappresentati in un istogramma non ci devono essere
spazi tra le colonne e deve valere il fatto, come nel caso delle variabili univariate, il
volume V(i,j) del parallelepipedo che sovrasta la classe (i,j) deve essere proporzionale
alla sua frequenza relativa fxy(xi,Yj) (oppure assoluta f A_xy(xi,Yj)). Deve cioè valere
la relazione:
dove h(i, j) dà l'altezza delle canne stesse come mostra il disegno a destra nella figura
1-4.
Come si vede dall'esempio 1.12.1, nella casella che corrisponde alla classe (i,j) ab-
biamo scritto nel primo caso f A xy(xi,Yj) = numero di elementi osservati (xh,Yh)
che appartengono alla classe individuata da Xi,Yj e nel secondo caso fxy(xi,Yj) =
f A xy(xi,Yj)/N = numero di elementi osservati (xh,Yh) che appartengono alla classe
individuata da x;, Yj diviso il numero totale N delle coppie osservate.
Ovviamente la frequenza assoluta congiunta è un numero intero positivo, e vale la
relazione
n m
LLfA_xy(x;,Yj) =N
i=l j=l
27
mentre la frequenza relativa congiunta fxy(xi,Yj) f A xy(xi,Yi)/N è un numero
razionale positivo compreso tra O e 1 e tale che
n m
LLfxy(xi,Yi) = l
i=l j=l
Le frequenze marginali
Dalle frequenze congiunte si ricavano le frequenze marginali.
La frequenza assoluta della marginale i-esima della componente X è:
m n n m
!A_x(x;) = LfA_xy(xi,Yi)
j=l i=l i=lj=l
(1.20)
mentre la frequenza relativa della marginale i-esima della componente X è:
m n n m
fx(x;) = Lfxy(xi,Yi) dove Lfx(xi) = LLfxy(xi,Yj) = l (1.21)
j=l i=l i=l j=l
n m m n
!A_Y(Yi) = LfA_xy(xi,Yi)
i=l j=l j=l i=l
n m m n
fy(yj) = L fxy(xi, Yi)
i=l j=l j=l i=l
Lasciamo alla successiva figura una spiegazione grafica delle operazioni effettuate.
y, .Vi )'111
XJ f,,T(X1,J'1) f~/1:,,yiJ f.~/x,,y) f.~/x,,y,,,)
fx/x 1,Y 1) f,,/x ,, y,J fn(x,,yi) f ~.,(x;,.V,,,)
XJ
Oss. 7 Dalla distribuzione congiunta delle frequenze si ricavano in modo univoco le di-
stribuzioni marginali delle frequenze. Viceversa assegnate due marginali non esiste un'u-
nica congiunta che loro corrisponde. Qui sotto due esempi di distribuzioni di frequenze
relative con le stesse marginali e diverse congiunte
Y1 Y2 Y1 Y2
XI 1/6 - a 1/6 + a 1/3 XI 1/6 + a 1/6 - a 1/3
X2 3/6 + a 1/6 - a 2/3 X2 3/6 - a 1/6 + a 2/3
2/3 1/3 2/3 1/3
La frequenza cumulata
Definizione 1.12.3 La frequenza assoluta cumulata della classe (k, h) , è data da
k h
FAc_xy(xk,Yh) = LL)A_xy(Xi,Yj)
i=l j=l
Si sommano cioè nella classe (k, h) le frequenze contenute nel cono retrogado che ha
vertice nella classe stessa. La figura 1-5 chiarisce il significato di questa somma.
I ylx x, Xz X! x, x.
Figura 1-5:
29
La frequenza relativa condizionata
Definizione 1.12.4 Si definisce frequenza relativa condizionata fxw(xi) della com-
ponente X al valore Y = y 1 l'espressione:
f ( ·) _ fxy(xi, Y1)
XIY=Yj x, - fy(yj)
Vediamo il significato di questo rapporto nel caso della tabella a doppia entrate dei pesi
e delle altezze 1.19
Supponiamo di essere interessati a sapere con che frequenza (relativa) coloro che hanno
peso appartenente alla classe (univariata) Xi si presentano nella classe (univariata) y 1 .
Sia, per esempio, y 1 = y3 = 1.75 e Xi= x2 = 65.
·
La nspos t , f ( ) _ fxy(65,l.75) _ 0.2 _ 2
a e XIY=l.75 65 - Jy(1. 75) - o.3 - 3
Se fossimo invece interessati alla frequenza con cui quelli che hanno altezza identificata
dal valore y3 = 1. 75 si presentano tra quelli che hanno peso individuato dal valore X2 = 55
avremmo:
N(x = 55, y = 1.75)
fxy(55, 1.75) 0.1 1
fYIX=x, (y3) = fYIX=55(1.7 5 ) = --N~(x-=-~'--55~)-- -
fx (55) 0.4 4
N
Esercizio 1.13.3 R~fare la tabella con dati dell'esempio 1.1. 7, con 2g classi di ampiezza
2 metri.
fA 8 10 16 15 10 8 3 70
classi (50,60] (60,70] (70,80] (80,90] (90,100] (100,120] (120,180] totale
osservazione 2 3 4 5 6 8 10 13
freq. assolute 3 43 1 38 4 2 6 3
Definizione 2.1.1 {classica) Se un esperimento (casuale) può dar luogo a N esiti ele-
mentari non ulteriormente scomponibili in condizioni di simmetria (cioè non abbia-
mo motivo per pensare che si verifichi un esito piuttosto che un altro) e se N A tra
questi hanno l'attributo A allora si definisce probabilità di A il rapporto N A/N, cioè
P(A) = NA/N.
Osservazione Notiamo che con questa definizione O ::; P(A) = N A/N ::; 1, cioè la
probabilità è un numero non negativo che non supera 1. Inoltre se tutti N gli esiti
osservabili hanno l'attributo A allora P(A) = N / N = l (probabilità dell'evento certo
che in seguito denoteremo con O). Infine se N A esiti presentano l'attributo A e N B
presentano l'attributo B e se A e B sono incompatibili allora la probabilità di osservare
A o B è data da NA/N + Ns/N.
32 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
Esempio 2.1.2 Probabilità che appaia la faccia di un dado. Le facce si escludono a
vicenda e, se il dado è non truccato, sono tutte egualmente possibili.
{Probabilità che esca la faccia "5"}= P(5) = 1/6
{Probabilità che sulla faccia esca un numero> 2}= 2/3
Non sempre si può applicare la definizione precedente.
• Ricerca della probabilità che un numero estratto a caso dagli interi positivi sia pari.
La risposta intuitiva è 1/2. In questo caso la definizione classica cade perché gli
esiti possibili sono infiniti (tutti i numeri interi).
• Ma la definizione classica non si può usare anche quando gli esiti non sono ugual-
mente possibili, come nel caso di una moneta truccata.
La definizione frequentista
Ai problemi esposti negli esempi precedenti risponde la definizione frequentista di pro-
babilità dovuta a Von Mises.
Definizione Si fa un'osservazione di un esperimento casuale; 2) si ripete molte volte
l'esperimento in condizioni analoghe; 3) in molti casi le osservazioni sono raggruppabili
per classi di frequenza; 4) questo ci porta a postulare l'esistenza di un numero "p" definito
come la probabilità dell'evento e ad approssimare "p" con la frequenza relativa con la
quale le osservazioni ripetute soddisfano l'evento stesso.
Esempio Risultati di n estrazioni casuali dagli interi positivi per n = 100, 1000, 10000
(a ogni osservazione si assegna una probabilità pari alla sua frequenza).
La definizione soggettiva
La definizione frequentista contiene la definizione classica. Esistono però situazioni che
non rientrano neppure nella casistica frequentista: per esempio la valutazione della pro-
babilità che la mia fidanzata mi ami o che scoppi la terza guerra mondiale. L'assegnazione
della probabilità a un dato evento in questi casi ubbidisce alla "regola di coerenza" del-
l'aneddoto cinese: se due contendenti devono separarsi un'eredità, tale regola stabilisce
che uno divida l'eredità in due parti e l'altro scelga per primo quale parte vuole.
Vediamo allora la definizione di "p" nella concezione soggettiva della probabilità, dovuta
all'italiano Bruno de Finetti, nella quale viene appunto posto l'accento sulla "coerenza"
che deve avere un individuo che prende decisioni su fatti che dipendono da eventi aleatori.
Questa "coerenza" è un attributo indispensabile alla sua valutazione.
Definizione La probabilità di un evento, secondo l'opinione di un dato individuo, è
l'importo di denaro p che egli stima equo (o coerente) scomettere per ricevere 1 se si
verifica l'evento stesso. L'equità (o la coerenza) implica che l'individuo sia anche disposto
a fare da banco alle stesse condizioni, cioè ricevere p per pagare 1 se si verifica l'evento.
33
La definizione assiomatica
Kolmogorov, un matematico russo, nel 1930, utilizzando il linguaggio della teoria degli
insiemi (e della teoria della misura), dà una definizione assiomatica della probabilità co-
me funzione definita su un certo spazio, che deve avere certe proprietà. Tale definizione
prescinde dal significato che bisogna dare alla probabilità di un evento. Le diverse proba-
bilità definite nei casi precedenti seguono l'algebra stabilita dalla definizione assiomatica.
Questa sarà la definizione che utilizzeremo nelle pagine a seguire.
Un breve profilo su Laplace, Von 1Iises, de Finetti e Kolmogorov nella nota storica in
fondo al capitolo.
•
• •
• •
• •
• • •
• • •
• • •
• • •
• •
•
•
giacche camice crava/le calzoni calze scarpe
Esempio 2.2.3 Gioco del poker Consideriamo una mano di poker con quattro gioca-
tori e un mazzo di 52 carte (poker all'americana). Definiamo rango il numero su una
34 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
carta (A, 2, ... , 10, J, Q, K ). In un mazzo ci sono 13 ranghi e 4 semi, fiori, picche, quadri
e cuori. In quanti modi posso pescare 5 carte dal mazzo se voglio che tra le carte pescate
i ranghi siano tutti diversi? (Attenzione: si tiene conto dell'ordine con cui le carte sono
pescate).
Soluzione. Le carte sono 52 perciò la prima carta può essere scelta in 52 modi. Nella
seconda scelta le carte disponibili sono diventate 48, perché il rango della prima carta
esclude le altre tre carte dello stesso rango. Nella terza scelta, per gli stessi motivi, le
carte possibili sono 44. Nella quarta le possibilità sono 40 e nella quinta 36. Totale:
52 · 48 · 44 · 40 · 36 = 158146560
Permutazioni
Riferendoci allo stesso caso, se facciamo li1 -uple di M elementi senza ripetizione, ab-
biamo le permutazioni:
_,.._
___
DM,M = M(M - l) .... 1 =Ml= (M)M (2.2)
M fattori
...__,_..,
3·3·3 · ·3 = 3 13 = 1594323
13 volte
35
Se ora voglio valutare ad esempio qual è la probabilità di una schedina senza pareggi, devo
contare le 13-uple senza 3 (cioè senza pareggi): è come estrarre da un'urna contenente
due sole palle, perciò 2 13. Quindi la risposta è:
213 = (~) 13
313 3
Combinazioni
Supponiamo di avere un totale di M elementi e di voler contare quanti sottoinsiemi di n
elementi si possono formare dagli M. Due sottoinsiemi sono distinti solo se contengono
elementi distinti e non conta l'ordine in cui gli elementi compaiono. Siamo perciò in una
situazione diversa dalla precedente. Tenendo conto dell'ordine i gruppi erano (disposizioni
senza ripetizione):
M!
(M)n = (
M-n.
)' = M(M - 1) ... (M - n + 1).
In questo caso, non interessando l'ordine, abbiamo che, ad esempio, (1, 2, 3, .... , n) non
è distinguibile da (2, 1, 3, ... , n). Quindi tutte le permutazioni diverse di n elementi che
compongono un singolo gruppo non producono nuovi gruppi. Le permutazioni sono n!
perciò per "pulire" il numero delle disposizioni senza ripetizione dalle permutazioni di n
elementi divido (l\1)n per n! e ottengo:
(!) (M~n)
casi favorevoli
casi possibili
Quante sono le cinquine possibili quando sono .fissati due elementi della cinquina stessa
(ambo)?
Sono (838 ). Allora la probabilità di fare ambo è: (838 ) / ( 95°) ~ 0.0025.
37
Esempio 2.2. 7 Come applicazione della definizione 2. 2.1 vediamo questo problema. In
una scatola ci sono 7 lampadine di cui 3 di tipo A, 2 di tipo B e 2 di tipo C. Ne vengono
estratte (senza reimmissione) n a caso (ovviamente n::; 7). Calcolare la probabilità che
tra le lampadine estratte ce ne siano x di tipo A e y di tipo B.
Tra tutte le (:) estrazioni possibili, senza reimmissione di n lampadine da 7, ci sono
(!)modi di estrarne x di tipo A (x = O,l, 2, 3). Per ognuno di questi ci sono (:) modi
di estrarne y di tipo B (y = O, l, 2) e, di nuovo, per ognuno coppia di questi due modi
precedenti ci sono ( 2 ) modi di estrarne n - x - y di tipo C (evidentemente deve
n-x-y
essere O::;n - x - y ::; 2). La probabilità cercata è:
n 10 20 22 23 40 50 60 70
P[A] .117 .422 .476 .507 .891 .970 .994 .999
Già con 23 persone è più probabile trovare due individui con lo stesso compleanno piut-
tosto che compleanni tutti diversi, mentre con 10 siamo sicuri 999 volte su 1000.
ATTENZIONE! P[A] = l (cioè certezza) solo con n = 366 persone.
Osservazione: se non si vuole tenere conto dell'ordine si ha:
#(fJ) #(A G) P [AG]
_(_365Jn
ordin e 365n (365)n ?"" n
( 36 5) = (365)n (365) n
disordine ( 36 5 :n - l)
n n! (364 + n) n
Già con 30 persone c'è una probabilità pari a 0.9 di avere almeno 2 compleanni uguali.
Esempio 2.2.9 Gioco del poker. Facendo riferimento all'esempio 2.2.3 verificare che
la probabilità di avere le seguenti mani servite al gioco del poker all'americana è quella
indicata. Osserviamo che i casi 1), ... , 'l) sono da considerarsi a due a due disgiunti.
1J coppia (2 carte delllo stesso rangoJ: (1t)(~)(1l)(1)(i) (i)/ (552 ) = 0.4226
2J tris (3 carte dello stesso rangoJ: (1/)(!) en
(1)(1)/ (552) = 0.0211
3) poker (4 carte dello steso rango): (1/)(!) (\2) (1)/(552) = 0.002
4) doppia coppia (2 carte di un rango e 2 carte di una altro): (1 3
2 )(~)(~) (1/)(1)/ (552 ) =
0.0475
5) scala (5 ranghi in ordine successivo, non tutti dello stesso seme): [lO(i)5 -10(1)]/ (552) =
0.0039
6) colore in scala (casi 5) e 8) insieme): [10(1)- (i)l/( 552 ) = 0.000014
'l} scala reale (casi 5) e 8) insieme con l'ultima carta un A): (1)/(552 ) = 1.539 x 10-6
8) colore (5 carte dello stesso seme non in scala): [(1)(1 5 ) - 10(1)l/(5 ) = 0.002
3 52
5 2
Soluzione. Intanto le mani possibili sono ( 5 ); evidentemente non conta l'ordine.
1) Si tratta di calcolare quante sono le mani di 5 carte dove ci sia una coppia. Abbiamo
già detto che nel mazzo ci sono 13 ranghi e 4 semi. Scegliamo prima i ranghi poi i semi
e calcoliamo in quanti modi possiamo fare una coppia: (1/)(~).Infatti (1t)sono le scelte
del rango per la coppia, (~) sono le scelte dei semi. Per ogni coppia rimangono tre posti
liberi. I restanti 12 ranghi possono essere scelti in (\ 2 ) modi e, in ogni posto, ci sono (1)
m
modi di mettere il seme. Conclusione: (1t) (1n(i) (i) (1).
2), 3) e 4) Ragionando come in 1) per il caso 2) si hanno (\3)(!) (1n(i) (i) mani. Per
il 3) le mani sono en(!) (1i2)
(1)e per il 4) (1/)(~)(~)(1/)(1).
5), 6) e 'l). In 5) i ranghi possibili sono 10 (la carta più bassa può essere A, 2, ... , 10)
e per ogni carta il seme può essere scelto in (1) modi: mani totali: 10(1) 5
• Tra queste
10(1)hanno lo stesso seme (cioè sono scale colore) e ancora tra queste ultime (1) sono
scale reali. Le scale non colore sono 10(1)
5
- 10(1)
Esempio 2.2.10 Dal paradosso di De Merè, già citato nella introduzione: mostrare che
è più probabile ottenere almeno un asso lanciando contemporaneamente 4 dadi (caso '1,),
che non almeno una coppia di assi lanciando 24 volte due dadi ( caso +).
39
Caso -": almeno un asso nel lancio di quattro dadi.
Casi possibili: 64 •
Casi favorevoli
lDDD DlDD DDlD DDDl.
"-v--' '--v-"" "-v--' '--v-""
63 63 63 63
I casi favorevoli però non sono 6 3 • 4 perchè tali casi non sono mutuamente esclusivi.
Perciò la probabilità cercata non è
3
y.
La probabilità si calcola così:
dove i casi favorevoli a "non escono assi" sono 54 (5 possibilità per il 1°, 5 per il 2° ... ) .
Esempio 2.3.2 L'esperimento consiste nel lancio di un dado a 6 facce. Ogni possibile
risultato è il numero che appare sulla faccia che si presenta verso l'alto quando il dado
si ferma. Allora O = {l, 2, 3, 4, 5, 6} è lo spazio dei casi possibili o campionario e ha
cardinalità 6.
Esempio 2.3.3 L'esperimento consiste nella conta del numero di T in n lanci di una
moneta. Lo spazio dei casi possibili O è fatto da stringhe w = {D1, D2, 03, ., Dn-1, Dn}
lunghe n dove Di= {T} oppure {C} a seconda del risultato dell'i-esimo lancio. Vedremo
che la sua cardinalità è 2n.
40 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
Esempio 2.3.4 L'esperimento consiste nella conta dei lanci a vuoto di una moneta bi-
lanciata ( cioè di una moneta il cui centro geometrico coincide con il centro di massa)
per ottenere la prima testa {T}. Se esce {T} al primo lancio il risultato è O. Se esce al
secondo, il risultato è l. Se esce all 'n - esimo lancio il risultato è n - l.
O è fatto da stringhe infinite w = {D1 ,D2,D3,.,Dn-i,Dn,······} dove D; = {T} op-
pure {C} a seconda del risultato dell'i-esimo lancio. Si può vedere che n ha la stessa
cardinalità dell'insieme dei numeri reali, cioe e (Appendice 1}.
Esempio 2.3.5 L'esperimento consiste nel valutare la durata di una lampadina a partire
dall'istante in cui viene accesa. Se la lampadina brucia subito il risultato è O. Altrimenti
è un numero reale maggiore di O. Allora n = JR+ U {O}.
Esempio 2.3. 7 Lancio del dado: A = {esce pari} {2} U { 4} U {6} è un evento in
quanto sottoinsieme di O;
Esempio 2.3.8 Scelta di una carta da un mazzo di 52. n = {l, 2, 3, .. , 52} pensando ad
esempio che da 1 a 13 siano cuori, da 14 a 26 quadri, da 27 a 3g fiori e da 40 a 52
picche. Lo spazio campionario ha cardinalità 52. A = {esce una carta di picche} è un
evento in quanto sottoinsieme di n.
Esempio 2.3.9 Durata X di una lampadina, X misurata in ore. A = {1000 < X <
2000} è un evento.
Oss. 2 L'utilizzo dei simboli della teoria degli insiemi è molto potente per la "visualiz-
zazione" degli eventi. Indicato con A un evento, il suo complementare insiemistico Ac
sarà la sua negazione logica, cioè l'evento che si verifica quando non si verifica A. Ana-
logamente dati due eventi A e B, l'unione insiemistica A U B rappresenta l'evento che
si verifica quando si veri.fica A oppure B, oppure entrambi; mentre l'intersezione insie-
mistica AB l'evento che si verifica solo quando si verificano entrambi. Utilizzando le
operazioni insiemistiche interpretate logicamente si riescono a descrivere tutti gli eventi.
A questo punto non è ancora definito con precisione il concetto di evento. Possiamo però
definire con precisione cosa è ragionevole chiedere a una collezione A di eventi. Vengono
richieste le seguenti proprietà.
1) n E A (ci sia l'evento certo)
2) A E A ::::}Ac E A (se può verificarsi A si deve poter verificare anche Ac)
n
3) A1, ... , An E A::::}UA; E A (se gli A; sono eventi possibili allora può verificarsi anche
1
l'evento che è implicato da uno qualunque degli A;).
Esercizio 2.3.1 Verificare che, se sono soddisfatte le proprietà 1), 2), 3), sono soddi-
sfatte anche le due seguenti:
4) 0 E A;
n
5) A1, ... , An E A::::}nA; E A
1
41
Nota: nè l'evento implicato da ogni risultato mentre 0 è l'evento impossibile che nessun
risultato implica.
Esempi di Cl-algebre
Esempio 2.3.13 L'insieme delle parti di un insieme n, cioè l'insieme formato da
tutti i sottoinsiemi di n, è una CJ-algebra.
Esempio 2.3.14 Sia A e n. L'insieme A i cui punti corrispondono ad A, A e, n, 0 è
una CJ-algebra1 e quindi è uno spazio degli eventi. È questo il caso che può presentarsi
se, nel lancio di un dado a 6 facce (O = {1, 2, 3, 4, 5, 6}) fossimo interessati solo all'uscita
di un numero pari oppure dispari. Preso A = {2, 4, 6} lo spazio degli eventi A è quello
dell'esempio.
Oss.: da questo semplice esempio si vede che gli eventi elementari w; non devono
necessariamente appartenere ad A.
Esempio 2.3.15 Nel lancio di un dado a quattro facce, n = ({l},{2},{3},{4}) sup-
poniamo di essere interessati all'uscita dei due numeri più bassi A = {l, 2} oppure del
numero più alto B = {4}. La minima CJ-algebra che contiene A e B si ottiene aggiun-
gendo ad A e B i loro complementari Ae = {3, 4} e Be = {l, 2, 3} e quindi l'unione
di tutti, prima a coppie cioè A U B = {l, 2, 4}, A U Be = {l, 2, 3}, Ae U B = {3, 4},
AuAe = B uBe = Ae uBe = n, poi a terne, AuAe UB, AuAe uBe, AUB uBe
e A e U B U Be, ma questi sono tutti uguali a n. Poi l'intersezione prima a coppie, ma
l'unico elemento nuovo, oltre a 0, è A e Be = {3}, poi a terne, ma questi sono tutti
vuoti. Alla fine si trova:
{1, 2}; {4}; {3, 4}; {1, 2, 3}; {1, 2, 4}; n; 0, {3}.
Questi elementi costituiscono lo spazio degli eventi A relativo al risultato dell'esperimento
che ci interessa. La cardinalità di A è pari a 8, la metà della cardinalità dell'insieme
P(O) delle parti di n che è 24 = 16, e che è la massima CJ-algebra che contiene A e B.
Esempio 2.3.16 Supponiamo che gli eventi elementari siano i numeri reali r, tale che
-oo < r < +oo. Consideriamo i sottoinsiemi di JR costituiti dagli intervalli semiaperti
a destra, cioè della forma (-oo, r] (r eventualmente uguale a +oo). Sia B la CJ-algebra
generata da questi. Essa contiene insiemi del tipo
+(X) 1 +(X)
(r,+oo) = (-oo,rl°; (-oo,r) = LJ(-oo,r
n=l
- -];
n
{a}= n (a-¼,a];
n=l
Cardinalità dello spazio degli eventi A =P(O), insieme delle parti di O, quando
#(O)< +oo
Quanti sono gli elementi di P(O) se #(O) < +oo? In altre parole: se la cardinalità di O
è n, qual è la cardinalità di P(O)? P(O) è, per definizione, l'insieme formato da tutti i
sottoinsiemi dell'insieme O. Ricordiamo che tra i sottoinsiemi di O ci sono 0 e O stesso.
Poi ci sono gli insiemi formati da un solo elemento: sono (7) = n modi in cui si può
scegliere un elemento tra n.
Gli insiemi formati da 2 elementi sono: (;). Quelli formati da tre elementi sono: (;)
eccetera. Il numero totale è I:~=o(~). Ricordando che (a+ br = I:~=o
(~)an-kbk, per
a = b = I abbiamo 2n = I:~=O G).
Nota: Si può ragionare anche in questo modo ( #(O) < +oo). I sottoinsiemi di O sono:
0={} ...__,._.,o}=O
{o} {oooo
n
I ~1 I ~21 °I
~31 1 I I ~, I I I ~n I
Si ritiene che l'elemento w; appartiene al sottoinsieme se nella colonna di w; c'è 1 mentre
non gli appartiene se c'è O. I sottoinsiemi sono allora tante quante sono le stringhe di n
elementi uguali a O e 1 cioè 2n = D~ n = disposizioni con ripetizione di 2 elementi a n.
Per altre osservazioni su questo esercizio vedere l'Appendice 1.
@
A B A B
(j)
(]) (])
(J)
Q) Q)
©
© @
Q) Q)
N!
6!
Se NA = 4 e N - NA = 2 i microstati sono 4121= 15
È facile constatare che con N molecole i microstati possibili sono 2N mentre i macrostati
sono N + 1.
N!
Indichiamo con C(NA) = '( )' il numero di configurazioni del sistema in base
NA,N-NA,
alle quali ci sono NA molecole in A (e N - NA in B). Le molecole sono sempre in
movimento, quindi il sistema cambia costantemente configurazione. Per procedere nella
nostra esposizione considereremo i microstati equivalenti o equiprobabili, nel senso che il
sistema ( quando è in equilibrio) passa lo stesso tempo in uno qualunque dei microstati.
Applicando la de.fmizione classica di probabilità si ha:
N!
N! N
Se N è pari, N A!(N _ N A)! è massima se N A = 2 mentre se N è dispari il massimo
· t o per N A = -N -- l e N A = -N +
e' raggiun l È evi'den t e ch e i·1 sis
. t ema t en de a d.isporsi.
2 2-.
nelle configurazioni più probabili e quindi a passare la maggior parte del tempo nelle
configurazioni in cui ci sono circa metà delle molecole da una parte e metà dall'altra.
Chiameremo disordinati i macrostati cui corrispondono un elevato numero di microstati:
è evidente che i macrostati più disordinati sono quelli in cui le molecole sono distribuite
circa metà per parte.
Si osservi che con un numero piccolo di molecole (6 nel nostro caso) la probabilità di
S = klnC(n) (2.8)
dove k è la costante di Boltzman (1.38 · 10- 23 joule}.
La scelta del conteggio logaritmico è motivata dal fatto che l'entropia è additiva e che i
numeri C(n) sono in generale molto grandi, quindi i loro logaritmi sono più maneggiabili.
Dalla 2.8 si capisce che quando il sistema evolve verso le configurazioni più probabili
44 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
C( n) cresce, il disordine cresce e l'entropia cresce. Il macrostato al quale è associato il
maggior numero di microstati viene detto "di equilibrio". Per quanto come già osservato
un sistema (isolato) evolve spontaneamente verso l'equilibrio, cioè verso le situazioni di
massima probabilità, di massimo numero di configurazioni microscopiche, e di massima
entropia (come asserisce il Secondo Principio della Termodinamica).
Come vedremo nel capitolo 10 sapere che un sistema si trova in uno stato molto probabile
non fornisce molta informazione mentre sapere che si trova in uno stato molto improbabile
è sorprendente: è naturale interpretare questa sorpresa come una quantità elevata di
informazione.
2.4 Probabilità
Definizione 2.4.1 Funzione di probabilità è una funzione a- additiva e positiva (cioè
una misura) P[·l, avente come dominio A (spazio degli eventi) e come codominio l'in-
tervallo [O,l]. Trattandosi di una misura P[·] soddisfa le seguenti proprietà:
1) P[A] ~ O,VA E A;
2) P[O] = l;
3) (a-additività} Se A 1 , A 2 , .. è una successione di eventi di A a due a due disgiunti
(X) (X)
n n
Se la cardinalità di supera ~o (cioè gli elementi di sono una infinità non numerabile)
per ragioni riguardanti la funzione di probabilità definita su A, non è più garantito
che tutti i sottoinsiemi di n
possano stare in A. Le motivazioni di questo fatto, che
dipendono dall'impossibilità di definire, in certi casi, una funzione di probabilità su ogni
sottoinsieme di n, esulano dalle finalità di questo corso.
Proprietà di P[·]
Teoremino 2.4.2 (:•)
P[0] = O.
00 00 00 00
Dim.: Vi, Ai = 0 ::::}0 = UAi ::::}P[0] = P[UA;] = I::P[Ai] = I::P[0]
1 1 ,...~l 1
(per la 3)
che è vera sse P[0] = O •
Oss. 4 Se #(O)= +oo possono esistere eventi possibili con probabilità O (e, dualmente,
eventi con probabilità 1 diversi dall'evento certo O) come vedremo più avanti.
Teoremino 2.4.3 (:•) Dati gli Ai, i= 1, ... , n, con AiAj = 0 se i =f.j allora:
n
P[yA;J = LP[Ai]
1
Infatti: AB e A=} P[AB] ::; P[A]/\AB e B =} P[AB] ::; P[B] da cui P[AB] 2 ::; ...
1 iv) (2.12)
Definizione 2.4.8 Spazio di probabilità Uno spazio di probabilità è la terna (O, A, P[·]),
dove n è lo spazio campionario e P[·] è la funzione di probabilità assegnata sulla a- algebra
A.
Esempio 2.4.12 La nutella Per aiutare l'intuizione potete pensare a O come a una
fetta di pane su cui viene spalmata una certa quantità di nutella, il cui peso complessivo
sia pari a l {kg}. Su quei sottoinsiemi di O che sono eventi rimane così depositato un
certo peso di quella crema squisita. Il caso in cui la nutella è spalmata in modo che
su parti uguali di O ci sia la stessa quantità "modelizza" una distribuzione un~forme di
probabilità. I sottoinsiemi di O con uno strato più spesso di nutella saranno gli eventi
più probabili ( quelli più interessanti per il goloso).
Esempio 2.4.13 Siano A, B, C tre eventi; vediamo come possiamo ottenere da questi,
utilizzando le operazioni insiemistiche, altri eventi:
Esercizio 2.4.1 Descrivere, utilizzando i simboli della teoria degli insiemi, gli eventi
indicati in ,figura.
Esempio 2.4.14 Consideriamo il seguente modello. Un'urna contiene li1 palle (nume-
rate da l a M e quindi distinguibili}; le prime N sono difettose. Estraiamo un campione
di k palle. O= {(x 1, ..,xk): x; = numero palla estratta alla i-esima estrazione}. Sia
47
Ah l'evento {h palle nel campione sono difettose (O ::; h ::; k)}, cioè Ah è quel sot-
toinsieme di O per il quale esattamente h delle k palle sono numerate da l a N. Sarà
P[Ah] = ~(~/ .Consideriamo due tipi di estrazione.
Con reimmissione In questo caso #(O) = Mk. Considerato che ci sono (~) modi di
scegliere h posizioni su k e che, per ognuno di questi, ci sono Nh(M - N)k-h differenti
k-uple, #(Ah)= (~)Nh(M - Nl-h. Allora:
( k)Nh(M - N)k-h
P[Ah]= h Mk (~)C~)h(l-~)k-h (2.15)
( 13) (52-13)
P[A] = 6
(rn13 - 5
.
= O 042
(2.17)
dove: ( 53°) è il numero di modi in cui si possono scegliere 3 difettose su 50, ( ~ 0-::_53°)è il
numero di modi in cui si possono scegliere (50-3) palle senza difetti su (M - 50) senza
IIOsserviamo che:
( k)- k!, _ N!, _ (M-N)! , _M!
h - h!(k-h)!, (N)h - (N-h)!, (M - N)k-h - (M-N-(k-h))!, (M)k - k!
Allora:
(hk)(N)h(M-N)k_h _ k!
N! (M-N)!
~ (M-N-(k-h))!
(M)k - h!(k-h)!
N! (M-N)!
"iiT(iv=-ii)T(k-h)!(M-N-(k-h))!
Ml
k!(M-k)!
48 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
difetti, (~) è il numero di modi in cui si possono scegliere 50 palle su M. È evidente
che i sostantivi "pesci" e "palle" possono essere scambiati. Consideriamo alcuni valori
di 2.16 per vari M:
(~)(Mk!hN) ('i;)
(M,;--1)
(M - 1- N)!k!(M - 1- k)! M!(k - h)!(M - N - (k - h))!
(M - l)!(k - h)!(M - 1- N - (k - h))! (M - N)!k!(M - k)!
_ M(M-N-(k-h)) > l
- (M-N)(M-k)
Perché sia soddisfatta deve essere:
M(M - N - (k- h)) > (M - N)(M - k)
da cui
M k
Mh > Nk e quindi N > ,;·
Conclusione: si vede che PM è massima (più o meno) per quel valore di !v1 che realizza
tra numero di pesci totali presenti nel lago e numero di pesci marcati la stessa proporzione
che c'è tra numero di pesci del campione e pesci marcati presenti nel campione. Questo
non è sorprendente. Se il campione scelto è veramente casuale (vedi capitolo 11), cioè è
un buon campione, allora riproduce in piccolo ciò che la popolazione presenta in grande.
Quindi se il campione è buono la cosa che "deve" capitare con maggiore probabilità è la
riproduzione nel campione della proporzione presente nella popolazione.
Esempio 2.4.17 Piene dei fiumi Presso la chiusa di Calamazza, sul .fiume Magra,
sono state registrate, per 34 anni, le situazioni di inondazione, cioè i momenti in cui è
stato misurato un passaggio superiore ai 300 m 3 / sec.
I risultati sono riassunti nella seguente tabella:
(*)
x = n. possibile di inondazioni per anno o 1 2 3 4 5 6 7 8 g
numero di anni con x inondazioni o 2 6 7 g 4 1 4 1 o
frequenze relative di N = x o 2
34
6
34
7
34
9
34
4
34
1
34
4
34
1
34 o
49
Da questi dati ricavare la probabilità che in un anno ci sia almeno una inondazione.
La tabella (*) rappresenta 34 osservazioni da N, il numero di inondazioni in un generico
anno. Da queste osservazioni induciamo una distribuzione di frequenze dei valori di N
che, in mancanza di meglio identifichiamo con la sua distribuzione di probabilità. Questa
distribuzione di probabilità non sarà quella vera ma, con i dati che abbiamo, è tutto quello
che possiamo permetterci.
n ={O::; N::; S;N intero};A = {N = O};A0 = {N ~ l}. L'evento che ci interessa è
Ac.
P[A] = O quindi P[A 0 ] = 1.
Se i dati fossero invece quelli misurati presso una stazione idrogeologica su .fiume Bisagno
dal 1931 al 1995 inclusi, che hanno registrato una sola inondazione nel 1945, 1953, 1979,
1992 , due inondazioni nel 1951, e nessuna inondazione negli altri anni, quale sarebbe la
probabilità di almeno una inondazione per anno?
La tavola delle frequenze è la seguente:
Esempio 2.4.18 Pensiamo al lancio, ripetuto n volte di una moneta (non sappiamo
se bilanciata, cioè se P[{T}] = P[{C}]). I punti di n0 sono n-uple o stringhe di n
elementi w = {D1, D2, 03, ., Dn-1, Dn} dove Di = {T} oppure {C} a seconda del risultato
del lancio. La cardinalità di n0 è 2n. Ipotizziamo di distribuire la probabilità in modo
un~forme su n0. Allora ogni evento elementare w ( cioè per ogni stringa di n tra T e C)
è P[ { w}] = 2~ . Ovviamente n0 = f1no.
n
Osservazione importante: supponiamo n = 100. L'evento {TT . .. T} che si verifica
quando T esce 100 volte di seguito ha la stessa probabilità dell'evento {TCTC ... TG} che
si verifica quando T e C si alternano a ogni lancio e anche dell'evento {T ... TG ... C}
che si verifica quando T esce nei primi 50 lanci e C esce nei secondi 50. Apparentemente
ciò contrasta con l'intuizione la quale ci suggerisce di aspettarci, in 100 lanci, un numero
di T circa uguale al numero di C. Ma, attenzione, l'evento {in 100 lanci di una moneta
bilanciata il numero di teste è più o meno uguale al numero di code} non coincide con
l'evento {TCTCT ... CTC} ma con la riunione di tutti i risultati in cui il numero delle
T è più o meno uguale a quello delle C.
Esempio 2.4.19 Pensiamo al lancio, ripetuto n volte di una moneta non bilanciata.
I punti di n0 sono n-uple o stringhe di n elementi w = {D1, D2, 03, ., Dn-1, Dn} dove
Di = {T} oppure {C} a seconda del risultato del lancio. La cardinalità di n0 è 2n.
50 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
Ma non siamo in condizioni di equiprobabilità degli eventi elementari e P[ { w}] =/- 2~.
Calcolare P[ { w}] in questo caso è più delicato.
Si consideri la seguente ,figura:
Figura 2-1:
X
Si potrebbe immaginare di procedere in questo modo. Supponiamo che p = 1000 con
1000- X
O ::; x ::; 1000 sia la probabilita che esca T a ogni lancio ( e q = 1000 la probabilità
che esca C). Allora lanciare la moneta equivale a scegliere una palla da un serbatoio di
1000 palle di cui x marcate T e 1000 - x marcate C. III Prima del successivo lancio si
reimbussola. Contiamo in quanti modi, lanciando n volte, si può realizzare una sequenza
di {T, C, T, ... , T} supponendo che in questo risultato le teste siano k e le code n - k.
In ogni casella in cui c'è una T abbiamo x casi favorevoli a ogni lancio. In ogni casella
dove c'è una C abbiamo 1000 - x casi favorevoli a ogni lancio. In totale i casi favorevoli
a un risultato con k Te n-k C sono xk (1000- x )n-k. I casi possibili sono 1000n. Quindi
xk(lO00 - x)n-k xk (1000 - x)n-k
P[{T,C,T, ... ,T}] = 1000n = l000k 10oon-k =pkqn-k
k teste. n-k code
Tutto questo funziona se p = P[{T}] è razionale. Vedremo nel prossimo capitolo, dopo
aver introdotto l'indipendenza tra eventi, che anche per p irrazionale l'espressione di
questa probabilità è la stessa.
Esempio 2.4.20 Consideriamo un nuovo esperimento che consiste nel lancio, ripetuto
(X)
infinite volte, di una moneta bilanciata. Lo spazio dei casi possibili adeguato è n = f1no.
Un evento elementare sarà una stringa in.finita {T, T, C, C, T, .. }.
# (n) = e (vedi Appendice 1), cioè n non è numerabile. Poichè nel passaggio da un
evento di n0 a un evento di n0 (n < m) la probabilità di un evento elementare diminuisce
passando da 2~ a 2~. Si capisce allora che ogni evento elementare di n ha probabilità
nulla. Ciononostante, ogni evento elementare è possibile (infatti una almeno delle infinite
stringhe deve realizzarsi nell'esperimento). Abbiamo così un esempio di evento possibile
con probabilità nulla.
Oss.: Un evento A=/- 0 possibile ma con probabilità P[A] =Osi chiama quasi impossibile
mentre se A=/- n e P[A] = 1 l'evento si chiama quasi certo.
III Per ora, per applicare le formule dell'esempio 2.4.14 riterremo che le palle contrassegnate con T siano
numerate e riconoscibili, esattamente come quelle contrassegnate con C. Nel capitolo 3 rinunceremo a
questa riconoscibilità, senza che il risultato finale cambi.
51
Esempio 2.4.21 Il problema delle chiavi: caso A Il signor Negroni torna a casa
una sera ubriaco. In tasca han chiavi di cui una sola apre la porta d'ingresso. I fumi
dell'alcool non gli permettono di riconoscere quella giusta e procede per tentativi estraendo
ogni volta una chiave senza reimmetterla in tasca. Sia Ek = {la chiave giusta viene
estratta al k-esimo tentativo}, 1 ::; k ::; n. Qual è la probabilità di Ek?
Le possibili estrazioni di n chiavi sono in numero .finito, quindi #(O) è un numero intero.
Ci sono due modi di procedere.
Primo modo (in cui non si ipotizza ancora che la chiave giusta sia in posizione k).
Si contano tutte le possibili estrazioni, cioè tutti i modi in cui Negroni può estrarre (senza
reimbussolo) tutte le n chiavi dalla tasca. Le estrazioni sono n!.
Poi si contano le estrazioni favorevoli, cioè quelle in cui la chiave giusta è in posizione
k; queste sono (n - l)!. Allora:
Secondo modo (in cui si ipotizza che la chiave giusta sia in posizione k).
- - -1- - - - - - -
I
I I
__ j ___ j ___ ~~-~~
n n- I n-2 n. (k. I)
kposti
Figura 2-2:
Dare per scontato che la chiave giusta è in posizione k signi.fica sostanzialmente dire che
si possono riempire solo le prime k celle (vedi figura). Quindi i casi possibili diventano
n · (n - l) · · · · · (n - (k - l)). I casi favorevoli sono quelli che hanno chiavi sbagliate (che
sono n- l) nelle prime k- l posizioni, cioè (n -1) · (n- 2) · · · · · (n- 1- (k - 2)). Allora:
p [E k] = -'-(
n_------'l
)_·--'-( 1
)_·_··_·_·("'-n_-_k_+-----'-l)
n_-----'2 (2.19)
n · (n - 1) · · · · · (n - k + l) n
Il problema delle chiavi: caso B Supponiamo che Negroni sia tanto, tanto ubriaco.
Se estrae una chiave che non funziona, la rimette in tasca e ne sceglie un'altra. Qual è
in questo caso la probabilità di Ek?
La situazione è totalmente diversa da quella precedente. I casi possibili infatti (se
non si ipotizza che la chiave giusta sia in posizione k) sono una infinità non numerabile,
perché sono tanti quanti le stringhe infinite di O e l. Quindi possiamo applicare solo la
tecnica del secondo modo del caso A ( quello in cui si ipotizza la presenza della chiave
giusta in posizione k}. Precisamente, essendoci reimbussolo, abbiamo k- l celle, ognuna
delle quali si può riempire in (n - 1) modi. Quindi abbiamo esattamente (n - 1t- 1
stringhe. Estraendo le chiavi k volte, sempre a causa del reimbussolo, le stringhe sono
n k. In conclusione:
Figura 2-3:
Infatti per la probabilità dell'unione di due insiemi se sommiamo P(A) a P(B) aggiungia-
mo due volte il peso 1 della parte comune AB; questa va perciò tolta una volta perché il
conto sia corretto. Se vogliamo invece la probabilità dell'unione di tre insiemi sommando
P(A), P(B) e P(C) aggiungiamo due volte la parte 1, due volte la parte 2, due volte la
parte 3, tre volte la parte 4. Perchè il calcolo sia corretto dovrà quindi essere:
Q)
Figura 2-4:
53
Esempio 2.5.1 Siano dati i due circuiti elettrici in figura dove sono indicati con i, (i=
1, .. , 5) cinque interruttori posti in ciascuno dei due circuiti. Tutti gli interruttori fun-
zionano in modo indipendente. Per entrambi i circuiti sia Ri = {I 'i-esimo interruttore
è chiuso (e quindi passa corrente)} e Pi = P[Ri]; A= {passa corrente tra XA e YA} nel
circuito CA e B = {passa corrente tra x B e y B} nel circuito C B.
circuito CB
Figura 2-5:
cappelli 2 3 4 5 6 7 8
valori di Pn 0.50 0.666667 0.6250 0.633333 0.631944 0.632143 0.632118
IV Infatti prendiamo le terne ( i, j, k) ordinate. Di queste una sola soddisfa la relazione i < j < k. Val
quanto dire che tutte le ordinate contenenti gli elementi i,j, k contano per una sola esattamente come
succede nel caso senza ordine.
55
Nel 1771 fa il suo primo tentativo di essere ammesso all'Académie des Sciences ma gli viene
preferito Vandermonde. Un secondo tentativo fallisce l'anno dopo. Ciò indispettisce Laplace
che si rivolge a Lagrange, direttore dell'Istituto di Matematica di Berlino, in cerca di un posto.
Nel 1773 però, prima che l'ipotesi Berlino si concretizzi, Laplace è ammesso all'Académie des
Sciences.
A 24 anni Laplace ha già pubblicato lavori fondamentali nel campo delle equazioni alle differenze
finite e differenziali, dell'astronomia e della probabilità.
Gli anni Ottanta del 1700 sono molto fecondi per lui ma le sue relazioni umane con i colleghi
sono pessime, per il suo atteggiamento presuntuoso. Guasta anche i suoi rapporti con il suo
protettore d'Alambert. Nel 1784, come membro di una commissione gli capita di esaminare e
di promuovere il sedicenne Napoleone Bonaparte in un esame di artiglieria. Nel 1790 Lagrange
lascia Berlino e raggiunge Laplace a Parigi. Nonostante la loro rivalità i due matematici traggono
vicendevole vantaggio dalla reciproca vicinanza. Laplace lascia Parigi nel 1793, prima del Regno
del Terrore. Torna nella capitale nel 1794.
Nel 1795 viene riaperta l'Académie des Sciences e viene creato il Bureau des Longitudes con
Lagrange e Laplace tra i membri fondatori. Nel 1796 Laplace pubblica la sua famosa Exposition
du systeme du monde in cinque volumi, dove presenta l'ipotesi che il sistema solare si sia formato
dal raffreddamento e dalla contrazione di una nube di gas incandescente di polveri stellari in
lenta rotazione. L' Exposition du systeme du monde è solo il preludio alla pubblicazione del suo
più importante lavoro, il Traité du Mécanique Celeste, il cui primo volume appare nel 1799.
Nel 1812 pubblica la Théorie Analytique des Probabilités che avrà varie edizioni. Vi sono trattati
temi come il teorema di Bayes, la definizione classica di probabilità, il problema dell'ago di
Buffon, il metodo dei minimi quadrati, osservazioni sulla media, problemi legati alla aspettazione
di vita. Edizioni successive tratterranno delle applicazioni della probabilità a problemi concreti:
la teoria degli errori nelle osservazioni , la determinazione della massa di Giove, Saturno e Urano,
la geodesia. L'ultima edizione de la Théorie, quella del 1825, è presentata quando Laplace ha
76 anni.
Nel 1814 Laplace pubblica il suo Essai philosophique sur les probabilités.
Laplace ha spesso cambiato orientamento politico a seconda di chi deteneva il potere e ciò ha
allontanato da lui la simpatia di molti colleghi. Quando si rifiuta di firmare il documento della
Académie Française per la libertà di stampa perde anche gli ultimi amici che gli rimangono nel
mondo politico.
Il 30 gennaio del 1933 Hitler va al potere e, a causa delle leggi razziali, anche se non può essere
considerato ebreo, Von Mises è costretto a lasciare la Germania e si rifugia in Turchia da dove,
nel 1939, dopo la morte di Kemal Atattirk, fugge negli Stati Uniti.
I lavori di Von Mises riguardano, tra l'altro, la fluidodinamica e l'analisi numerica. I suoi lavori
più famosi e controversi sono però dedicati alla statistica e alla probabilità. In questo campo
sviluppa l'approccio frequentista impostato da Venn. Nonostante l'impostazione assiomatica
alla probabilità di Kolmogorov sia la più largamente accettata dai matematici, Kolmogorov
stesso dichiara nel 1963 che "la base dell'applicabilità dei risultati assiomatici della teoria della
probabilità al mondo reale dei fenomeni casuali deve dipendere in qualche forma dal signifìcato
frequentista di probabilità, sviluppato in modo geniale da von Ivlises".
Altri importanti interessi di von Mises sono la filosofia (pubblica nel 1951 il volume Positivism:
A Study in Human Understanding) e la poesia (è uno dei più riconosciuti esperti dell'opera del
poeta austriaco Rainer Maria Rilke (1875-1926)).
di questa data, nonostante riservi alla ricerca solo una parte del suo tempo, pubblica un terzo dei
suoi 290 scritti scientifici, raggiunge fama internazionale e dà avvio all'impostazione soggettiva
del calcolo delle probabilità che più di ogni altra cosa lo ha reso famoso nel mondo.
Nel 1951, De Finetti collabora al progetto di installazione di uno dei primi calcolatori elettronici
in Italia presso l'Istituto Nazionale per le Applicazioni del Calcolo (Inac). Da questa esperienza
scaturì la nota Ivlacchine che pensano e che fanno pensare, ricca di notizie, suggerimenti e
riflessioni, ove sottolinea il suo interesse nei confronti dell'impiego di metodi statistici (Metodi
Monte Carlo) per la risoluzione numerica di diversi problemi matematici.
Non si può naturalmente dimenticare l'impegno di De Finetti nella didattica della matematica,
testimoniato dalla pubblicazione di trattati, manuali e articoli divulgativi.
57
Andrei Nikolaevich Kolmogorov (Russia ) 25 aprile 1903 - 20 ottobre 1987
Già prima della laurea che ottiene nel 1925, pubblica importanti articoli che lo fanno conoscere
nel mondo. Nello stesso anno con un altro scienziato russo, Aleksandr Khinchin, scrive il primo
fondamentale lavoro di probabilità contenente il teorema delle tre serie che rappresenta la base
della teoria delle martingale e del calcolo stocastico.
Nel 1929 Kolmogorov completa il suo dottorato. Ha già 18 lavori pubblicati e, in uno di questi,
è esposta la legge forte dei grandi numeri.
Fondamentale si rivela l'amicizia con Pavel Alexandrov che comincia nell'estate del 1929.
In un viaggio sul Volga, mentre Alexandrov scrive un libro di topologia, Kolmogorov lavora sui
processi di Markov. Due anni più tardi Alexandrof e Kolmogorov fanno un altro lungo viaggio
insieme in Europa visitando Berlino, Gottinga, Monaco e Parigi, per incontrare i matematici
che lavorano lì.
Dopo essere diventato professore all'università di Mosca, nel 1933 Kolmogorov pubblica la sua
monografia Grundbegriffe der Wahrscheinlichkeitsrechnung sulla probabilità dove le sue proprie-
tà vengono derivate da pochi fondamentali assiomi iniziali, come nel trattato di Euclide sulla
geometria.
I successivi lavori di Kolmogorov sulla turbolenza dei gas e sul moto dei pianeti mostrano il
ruolo fondamentale della probabilità nel campo della fisica.
Per molti anni Kolmogorov dedica gran parte delle sue energie alla creazione e alla gestione di
una scuola per bambini particolarmente dotati: scrive testi e fa lezione su vari argomenti, incluse
musica e letteratura. Condivide con i ragazzi anche il tempo libero, convinto dell'importanza di
tutti gli aspetti della loro formazione.
Membro delle più importanti istituzioni scientifiche a livello mondiale, Kolmogorov ha interessi
professionali anche al di fuori della matematica, in particolare per la poesia.
58 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
2.7 Test di avvenuto apprendimento
Esercizio
va;lare ld~r~~?u)~~:i
F
2.7.1 Sapendo che P(A)
P(A-B) =O
aff,mw,ioni
= O e qualunque sia l'evento B apporre il corretto
F P(B -A)= O
Esercizio 2.7.2 Una stanza è illuminata per mezzo di due lampadine, L 1 e L 2 . Consi-
deriamo gli eventi:
A = {la lampada L 1 è spenta}
B = {la lampada L 2 è spenta}
C = {la stanza non è al buio}
Apporre i corretti valori di verità alle seguenti affermazioni v:
C=AUB
C= Ac nBC
C= AcuBC
C = (AUB)c
Esercizio 2.7.4 Sono disponibili 50 palle numerate da l a 50. Qualcuno sceglie casual-
mente un po' di queste palle (eventualmente tutte) e le mette in un'urna. Sia A l'evento
{la palla 3 è presente nell'urna}, B l'evento {la palla 31 è presente nell'urna}, e C
l'evento {tutte le palle sono presenti nell'urna). Indicare l'unica risposta corretta:
§ AnB e e
CcAnB
cce Be
v La stanza non è al buio ( C) solo se è accesa L 1 , cioè A e, oppure è acccesa L 2 , cioè se. Ovviamente
la stanza non è al buio anche quando entrambe le lampade sono accese accese ma questa eventualità è
compresa in Ae use.
VI Abbiamo 25 posizioni: ogni posizione si può riempire in 5 modi diversi. Si possono così ottenere 5 25
stringhe diverse.
Contiamo ora le stringhe che hanno esattamente 5 A, 5 S, 5 C, 5 De 5 E. Per far questo chiediamoci:
quante sarebbero le stringhe se si potessero riempire le 25 posizioni di ogni stringa con caratteri tutti
diversi? Risposta: 25!. Se invece si disponesse di soli 5 caratteri diversi (A, S, C, D, E), è chiaro che ogni
stringa conterrebbe esattamente 5 A, 5 S, 5 C, 5 D e 5 E. Quante sono queste stringhe?
25!
5!5!5!5!5!
Il conteggio si potrebbe effettuare anche in un altro modo. Il carattere A può essere sistemato in una
stringa in (2 5
5 ) modi. Fatto questo rimangono 20 posizioni libere; allora la S può essere sistemata in
(25°). E così via: la C in (155) modi; la D in (15°) modi; la E in (~) = 1 modo. Totale: (255) (25°) (155 ) (15°).
L a pro b a bT 25
11tà cercata è 5 !5 !5 !5! !5 ! · 525
l .
59
Esercizio 2.7.5 Siano A, e B due eventi tali che A e B. Allora:
V F P(AUB) = P(B)
V F P(A) ::; P(B)
V F P(A) > P(B)
V F non si può stabilire una relazione fra P(A) e P(B)
V F P(AB) = P(B)
Esercizio 2.7.6 Sia A l'evento "fare del bene" e B l'evento "essere ricompensati con
del bene". Apporre il corretto valore di verità alle seguenti affermazioni nell'ipotesi che
valga il proverbio: "Chi fa del bene è ricompensato con del bene e chi fa del male è
ricompensato con del male", e che ci sia almeno una persona che fa del bene.
V F A,B: AB-/- 0 e A= B
V F A:::>BVII
V F A:::>B, A-/-B
V F AcB, A-/-B
V F AcB
V F AB=0
Esercizio 2. 7. 7 Indicare con una crocetta quale delle seguenti frasi illustra nel modo, se-
condo voi, più corretto la seguente affermazione: "Dalle indicazioni del barometro deduco
che ci sia l'80% di probabilità che, nella nostra regione, oggi piova".
Esercizio 2.7.8 Siano A e B due eventi con P[A] = 0.3 e P[B] = 0.9. Allora può
esserevm_.
V F P[AB] = 0.1
V F P[AB] = 0.5
V F P[AB] = 0.3
V F P[AB] =0
V F P[AUB] = 1
;!
Esercizio 2.7.9 Su tutti gli A, B che veri_ficano P(A) = P(B) = p; indicare quale delle
seguenti risposte è sempre vera, nell'ipotesi (O< p < l):
P(AB)::; l-p
F P(AB)::; p
F P(AB) ::; p 2
F P(AB) ::; vP
Esercizio 2.7.10 Se è noto che al verificarsi dell'evento A si veri.fica anche l'evento B.
Allora:
vmse P[B] = 0.9 in Be è condensata al più una probabilità pari a 0.1. Quindi la parte di A che non
sta in B può avere al più probabilità 0.1. Dacio segue .
60 CAPITOLO 2. INTRODUZIONE ALL'ALGEBRA DELL'INCERTO
Esercizio 2.7.11 Siano A,B,C tre eventi. Utilizzando la notazione della teoria degli
insiemi scrivere:
a) si verifica uno solo degli eventi
b) si verificano al più 2 degli eventi:
c) non si verifica nessuno degli eventi
d} si verifica solo A
e) si verificano tutti e tre
f) se ne verificano esattamente due
Esercizio 2.7.12 «Una classe è composta da n studenti, tra cui Valeria e Simona. Un
certo giorno dell'anno scolastico siamo interessati a vedere chi è presente in aula e chi
no. Sia A l'evento "Valeria è presente", B l'evento "Simona è presente" e C l'evento
"tutti gli studenti sono presenti". Indicare i corretti valori di verità».
I
(AnB) ce (AnB) ce
F e c (A nB) e c (AnB)
che ha soluzione
F CcB CcB
F Ace Ace
La soluzione ha una semplice spiegazione logica. Se ci si convince del fatto che, dal punto
di vista dello spazio degli eventi, un evento è contenuto in un altro se e solo se lo implica
logicamente, allora è evidente che "tutti gli studenti sono presenti" implica che "Valeria
e Simona sono presenti" ma non il contrario, quindi e C (A n B).
Capitolo 3
Oh me, oh vita! Domande come questa mi perseguitano,
d 'in.finiti cortei di infedeli, di città gremite di stolti.
Io che sempre rimprovero me stesso, (perché chi piu stolto di me chi piu infedele?)
D'occhi che invano anelano la luce, di scopi meschini, di lotta rinnovata ognora,
degli infelici risultati di tutto, delle sordide folle anfananti che in giro mi vedo,
degli anni inutili e vacui degli altri, e di me che mi intreccio con gli altri.
La domanda, oh me, che cosi triste mi perseguita: cosa c'è di buono in tutto questo,
oh me, oh vita?
Risposta.
Che tu sei qui, che esiste la vita e l'individuo,
che il potente spettacolo continua e che tu puoi contribuire con un verso
Walt Whitman {1819-92} - Foglie d'erba
Probabilità condizionata
Spesso, nei ragionamenti probabilistici, capita che si debba valutare una probabilità
avendo già delle informazioni su quanto è accaduto in precedenza o supponendo di averle.
Per esempio, giocando a poker, e avendo già ricevuto tre carte dello stesso colore (C?)
possiamo chiederci qual è la probabilità di fare colore, cioè che anche le altre due carte
siano (C?). Oppure, nel caso che siano state lanciate tre monete, ipotizzando che siano
uscite meno di due teste, ci possiamo chiedere qual è la probabilità che non esca nemmeno
una testa. Ecco come si definisce la probabilità di un evento A ipotizzando che si verifichi
con certezza l'evento B.
Definizione 3.0.1 Supponiamo di avere uno spazio di probabilità (O, A, P[·]). Siano
dati A, B E A. Indichiamo con P[AIBF la probabilità che si verifichi A nell'ipotesi che
si è già verificato B cioè la probabilità di A condizionata ipotizzando l'essersi verificato
di B:
P[AB]
{ P[AIB] = P[B] ; se P[B] =I=O (3.1)
non è de.finita se P[B] = O
1Indichiamo come nella maggior parte dei testi la probabilità dell'evento A condizionata dall'essersi
verificato l'evento B con P[AIB]. Sarebbe preferibile la notazione P 8 [A] meno usata, per sottolineare il
fatto che P[AIB] è un nuovo peso di probabilità Psi·] e non il vecchio peso P[·] calcolato su AIB. P[·]
non è definito su AIB perché AIE non è un evento.
62 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Oss. 1 Se P[A]-/- O e P[B]-/- O, si ha: P[AB] = P[AIB]P[B] = P[BIA]P[A].
Oss. 2 Per quanto riguarda il vecchio peso P[·] si può scrivere: P[A] = P[AIO]
P[AO]
P[O] .
Ipotizzare che si sia verificato B toglie importanza allo spazio degli eventi possibili e n
rende B di fatto il nuovo spazio degli eventi possibili. A quindi non va pesato rispetto a
n ma rispetto a B.
ITTTITcTITTclcTTlcTclTcclccTlcccl
Figura 3-1:
(3.4)
. . P[A1B] P[A2B]
Infatti A 1 e A2 ::::}A 1B
e A 2 B, per cm P[A1IB] = P[B] ::; P[B] = P[A2IB].
Se A1, A2 E A, A1 n A2 = 0, allora:
Possiamo concludere che dato (O, A, P[·]), e assegnato B E A : P[B] > O,allora anche
(n, A, P[·IB])
è uno spazio di probabilità.
Valgono queste relazioni (nell'ipotesi P[B] > O):
P[0IB] = O (3.7)
n
A1, ... , An,B E A=> P[LJ A;IB]::; I:;=l P[A;IB]. (3.11)
i=l
Per alternative o partizione (finita) dell'evento certo n si intende una collezione di un
numero finito di eventi {B;} che:
n
1) B; n Bj = 0,i=/-j; 2) LJ B; = n; 3) \ii, P[B;] > o. (3.12)
i=l
Teorema 3.0.3 (:•) delle probabilità totali. Dati (O, A, P[-]); sia A E A; e.{B;}
una partizione di n. Allora:
P[A] = L;=P[AIB;]P[B;].
1
(3.13)
Dim.: A= LJ7=
1AB;, P[A] = P[LJ7=1AB;] = I:7= 1P[AB;] = I:7= 1P[Bi]P[AIB;] •
Il teorema 3.0.3 si chiama anche legge delle alternative e porta al seguente importante
risultato.
64 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Teorema 3.0.5 (:•) legge di Bayes 11• Dato (O, A, P[·]), sia {B;} una partizionem di
O e A E A. Allora:
(3.14)
Esempio 3.0.6 Secondo recenti dati Istat la popolazione italiana tra i 25 e i 34 anni, dal
punto di vista del livello di istruzione, è così suddivisa: il 38. 7% non ha titolo di studio
o ha solo la licenza elementare, il 7% ha titolo di qualifica professionale, il 41.6% il
diploma di maturità, il 12.7% il diploma di laurea. Di quelli solo con licenza elementare,
il 24. 7% sono disoccupati; tra quelli con qualifica professionale i disoccupati sono 13.4%;
tra quelli con diploma di maturità i disoccupati salgono al 24.8%; tra i laureati si ha
solo un 15.2% di disoccupati (www.istat.it/servizi/studenti/unilav /UniLav2004-05. pdf).
Si sceglie a caso un lavoratore disoccupato. Trovare la probababilità che possegga la licenza
elementare.
Indichiamo con E 1 ={lavoratori con licenza media inferiore), E 2 ={qual~fica professio-
nale}, E 3 = { diploma maturità}, E 4 = { diploma di laurea}. È chiaro che un lavoratore
con diploma di maturità ha anche la licenza media, ma per noi E 1E3 = 0, cioè E 1 rappre-
senta lavoratori che hanno al più la licenza media inferiore. Analogamente E;Ej = 0 se
j i- j. Indichiamo con D ={lavoratore disoccupato). Allora P[E 1 ID] = P{il lavoratore
ha la licenza media inferiore, sapendo che è disoccupato).
Per rispondere al quesito, bisogna trovare la probabilità di questo evento. Possiamo
rappresentare graficamente la situazione nel modo seguente (figura 3-2):
P[D] = ~:= 1P[DEi] = ~:= 1P[DIE;]P[E;] = 0.247-0.387 +0.134-0.07 +0.248-0.416+
0.152 · 0.127 = 0.22744
Per il teorema di Bayes:
La legge (o formula) di Bayes si dice anche legge di probabilità delle cause. Siamo
nella seguente situazione: abbiamo un insieme di alternative B1, B2, ... , Bn che chiamere-
mo "cause" e un evento A che chiameremo "effetto". Vogliamo determinare la probabilità
Ilvedi nota storica in fondo al capitolo
msia il teorema delle probabilità totali che la legge di Bayes valgono anche con una partizione {Bi}
infinita. Le formule cambiano di conseguenza e diventano rispettivamente
-----
'-7
75.3% con lavoro
~
popolazione con
licenza media inferiore
'-
86.6% con lavoro
~
" e: ;;"
popolazione con
diploma di maturità ..
" ::,==
" " 'E.
o =
75.2% con lavoro 3
"
Q.
;.·
"-
~ o
""
..e: "
3
;;i
Figura 3-2:
che sia stata una certa causa Bi a far verificare l'effetto A, cioè P[BilA]. Supponiamo di
conoscere le probabilità P[B;] e P[AIBi] (queste rappresentano le ipotesi sperimentali).
La legge di Bayes ci dice come cambia la probabilità delle alternative con l'osservazione
di A.
Esempio 3.0.7 Ci sono 5 urne; ogni urna contiene 10 palle; l'urna i ha i palle nere e
(10 - i) palle bianche. Consideriamo l'esperimento: si sceglie un'urna a caso, poi una
palla dall'urna. Ci domandiamo:
a) Qual è la probabilità di scegliere una palla nera?
b) Se abbiamo estratto una palla nera, qual è la probabilità che venga dall'urna 5?
Alla a) risponde la legge delle alternative. Le alternative sono:
Bi = {scelta dell'urna i} =} P[B;] = 1/5;
Inoltre A = {scelta di una palla nera} =} P[AIBi] = i/10. Abbiamo:
5
P[A] = L.
5
i=l
P[AIBi]P[Bi] = L -10i .-51 = -.103
i=l
Esempio 3.0.8 Uno studente sta svolgendo un test; per ogni domanda, o lo studente
conosce la risposta e risponde correttamente, o non la conosce e allora cerca di indovinare
scegliendo a caso (equiprobabilità} tra 5 alternative. Sapendo che lo studente ha risposto
correttamente alla domanda, qual è la probabilità che conoscesse realmente la risposta?
Sia p la probabilità che lo studente conosca la risposta: osserviamo che la equiprobabilità
nella scelta delle risposte a caso potrebbe non essere realistica, in quanto lo studente
66 CAPITOLO 3. PROBABILIT A CONDIZIONATA
potrebbe conoscere quel tanto che basta per essere più orientato a sceglierne una piuttosto
che un'altra. Siano
P[AIB]P[B] l ·p . . 5p
P[BIA] = P[AIB]P[B] + P[AIBc]P[Bc] 1 ; si noti che : ( ) > p.
l·p+5(l-p) 5p+ l-p
Esempio 3.0.9 Il signor Rossi vorrebbe che Bianchi, da Roma, andasse a Milano a
trovarlo in treno. Dopo le molte insistenze di Rossi, un certo giorno Bianchi decide di
affidare la sua andata a Milano all'esito del lancio di una moneta bilanciata. Se viene T
va a prendere il treno scegliendo a caso tra i sei possibili che collegano giornalmente Roma
al capoluogo lombardo. Se viene C non va a Milano. Ora, se Rossi aspetta in stazione
osserva che Bianchi non è su nessuno dei primi 5 treni arrivati, qual è la probabilità che
Bianchi arrivi con il sesto e ultimo treno?
SOLUZIONE. Siano
Bi= "Bianchi parte con l'i-esimo treno",
M = "Bianchi parte per Milano",
N = "Bianchi non prende nessuno dei primi 5 treni"
Allora
Bi= Bi(MuM 0 )::::} P[Bi] = P[BiM]+P[BiM 0 ] = P[BilM]P[M]+P[BilM 0 ]P[M 0 ] =
11 - ...l..
6 2 - 12
e 1 1 7
P[N] = P[M ] + P[B6] = 2+ 12 = 12
P[B I N] = P[N I B6]P[B6] = 1 · A = ~
6 P[N] 7/12 7·
Teorema 3.0.10 {del prodotto) Dati (D, A, P[·]); A1 , ... , An E A P[A 1 n ... n
An- 1] > O. Allora:
(3.15)
1°lenJatlvo/probabllltd""112
2'-tettlatiw;probabililà= 112:ii:J/5
probabililà• J/2x 115x 11,
1° lenJatlvo;
,, /entat/,,v; = 111x VJ x IN
prohah/1/lil
~-~ 6pullel
······~ ~ -
Spalle I
11
l 3/j 315 115
A A 4pull,I
i
31, 2/4 2/4 ]/4 IN 3/4 114
I
A
//3 2/J
A
1/3 2/J
A
2/J 1/J
A
//J ]/J 2/J
A 1/J 2/J
A 1/J
r§
I o
J po/lei
0f'Q,©O
m
~©O ©'O~
m
®"Q©'O ®"o0[Q çifQ 01 2pailel
o I 111 o I 111 111 1t1 o I o I 111 111 111 111I o 111 1t1 I o
@'j@i
I! I I n
iiiiii@i@i
O I I O OI I I!
©i©icto©O
o n
I! I
@icto
o i I I O i I O
I pallal
Esempio 3.0.12 Un'altra applicazione viene dalla giustificazione della nota III dell'e-
sempio 2.4.19. Supponiamo che le palline corrispondenti a T siano bianche e siano in
numero di b, mentre quelle corrispondenti a C siano rosse e siano in numero di r. Se
b
p è la probabilità che nel lancio della moneta esca T allora p = -b-. Sia E; l'evento
+r
{ all 'i-esima estrazione ho estratto una pallina bianca} = {all 'i- esimo lancio esce T}.
In k lanci l'evento corrispondente a un risultato con h teste T e k - h code C è perciò
l'evento:
E~ n E~ n E~ n ... n E~
dove
estratta palla bianca oppure esce T
estratta palla rossa oppure esce C
e, evidentemente, ci saranno h E) = E; e k - h E) = Ef.
Per la 3.15 si ha:
P[E~nE~nE~n .. .nE~] = P[E~]-P[E~IE~]-P[E~IE~nE~]·· · ··P[E~IE~nE~nE~n .. .nE~-1]
Poiché, a causa del reimbussolo:
che avevamo trovato nel capitolo 2 facendo uso della formula ricavata con palle ricono-
scibili {numerate). La stessa formula si può ottenere anche via indipendenza di eventi,
come vedremo nel prossimo paragrafo.
Oss:. Con una tecnica analoga, si potrebbe dimostrare che la formula 2.16 per estra-
zione senza reimbussolo di palle riconoscibili (numerate), vale anche nel caso di palle
irriconoscibili.
che si può esprimere dicendo che se ho due eventi A, B, entrambi con probabilità maggiore
di zero, allora o sono compatibili oppure, se non sono compatibili, sono dipendenti. O
anche: se due eventi A e B sono incompatibili e indipendenti, allora almeno uno dei due
ha probabilità nulla (e viceversa). Riassumendo:
"dipendenza logica". La dipendenza stocastica ha invece a che fare con la distribuzione del peso di
probabilità sugli eventi.
Nell'esempio 3.1.3 F e H sono dipendenti stocasticamente ma non sono dipendenti logicamente perché
non è vero che F ===> H e neppure che F ===> H0 .
70 CAPITOLO 3. PROBABILIT A CONDIZIONATA
P[A1A2A3] = P[A1]P[A2]P[A3]
P[A1A2] = P[A1]P[A2] P[A2A3] = P[A2]P[A3] P[A1A3] = P[A1]P[A3]
(3.17)
Osservazione. Gli eventi possono essere a due a due indipendenti ma non indipen-
denti. Come si capisce dalla figura A è indipendente da B, A è indipendente da C,
B è indipendente da C, ma A, B, C non sono complessivamente indipendenti: infatti
ABC=0.
.O , Ji
:t------t l: 1--
//Z
r--..,
Figura 3-3:
P[A1A2A3A4] = P[A1]P[A2]P[A3]P[A4]
P[A1A2A3] = P[A1]P[A2]P[A3], P[A1A3A4] = ... (3.18)
P[A1A2] = P[A1]P[A2l, P[A1A3] = ...
Definizione 3.1.8 Dati A1, ... , An E A, sono indipendenti se valgono tutte le seguenti
condizioni:
Esempio 3.1.9 Se A e B sono indipendenti in (O, A, P[·]), allora, preso C: P[C] > O,
lo sono anche nello spazio di probabilità (O, A, P[·IC]), cioè P[AB I C] = P[AIC]P[BIC]?
Soluzione. No. Infatti consideriamo, per esempio, gli eventi A, B, C e lo spazio O della
figura 3-3: per i nostri scopi basta che AB sia incompatibile con C.
Esempio 3.1.10 Lancio di tre monete bilanciate. Gli esiti possibili sono: {T, T, T},
{T,C,T}, {T,T,C} {C,T,T}, {C,T,C}, {T,C,C}, {C,C,T}, {C,C,C}. Dai conti del-
l'esempio 3.0.2 concludiamo che A ={non esce nessuna T}= {C,C,C} e B = {sono
uscite meno di 2 T} = {C, T, C} U {T, C, C} U { C, C, T} U { C, C, C} sono dipendenti e
AB = { C, C, C}. Sono invece indipendenti, per esempio, H = { sono usciti tre risultati
uguali} e l'evento B di prima.
1
Oss. 5 Avevamo visto che, nel caso di moneta bilanciata, cioè P[{T}] = P[{C}] = 2
1
la probabilità dell'evento A = {CCC} è 8 . Questo risultato è stato ottenuto nello spazio
campionario i cui eventi elementari sono le terne di risultati possibili ( ed equiprobabi-
li} che descrivono l'esperimento "lancio di 3 monete". D'altra parte tale esperimento
è equivalente al lancio ripetuto 3 volte nelle medesime condizioni di una sola moneta
bilanciata. Diciamo Ri l'evento che descrive il risultato del lancio i- esimo (l::; i::; 3).
Per l'indipendenza dei lanci si può mostrare che l'evento R 1 R 2 R 3 che descrive il corri-
spondente risultato nello spazio campionario 06ha probabilità (per l'indipendenza v degli
1
Ri) pari a P[R 1 ]P[R 2 ]P[R 3 ]. Nel nostro caso, per esempio, P[A] = P[{C}] 3 = 8 .
v Nel lancio delle monete cosa significa esattamente indipendenza di un lancio dall'altro? Lo spazio
campionario è fatto da stringhe lunghe n di Te C, perciò dire che l'h-esimo lancio è indipendente dal
k-esimo significa dire che sono indipendenti gli eventi:
w = {D1,D2, ... ,.h,···,···,Dn-1,Dn}
w = {D1,D2, ... , ... ,.k,···,Dn-1,Dn}
dove l'evento w = {D1,D2, ... ,.h,···,·",Dn-1,Dn} è la riunione di tutti gli eventi elementari che
hanno fissato il risultato, T o C, al posto h.
Quindi l'ambiente corretto per fare considerazioni probabilistiche sui risultati degli n lanci è n~ = TIno
n
dove no= {T,C}; #(no)= 2 (vedi capitolo 2).
Per brevità di scrittura si descrive w = {D 1, D2, ... , • h, . .. , ... , Dn-1, Dn }, il risultato al lancio h, come
{•h} risultato di un singolo lancio di una moneta.
Quindi, per esempio, la probabilità di una testa al posto h, cioè P[{D1, D2, ... , Th, ... , ... , Dn-1, Dn}]
la scriviamo P[{Th}] = P[{T}].
72 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Oss. 6 Conoscere la probabilità p che a ogni lancio si verifichi l'evento {T} (e di con-
seguenza la probabilità q = l - p che si veri.fichi l'evento {C}) equivale a essere nella
situazione descritta in figura:
(0,0, 1)
- --------------~- -~
__..___ ______ _ o,1,1r-----
- - - - r
'
1-p 1-p:
1· ' 1-p
\@ief (0,0,0)
I vertici del cubo rappresentano i possibili risultati del lancio di tre monete indipendenti.
Per esempio l'origine corrisponde a tre code, il vertice più lontano dall'origine corri-
sponde a tre teste. Se c'è indipendenza su ogni vertice c'è il prodotto delle probabilità
depositate sulle sue proiezioni sugli assi. In (O,O,O) ci sarà (l - p ) 3 in (O,O, 1) ci sarà
(1- p)2p, in (1, 1, 1) ci sarà p 3 , eccetera.
a) b) e) d) j)
Il disegno in figura dà una visualizzazione di cosa succede nel caso di 5 estrazioni in cui:
a) la estratta: rossa, b) 2a estratta: rossa, c) 3a estratta: rossa, d} 4a estratta: rossa, f)
5a estratta: rossa.
Come si vede, all'evento ka palla estratta rossa corrisponde un albero variamente rami-
ficato di casi favorevoli; qualunque sia k il numero di casi favorevoli rimane invaria-
to. Infatti, generalizzando, la probabilità dell'evento {ia R} = {ia palla estratta rossa}
è uguale alla probabilità di { 1aR} = {1a palla estratta rossa} . Dimostriamolo pensando
alle palle distinguibili del capitolo 2 formula 2.16 (che, come abbiamo già osservato vale
anche quando le pazze si considerano indistinguibili}. Estraendo k palle dall'urna ci sono
(r + b)k risultati possibili. I risultati favorevoli all'avere una palla rossa alla ia estrazione
sono tutte le stringhe che hanno in posizione i una palla rossa (che può essere scelta in r
modi} e palle di qualunque colore nelle k - l posizioni diverse da i. Quante sono queste
stringhe?
r·(r+b-lh-1
La probabilità cercata è perciò:
dove si hanno nr modi di estrarre sia la 1a palla {R} che la f!" { R}.
2b) Senza reimmissione. Lo spazio campionario n equivale a tutte le coppie possibili
{D 1 , D 2 } dove D 1 può essere riempita da una una {B} o da una {R} in r + b modi,
mentre D2 può essere riempita da una una {B} o da una {R} in r + b - l modi per cui
la cardinalità di n è #(D) = (r + b)(r + b- 1). Si ha:
p DE _ r(r - 1) { = P[D]P[EID]
[ ]-(r+b)(r+b-l) #P[D]P[E]
dove si hanno r modi di estrarre la 1a palla {R} e r - l modi di estrarre la f!" palla {R}.
Quindi D e E sono indipendenti se si estrae con reimmissione mentre non lo sono se si
estrae senza reimmettere.
Questo vale per un anno. Volendo sapere qual è la probabilità che la diga sopravviva
per 50 anni (e che gli anni siano indipendenti) indicando con (Ac Bc)i l'evento la diga
sopravvive nell'anno i il valore cercato è:
50 50
P[ n (Ac Bc)i]
i=l
= f1 P[(Ac
i=l
Bc)i] = 0.9977 50 = 0.89125
Esempio 3.1.15 L'acquedotto di una città costiera con un retroterra di tipo appennini-
co è alimentato da acque super,ficiali e da acque sotterranee. Le acque super,ficiali possono
provenire da un fiume o da un paio di bacini di raccolta {da N.Kottegoda, R.Rosso; Ap-
plied Statistics for Civil and Environmental Engineers; Blackwell-Wiley; 2007).
75
roa o 1 IJadno I Fiumi: Pouo :? 13:«:
ino:!
Esempio 3.1.16 Si sa che una sigaretta fumata può provocare una modificazione del
DNA di una cellula polmonare che provoca un cancro al polmone. Un gruppo di medici
inglesi ha condotto per 10 anni una ricerca utilizzando un campione di 2738 volontari
scelti su tutto il territorio nazionale. Obiettivo della ricerca era l'analisi della correlazio-
ne tra numero di sigarette fumate per giorno e cancro al polmone. I volontari erano stati
suddivisi tra coloro che fumavano O sigarette/giorno, 5 sigarette/giorno, ... , 80 sigaret-
te/giorno. Il numero di coloro che si sono ammalati o che sono rimasti sani nel corso
dei 10 anni all'interno di questa suddivisione è riassunto nella tabella seguente:
sigarette/giorno o 5 10 20 40 50 60 80 totali
malati 4 21 203 235 152 13 11 10 649
(3.22)
sani 64 163 856 671 295 19 13 8 2089
totali 68 184 1059 906 447 32 24 18 2738
Il significato della tabella è chiaro. Per esempio la frequenza osservata dei malati che
fumano 40 sigarette/giorno è data dal rapporto tra il numero di coloro che fumano 40
sigarette/giorno e sono malati e il numero di coloro che fumano 40 sigarette/giorno, cioè
!!~ = 0.340
Indichiamo con Fx = { un volontario scelto a caso fuma x sigarette}; Mx = { un volontario
scelto a caso tra coloro che fumano x sigarette ha il cancro} e Sx = {un volontario scelto
a caso tra coloro che fumano x sigarette non ha preso il cancro}; F = {un volontario
scelto a caso fuma}; M = { un volontario scelto a caso ha il cancro}; S = { un volontario
scelto a caso non ha preso il cancro}.
a) Si calcoli la probabiltà che un volontario scelto a caso nel campione fumi 40 sigaret-
te/giorno.
77
P[F 4 o] = # favorevoli a F40) = 447 = 0 _16326
# (dimensione del campione 2738
b) Si calcoli la probabiltà che un volontario scelto a caso nel campione sia malato sapendo
che non fuma.
P[MIR] = P[Fo n M] = #(favorevoli a FonM) = _±_ = 0.059
O P[Fo] # (favorevoli a Fo) 68
b) Si calcoli la probabiltà che un volontario scelto a caso nel campione sia malato sapendo
che fuma 50 sigarette al giorno.
P[MIR l = P[Ao n M] = # favorevoli a F5onM) = 13 = 0.406
50 P[F 5 o] # (favorevoli a F 5 o 32
e) Si calcoli P[M]
Per il teorema delle probabilità totali si ha:
P[M] = P[MIFo]P[Fo]+P[MIA]P[A]+P[MIF10]P[Fio]+ ... +P[MIFso]P[Fso] = 0.237
Proponiamoci ora di affrontare un problema la cui soluzione verrà utile parlando di
regressione nel capitolo 15 . È ragionevole pensare che esista un legame funzionale
P[x] = P[MIFx] tra il numero x di sigarette fumate al giorno e la probabilità di es-
sere malati di cancro. Cerchiamo di scrivere la funzione P[x]. Per calcolare P[MIFx] in
funzione dix calcoliamo P[_MclFx]e ragioniamo così: 1i1c = {le x sigarette non hanno
fatto ammalare di cancro il volontario} n {le altre cause non hanno fatto ammalare di
cancro il volontario} = Q n T. Posto S k = { è stata la k- esima sigaretta fumata a causare
la modificazione del DNA di una cellula (e quindi un cancro)} è ragionevole pensare che:
1) Q e T sono indipendenti;
2) P[T] = t indipendente da x e quindi costante;
3) Vk, P[Sk] = p è la probabilità che una qualunque sigaretta alteri il DNA, da cui
P[Sk] = 1- p;
4) Q = (uskt = nsk;
5) gli Sk sono indipendenti (e quindi anche gli Sk) per cui P[Q] = P[nSk] = (1 - p)k
6) k = 365 · 10 · x numero di sigarette fumate in 10 anni da un volontario che ne fuma
X al dì.
Allora: P[x] = P[MIFx] = l - P[MclFx] = 1- P[Q], P[T] = 1- t. (l - p) 365 lOx
1 - t · [(l - p) 365 10]x = 1 - t · qx dove q = (l - p) 365 10. Conclusione:
1 - P[x] = t · qx (3.23)
Nel capitolo 15 vedremo cosa signi.fica verificare se la 3. 23 si adatta ai dati osservati.
3.2 Affidabilità
Definizione 3.2.1 Si definisce affidabilità di un sistema la probabilità che esso
"funzioni".
Penseremo a sistemi formati da più componenti: Si, S2, eccetera. È questo il caso,
per esempio, di circuiti elettrici, linee di produzione, apparecchi di controllo. Il "fun-
zionamento" del sistema dipende dal funzionamento delle singole componenti e la sua
affidabilità dipende dalla affidabilità di S1, S2, ....
Supporremo che il funzionamento di una singola componente non influenzi il funzio-
namento delle altre, cioè le singole componenti sono indipendenti. Esamineremo due
semplici casi. Nel primo si suppone che un sistema S sia costituito da n componenti
78 CAPITOLO 3. PROBABILIT A CONDIZIONATA
SI, S2, S3, ... , Sn montate in parallelo (a sinistra nella figura), nel secondo che le stesse
componenti siano montate in serie (a destra nella figura). Si conviene che nel primo caso
il sistema funzioni quando una almeno delle componenti Si funziona, mentre nel secondo
caso S funziona solo se tutte le Si funzionano. In entrambi questi casi l'affidabilità di S
si può facilmente calcolare dalle P[Si], cioè dalla affidabilità delle singole componenti.
s,
Si
s,
.
•
•
-
I S,,
Teoremino 3.2.2 Siano Pi, i = 1, ... , n, le affidabilità delle singole componenti Si,
Allora l'affidabilità p del sistema è:
P = PI · P2 · ... · Pn se le componenti sono in serie
p = l - (1- PI)· (1- P2) · ... · (1- Pn) se le componenti sono in parallelo.
Dim: Sia R l'evento {il sistema funziona}. Allora detto Ri l'evento {la componente
Si funziona}, nel caso di collegamento in serie è R = RIR 2 ... Rn mentre nel caso di
collegamento in parallelo è R = RI U R2 U ... U Rn, Inoltre Pi= P[Ri]. Concludendo, se
il collegamento è in serie si ha
P[R] = P[RIR2 ... Rn] = P[RI]P[R2] ... P[Rn] = PI · P2 · , , , · Pn
per l'indipendenza degli eventi Ri.
Se il collegamento è in parallelo, P[R] = P[RI U R 2 U ... U Rn]- Ma poiché gli eventi Ri
non sono incompatibili tra di loro il conto si fa cosi:
P[R] = 1 - P[R 0 ] = 1 - P[{RI U R2 U ... U Rn} 0 ] = 1- P[Rf Rf ... R~] =
= 1 - P[Rf]P[Rf] ... P[R~] = 1- (1- PI)· (1 - P2) · ... · (1 - Pn)
e anche in questo caso il risultato finale dipende dall'indipendenza degli eventi Rf •
Esempio 3.2.3 Abbiamo un sistema idraulico fatto da due condotte che portano acqua
da A a B. Caso a): supponiamo che la condotta 1 non sia interrotta con probabilità PI,
e la condotta 2 con probabilità p2. Qual è la probabilità che l'acqua possa arrivare da A
a B ? (ossia che il sistema di condotte funzioni?)
0--1-·--:z P2-®
P1
b)
Soluzione. Sia RI ={la condotta l non è interrotta}; R 2 ={la condotta 2 non è interrotta}.
Se RI e R 2 fossero incompatibili, P[RIR 2] = O. Ma non è ragionevole che lo siano. È
però ragionevole pensare che siano indipendenti, cioè: P[RIR 2] = P[RI]P[R 2].
Caso a) A e B collegate in parallelo: si va da A a B se RI U R 2 .
79
Si ha: P[RI U R2l = P[Ril + P[R2l - P[RIR2l-
Allora:
P[RI U R2l = 1 - P[Rf Rfl = 1 - (1 - P[Rf])(l - P[Rf]) = 1 - (1 - PI)· (1 - P2)
Caso b) se le condotte fossero disposte in serie allora la probabilità che l'acqua possa
arrivare da A a B (ancora in ipotesi di indipendenza) sarebbe:
0.2
L'affidabilità dei singoli sottosistemi è data in figura e le singole componenti sono consi-
derate indipendenti.
Soluzione: i dati del problema indicano che le probabilità che le singole componenti del
sistema Ci funzionino ( cioè le affidabilità delle singole componenti} sono:
P[Cil = 0.2, P[C2l = 0.6, P[C3l = 0.3, P[C4l = 0.4, P[C5l = 0.8
Il sistema funziona se:
{funziona CI} U [({funziona C 2} U {funziona C 3}) n ({funziona C4} n {funziona C5})l.
L'affidabilità di [ ~:; ] è
P[( {funziona C2} U {funziona C3})l = 1 - P[( {funziona C2} U {funziona C3}fl =
= l-P[{funziona C 2}cn{funziona C 3}cl= l-P[{funziona C2}clP[{funziona C 3}cl=
1 - (0.4)(0. 7) = o.72.
In modo analogo si vede che l'affidabilità di [[0.72l [0.4l [0.8]] è (0.72)(0.4)(0.8) = 0.2304
e, infine che l'affidabilità totale è quella di [ 0 _~204 ] cioè 1 - (0.8)(0.7696) = 0.38432.
3
80 CAPITOLO 3. PROBABILIT A CONDIZIONATA
3.3 L'illusione di sapere
Ragionate senza fretta sui due quesiti proposti. Poi confrontate la risposta esatta nella
Appendice 1, al paragrafo "L'illusione di sapere (soluzioni)".
Legge di Bayes
Dallo straordinario libretto [MPP] di cui consiglio caldamente la lettura, riporto il
seguente problema riguardante la legge di Bayes.
Generalmente si pensa che un test clinico sia affidabile se è in grado di segnalare, con
una elevata probabilità, la presenza di una malattia in una persona malata.
Applicando questa definizione supponiamo che un certo test abbia una affidabilità del
99%, cioè che il test risulti positivo nel 99% dei casi in cui un malato viene esaminato.
Ora un certo paziente è risultato positivo a questo test. Noi sappiamo che:
1) la affidabilità del test (nel senso prima precisato) è del 99%;
2) La frequenza media della malattia, nella popolazione da cui proviene il paziente è
dell'l %.
Tenuto conto di queste informazioni, scegliete quella che vi sembra più sensata tra le
seguenti diverse conclusioni riguardanti la probabilità che quel paziente sia effettivamente
la malato: la probabilità
a) è pari al 99% c) non si può calcolare per mancanza di dati
b) supera il 50% d) è almeno pari al 20%
Esercizio 3.5.3 Siano A, B, C tre eventi qualsiasi con probabilità diversa da zero. Ap-
I
porre i corretti valori di verità alle seguenti affermazioni:
F
F
F
P[AIBC] = P[ABIC]P[BIC]
P[ABC] = P[AIBC]P[BIC]P[C]
P[AB] = P[A]P[B]
P[A] = P[AB] + P[AB]
Esercizio 3.5.4 Dati due eventi A e B qualunque tali che P[A] > O,P[B] > O e AB = 0
~
A e B sono sempre dipendenti
F A e B sono talvolta dipendenti
F A e B sono sempre indipendenti
;I
Esercizio 3.5.5 Siano A e B due eventi tali che P[A]P[B] > O. Indicare tra queste
affermazioni, l'unica veraVI:
P[AIB]=P[AIB 0 ]
F P[AIB] + P[A 0 1B0 ] = l
F P[AIB] + P[AIB 0 ] = l
F P[AIB] +P[A 0 1B]= l
Esercizio 3.5.6 Abbiamo tre scatole contrassegnate con 1) 2) e 3). La scatola i} contiene
i palle bianche e 5 - i palle rosse. Sia Si l'evento:{ è stata scelta la scatola contrassegnata
con i)}. Sia Ab l'evento: {è stata scelta una palla bianca} e Ar l'evento: {è stata scelta
una palla rossa} indicare la formula che dà la probabilità dell'evento Ar e calcolarla
Esercizio 3.5.7 Una macchina ha prodotto 100 pezzi di cui il 5% è difettoso. Trovare la
probabilità che in un campione di 10 pezzi nessuno sia difettoso (indicare solo la formula
senza eseguire i conti).
Esercizio 3.5.8 Un laboratorio ha un test che individua il 99% delle volte un virus
quando questo è presente e ne segnala la presenza l 'l % delle volte quando il virus non
c'è. Se il 5% della popolazione ha questo virus qual è la probabilità che Tizio risultato
positivo al test abbia davvero il virus?
Indicare con D = { Tizio ha il virus}, E= { Tizio risulta positiva al test}
. P[A]
Y 1La prima è falsa: per esempio se A e B P[AIB] = P[B] ma P[AIB 0 ] = O
P[A 0 B 0 ]
La seconda è falsa: per esempio se Be A P[AIB] = 1 e P[A 0 1B0 ] = P[BC] = O sse A 0 B 0 = 0
e questo in generale è falso.
La terza è falsa per esempio per lo stesso motivo per cui è falsa la prima.
La quarta è vera perché P[·IB] è una funzione di probabilità su n.
82 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Esercizio 3.5.9 Supponiamo che un candidato, dovendo rispondere a un quesito di un
test che comporta la scelta tra 10 alternative, sappia la risposta con probabilità p o cerchi
di indovinare con probabilità (1-p). Assumiamo uguale a 1 la probabilità che un candida-
to risponda esattamente a una domanda se conosce la risposta, e uguale a 1/10, se cerca
di indovinare. a) Indicando con A ={il candidato conosce la risposta)e B ={il candidato
risponde esattamente}, scrivere la formula che permette di calcolare la probabilità condi-
zionale che un candidato che ha risposto esattamente ad un quesito non l'abbia fatto a
caso.
Esercizio 3.5.10 Dati tre eventi A, B, C di probabilità diversa da zero apporre i corretti
valori di verità alle seguenti affermazioni:
O__[TI A è indipendente da A
[}] D se A è indipendente da B, B è indipendente da A
D rpl
L..:_J
{ se A è indipendente da B, B indipendente da C,
allora A è indipendente da C
[}JF D se A e B sono indipendenti anche A e B lo sono
01J:'.] se A e B sono dipendenti allora Ae B sono indipendenti
Esercizio 3.5.11 Siano A, B e C tre eventi qualsiasi con probabilità non nulla. Indicare
quali delle seguenti relazioni sono sempre vere:
~
P[AB] ::::P[A]P[B]
P[AB] = P[A]P[BIA]
P(AIBC) = P(ABIC)P(BIC)
P(A) = P(AB) + P(ABC)
I
Esercizio
F
F
F
3.5.12
Ae
A e
AB
AB
Siano A e B eventi qualunque, indipendenti.
B sono dipendenti
B sono indipendenti
e ~~ sono indipendenti
e BA sono dipendenti
Esercizio 3.5.14 Dato lo spazio di probabilità (O, A,P[·]), apporre i corretti valori di
verità alle seguenti affermazioni:
D [TI P[AIB] = P[A] e P[BIC] = P[B]:::;, P[AIC] = P[A]
1171 D { P[ABIC] = P[AIC] · P[BIC]:::;, A e B sono
L'.'.....J indipendenti nello spazio (O, A,P[· IC])
D rpl
L..:_J
se A è indipendente da B e B è indipendente da C
allora A è indipendente da C
D Il?!
~
{ se P[AC] = P[A]P[C] e P[AB] = P[A]P[B]
e P[BC] = P[B]P[C] allora A,B,C sono indipendenti
'Vl D { se A, B, C sono indipendenti a coppie e se P[AIBC] > P[AIB]
L'.'.....J allora P[AIBC] > P[AIC]
Esercizio 3.5.15 Siano A e B due eventi tali che P[A]P[B] > O. Apporre i corretti
valori di verità alle seguenti affermazioni:
83
P[AIB] = P[AIBC]
P[AIB] + P[ACIB] = 1
se A e B sono indipendenti Ac e Be sono indipendenti
P[AIB] + P[AIBC] = 1
--~
B=laureati
15%
abitanti nel
{
C= Nord Italia
A=sposati
Come si evince da tale diagramma solo il 5% dei maschi di tale popolazione possiede tutte
e tre le caratteristiche mentre il 25% sono laureati ma non sono sposati né abitano nel
Nord Italia.
Un individuo è scelto a caso in tale popolazione; indicare, utilizzando le notazioni insie-
mistiche con riferimento ad A, B, e C, i seguenti eventi e calcolarne le probabilità:
E = {l'uomo è sposato ma non laureato}
M = {l'uomo vive nel Nord Italia}
W = {l'uomo non è sposato né laureato}
H = {l'uomo vive nel Nord Italia ed è laureto}
Calcolare la probabilità di: Ac U BclC
Esercizio 3.5.17 Nello spazio di probabilità (O, A, Po) siano A e B due eventi indi-
pendenti di A tali che P0 [A] > O e P0 [B] > O. Sia (O, A, Pi) un secondo spazio di
probabilità che ha gli stessi eventi del primo ma con distribuzione di probabilità diversa,
cioè Po =I-Pi. Nel nuovo spazio A e B:
V F sono necessariamente indipendenti
V F sono necessariamente dipendenti
V F sono necessariamente incompatibili
V F possono essere indipendenti
V F possono essere dipendenti
V F possono essere incompatibili
Esercizio 3.5.18 Un'azienda ritiene che lo 0.1 % dei pezzi di una certa fornitura sia
costituito da pezzi difettosi. Al fine di individuarli l'azienda dispone di un test con le
proprietà seguenti:
a) se un pezzo è difettoso il test lo rivelerà con una probabilità pari a 0.999.
b) se non lo è, verrà erroneamente segnalato tale con una probabilità pari a O.002.
84 CAPITOLO 3. PROBABILIT A CONDIZIONATA
Si scelga a caso un pezzo. Se il test segnala la presenza del difetto, qual è la probabilità
che il pezzo lo sia effetivamente? (Si indichi con A= {il pezzo risulta difettoso al test}
e con B = {il pezzo è effettivamente difettoso})
Esercizio 3.5.19 Sia O= {l, 2, 3, 4, 5} e sia P una misura di probabilità de.finita sullo
spazio A degli eventi generato da O, tale che Vw E O, P[{w}] = 1/5. Si considerino
A= {l, 2, 3}, B = {3, 4, 5} e C = { 4, 5}. Apporre i corretti valori di verità alle seguenti
affermazioni:
r:FA'B
I v~v I A e C ,ona compatibili
sono indipendenti
la famiglia {A,B} costituisce una partizione di O
A e B sono dipendenti
Esercizio 3.5.20 In una regione piove il 40% del tempo e fa bello nel tempo restante. Un
fabbricante di barometri, nel fare test sui suoi prodotti, si accorge che non sono affidabili
al 100%. In particolare un barometro in giorni piovosi ha previsto bel tempo il 10% delle
volte, mentre ha previsto pioggia, nei giorni di bel tempo, il 30% delle volte.
a) Nel prevedere il tempo di domani prima di guardare il barometro la probabilità "a
priori" che piova è 0.4; dopo aver guardato il barometro e avere visto che predice pioggia,
qual è la probabilità "a posteriori" che domani piova effettivamente?
b) Qual è la probabilità "a posteriori" se le previsioni vengono fatte con un barometro
migliore del precedente (errori rispettivamente del 10% e del 20%)?
c) Qual è la probabilità "a posteriori" che domani ci sia bel tempo, se il barometro migliore
predice pioggia?
(Suggerimento: porre B ={fa bel tempo}; A ={il barometro segna bello} e lavorare con
B, Be, A, Ac).
Esercizio 3.5.21 Sia data una moneta bilanciata, cioè tale che P[{T}] = P[{C}] = ½-
Consideriamo i seguenti eventi relativi a 100 lanci:
A = {T, T, T, T, T, T ........ T} = { esce {T} lO0volte di seguito}
100
B = {T, C, T, C, .......T, C} = {esce una volta {T}e una volta { C}alternativamente}
100
; I~
I~1~1
Apporre i corretti valori di verità alle seguenti affermazioni:
~ ~1~1
F P[B] = P[C] e P[B] > P[A]
F P[B] =P[A]
Capitolo 4
Il dissenso non bisogna ammetterlo, bisogna esigerlo
Robert Kennedy (1925-68}
Agli studenti di Berkeley in rivolta - 22 ottobre 1966
Definizione 4.1.1 Una funzione X : O f--+ JR è una variabile aleatoria (va) o variabile
Figura 4-1:
86 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
casuale (ve) se (fig. 4-1):
che garantisce che ogni semiretta (-oo, r] dell'asse reale ha per controimmagine un evento
di A. Grazie a questa condizione si potrà trasferire la probabilità da A a JR.
r < O; x- 1(-00,r] = 0
O::; r < l; x- 1 (-oo,r] = {1,2}
1::; r < 2; x- 1 (-oo,r] = {1,2,3}
2::; r < oo; x- 1(-00,r] = n.
Sia ora Y(w) tale che
Y(l) = O,Y(2) = Y(3) = Y(4) = 1.
Y è la funzione indicatrice dell'insieme {2, 3, 4} ét,A e quindi Y non può essere misura-
bile. Per esempio, se O::; r < l;Y- 1 (-oo,r] = {l} che non sta in A.
Esempio 4.1.3 Lancio di 1 dado. X è la va che indica il numero che appare sulla faccia
verso l'alto del dado.
Funzione di ripartizione
Definizione 4.1.5 Data una va X(·), la sua funzione di ripartizione (fdr} è una
funzione Fx(·) con dominio JR e codominio [O,l], così definita:
P[X
( )= { O = xi] X= Xi
=P[X=x] (4.2)
Px x X=/, Xi
0 @ ©
I I '
Se per esempio Fx(x) = x/10,l)(x) + 111 ,+oo)(x) (a della figura) è la fdr di fx(u) =
I(o,l)(u) (b della figura) allora è anche la fdr della fx(u) del caso e che è uguale alla
precedente ovunque salvo che in punto. Perciò, nel caso di una va continua, se f x (u)
cambia il suo valore solo in "pochi" punti il suo integrale Fx (x) rimane inalterato. Si
conclude che la fd f x è definita univocamente a meno di un numero "piccolo" di punti.
Sarebbe perciò corretto parlare di "una" densità di X e non "della" densità di X. Questo
fatto sarà per noi trasparente e parleremo di densità tout-court.
4.4 Esempi
Discrete
Esempio 4.4.1 La ldp della va di Bernoulli 11 (o indicatore) è la seguente:
P[X =O]= 1- p se x = O
Px(·)= { ~[X=l]=p se x = l
altrove
q=l-p{
O 1
Ilvedi nota storica in fondo al capitolo
90 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
0 X< 0
La sua fdr è la seguente: Fx(x) { 1- p O::; x < l e il grafico è in figura.
1 1::;x
Esempio 4.4.2 Consideriamo l'esperimento "lancio di un dado"; n ={{i}: 1::; i::; 6}.
La funzione X(w) = i, con w = {i} che può assumere i valori 1,2,3,4,5,6, è una va:
infatti Ar = {w: X(w)::; r} = {esce una faccia con punteggio:=; r} E A. La va codifica
il valore della faccia in alto di un dado e la fdr
5 .
"
L
TCT,.TC•• TT
} lrteste --1--------~ X
TTTuTCu TC
1111_11_11
Sia p la probabilità che in un lancio esca {T}. Dalla(~) (:)h (1- :)k-h di pag. 47
interpretando p = : come la probabilità di pescare una palla difettosa ( o l'uscita di {T})
da un'urna dove la proporzione di difettose ( {T}) rispetto al totale è p = : , si ha:
91
Ora, ricordando che Fx (x) = P[X ::; xl, si ha:
• Vx: x <O=} Fx(x) = O;
• Vx: O::;x < l::::}Fx(x) = P[X =O]= (1- p)k; infatti X può assumere solo il valore
O·
'
• Vx: 1 ::; x < 2::::}Fx (x) = P[X =O]+ P[X = l] = (1 - p)k + kp(l - p)k-l; infatti X
può assumere solo i valori O e l;
• Vx: h::; x < h + l::::}Fx (x) = P[X =O]+ ... + P[X = h] = (1- Pt + kp(l - Pt- 1 +
. + (~) ph(l - p)k-h, infatti X può assumere solo i valori O, l, .. , h.
P k (O)+Pk (1)
P,JO)
3 k-1 k
In definitiva:
Fx(x) = I:~P[X iJJii,i+l)(x) + I[k+l,+oo)(x)
I[k+l,+oo)(x)
Esempio 4.4.4 Consideriamo di nuovo l'esperimento che consiste nel lancio, ripetuto
infinite volte, di una moneta visto nel capitolo 2. Un evento elementare di tale esperi-
mento è una stringa in.finita {T, T, C, C, T, ..}. Consideriamo la va X geometrica (tempo
d'attesa del primo successo) che conta quanti lanci devo fare perché appaia la prima T :
X può assumere i valori l, 2, 3, .... Calcoliamo P[w : X(w) = m]. Gli eventi elemen-
tari che corrispondono a X(w) = m sono tutte le stringhe infinite che hanno ai primi
...__,_.,
m - 1 posti una C, cioè {C,C, ..... ,C,T, ... }. Se P[T] = p e P[C] = 1 - p = q
m-1
a ogni singolo lancio, per l'indipendenza ipotizzata dei lanci successivi delle monete
...__,_.,
Px(m) = P[X = m] = P[{C, C, ..... , C, T, ..}] = qm- 1p .
m-1
Per la fdr si ha:
o x<l
Fx(x)-{ p=P[X=l];
p + qp = P[X = l] + P[X = 2];
l~x<2
2~x<3
p +. + qm- 1p = P[X = l] +. + P[X = m]; m~x<m+l
Il grafico è quello di una funzione a scala che cresce indefinitamente senza superare la
retta y = l.
p
················~
... .. . . I i I i I !
: : :
l l l
o 2 3 m~J 111 111+/
92 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
La somma di tutti i salti infatti è p + qp + q2p + ... = p I:!: 1 qm-l = p l~q = l.
Utilizzando la funzione indicatrice si può scrivere:
Fx (x) = I:!:1 pqm- l I[m,+oo)(x) = p/[1,+00)(x) + pq/[2,+00)(x) + pq 31[3,+oo)(x) + ... +
pqk-l I[k,+oo)(x) + ...
Continue
Esempio 4.4.5 Sia f(x) = 2/(-l/ 2,oi(x). È una fd perché l'area sottesa è uguale al.
La sua f dr è data da:
1
X<- 2
--
Fx(x) - J:00 2Ic-,;,,,,(t)dt -{ :x 1
+ 1 -- <X< 0 = (2x+l)I(-½,oi (x)+l10,oo)(x)
2- -
x~O
1
Esempio 4.4.6Si consideri la seguente fd f(x) = 2 e-lxl; x E R. Per mostrare che è
una funzione di densità basta calcolare:
1
JR fx (x) dx= 2 JR e-lxl dx= J/ 00 e-xdx = l.
La f dr è data da:
1 Jx t l t Ix ex
- 1 x - t -
{ 2 -oo e dt = 2 e -oo = 2 x::; O
Fx(x)--J_ 00 elldt- 1 1 2 _e-x
2 2tooetdt+2J;e-tdt= 2 x>O
Esempio 4.4.7 Riprendiamo l'esempio 2.4.12 della nutella. La fd fx(x) può essere
pensata come il profilo della nutella spalmata su tutta la retta reale.
Soluzione.
Consideriamo gli eventi A, B, C:
A= {w: X(w)::; a}
{ B = {w: X(w)::; ~}
C = {w: a< X(w)::; ~}
III Nota: Se invece di Fx(x) = P[X :CC::x] definissimo Fx(x) = P[X < x] come si fa in altri testi, al
posto di 3) avremmo 3') Fx (x) = lim Fx (x + h) = Fx (x) ( continuità da sinistra).
h-o-
93
AC=0 eB=AUC=}P[B]=P[A]+P[C]. Ora: P[B]=Fx(,6),P[A]=Fx(a).
Conclusione: P[C] = P{w: a< X(w)::; ,6} = Fx(,6) - Fx(a).
Caso discreto
Come si può notare dagli esempi precedenti, la fdr non è lo strumento più idoneo per
descrivere la distribuzione di probabilità su JR nel caso di va discrete. Si preferisce in
questo caso utilizzare legge di probabilità o funzione di densità discreta.
Teoremino 4.4.8 Sia X una va discreta; allora la sua fdr Fx ( ·) si può ricavare dalla
sua ldp p x ( ·) e viceversa.
Dim.: Data Px (·),se xi, x2, .. sono i punti massa di X(·) allora: Fx (x) = I: Px (xi)-
(i:x;::;x)
Viceversa, data Fx(·), allora: Px(xi) = Fx(xi) - lim Fx(xi - h) •
h-o+
L'ultima formula della dimostrazione del teorema precedente perciò si può scrivere:
Px(xi) = Fx(xi) - lim Fx(xi - h) = lim {Fx(xi) - Fx(xi - h)} = P[w: X(w) = xi].
h-o+ h-o+
Per va discrete la Fx (.) è una funzione discontinua nei punti massa x j. In tali punti il
salto di discontinuità è pari a Px(xj),
nuovospaziodeglieventipossibili
Ll I
~ '------------
---------,
________., supporto
diPx(x)
vecchio
spaziodeglleventipossibili
~ 11r..J/CT..} {CCT..} {CC... CCT..J
--:- :
:
,a/oridiPf,f ~ ======:::::=============
._IP
__ pq_'--p,'--l' _____ p_q_"_ --~~---.----~-;
Caso continuo.
Sia X una va continua. Allora:
Va, b;a::; b;P[a <X::; b] = P[a::; X::; b] = P[a <X< b] = P[a::; X< b] (4.5)
Per le va discrete vale px(x) = fx(x) = P[X = x]. Questo non è più vero per le va
continue. Per queste ultime vale (box> O):
x+il.x/2
J
x-il.x/2
f X (t)dt = box· f X(();
box
x--<(<x+-
2
box
2
(4.6)
P[x - I I ::;X
~x ::; x + I Il
~x
(4.7)
fx(x) '.::::'. lboxl
e la approssimazione è tanto migliore quanto più piccolo è box. Quindi, nel caso continuo,
f x è effettivamente una densità di probabilità.
Importante. Valgono le due relazioni:
{
X va discreta O::; px(x) = fx(x)::; 1
X va continua O::;fx(x)
i::::
Siano w E una funzione definita in
::::~::
0
,:: :n~e::::
u:a("IIf)~:::·:~
:.::::~:~ Xn(w)
X= (X1,X2, .,Xn)' = (X1,X2, .,Xnf come risulterà più comodo.
95
R3
Anche in questo caso il trasporto del peso di probabilità dallo spazio A degli eventi a IRn
può avvenire seguendo due strade a seconda della cardinalità di n, con la stessa logica
con cui il problema è stato affrontato nel caso unidimensionale.
Se #(O) ::; ~o le determinazioni del vettore sono al più ~o e a ciascuna di esse si può
assegnare il peso di probabilità presente sulla sua controimmagine, che è fatta al più da
una infinità numerabile di punti di n. Se n ha la potenza del continuo su ogni Wi E n
c'è, in generale, peso uguale a O, quindi si utilizza la fdr n-dimensionale per portare
in IRn la probabilità. Nel caso multivariato utilizzeremo la seconda strada anche per la
cardinalità di n al più numerabile. Partiamo perciò dalla seguente:
(4.8)
Di conseguenza, per un vtan, sono eventi anche gli insiemi del tipo
Si noti che la 4.8 è un caso particolare di (0) dove k = n, Tji = oo per gli ]i =f.h.
In JR2 , per esempio le contro immagini delle superfici evidenziate in figura devono essere
eventi.
--B,
Le va costituenti il vtan possono essere tutte discrete, tutte continue, un po' discrete e
un po' continue. Noi ci atterremo a situazioni di omogeneità: va tutte discrete o tutte
continue.
96 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
Siano X 1 e X2 due va discrete. La vta2 (X 1 , X2)' è allora discreta nel senso che il suo
codominio contiene al più un'infinità numerabile di coppie.
1,1,l
0,1,0
1,1,0
Esempio 4.5.2 Lancio di tre monete. Codifichiamo con 1 l'uscita di T e con O l'uscita
di C in ogni singolo lancio. La funzione X : n ---+ JR3 rappresenta un vettore aleatorio
tridimensionale vta3 dove X= (X 1 (w),X 2 (w),X 3 (w))T e Xi(w) è uguale a O oppure a
1.
Oss.: Naturalmente ogni evento elementare w di n dovrà essere abbastanza "ricco" da
descrivere almeno quello che interessa. Nel nostro caso ogni evento elementare dovrà
descrivere almeno il risultato del lancio di tre monete. Il valore che Xj prenderà su un
evento elementare w corrisponderà al risultato della moneta j in quel lancio. n potrà
essere pensato come prodotto cartesiano di tre spazi identici 0 0 composti ciascuno da
due eventi elementari T e C (figura precedente)
Esempio 4.5.3 Gli italiani da i 15 anni in su, secondo l'abitudine al fumo, come stimati
da un'indagine Doxa-ISS 2008 vengono suddivisi nel modo seguente:
f = femmina
m = maschio
FMnm
FMnf
Come mostra la figura siamo in grado di scrivere la distribuzione congiunta e le margi-
nali.
X2
sesso
0.52 1 0.0932 •0.4268
Se n contiene tutti i tipi possibili di cittadini (come nel nostro c aso) allora, detta
P[{i,j}] = P[X 1 = i,X2 = j]; (i,j = O, 1) deve valere la relazione: l = P[O,O] +
P[l, O]+ P[O, l] + P[l, l].
Esempio 4.5.4 La qualità di una piccola pompa è verificata attraverso 4 sue componenti.
Ciascuna componente può appartenere a tre diverse categorie di qualità: buona, difetto
trascurabile (non ne compromette il funzionamento), difetto importante (funzionamento
compromesso).
98 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
Sia X 1 la va che conta il numero dei difetti trascurabili e X 2 quella che conta i difetti
importanti. È O::; X 1 ::; 4; O::; X 2 ::; 4- X 1 . Lo spazio delle coppie possibili è indicato
in figura, con una distribuzione di pesi di probabilità ipotizzata da noi.
1130 3130
•
1130 e 1110 • 3/JO
x,
Definizione 4.6.1 Date due va X 1, X2 definite sullo stesso spazio di probabilità (O,
A, P[·]) si dice funzione di ripartizione congiunta del vta2 (X 1 , X 2 )' (o, meglio,
funzione di ripartizione bidimensionale congiunta), la funzione:
Caso discreto
Nel caso discreto, in IR2, è: Fx(x1,x2) = I:I: P[X1 = x,X2 = y], cioè Fx(x1,x2)
x~x1,y~x2
conta la massa contenuta nel cono retrogrado {X 1 ::; x 1,X2::; x2}.
QJ X2 X1
•
. Qz Wz
Xi
•
Q3 X2
•
X1
99
In IR.3,Fx(x1,x2,x3) conta la massa contenuta nel cono: {X1::; X1, X::; x2, X3::; x3}.
Nel caso IR. 2 se il cono con vertice in Q 1 esclude punti massa, Fx(Q 1 ) = O. Per il caso
IR.3 vale lo stesso discorso: se il cono con vertice in W3 esclude punti massa Fx(H'3) = O.
In ogni caso Fx(Qi) oppure Fx(W;) sommano le masse concentrate nei coni di vertice,
rispettivamente, Qi oppure TVicome mostra la figura precedente.
Quindi è facile intuire che anche nel caso n-dimensionale la fdr è un accumulatore di
massa.
Esempio 4.6.2 La fdr Fx(x 1, x 2) del vta2 dei d~fetti trascurabili e importanti della
pompa di un esempio precedente è indicata nella tabella:
Fx(-oo,x2) = lim
xi--oo
Fx(x1,x2)=0
Fx(x1, -oo) = lim Fx(x1,x2)=0
x2---+-oo
Fx(+oo,+oo) = lim Fx(x 1,x2) = 1 (4.13)
x1,x2-+oo
Fx(x1, +oo) = lim Fx(x1, x2) = Fx, (x1)
x2-+oo
Fx(+oo,x2) = lim Fx(x1,x2) = Fx 2 (x2)
xi-+oo
Se una delle due coordinate Xi va a -oo, il contatore non somma nulla. Se entrambe le
coordinate vanno a +oo il contatore somma tutta la massa disponibile che è 1 (probabilità
dell'evento certo {X1 < +oo,X2 < +oo, .. ,,Xn < +oo});
(4.14)
a< b, c < d =}O::; P[a < X 1 ::; b, c < X2 ::; d] = F(b, d) - F(b, c) - F(a, d) + F(a, c)
(4.15)
------ F(a, d)
0,0 nord
Ct.ql
-------s e
t
o,o
---+----+---+- T
Cs.pJ
I
F(b ,d)-F(b ,r )-F(a,d)+F(a ,c)
F(b,r) F(a,r)
La 4.15 esprime una "specie" di monotonia (in termini probabilistici, non dell'Analisi
matematica), ma non è caratterizzante delle fdr congiunte nel senso che esistono delle
funzioni che soddisfano la 4.15 ma non sono fdr.
Anche la proprietà D =
{p::; q, s ::; t::::} F(q, t) ~ F(p, s)} non è caratterizzante di una
fdr. Infatti per una fdr quest'ultima è vera perché muovendosi da un punto a un altro
sistemato in un cono rettangolo con vertice nel punto di partenza, a nord ed est rispetto
a esso, si aggiunge massa. Ma esistono funzioni che soddisfano la D ma non la 4.15: come
esempio prendiamo la funzione H(x, y) = (1- s)I[{[O:ox::;I] x [l:oy)}u{[1::; x] x [O:oy:o1)}] (x, Y) +
I[{[l:ox]x[l:oy)}](x,y) disegnata in figura.
H(x,y) 1 -E X
J+ E
X
''e•~
!,------
1- E X •A
D • .B
H (A) - H ( B )-H ( C) • H ( D) =(I-e) - (I - e)- (I - e)• O= 3e -1 < O
Una Fx(·, ·) che soddisfi le proprietà 4.13, 4.14, 4.15 si chiama funzione di ripartizione
congiunta bidimensionale ed esiste una vta2 distribuita secondo Fx(·, ·).
Diamo la definizione di legge di probabilità congiunta (o funzione di densità discre-
ta congiunta) fx(·, ·) = fx,,x 2 (·, ·) nel caso bidimensionale discreto per la vta2 X =
(X1,X2)'.
Definizione 4.6.3 Si dice legge di probabilità ldp (o funzione di densità discreta fdd}
di una vta2 X discreta una funzione di due variabili così definita:
fx(a, b) = fx,,x 2 (a, b) = P[X1 = a, X2 = b]
La relazione che lega la ldp di una vta2 alla sua fdr è la seguente:
101
Definizione 4.6.4 Date due va X 1 e X 2 e detta Fx(·, ·) la loro fdr congiunta, si dice
fdr marginale di X 1 la Fx, (·) così definita:
Fx,(a) = P[{w: X 1(w)::; a}]= P[{w: X 1(w)::; a} n {w: X2(w) < +oo}] =
= Fx(a, +oo) = I:x l_<a I:x 2 f(x1, x2)
Analogamente Fx 2 (b) = Fx(+oo,b) si dice fdr marginale di X2.
La funzione I:x 2 fx(a, x2) = f x, (a) è la legge di probabilità (funzione di densità discreta)
di X1 perché Va dà P[X1 = a], dove: {X1 =a}= {X1 = a} n {X2 < +oo} = LJj(X1 =
a) n (X2 = x2 1 ).
Xz
* *
*
* *
J / x,x,(x,,,h)
-------
b ·~
/ ;t,f x,x,(a,.x,)
{/ x,
* *
* *
f
x 1x 1
(0,I)=0.0932 I x x O,I)=0.4268
1 1
f
X2
(l)=0.52
~-~ o
f
x 1x1
ro,0;=0.1268 Ix x (],0)=0.3532 0.1268 0. 1268 + 0.3532
1 2
f (0J=0.48
~ ~
X1
o o
f (0)=0.22 f (1)=0.78
X1 X[
Caso continuo
Definizione 4.6.6 Una vtan (n-dimensionale} X= (X 1, X2, ., Xn)' : n --+ IRn si dice
continua se e solo se esiste una funzione fx (·, ·, .. , ·) ~ O tale che la probabilità dell'evento
{X1::; x1; X2::; x2;,.;Xn::; Xn} è data da:
(4.17)
+oo +oo
f/y) f/y)
0.25 0.25 0.25-e 0.25 + ~
0.5
• 0.5
•
fx,( x;,J) fx,{x;,J)
(4.18)
(4.19)
Oss. 7 Se le va che formano il vettore X = (X1, X2, ... , Xnf sono indipendenti e
hanno la stessa distribuzione si dicono iid (indipendenti, identicamente distribuite).
Gr-
105
Densit à congiunta :
1a estrazione 2°" estrazione
P[X 1 =O]= P[{b}] = ~
nr nb P[X2 = l] = P[{r}] = nr~nb
P[X 1 =O]= P[{b}] = ~
nr nb P[X2 =O]= P[{b}] = nr"-:-nb
n~ nbnr
fx(x1,x2) = fx 1 (x1)fx 2 (x2) = (
+ )2I(o,o)(x1,x2) + ( + )2 I(l,o)(x1,x2)+
nb nr nb nr
nbnr n;
+( + )2I(o,1)(x1,x2)+ ( + )2J(l,1)(x1,x2)
nb nr nb nr
Densità marginali:
fx, (x1) = nb I(o)(x1)+ nr J(l)(x1); fx 2 (x2) = nb I(o)(x2)+ nr I(l)(x2)
nb + nr nr + nb nr + nb nr + nb
b} Estr az-ione s enza refrdrod ·uz-ione
1a estrazione 2°' estrazione
P[X
l
=O]=
P[{b}] = __!!J,_
nr+nb
P[X2 = llX1 =O]= nr +n, _
nb 1
P[X
1
=O]=
P[{b}] = __!!J,_
nr+nb P[X2 = OIX1=O]= nr n_;_ -~ l
nb
P[X
l
= l] =
P[{r}] = __!2r_
nr+nb P[X2 = OIX1 = l ] = ~<b - 1
nb n1,
P[X
1
= l] =
P[{r}] = __!2r_
nr+n,, P[X 2 = llX1 = l] = n.+n•
nr-l - l
Ora· { P[X1 =O]= nr '+nb e { P[X2 =O]= P[{2 ab, l ab} oppure {2 ab, l ar}]
· P[X1 = l] = ____!l,:_+
nr nb
P[X2 = l] = P[{2ar, lab} oppure {2ar, lar}]
P[X2 =O]= P[2ab, lab] + P[2ab, lar] = P[2abWb]P[lab] + P[2abllar]P[lar] =
nb - 1 nb + nb nr = nb = P[Xl = O]
nr + nb - 1 nr + nb nr + nb - 1 nr + nb nr + nb
P[X2 = l] = P[2ar, lab] + P[2ar, lar] = P[2arllab]P[lab] + P[2arllar]PWr] =
nr
------- nb nr - 1
+ ------- nr -_ ---nr -_ P[X 1 -_ 1]
nr + nb - 1 nr + nb nr + nb - 1 nr + nb nr + nb
nb(nb - 1) nbnr
fx(x1,x2)=( nb + nr )( nr + nb -l)I(o,o)(x1,x2)+( nb + nr )( nr + nb -l)J(l,o)(x1,x2)+
nbnr ( nr(nr - 1)
+( nb + nr )( nr + nb -l)I(o,1JX1,x2)+( nb nr )( nr + nb -l)J(l,l)(x1,x2)
+
Densità marginali:
fx, (x1) = nb I(o)(x1)+ nr J(l)(x1); fx 2 (x2) = nb I(o)(x2)+ nr I(l)(x2)
nb + nr nr + nb nr + nb nr + nb
Anche nel caso della non reintroduzione le probabilità dei risultati della seconda estrazione
sono uguali alle probabilità dei risultati della prima (vedi capitolo 3), Ciò non significa
che le probabilità dei risultati della seconda non sono influenzati dalla conoscenza del
risultato della prima estrazione: infatti c'è dipendenza stocastica,
Questi due esperimenti hanno diverse densità congiunte ma uguali densità marginali,
come
(4.20)
Infatti la 4.20 rappresenta P[X1 = x1; X2 = x2; ... ; Xm = Xm; Xm+l = Xm+1l cioè
la probabilità di aver ottenuto x 1 volte il risultato S1 , Xm volte il risultato Sm e, di
n!
conseguenza, Xm+I volte il risultato Sm+I · Ci sono 1 1 1 1 allineamenti di n
X1.X2.... Xm,Xm+l,
oggetti (i risultati} di cui x 1 uguali tra loro, x2 uguali tra loro, ... , Xm+I uguali tra loro.
Per l'indipendenza ciascuno di questi allineamenti ha probabilità 1r?1r~ 2 ••• 1r;';,m1r:+V.
Oss.: Una marginale .fxk (xk) rappresenta la probabilità che l'esito Sk si sia verificato
xk volte ( e n - xk volte non si è verificato) Si tratta perciò di una binomiale di parametri
n e 7rk.
107
Esempio 4.7.5 Supponiamo che Rossi e Verdi si accordino di incontrarsi a un istante
non precisato tra le 17:00 e le 18:00. Ciascuno arriva indipendentemente dall'altro e,
dividendo l'ora in 60 intervallini di 1 minuto l'uno, l'arrivo può avvenire in uno qualunque
di questi con la stessa probabilità. Ciascuno inoltre aspetta 10 minuti: se non vede l'altro
se ne va. Trovare la probabilità che i due si incontrino.
Sia X 1 il tempo di arrivo di Rossi e X 2 quello di Verdi.
1 1
X1 ha densità fx, (x1) = 6a1{(o,6on(x1) mentre X2 ha densità fx 2 (x2) = 6a1{(o,6on(x2).
I due arrivi X; sono distribuiti uniformemente sull'intervallo [O,60]. La densità uniforme
è stata vista nei capitoli precedenti.
Gli arrivi sono indipendenti, perciò:
1
f X1X2 (x1,X2) = f X1 (x1)f X2 (x2) = 36Oa1{(0,60)x(0,60)}(x1, X2).
Oss. 8 Nel caso di indipendenza la conoscenza delle fdr (o fd o ldp) marginali permette
di determinare in modo univoco la fdr (o fd o ldp) congiunta. Basta infatti fare il
prodotto. Ciò significa che il comportamento congiunto è univocamente noto se è noto
il comportamento "disgiunto". Se c'è dipendenza questo non è vero. Si pensi a due
dadi dipendenti. Il risultato sulla faccia di uno dei due dadi è influenzato dal risultato
sulla faccia dell'altro dado. Per aiutare l'intuizione si potrebbe immaginare una forza
magnetica che lega i due dadi. È evidente che non basta conoscere come si comporta
un dado per determinare il comportamento congiunto. Osservare un dado da solo infatti
non può dire nulla su come, lanciandoli insieme, i dadi si influenzano.
Definizione 4.7.6 Consideriamo gli n vtan X 1 , X2, ... , Xn definiti sullo stesso spazio
di probabilità (O, A, P) di dimensioni rispettivamente m 1 , ... , mn cioè Vi; X; : n ---+
JRmi. Questi vettori si dicono (stocasticamente) indipendenti se per ogni scelta di n
108 CAPITOLO 4. VARIABILI E VETTORI ALEATORI
borelliani Bi e JRmi risulta:
Esercizio 4.9.2 Siano X 1 e X 2 due va con fdr rispettivamente F 1(x) e F 2(x). Sia
F(x) = c 1F 1(x) + c2F2(x), c1,c2 E JR.
F(x) è una fdr
F(x) è una fdr se e solo se c 1 e c2 soddisfano a una condizione particolare.
Esercizio 4.9.3 Sia F(x) una funzione di ripartizione. Indicare i corretti valori di
veritàv:
[!][TI lim F(x)
x-+oo
=O 'lfx1, x2, x1 < x2::::} F(x1) < F(x2)
[!][TI lim F(x) =1 'lfx 1, x2, F(x 1 + x2) = F(x 1) + F(x2)
x---++oo
'lix lim F(x + h) = F(x)
[!][TI lim F(x)
x---++oo
= +oo h-o+
O< l lim F(x) >
[!][TI lim F(x)
x---+-oo
= 1/2 \>'E: E:<
x-+oo
E:
Esercizio 4.9.5 A possiede due monete e B una soltanto. I due giocano fino a quando
uno dei due possiede tutte e tre le monete. Sia p la probabilità che in una generica partita
(le partite sono indipendenti) A risulti vincitore. Sia infine X la va "numero" di partite
giocate prima che il giuoco finisca.La va X ha:
~
un numero finito di determinazioni
FF una infinità numerabile di determinazioni
una infinità non numerabile di determinazioni
Calcolare la probabilità che il giuoco abbia una durata di 5 partite.
Esercizio 4.9.6 Sia Fx(t) = {3t 2 - 2t 3 }/[o,i](t) + /(1,+oo)(t) (dove al solito IA(t) è la
funzione indicatrice dell'insieme A) la f dr di una va X.
a) calcolare f x (t)
b) Considerato che il grafico di Fx (t) è il seguente:
1/2
FX,Y fx,y
(§ 0
01
@) (§
0
o
02
i valori cir<olettati,ono quelli di F:I;y
5.1 La media
Definizione 5.1.1 Sia X una va {dotata di punti massa Xj e ldp px(x) se discreta, di
fd fx(x) se continua). La media E[X] (o µx) di X è data da:
Nel caso di va discreta la somma L.j XjPX (xj) rappresenta la media E[X] solo se esiste
finita e ha lo stesso valore in qualunque ordine si sommino gli addendi XjPx(xj), cioè
la media E[X] esiste, per defìnizione, solo se la 5.1 è una serie incondizionatamente
convergente (o, per il teorema di Dirichlet, Appendice 1, se e solo se L.j lxjp(xj)I esiste
finita). Per ragioni che non possiamo affrontare in questo corso, anche nel caso di va
continua E[X] esiste se e solo se xfx(x) è assolutamente integrabile su JR, cioè se esiste
finitoJ~: lxfx(x)ldx.
Esempi di L.j XjPx(xj) non convergenti incondizionatamente o di xfx(x) integrabili su
JR ma non assolutamente integrabili esulano dalle finalità di questo corso.
Se X è una va discreta E[X] è il baricentro della massa unitaria distribuita dalla ldp
p x (.) sui punti massa x j. La posizione della media relativamente ai punti massa dipende
112 CAPITOLO 5. INDICI PER VARIABILI ALEATORIE
dalla distribuzione dei pesi di probabilità sui punti stessi. Quindi è un indice di posizione
delle masse. Altri indici di "posizione" verranno esaminati in seguito.
+oo +oo
(-") = L mpqm-l = P L mqm-l = (-"-")
m=l m=l
Ora questa è una serie a termini positivi. Per trovare il suo valore ragioniamo così.
Applicando il teorema di derivazione per serie alla serie I:!:Oqn = - 1- {che vale
l-q
l d
in ogni intervallo -l < -a ::; q ::; a < l; a > O) si ha: (l _ q)2 = dq I:!:Oqn =
Esercizio 5.1.1 va numero di lanci che precedono il primo successo, sempre nell'ipotesi
che a ogni lancio la probabilità di successo sia p. Si tratta di una va Y molto simile alla
precedente: descrivetela verificando che la sua ldp è py(m) = P[Y = m] = pqm; m ~ O
e che E[X] = 7·
Questa va si chiama geometrica traslata.
r,.
. . . . . . . . . 1 ......... •
.
-IO -9 -8 -7 -6 -5 -4 -3 -2 -I O 1 2 J 4 5 6 7 8 9 10
Sia X la va discreta che prende il valore n E Z- {O};n = ±l, ±2,, ±3, ... con probabilità
3 3
( 7m) 2 ,cioè Px (n) = P[X = n] = (7m) 2 , n i- O.
Esempio 5.1.6 Sia X una va continua con densità fx(x) = Àe-Àxf(o,+oo),À > O (va
esponenziale}. Allora: E[X] = J!';: xfx(x)dx = J 0+ 00
Àxe-Àxdx = ±-
Definizione 5.1.7 Sia X(·) una va e g(·) una funzione (misurabile}: JR---+JR,(X : n---+
JR). g(X) è una nuova va e il suo valore atteso è indicato con:
1} E[g(X)] = I:j g(xj)Px(xj), se X è discreta;
2) E[g(X)] = J!';: g(x)fx(x)dx, se X è continua
se le quantità in gioco esistono.
Definizione 5.1.12 Gioco equo. La media nulla caratterizza un gioco d'azzardo equo.
Facciamo un esempio con un gioco che prevede due soli esiti a ogni giocata: successo e
insuccesso. Tale è il caso del lancio della moneta, del Lotto, della roulette, del Totocalcio,
del Super Enalotto: a ogni giocata o vincete (successo) o perdete (insuccesso). Su un
evento che ha probabilità p (O < p < l) di verificarsi si scommette una certa somma
s per ricevere v dal banco se l'evento non si veri.fica (con probabilità l - p). Qual è la
x
2
= -7!'2
3
+ L+=
n=l
(-1)
n 4
-cosnx
n2
Ponendo x = 7T', cosn7T' = (-l)n si ha:
114 CAPITOLO 5. INDICI PER VARIABILI ALEATORIE
cifra v che il banco deve pagare perché il gioco sia equo? Sembra ragionevole che il banco
paghi v = s/p cioè una cifra inversamente proporzionale alla probabilità di vincere. La
probabilità è del 50%? Se giocate 1 dovete avere 2. La probabilità è del 20%? Se giocate 1
10 -
dovete avere 5. O è invece del 90%? Se giocate 1 dovete avere 9 = 1.1. In caso di vincita
perciò un banco «onesto» deve pagare un importo più grande della posta s scommessa
di un fattore pari all'inverso della probabilità p di vincere. Tra i giochi dello Stato in
Italia il Lotto è uno dei più iniqui (vedere la tabella in Appendice 16).Questa definizione
di gioco equo implica degli obblighi alla va guadagno G. G ha due determinazioni, v - s
(quello che paga il banco meno l'importo scommesso) che prende con probabilità p e -s
che prende con probabilità l - p, cioè
V - S con probabilità p
G= {
-s con probabilità l - p
Se calcoliamo il valor medio E[G] di G abbiamo: E[G] = (v- s)p- s(l - p). Se il gioco è
equo, cioè se v = s/p il valor medio risulta nullo. Per questo si dice che i giochi devono
avere valor medio nullo per essere equi.
5.2 La varianza
Mentre la media è un indice della "posizione" delle masse di probabilità di X rispetto alla
media stessa, la varianza di una va è un indice della "dispersione" di tali masse intorno
alla media.
Come per la media anche qui la somma in 5.3 deve esistere ed essere la stessa qualun-
que sia l'ordine dei fattori. Essendo però qui gli addendi tutti positivi se 5.3 converge,
converge anche assolutamente. Discorso analogo per l'assoluta integrabilità in 5.4.
La varianza misura la "dispersione" della massa di probabilità intorno alla media. Nel
caso discreto, poiché la massa è concentrata nei punti massa x j, la varianza misura la
dispersione di tali punti intorno alla media.
Con il linguaggio della fisica elementare, se la media può essere interpretata come il
centro di gravità di una distribuzione di masse, la varianza ai può essere vista come il
momento d'inerzia delle masse Px (xj ), rispetto a un asse perpendicolare passante per
µx (baricentro della massa unitaria I:jPx(xj) = 1).
115
Px(x1) Px(x,) Px(x,) Px(x;) Px(x,,)
•
x1 •
x,
•
x, *µX •
X;
•
x,,
Anche la deviazione standard è una misura della dispersione dei valori della va.
Esempio 5.2.3 Sia X la va somma delle facce che escono nel lancio di due dadi; l 'insie-
me dei valori possibili per X è: (2, 3, ... , 12). La seguente tabella dà la legge di probabilità
e indici di posizione e dispersione:
I ~ob. I l I ~ I ~ I ~ I ~ I ~ I l I ~ I ~ I ~ I :tI
La varianza è la media della va: (X -µx )2. Infatti se g(x) = (x-µx )2, per la definizione
5.1.7 E[g(X)] = E[(X - µx )2] = var[X].
I
--------------~ ]
Fxf'é,) 2/3
1/ 2
------------- - ~---------------
-- ---o 1/ 4
m lii
---v ---;::::::==:::~==:;--- - I; -- --;:=:::::::::'::====;- - ------,. I;
I caso discreto I I caso conti11uoI
Definizione 5.3.2 Si dice quantile q-esimo (O< q < l)II della fdr Fx di una va X
il minimo valore çq tale che Fx(çq) = P[X::; çq] ~ q cioè çq = inf{ç: Fx(ç) ~ q}.
Oss. 4 Quando Fx è invertibile çq = p- 1 (q).
Oss. 5 Se X è continua il quantile q-esimo çq è quel valore tale che l'area compresa tra
il gra,fico della fd e l'asse x fino a çq è pari a q.
Quantili notevoli hanno nomi particolari:
P[X::; x]m = 1-(½)x+l quindi bisogna risolvere 1-(½r+l ~ 0.75 cioè 0.25 ~ (½)x+l::::}
log½ (0.25) ~X+ l ::::}2 ~X+ l ::::}ç0,75 = 1.
Definizione 5.3.4 Per moda di una distribuzione Fy (y) si intende il valore M oda[Y]
tale che:
Y discreta: P[Moda] = maxP[Y = y]
y
5.4 Momenti
I momenti di una va sono i valori attesi delle potenze della va pensate distribuite come
la va data. Più precisamente:
Definizione 5.4.1 Data una va X, il suo momento di ordine k, µ~, è definito come
la media della sua potenza k-esima (se esiste):
1 _
µk - E X
[ k] -{
- +
L xjpx (xj) se X è discreta
(5.5)
f_;:xk fx(x)dx se X è continua
Definizione 5.4.2 Data una va, il suo momento centrale di ordine k, µk, è definito
come:
(5.6)
3 4
X_µ ) ] µ3 [( X_µ ) ] µ4
/31 = E [ ( (E[(x - µ)2])½ = a3 ;/32 = E (E[(x - µ)2])½ = a4 i'Y2 = /32 - 3
~ -- '/,= O; mesocurtica
Figura 5-1:
/31 =/-O garantisce perciò l'assenza di simmetria rispetto alla media (asimmetria o skew-
ness). Si può dimostrare che se /31 >Ola massa di probabilità a destra della media µx
è maggiore di quella alla sua sinistra, mentre se /31 < O succede il contrario.
Poiché per una va normale (vedi cap. 7) /32 = 3, , 2 =/-O indica assenza di normalità della
X (vedi fig. 5-1)
Ponendo t = O, si ha:
119
da cui:
dk m(t) )
( -k
dt t=0
= 1+
-oo
00
xk fx (x)dx = µ~
(Xt) 2 (Xt) 3
Ricordando che e1x = 1 + Xt + - 2-!- + - 3-!- + · · · abbiamo:
Oss. 6 Se esistono tutti i momenti la 5. 9 si può sempre scrivere ma non è detto che valga
l'uguaglianza. La distribuzione lognormale (vedi capitolo 8) rappresenta un esempio di
distribuzione che ha tutti i momenti ma non ha fgm.
Esercizio 5.4.1 Sia Y = o:X + (3. Mostrare che my(t) = ef31mx(at).
my(t) = e131mx(at).
Dimostrare questo teoremino per esercizio.
IV Per il calcolo delle derivate di m(t) per una va continua fare riferimento alla osservazione sul teorema
di derivazione sotto il segno di integrale in Appendice 1.
120 CAPITOLO 5. INDICI PER VARIABILI ALEATORIE
La funzione di failure rate (tasso di guasto)
Sia T la durata di un componente (quindi T ~ O). La funzione di reliability (affida-
bilità) è la funzione di t:
l t<o
R(t) = P[T > t] = 1 - P[T::; t] = l _ Fr(t) t ~O
Se T ha media allora il tempo medio di rottura (mean time to failure, MTTF) è dato
da:
E[T] =
lo
r= tfr(t)dt =
(*) lo
r= (1 - Fr(t)dt = r=
lo
R(t)dt.
L'uguaglianza (*)è giustificata dalla relazione E[X] = 0+= (l-Fx (x) )dx- J
Fx (x )dx t=
dimostrata nel paragrafo 0.10 dell'Appendice dove Fr(t) = O in (-oo, O) essendo T ~ O.
Consideriamo la probabilità condizionata:
o sex< t
P[T s; xlT > t] - Fr(x[T > t) - { P[t < T::; x] Fr(x) - Fr(t)
P[T> t] 1 - Fr(t)
o X< t
fr(xlT > t) = d Fr(x) - Fr(t) fr(x)
dx l - Fr(t) 1 - Fr(t)
Il failure rate (tasso di guasto) è il valore di fr(xlT > t) calcolata per x = t, cioè
Esempio 5.4.10 Supponiamo che un componente abbia failure rate r(t) = À, costante.
L'equazione 5.10 diventa:
e di conseguenza
121
5.5 Disuguaglianza di Markov
Teoremino 5.5.1 (:•) Se X è una va che assume solo valori non negativi, allora:
a2 a2
Oss. 7 P[I X - µ I~ k] ::; k 2 si può scrivere anche P[X - µ::; -k U X - µ ~ k] ::; k 2 ,
quindi dà informazioni sul comportamento di Y = X - µ fuori da un intervallo simmetrico
rispetto all'origine. Siano a, b > O con a=/. b. Come posso valutare P[X-µ::; -aUX-µ ~
b]? Supponendo che a < b si osservi il seguente grafico:
Oss. 8 Sulla prima riga c'è tutta la massa; sulla seconda solo quella in (-oo, -b] U
[b, +oo) cioè P[IX - µI ~ b]; sulla terza quella in (-oo, -a] U [b, +oo) cioè P[X - µ ::;
-a U X - µ ~ b] e sulla quarta quella in (-oo, -a] U [a, +oo), cioè P[IX - µI ~ a].
È allora evidente che P[X - µ ::; -b U X - µ ~ b] ::; P[X - µ ::; -a U X - µ ~
a2
b] ::; P[X - µ ::; -a U X - µ ~ a] ::; 2 . Allora è evidente che, se si deve valutare
a
P[X - µ::; -a U X - µ ~ b] con a=/. b; a, b > O, occorre prendere il min(a, b). Poi sarà:
a2
P[X - µ::; -a U X - µ ~ b]::; P[IX - µI ~ min(a, b)] ::; (min(a, b)) 2
-b -a o a b
-b -a o a b
-b -a o a b
-b -a o a b
Figura 5-2:
Se invece si deve valutare la probabilità dell'evento { a < X < ,6} si passa a {a - µ <
X - µ < ,6 - µ} = {c < X - µ < d} e si procede come prima.
a2
Oss. 10 P[I X - µ I< k] = 1- P[I X - µ I~ k] > 1 - k 2 e quindi P[µ - k < X <
a2
µ + k] ~ 1- k 2 dove posto k = ta si ha:
1
P[µ - ta < X < µ + ta] ~ 1- t2 (5.14)
La 5.13 ci dice che la probabilità che una va cada al di fuori di un intervallo, centrato nella
sua media e di semiampiezza t volte lo scarto quadratico medio, è limitata dall'inverso
del quadrato di t. Fatti i conti per valori t = 2, 3, 4 si conclude che, come mostra la ,figura
5-3 per una va aleatoria dotatata di momento secondo finito:
P[ µ-a<2 X <µ+a_-2 l > 3
4 ::::}
1
almeno il 75% della massa è in un intervallo
di semiampiezza 2a centrato in µ
8 almeno 1'88.8% della massa è in un intervallo
P[µ - 3a < X < µ + 3a] ~ g ::::} di semiampiezza 3a centrato inµ
15 { almeno il 93. 75% della massa è in un intervallo
P[µ - 4a < X < µ + 4a] ~ 16 ::::} di semiampiezza 4a centrato inµ
peso)75%
peso) 88.8%
...._________ --.v,,..------------'
peso) 93.75%
Figura 5-3:
Esempio 5.6.2 Supponiamo che il numero di pezzi prodotti da una fabbrica in una
settimana sia una va con media 50 (non conosco la sua legge di probabilità}.
a) Cosa posso dire sulla probabilità che questa settimana la produzione superi i 75 pezzi?
Per la disuguaglianza di Markov posso solo maggiorarla:
1 3
P[I X - 50 I< 10] = P[40 <X< 60] ~ 1- 4 = 4·
Esempio 5.6.3 Sia X una va con µx = 8 e a3c = 9: qual è P[-4 < X < 20]? Cosa
vale t?
1 1
P[µ - ta < X < µ + ta] ~ l - t 2 ; P[(8 - 3t) < X < (8 + 3t)] ~ 1 - t 2
1 15
Se t = 4; P[-4 < X < 20] ~ 1 - 16 = 16 .
Esempio 5.6.4 Sia X una va che indica il tempo di evasione di un ordine, con µx = 8
e ax = 1.5 giorni. Determinare un intervallo (a, /3) tale che P[a < X < /3] ~ ~
(= 1- tl2)
Set= 3 si ha: P[µ-ta <X< µ+ta] ~ ~;P[8-4.5 <X< 8+4.5] ~ ~- Quindi:
(a, /3) = (3.5, 12.5).
N
P[-2<T<9]= 365 .
= 1 - 42 · 120 = -3.0993
10.275
VII A faute de mieu, cioè in mancanza di meglio, possiamo solo dire che P[T :CC:: t]
N dei giorni con T < t . b bT .
365 - , c10è pro a 1 1tà = frequenza re 1at1va.
125
che, come nel caso precedente, non ci dice nulla.
Quello di cui si ha bisogno perché Chebyscevfunzioni è che si debba valutare P[IT-µrl 2:
a] dove a= ka e k > l, cioè la probabilità che una IT- µrl disti da O per almeno k volte
lo scarto a dove k > l.
Osservazione 2 Inoltre la disuguaglianza serve a valutare la probabilità che una va
T - µT sia al di fuori di un intervallo intorno allo O e non da un intervallo che sta tutto
a destra o sinistra di O.
Osservazione 3 Noti I: t; e I: t7 lo stesso tipo di approccio potrebbe, per esempio,
essere applicato ai seguenti problemi:
1} I: t; numero totale dei pezzi d~fettosi da M lotti di produzione. Trovare il numero
minimo di lotti con pezzi difettosi compresi tra a e b;
2} I: t; numero totale degli avvistamenti di delfini in M giorni in una Riserva Marina.
Trovare il numero minimo di giorni con numero di delfini compresi tra a e b;
3) I: t; la somma dei valori dell'indice Dow Jones misurati giornalmente alla Borsa
di New York. Trovare il numero minimo di giorni nei quali il valore dell'indice era
compreso tra a e b.
Esercizio 5.8.2 Sia X una va finita. Apporre i corretti valori di verità alle seguenti
affermazioni:
V F E[X] esiste sempre
V F può esistere E[X] e nonvar[X]
V F può esisterevar[X] e non E[X]
V F var[2X] = 2var[X]
V F E[X] 2: O
V F var[a +X]= var[X]
Esercizio 5.8.3 Nell'ambito di funzioni g E c 0 (JR) indicare quale delle seguenti affer-
mazioni è (sempre) veravm:
~
var[g(X)] = g(var[X])
E[g(X)] = g(E[X])
se var[X] > O allora Vg(·): var[g(X)] >O
se 'ix, g1 (x) > g2 (x) allora E[g1 (X)] > E[g2(X)]
~
var[c] = c
E[g(X)] = g(E[X])
'ix E JR g1(x)::; g2(x)::::} E[g1(X)]::; E[g2(X)]
E[c1g1(X) + c2g2(X)] = c1E[g1(X)] + c2E[g2(X)]
~
per X non vale la disuguaglianza di Chebyscev
F posso utilizzare la disuguaglianza di Chebyscev per valutare P[I X - µ 12:
k]
F Vk > O;P[IX - µI ~ k] = o
X L'azienda da preferire è quella che fornisce buste con il peso che ha minor probabilità di uscire dai
limiti di legge. Se P[X1 :CC::99UX1 2': 101] 2': P[X2 :CC::99UX2 2': 101] è da preferire l'azienda [JJ, mentre
se P[X1 :CC::99 U X1 2': 101] :CC::P[X2 :CC::99 U X2 2': 101] è da preferire l'azienda [TI.
Non conoscendo la distribuzione di X1 e X2 cerchiamo di risolvere il problema con la disuguaglianza di
Chebyscev. Per far questo dobbiamo ottenere una disuguaglianza del tipo P[IXi - µil 2': t] dove i= 1, 2.
c,2
Dopodiché sarà P[I Xi - µi I 2': t] :CC:: t;·
Per l'azienda [TI si ha:
P[X1 :CC::99 U X1 2': 101] = P[X1 - µ 1 99-
:CC:: µ 1 U X1 - µ 1 2': 101- µ 1] =
0.36 2
= P[X1 - 100 :e:;-1 u X1 - 100 2': 1] = P[IX1 - 1001 2': 1] :e:;~ = 0.1296
Per l'azienda [JJ invece i conti presentano una piccola difficoltà "algebrica" in più. Infatti:
P[X2 :CC::99 U X2 2': 101] = P[X2 - µ 2 :CC::99 - µ 2 U X2 - µ 2 2': 101 - µ 2] =
= P[X2 - 99.72 :CC::-0.72 u X2 - 99.72 2': 1.28]
Quest'ultima non si presta ancora a essere scritta come P[IX2 - µ 2 1 2': t]. Dovremo scegliere tra P[IX2 -
99.721 2': 0.72] oppure P[IX2 - 99.721 2': 1.28]. Poiché 0.72 < 1.28 scegliamo P[IX2 - 99.721 2': 0.72] che
maggiora la probabilità che stiamo cercando.
Si ha:
0.22 2
P[IX2 - 99.721 2': 0.72] :CC::0.722 = 0.093364
Conclusioni.
P[X2 :CC::99UX2 2': 101] = P[X2-99.72 :CC::-0.72UX2-99.72 2': 1.28] P[IX2-99.72I
:CC:: 2': 0.72] 0.093364
:CC::
a b
§
potesi che X sia una qualunque va continua di media µ e varianza a 2 finite:
P(XE[µ-a,µ+a])=0.l
P(X ,f.[µ- a,µ+ al)= 0.1
P(X E[µ- 3a, µ + 3a]) = 0.1
Esercizio 5.8.13 Data una variabile aleatoria X che ha la funzione generatrice di mo-
menti
1 2 3
m(t) = -et + -e2t + -e3t
6 6 6 '
calcolarex 11:
E[X], var[X], fx(x) = P[X = x]
Esercizio 5.8.14 Sia X una va qualunque di cui non si conosce la distribuzione, dotata
di momento di f!' ordine finito.
V F E[X] esiste sempre finita
V F può darsi che esista finita E[X] ma non var[X]
V F E[X 2 ] < E 2 [X]
V F var[X] 2: E[X 2 ]
V F Se X è misurata in mm, E[X] è misurata in mm e var[X] in mm2
XILe risposte si ispirano al fatto che la fd f(x) è a supporto compatto quindi esiste la fgm: per
r~:
esempio, nel caso della figura il supporto è [a, b] e risulta etx fx (x)dx = J: etx fx (x)dx.
XII se una fgm è data da I:;pketxk allora la va che la genera è tale che ha al più una infinità numerabile
di determianzioni xk con Pk = P[X = xkl·
Capitolo 6
La non-violenza è la risposta ai cruciali problemi politici e morali del nostro tempo;
la necessità per l'uomo di aver la meglio sull'oppressione e la violenza senza ricorrere
all'oppressione e alla violenza.
L'uomo deve elaborare per ogni conflitto umano un metodo che rifiuti la vendetta,
l'aggressione, la rappresaglia. Il fondamento d'un tale metodo è l'amore.
- Discorso pronunciato nel ricevere il premio Nobel, 11 dicembre 1964
Distribuzioni discrete
x = 1,2, ... ,N
p(x)=px(x;N)={ ~/N -- ]:__I
N {1,2, .. ,N} (X )
altrove
:I I 111
O 1 2 3 4 N-1
l
N
In questo caso, la va stessa si dice uniforme discreta. Un esempio è dato da una va che
indica l'uscita di una faccia di un dado regolare, ma parliamo di distribuzione uniforme
discreta di probabilità tutte le volte che siamo di fronte a N esiti equiprobabili di un
esperimento.
N +1 N 2 -1
E[X] = - 2 -;var[X] = - 1-2 -;mx(t) = I>' N'l
N .
1
i=l
Teoremino 6.3.3 (:•) Sia px(·;n,p) {discreta) la ldp di una distribuzione binomiale.
Allora:
Px(x-l;n,p)<px(x;n,p) se x<(n+l)p}
{ px(x-l;n,p)>px(x;n,p) se x>(n+l)p conxinteroel::;x::;n
Px(x-l;n,p)=px(x;n,p) se x=(n+l)p
( : ) pxqn-x
. Px(x;n,p)
D im.:--"----- n! (x - l)!(n - x + l)!. r_
Px (x - l;n,p) x!(n - x)! n! q
( x-ln ) px-lqn-x+l
(n-x+l)(p+xq-xq) (n+l)p-x
---------=l+-----
xq xq
> 1 se (n + l )p > x
L'ultimo fattore è: { < l
= 1
se
se
(n + l)p < x
(n + l )p = x
•
Grafici della ld p ( o fdd) di una B (n, p)
0,45
O 11- 10,p-0.J ~ 11= 10, p=0.5 011 - 10, p==0. 7
0,4
0,35
0,3
o D
0,25 r:),
o D
0,2 tJ, Cl
0,15
o r:), r:), D
O.I IQ]
2 3 4 5 6 8 IO
Il grafico della ldp della B(n,p) in figura varia, fissato n, al variare di p. Se p < ½ il
grafico è disassato a sinistra; se p > ½il grafico è disassato a destra; se p = ½il grafico è
simmetrico rispetto a ? .
132 CAPITOLO 6. DISTRIBUZIONI DISCRETE
0,25 x = (n + l)p; no11intero
(J,20
x = (n + l}p; intero
0,15 o
0,10 o
o
0,05
o o
o
o o -
O I J J 4 5 6 7 8 9 IO li 11 JJ 14 15 16 17 /8 19 20
Nella figura qui sopra il significato geometrico del teororema 6.3.3: il caso in cui (n+ l)p
intero (è (n + l)p = 7 qui) i valori della ldp sono indicati da quadratini e ce ne sono due
alla medesima quota; il caso in cui (n + l)p non è intero (cerchietti) la ldp cresce fino a
[(n + l)p] (parte intera di (n + l)p) poi decresce.Nella figura qui sotto supponiamo invece
di fissare p e di fa crescere n. Il grafico delle ldp si sposta verso destra come un'onda.
Le linee sottili che uniscono i valori delle ldp servono solo a suggerire la distribuzione
limite continua.
0,35
0,3
0,25
0,2
0,15
0,1
0,05
O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
k k M-k M-n
E[X] =n· - evar[X] =n· - · -- · --.
M M M M-l
Esempio 6.4.3 Nel reparto "controllo di qualità" di un'azienda in cui vengono prodotti
alberi a camme si esaminano le confezioni da 100 pezzi pronte per essere spedite ai clienti.
Viene decisa la seguente strategia di scelta.
Da ogni confezione vengono estratti senza reintroduzione 1O alberi a camme, cioè un
campione di dimensione n = 10. Si decide di "passare" la confezione da 100 alberi se i
pezzi difettosi sono al più uno.
Se X è la va che dà il numero dei pezzi difettosi all'interno del campione, X ha una
distribuzione ipergeometrica con i seguenti parametri:
M = 100; ~ = p quindi k = p · M = p · 100; n = 10 è il numero dei pezzi campionati.
Quindi:
( lOO·p) (100 (1-p))
X 10-x
x=2 10 x=O
10
( lOO·p) ( 100 (1-p )) + ( lOO·p) ( 100· (1-p ))
=1- o 10 (10) 1 9 =f(p)
Ovviamente la probabilità di rifiutare il lotto è funzione di p. Per esempio, se p = 0.05
(cioè se abbiamo il 5% dei pezzi difettosi), si ha:
P[rifiutare il lotto] = 1 - @(~1)r!SP
(995) = 1 - 0.923 = 0.077
Con il valore p della qualità del lotto ipotizzata l'evento X > 1 ha una probabilità bassa.
Posso perciò pensare che, se tale evento si è verificato, la p di quel lotto sia maggiore del
valore ipotizzato e che quindi sia ragionevole rifiutare. Se tale probabilità fosse elevata,
la decisione di rifiutare sarebbe meno significativa e l'azienda, per abbassare la probabi-
lità dell'evento "rifiuto", potrebbe decidere di modificare strategia (rifiutare se X > ?) o
cambiare la dimensione n del campione.
134 CAPITOLO 6. DISTRIBUZIONI DISCRETE
Oss. 2 Quando la numerosità M della popolazione è molto maggiore di quella n del
n
campione {basta M ::; 0.1) non c'è praticamente differenza nel calcolare la probabilità di
estrazione con o senza reimbussolamento, e possiamo trattare l'ipergeometrica come una
k
binomiale B (n, p) con p = M (proporzione tra il numero k degli oggetti difettosi e quello
totale M ). Infatti in questo caso:
P(X = x) =
(k)(M-k)_-· (nx)
x (~)x ·- [Mk]
x [l- Mk] n-x
Px (x; M , k , n ) = (:)(~~:)
(~) . supponiamo
' ch e, come in' ques t o caso, la successione
' dell e
nel limite, il rapporto ~ è tenuto fisso uguale a p). Potremo allora affermare che, con
un linguaggio che preciseremo più avanti, la successione delle va ipergeometriche {X M}
converge, in legge e sotto opportune ipotesi, a una va binomiale X.
Un esempio è data dalla va X tempo d'attesa (in termini di tentativi, e quindi tempo
discreto) del primo successo in una serie di prove ripetute, dove, a ogni prova, sono
possibili solo due risultati, successo o insuccesso, e la probabilità di successo in ogni
prova è p: G(p) conta il numero di tentativi per avere il primo successo.
Esempio 6.5.2 Si lancia un dado finchè esce sei. Qual è la probabilità che il dado debba
essere lanciato più di cinque volte?
Soluzione: si deve eseguire ripetutamente un esperimento che ha due soli possibili risulta-
ti: {6} e {non 6}, con P[{6}] = (1/6) e P[{non 6}] = (5/6); i risultati degli esperimenti
sono indipendenti. Il modello segue la distribuzione geometrica. La probabilità che in n
esperimenti si verifichi per (n - 1) volte di fila l'evento Ac = {non esce 6} di probabi-
lità q = !e l'ennesima volta l'evento A = {esce 6} di probabilità p = ¼ è, come noto,
!
pqn- I = ¼· ( )n- 1 , perciò:
P[n° lanci > 5] = P[n° lanci = 6] + P[n° lanci = 7] + ... =
= ¼.(!)5 + ¼.rn)6+ ¼.(!)7 + .. = ¼.(!)5 [1 + ! + (!)2 + ..]
_- 6.1 (5)5'-'+oo (5)j _ 1 (5)5
6 ~j=O 6 - 6. 6
1 -_ (5)5
1-(5/6)
_ 5
6 - q
Si poteva seguire anche questa strada: P[n° lanci > 5] = 1 - P[n° lanci ::; 5].
135
Teoremino 6.5.3 Se X= G(p) allora:
1 2 q pet
E[X] = -;ax = 2 ;mx(t) = --t-
p p l-eq
Dim: Calcoliamo E[X] trovando prima la fgm.
+oo +oo +oo
mx(t) = E[etX] = I: etnqn-Ip = etp I: et(n-I)qn-1 = pet I: (etq)h (•)
n=l n=l h=O
pet
letql < 1 {::}t < - ln q ; per questi valori di t la (•) converge a: -1--t- = mx (t)
-eq
d pet et
m'.x-(t)= dt[l-etq]=p(-l+etq)2
m'.x-(O)= !p
Ricordare che var[X] = E[X 2] - E 2 [X] = m'Jc(O) - m'.x-(0) 2 per il calcolo della varian-
za'. •
Oss.: Si osservi che il tempo medio di attesa del primo successo è inversamente propor-
zionale alla probabilità di successo in ogni singola prova.
Teorema 6.5.4 Mancanza di memoria della geometrica (:•) Per una va con
distribuzione geometrica, vale l'importante uguaglianza:
P[X > k +n I X > k] = P[X > n] (6.1)
Dim.: Interpretiamola probabilisticamente modelizzando i tentativi ripetuti come i lanci
ripetuti di una moneta e interpretando l'uscita di T come un successo.
{X = m} è l'evento: ci sono stati esattamente m - 1 C nelle prime m - 1 prove e
l'm-esimo esito è T, cioè ho dovuto eseguire esattamente m lanci per avere T.
{X > m} è l'evento: { è uscita una sequenza di m C nei primi m tentativi}; non si dice
nulla sui risultati dall'{m+l)-esimo tentativo in poi. Calcolare P[{X > k+n I X> k}]
significa calcolare la probabilità dell'evento: {è uscita una sequenza di (k+n) C nei primi
(k + n) tentativi} nell'ipotesi che i primi k esiti siano C. Ora:
{X> m} ={X= m + l} U {X= m + 2} U {X= m + 3} U... (••)
dove {X= m + l} ={C .. -CT .. · }; {X= m + 2} ={C
...__,_., __.,
.... .. · CT .. · }; {X= m + 3} =
m m+l
...__,_.,
{ C .. · CT .. · }
m+2
'lfj{X = m + j} n {X = m + (j + l)} = 0. Infatti {X = m + j} ha una T al posto
m + j, mentre {X= m + (j + l)} ha una C al posto m + j.Quindi (••) è l'unione di
una infinità numerabile di eventi a due a due disgiunti.
+oo +oo +oo
Allora: P[X > m] = P[ LJ{X = m + j}] = I: P[X = m + j] = I: pq(m+j)-1
j=l j=l j=l
2 +oo . pqm
pqm[l + q+ q + ... ] = pqm I:j=O qJ = --.
l-q
136 CAPITOLO 6. DISTRIBUZIONI DISCRETE
Conclusione:
P[X > m] = qm. (6.2)
Torniamo ora alla 6.1. Ricordando che {X > k + n} e { X > k}, si ha:
P[X k n IX k] = P[{X > k + n} n {X> k}] = P[X > k + n] = qk+n = n =
> + > P[X > k] P[X > k] qk q
P[X >n]. •
La relazione appena dimostrata dice che la probabilità che ci siano almeno k + n in-
successi sapendo che non si è ottenuto nessun successo nei primi k tentativi è uguale
alla probabilità che ci siano almeno n insuccessi partendo dall'inizio. Con altre parole si
può dire che un esperimento geometrico, finalizzato a raggiungere il primo successo, si
comporta, dal punto di vista della durata, nello stesso modo da qualunque tentativo si
parta.
Oss. 4 Si può dimostrare che G(p) è l'unica va discreta che ha la proprietà 6.1.
k = anni 1 2 5 10 20 25 30 50
probabilità 0.0217 0.04295 0.10394 0.197 0.35533 0.42234 0.4824 0.6663
Esempio 6.5. 7 Il paradosso della scimmia. Supponiamo che a una scimmia siano con-
cessi infiniti tentativi di scrivere l'Amleto (una stringa particolare di 200.000 caratteri
dell'alfabeto) battendo a caso sui tasti di una macchina da scrivere dotata di 100 tasti.
137
La scimmia, per avere successo, deve eseguire un tentativo battendo per 200.000 volte
di seguito il tasto giusto. Durante ogni tentativo, appena la scimmia batte un carattere
sbagliato, il tentativo si considera fallito e la scimmia ricomincia, senza fermarsi, un
altro tentativo. Detto A = { la scimmia scrive l'Amleto} mostreremo che P[A] = l e
faremo alcune riflessioni sul risultato ottenuto. Vediamo allora come si può modellizzare
l'esperimento.
la stringa è infinita
I = insuccesso S = successo
la scimmia batte la scimmia non
almeno un tasto batte tasti sbagliati
sba_gliato,non per 200.000 mila volte
scnvc l'Amleto e serive I'A mieto
e ini;,;iaun altro
tentativo
i
In ogni tentativo la probabilità di successo è p = ( 1 0 ) 200 ·000 = 10- 4 oo 000 (nessun tasto
sbagliato per 200. 000 volte di seguito). È da supporre che i tentativi siano indipendenti
perché la scimmia si comporta in modo del tutto casuale. Siamo allora di fronte a una
stringa di tentativi dove, a ogni tentativo si può avere successo con probabilità p, o un
insuccesso con probabilità q = (l - p). Siamo in una tipica situazione geometrica. Se
G(p) è la va che conta il numero di tentativi per ottenere il primo successo {la scrittura
dell'Amleto) allora l'evento A= {la scimmia scrive l'Amleto} equivale a {G(p) < +oo}.
+oo
Quindi P[ { la scimmia scrive l'Amleto}] = I: pqn- l = l.
n=l
Ciò sembra paradossale. Quello che ci permette di riconciliare il risultato matematico
con la nostra intuizione ( che ritiene impossibile che la scimmia ce la faccia) è il calcolo
1
di quanto tempo occorre per fare E[G(p)] = - = 10400 -000 tentativi. Questo valore
p
rappresenterà il tempo medio occorrente alla scimmia per riuscire nel suo intento.
Sia Y la va che conta i tasti battuti dalla scimmia prima del primo errore. La distri-
buzione di Y è complicata da definire, ma noi ci accontentiamo di poco, cioè di sapere
che ogni tentativo dura almeno una battuta. Supponendo che la scimmia si comporti
come una brava (e indefessa) dattilografa in grado di viaggiare a 400 battute al minuto,
ogni tentativo dura almeno 4 ioo minuti, cioè O,25 · 10- 2 minuti. Ragionando sempre
in minuti, indicando con T la quantità di tempo per eseguire E[ G(p)] tentativi, si ha
T 2: O,25. 10399 ·998 minuti (tempo necessario per eseguire E[G(p)] tentativi che durano
una sola battuta). Misurato in anni sarebbe T 2: O,25 . 6 3;;:;: l~
5 anni = 5 . 10
399 ·991
anni. Se si pensa che l'età dell'universo è circa 1, 5 x 10 10 anni, ora ci dovrebbe sembrare
più plausibile che, disponendo dell'eternità, la scimmia prima o poi scriva senza sbagliare
l'Amleto.
Esempio 6.5.8 Numeri ritardatari su una ruota del lotto. È convinzione comune che
se un numero non è uscito su una ruota per molte estrazioni la sua probabilità di uscire
a ogni estrazione successiva aumenti. Calcoliamo questa probabilità. A ogni estrazione
138 CAPITOLO 6. DISTRIBUZIONI DISCRETE
tempo d'attesa di questo numero con una va geometrica G(p) di parametro p che aspetta
l'uscita della prima T nel lancio di una moneta di trucco p. Calcoliamo la probabilità che
T che non è uscita per k- l lanci, che corrisponde a {X> k- l}, esca al k-esimo, cioè
{X= k}:
con r 2: 2; r ::; k
Sia X la va che conta il numero di tentativi per avere r successi. È evidente che ci
interesssa il caso del tempo d'attesa dal secondo successo in avanti.
I P[B]=p I
P[A] =O se k < r
dove (r-t",N~r ! rappresenta i modi in cui si possono disporre (k-1) oggetti di cui (r-1)
uguali a Te (k - r) uguali a C, e non conta l'ordine in cui gli oggetti sono disposti.
r rq [ pet ] r
E[X] = -;var[X] = -;mx(t) = --
p p2 1- etq
m'Jc(t) = !!:_rpre-t (e-t - q)-r-1 = rpre-2t (e-t - q)-r-1 [(r + 1) (e-t - q)-1 - et]
dt
(O) = rpr (l - q)-r-1
m'.:fc [(r + 1) (1 - qr 1 - l] = :: r +l - p
p p
r 2 rq
da cui: E[X] = m'x(0) = - var[X] = m'.:fc(0)- E [X]= 2 •
p p
Oss. 5 Con quanto verrà esposto nel capitolo 8 si potrebbe ricavare immediatamente
che la fgm di una somma I:;=l G;(p) di va geometriche indipendenti e identicamente
distribuite è pari a m~(t) = ( 1~:',q)
r , cioè al prodotto delle fgm delle singole variabili.
(r-l)(l-q)+rp
Oss. 6 Si osservi che p x (k) = px (k; r, p) ha moda pari a l...;._---'-----'---J (l•J sta
p
per parte intera di •) e che il suo andamento cresce fino alla moda e poi decresce con un
tipico andamento a campana che è spiegato dal teorema centrale del limite.
0.012
0.008
:
!I\
l
0.004
o
.......•• ..
a1 a2 a3 U4 a5 an
t
•
s
• • • •• •
a1 a2 U3 U4 05 an
s +t
•
Con il segno
tempo (O,t]. Le
* * rappresentiamo qualcosa che si verifica casualmente in un intervallo di
possono rappresentare incidenti che capitano su un'autostrada a
partire da un chilometro O fino a un chilometro t, possono rappresentare chiamate che
arrivano ad un centralino dall'istante O all'istante t, meteoriti che entrano in collisione con
un satellite, difetti lungo un cavo, tempi di emissione di particelle radioattive, insomma
qualunque tipo di fenomeno casuale per il quale si possa fare un qualche tipo di conteggio
di certi "accidenti", che chiameremo "arrivi", che si verificano con il passare del tempo
(o dello spazio). Indichiamo con
X(a,b]
gli arrivi in un generico intervallo (a; b]. Fissiamo t > O sia X(o,t] la va che conta gli arrivi
nell'intervallo (O,t]. Spesso, per semplicità ci capiterà di indicare questa variabile con Xt,
cioè:
X(o,tJ = Xt
Fissando t abbiamo una famiglia infinita di va legate al parametro t > O reale. Per t = O
poniamo Xo = O.
Assumiamo che il numero medio di arrivi nell'intervallo (O,l] (che è uguale alla frequenza
nell'unità di tempo) sia costante e sia un numero reale v > O in generale non intero. Più
grande è v e più gli arrivi saranno frequenti. Ovviamente il numero medio di arrivi in
un intervallo di ampiezza h, (O,h], è vh. Supponiamo inoltre che valgano le seguenti
proprietà:
141
P[Xro,hJ = l] = vh + o(h) (6.3)
. P[Xh ~ 2]
11m O
h-o P [xh = 1] ---+ .
e-vt(vt)x
P[Xt =x] = 1 ,x=0,1,2, ..
X.
conclude:
P[Xt = x] = (vt)x e-vt •
x!
Oss. 7 Posto vt = À, si può scrivere: P[Xt = x] = >-~
X.
e->-; À > O dove À rappresenta il
numero medio di arrivi nell'intervallo (O,t].
{
<l se x<À
(x - l)! X
Dim.:
e->-Àx À
che è: >l
=l
se x>À
se X=À
•
x!
La ldp di Poisson cresce fino al valore À della sua media, poi decresce; quindi il grafico
della legge Px (·) cambia, al crescere di À, come si vede nella figura.
....
'·"
G.!)! •
,_,..........
'·"
________
_ .. .....
IV vedi nota storica in fondo al capitolo
143
Se À non è intero la distribuzione è unimodale e la moda è [A](parte intera di A). Se À
è intero la ditribuzione è bimodale e le due mode sono À - 1 e À.
Oss. 8 Anche nel caso di una va di Poisson possiamo accennarre a un discorso di con-
vergenza in legge. In questo caso si tratta di una successione {Yn} = {B(n,p)} di va
binomiali ciascuna con distribuzione data dalla ldp PYn(x,n,p) = (:)px(l- Pr-x dove
À
p= -.
n
Abbiamo visto che lim PYn(x,n,p) = Px(x;A) = e->-:~I{o,1, ...}(x), ldp della va di
n---+oo ·
Poisson. Abbiamo mostrato un secondo esempio di convergenza in legge: la successione
{Yn} di va con distribuzione binomiale converge (in legge) alla va di Poisson.
-\~T/N
Questa relazione ci dà la possibilità di stimare À, numero medio di "arrivi" in un intervallo
di lunghezza t, dalle osservazioni e di confrontare i risultati sperimentali con le attese
teoriche. Vedremo un esempio dell'applicazione di questa tecnica presentando il modello
di Poisson in regioni spaziali.
(2 5)x
(-") = e-2.5(e2.5 - I:-·,-)~
5
X.
0.0420
x=O
Esempio 6. 7. 7 Dati della polizia stradale ci dicono che a un certo incrocio capitano
di media 5 incidenti al mese. Calcolare la probabilità che a quell'incrocio si verifichino
esattamente 3 incidenti in un mese. Risposta: P[X = 3] =
53 -5
+ = 0.14042
Se vogliamo calcolare la probabilità che a quell'incrocio si verifichino esattamente 5
(lll5)5e-(vl 5 )
incidenti in 15 giorni, abbiamo: P[X15 = 5] =
5.1
Abbiamo cambiato unità di misura (mese/giorno). Considerando mese= 30 giorni,
. (15/6)5e-(l 5 / 5 )
li =arrivi medi al giorno= 350 = ¼- Si ha: P[X 15 = 5] = = 0.067.
5.1
Esempio 6.7.9 Come esempio del buon adattamento del modello di Poisson a certe
distribuzioni di punti in regioni di dimensione 2, riportiamo i seguenti dati sul bombar-
damento della città di Londra con le "bombe volanti" da parte dei tedeschi durante la 2a
Guerra Mondiale (da R.D.CLark, An appLication of the Poisson distribution,
Journai of the Institute of Actuaries, voi. 72 (1946), pg.48). La parte sud
di Londra è stata suddivisa in N = 576 quadrati di superficie pari a ¼ di km 2 •
Diciamo Nx il numero di quadrati colpiti da esattamente x bombe. Allora il numero
totale di bombe cadute, 537, è dato da I: x · Nx. Definiamo la va X che conta il numero
di bombe cadute in un quadrato. Applicando il modello di Poisson si ha P[X = x] =
e->-Àx/x! (dove il valore sperimentale di À è À = Z:5~~x = ~~~ = 0.9323, rapporto tra il
numero totale di bombe cadute e il numero dei quadrati, dà il numero medio di bombe
per quadrato).
Il numero N -P[X = x] dà il numero di quadrati dove si sono osservate x bombe calcolato
supponendo valido il modello di Poisson.
La tavola seguente, dove sono confrontati gli N x osservati con N · P[X = x] teorici
evidenzia il buon adattamento del modello poissoniano a questo caso.
Bombe volant i cadute su Londra
X o 1 2 3 4 5 o più
P[X = x] = f (x; 0.9323) 0.3936 0.3670 0.1711 0.0532 0.0124 0.0027 (0)
Nx 229 211 93 35 7 1
N-P[X = x ] 226. 713 211.39 98.55 30.64 7.14 1.552
(0) P[X 2: 5] = 1 - P[X :s;4]
Esercizio 6.9.4 Si supponga di lanciare una moneta di trucco p = P[T] 100 volte.
Supponiamo di essere al 100° lancio e che nei precedenti 99 la T non si sia mai presentata.
Dobbiamo ora aspettarci che nel 100° lancio la probabilità di avere testa sia maggiore di
p?
a) Calcolare la probabilità che esca Tal 1OD°lancio sapendo che non è mai uscita T nei
99 lanci precedenti.
b) Calcolare la probabilità di ottenere 100 C in 100 lanci
c) Vale la relazione P[{CCCC
"-v--'
... CT}] = 1- P[{CCCC
....__.,
... C}]?
99 100
Capitolo 7
La palingenetica obliterazione dell'io subcosciente
che s 'infutura nelle genesi del protoarchetipo
dell'antropomorfismo universale
Anonimo
Distribuzioni continue
I
b - a
a b
x-a
Lasuafdrèdatada: Fx(x)= b-aI[a,b](x)+I(b,+oo)(x).
Oss.: La distribuzione di un numero generato a caso da Excel® in un intervallo (a, b) è
uniforme in (a, b).
7. 2 Distribuzione esponenziale
Definizione 7.2.1 La densità di probabilità: fx(x;>-.) = >-.e->-xl[o
,+oo)(x),>-.>Osi dice
distribuzione esponenziale (negativa).
'"
X
1 2 1 )..
E[X] = -;CJx = - ;mx(t) =--,con t < >-..
).. ).. 2 >-.-t
Facendo riferimento all'esempio 1), possiamo dare le seguenti interpretazioni: P[X > a]
rappresenta la probabilità che l'apparecchio funzioni almeno per un tempo "a"; allora il
teorema appena dimostrato dice che la probabilità che tale durata superi "a+ b" unità
di tempo, sapendo che ha già superato "a" unità di tempo è uguale alla probabilità che
aveva inizialmente di superare "b" unità di tempo. In altre parole "la componente non è
soggetta ad usura".
Se risulta P[X > b] > P[X > a + blX > a], cioè è più probabile che duri almeno b
partendo da O che non partendo da a, allora è soggetto a usura.
Viceversa se risulta P[X > a+blX > a] > P[X > b], cioè è più probabile che duri almeno
b partendo da a che non partendo da O, allora l'apparecchio si guasta più facilmente nei
primi momenti di funzionamento; ciò avviene per esempio se ha bisogno di rodaggio.
L'uguaglianza P[X > a+ b I X > a] = P[X > b] si può infine interpretare dicendo che
la propensione dell'apparecchio a guastarsi è la stessa all'inizio del servizio e dopo un
tempo a di funzionamento.
Oss. 1 P[X > a + b I X > a] = P[X > b] si scrive anche: P[X > a + b] = P[X >
a]P[X > b]
Infatti per la prima formula:
P[X > b] = P[X > a+ b I X > a] =
P[{X>a+b}n X>a}]
P[X>a ~1 P X>a+b
P X>a ·
{X>a+b}c{X>a}
Una va X con densità esponenziale si dice tempo continuo d'attesa senza memoria
del primo arrivo.
s+t s+t+r
, -----.1
.... ....:i.---......:J .... ....--""" .,...__Jyl~---...c;~;a,------·
.... ..
O
,.__,._...,.__,._...
o ,.__,._...
01 o ,.__,._...
o, o 2 3 5
Indichiamo con T 1 la va che misura il tempo del primo arrivo e con T2 quella che misura
il tempo del secondo arrivo. Calcoliamo P[T 2 > slT 1 = t], cioè la probabilità che il
secondo arrivo non si presenti nell'intervallo (t, s + t]. Per la 6.6 del capitolo 6 questa
probabilità è la stessa dell'evento: non ci sono arrivi nell'intervallo (O,s] quindi è uguale
a P[Xs =O]= e->-.s. Ma allora' P[T2 > slT1 = t] non dipende da t per cui P[T2 > slT1 =
t] = P[T 2 > s] = e->-.s_Anche il tempo del secondo arrivo di Poisson è esponenziale.
0,4
o 2 3 4 5 6 8 9 10 11
1 (x-,;) 2
f x (x; µ, CJ)=
r..=e- 2a- ; dove - oo < µ < +oo e CJ> O (7.2)
CJy27r
Una distribuzione si dice normale se è definita dalla densità 7.2.
Per indicare che X è normalmente distribuita con media µ e varianza CJ2 , scriveremo:
X,...., N(µ,CJ 2 ).
Per la fd 7.2 useremo la notazione <Pµ,
2(x) e per la sua fdr <I>µ,
17 172(x). Il suo grafico è a
sinsitra nella figura che segue .
. 0.5
N (O,I)
mentre la fdr è:
l
<I>(x)=
t2
r..=e- 2 dt
-oo y27r
l x
(7.3)
Teoremino 7.4.3 (:•) Sia X ,....,N (µ, CJ2 ). Allora, posto Z = (X~µ) , si ha Z ,....,N (O,1),
dove Z è una normale standardizzata.
Dim.: Cerchiamo la fdr di Z. Detta Fz ( z) la sua fdr, si ha per definizione:
Fz(z) = P[Z :S z] = P [ (
X
~µ) :S z
]
= P[X :S w+µ] =
zo-+
o-F21'J_CX)
/Le-~dx
(x-µ)2
= I.
Posto:
X = -00 ---+ t = -00
3:..:::....1:!:=t·
{ x=zCJ+µ ---+ t=z sihaI=+fz e-(t 2
/ 2 ldt=Jz fz(t)dt
u ' v2rr -oo -oo '
dx ---+ CJdt
e- (t2 /2)
Perciò la fd di Z è v21r , ossia Z,....,N(O, 1)•
27!'
Oss. Allo stesso risultato si sarebbe potuti arrivare più rapidamente utilizzando il
teoremino 5.4.9 di pagina 119. Infatti Z = X -
(J
!!:..Quindi
(J
la fgm mz(t) di Z risulta:
/!:. t l t l 2
mz(t) = e-to- exp(-µ+ -(-) 2 CJ2 ) = e2 1 •
(J 2 (J
Perciò Z ha la fgm della N(O; 1) e quindi è la N(O; 1).
,_......
Ell
P[a <X<
__ b] = a-µ
p [--<Z<--. b-µJ
------------------
Z = a< X< b {:::}
(X-µ)·
O' '
< Z < !!.=E.) E:..:::...1!:.
O' O'
(J (J
(7.4)
153
Questa importante uguaglianza ci permette di trovare i valori di (EB) in termini di va
standardizzata Z, utilizzando la tabella della normale standardm.
Esempio 7.4.4 Una certa va X ha distribuzione normale media di 1.63 e scarto qua-
dratico medio O'= O.I. Trovare la probabilità che X superi l.65.
X,...., N(µ,0' 2 ), µ = l.63 e 0'2 = 0.01 ossia X,...., N(l.63;0.01).
Per fare i conti, dobbiamo standardizzare X e passare a Z = x 3• o.6t
Ora: X > 1.65 {::}x o\63 > l.65o~i1°63 {::} z > ocio/ = 0.2
P[Z > 0.2] = 1 - P[Z :S 0.2]. In tabella ho P[Z :S 0.2] = <J?(0.2)= 0.5793.
Quindi P[Z > 0.2] = 1 - 0.5793 = 0.4207.
Supponiamo che si voglia invece trovare la probabilità che X superi 4.0454. Anche in
questo caso per fare i conti occorre procedere come sopra:
X > 4.0454 {::}X o\63 > 4.04504 11.63 {::} z > o.~4~54 = 2.4l 54.
Per risolvere il problema occorre il valore <J?(2.4154) ma sulle tavole c'è <J?(2.41) = 0.9920
e <J?(2.42) = 0.0.9922. Per vedere come ci si possa arrangiare a trovare il valore della
fdr <J?in punti non previsti nella tavola si può considerare questo esempio: <J?(2.4154) è
rappresentato dalla somma di <J?(2.41) con l'area del trapezoide A.
<1>(2.4154)= (1)(2.41)+ D
2.41 2.4154 2.42
Figura 7-1:
Una buona approssimazione dell'area del trapezoide è l'area di un trapezio che per basi
2.41 2 2.4154 2
</>(2.41)= J;e- -2- e </>(2.4154)= J;e - -2- e altezza h = 2.4154 - 2.41 = 0.0054.
2.41 2 2.4154 2
(J;e--2- + J;e--2-). 0.0054
Nel nostro caso l'area del trapezio è: 2 = 0.000117.
Conclusione: <J?(2.4154) = 0.9920 + 0.000117 = 0.99212
Esempio 7.4.5 Da una certa università viene lanciato un concorso tra tutti i ragazzi
delle scuole medie superiori italiane per valutare le loro attitudini matematiche. Sup-
poniamo che i voti presi dagli studenti siano normalmente distribuiti con media 500 e
deviazione standard 100.
i) Trovare, in queste ipotesi, la percentuale di studenti che hanno una votazione compresa
fra 400 e 600.
Sia X la va che codifica i voti. Allora X rv N(500, 10000)::::} Z = x 10 00 ,....,N(0, 1). t
400 - 500 600 - 500
Ora: 400 < X < 600 {::} 100 < x 10 00 < 100t {::}-1 < Z < l
IIII] calcolo della probabilità che, per esempio, la N(O, 1) appartenga a un intervallo (a, b) è l'integrale
su (a, b) della fd della normale. Questo integrale non si può calcolare in termini finiti e i conti sono
complicati. Per quasi un secolo è perciò risultato comodo avere i valori dell'integrale esposti in una
tabella. A rigore oggi le sofisticate calcolatrici tascabili e i computer rendono superflua questa tabella,
perché le macchine fanno i conti per noi. Ciononostante apprenderne l'uso rappresenta un esercizio valido
e formativo.
154 CAPITOLO 7. DISTRIBUZIONI CONTINUE
P[400 <X< 600] = P[-1 < Z < l] = 2<I>z(l)- l = 2P[Z < l]-1 = 0.6826
Quindi approssimativamente il 68% degli studenti ha raggiunto un punteggio compreso
fra 400 e 600.
ii) Se l'università decide di accettare soltanto l'iscrizione degli studenti che hanno un pun-
teggio compreso nel 10% più alto dei voti, sopra quale punteggio deve stare uno studente
per essere in quel top 10%?
Se pensiamo alla distribuzione dei voti ogni studente è rappresentato da un voto. Si tratta
di trovare quel valore "a" tale che P[X >a]= O.IO
X> a{=} z _ X-500 > a-500
- 100 100
Calcoliamo quindi P [z > 100 -
a-
500 ] - O 1 · P [z <
' ' - 100
a-
500 ] + p [z > 500 ] - 1 ·
100 - '
a-
P [z::; algg0 ] = 1- 0.1 = 0.9.
Dalle tabelle, poiché <I>-1 (0.9) = 1.282 segue a 1 ggo
= 1.282 ::::}a = 628.2
Oss. 4 La quantità <I>-1 (a) rappresenta il quantile a-esimo ( o l 'a-quantile} della normale
standard.
0.4
a=<l>(x) = _l_ J e-,
X t 2
dt
1/Z
rc -=
o
x=!l> - \a)
Osserviamo inoltre che dalla tabella sembra che lo 0.9997-quantile sia indifferentemente
uno qualunque dei numeri 3.39, ... , 3.48.
o.o~ j
0.001
....__.....___---r,---r-----r,
--,r-----r-----r--"T.--T. -----"1---
3.38 3.39 3.40 3.41 3.42 3.43 3.44 3.45 3.46 3.47 3.48
'1>(3.39) = .9996505 '1>(3.48) = .9997492
Ciò è vero se si esprime il quantile arrestandosi alla terza decimale. Infatti <I>(3.39)=
0.9997 invece che 0.9996505 come dovrebbe essere con una precisione maggiore, e anche
<I>(3.48) = 0.9997 invece di 0.9997 492 come pure dovrebbe essere con una precisione
maggiore (vedi figura).
Esempio 7.4.6 La Volt S.p.a. costruisce voltmetri amperometrici che indicano la diffe-
renza di potenziale fra due punti di un circuito misurando la quantità di elettricità che li
attraversa. In condizioni di equilibrio, lo strumento legge O volt, ma a causa delle impre-
cisioni del metodo costruttivo, sempre in condizioni di equilibrio ciascun voltmetro segna
qualcosa di più o qualcosa di meno di O volt. Definiamo una va Z che dà il voltaggio letto
dal voltmetro in condizioni di equilibrio. Le passate esperienze dicono che Z rv N(O, l).
1} Vogliamo trovare la probabilità che il voltaggio letto sia compreso tra O e 1.43 volt.
Si tratta di calcolare P[O < Z < 1.43]. Usando la tabella dell'Appendice 2, calcoliamo
dapprima P[Z < 1.43] = <I>(l.43)poi P[Z <O]= <I>(O)(= 1/2 per ragioni di simmetria},
quindi P[O < Z < 1.43] = <I>(l.43)- <I>(O)(vedi figura 1-2).
155
-4 -3 -2 -1 9 2 3 4
-1 .43
-4 -3 -2 -1 o 2 3 4
Figura 7-2:
Se volessimo calcolare la probabilità che il voltaggio letto sia compreso tra -1.43 e O volt,
cioè P[-1.43 < Z < O], dovremmo sfruttare la simmetria della gaussiana. Infatti:
P[-1.43 < Z <O]= P[O < Z < 1.43].
2) Calcolare P[-0.57 < Z < 1.12]. Si ha:
P[-0.57 < Z < 1.12] = <I>(l.12)- <I>(-0.57) = <I>(l.12)- [1- <I>(0.57)]= 0.8686 - [1-
0.7157] = 0.5843.
3) Calcolare P[l.12 < Z < 1.41].
Si ha: P[l.12 < Z < 1.41] = <I>(l.41)- <I>(l.12)= 0.9207 - 0.8686 = 0.0521
4) Calcolare P[Z > 1.28].
Si ha P[Z > 1.28] = 1 - P[Z < 1.28] = 1 - <I>(l.28)= 1 - 0.8997 = 0.1003
Infatti, per la simmetria della N(O, l), P[Z > 1.28] = P[Z < -1.28].
5} Calcolare P[ Z > 1.28 oppure Z < -1.28].
Gli eventi {Z > 1.28} e {Z < -1.28} sono disgiunti. Pertanto:
P[Z > 1.28 oppure Z < -1.28] = P[{Z > 1.28} U {Z < -1.28}] =
= P[ Z > 1.28] + P[ Z < -1.28] = 0.1003 + 0.1003 = 0.2006
Mettiamoci ora da un punto di vista leggermente diverso. Vogliamo trovare un intervallo
dell'asse z dove siamo sicuri che cadano i valori Z con probabilità 0.025, ossia che il
2.5% dei voltaggi rilevati da Z. La risposta non è univoca: eccone tre possibili.
i} si può trovare a tale che P[Z < a] = 0.025;
ii} oppure a tale che P[Z >a]= 0.025;
iii} o, in,fine, a e b tali che P[a < Z < b] = 0.025
Dalla tabella della normale: P[ Z < 1.96] = 0.975 = 1 - P[ Z > 1.96]. Quindi, per
simmetria,
P[Z < -1.96] = 1 - 0.975 = 0.025 ma anche P[Z > 1.96] = 0.025
Infine P[Z < 1.56] = 0.9406, P[Z < 1.82] = 0.9656 quindi P[l.56 < Z < 1.82] = 0.025
(figura 7-3).
156 CAPITOLO 7. DISTRIBUZIONI CONTINUE
0.4
-4 -3 - 1.96 -I o 3 4
P(l.56 < Z < 1.82] = 0.025 = <1>(1.82) 1.56) =0.9656 -0.9406
- <1>(
Figura 7-3:
Figura 7-4:
V~VI F;F
I ,ola per di,triburiani normali
per qualunque tipo di distribuzione
anche se la varianza non è finita
anche se è finito solo il momento del l O ordine
Esercizio 7.6.3 Sia X la va di conteggio relativa alle disintegrazioni di un kg di plutonio
nell'intervallo [t1 , t 2 ]; (t 2 -t 1 = t). Sia v il numero medio di disintegrazioni nell'unità di
tempo, riferita a un kg. di plutonio. Tenendo conto che il verificarsi delle disintegrazioni è
assimilabile (per esempio) all'arrivo di auto a un casello autostradale attribuire il corretto
valore di verità alle seguenti affermazioni: X è distribuita come:
V F una Bernoulli di parametro v
una Poisson di parametro v
una Poisson di parametro vt
una geometrica di parametro v
una normale di parametri v e t
Esercizio 7.6.4 Sia X una va distribuita esponenzialmente con media E[X] = 2; cal-
colare P(X > 2 I X > 1)
Esercizio 7.6.5 Siano date n va Xi distribuite normalmente, indipendenti, tutte con la
stessa media µ e la stessa varianza CJ2 . Indicando con P* la probabilità che almeno una
delle va Xj sia minore (maggiore) della sua mediaµ, calcolarla.
Esercizio 7.6.6 Sia X una variabile aleatoria continua, distribuita uniformemente su
[O,l]. Allora:
0 ® ---
© -, 2
----,J
o I o o
..._ ____ ]
Figura 7-5:
Rumorosa la vita,
adulta, ostile,
minacciava
la nostra giovanezza
Umberto Saba (1883-1957)
Q y=h(xj=h(X(w))
w h
JR JR
Dato uno spazio (O, A, P[·]) e una va X : n f-+ JR sia Dx = {x E JR: per almeno un
w E n, X(w) = x}. Sia h(x) : Dx f-+ JR una funzione (misurabile) a valori reali. Allora
Y = h(X) : n f-+ JR è una nuova va. Infatti Vw E n, Y(w) = h(X(w)) E JR e si può
mostrare che Vr E JR,Ar = {w : h(X(w))::; r} E A.
Un discorso analogo si può fare per un vta X: n f-+ JRn. Sia Dx= {X E JRn: per almeno
un w E n, X(w) = ;iç_}. Sia h(x) = h(x1, x2, ... , Xn) : Dx f-+ JR una funzione (misurabile)
a valori reali. Allora Y = h(X) : n f-+ JR è una nuova vi.
160 CAPITOLO 8. FUNZIONI DI VARIABILI ALEATORIE
Nota la fdr di X o di X, ci poniamo il problema di trovare la fdr di Y. Nel caso discreto,
nota la ldp px_(x 1 , X2, ... , Xn) di X potremo limitarci a trovare la ldp di Y invece della
sua fdr. Illustreremo tre metodi.
Xi I p( x; ) I Yi I P(Yi)
o -1
1 } 1 }
2 } 3 ~
3
I8 5
I8
Sia invece Y = IX - 21.Allora la situazione è la seguente:
Xi I P( xi ) I
•
da Yi P(y ;)
o
1
•• ••• 1 !=
o i =P(2)
2
3 8
•••
••••
4'-4'-4'-4'-U4'-4't
• 2
P(3) + P(l)
½= P(O)
Fy(y) = {
le(y)
f(x1,x2)dx1dx2 = J f(x1,x2)dx1dx2
x1 - x2~Y
• regione dovex, -x 2 sy
y <O
x,
y =O
O<y < I
y =l
y >l
Figura 8-1:
Esempio 8.1.4 Una piccola filatura produce .fino a 10 tonnellate di filo di cotone al
giorno. A causa di fermi-macchina e di altre intoppi la produzione reale è misurata da una
va X, la cui densità è data da f(x) = 5x0 I1o,io1(x).Per produrre questo filato l'azienda ha
un costo fisso di 68 milioni; il .filato viene rivenduto a una tessitura incassando 7 milioni
a tonnellata. L'utile giornaliero è perciò una va Y = 7X - 68; (Y = h(X)). Per trovare
la fdr di Y imponiamo: Fy(y) = P[Y::; y] = P[7X - 68::; y] = P[X::; Y~ 68 ].
È facile allora concludere che:
+O,
+W
-w
h crescente
h decrescente
Quindi 1
h crescente
h decrescente
con~~= dh~:(x) = ax°'- 1 • Poiché fy(·) è diversa da O quando il suo argomento è> O,
si ha:
fx(x) = fy(h- 1 (x)) Idh~:(x) I= fy(x°')ax°'- 1 = aÀx°'- 1 e-,\x" 110,+oo)(x).
La densità di Weibull è spesso usata come modello nello studio della durata dei sistemi
fisici.
Per a = 2 la densità di Weibull prende il nome di densità di Rayleigh fx(x) =
2Àxe-,\x 2 I[o,+oo)(x).
1 1 2
fx(x) = ~ exp[-- 2 (lnx - µ) JI[o,+oo)(x).
XCJy 27r 2CJ
Oss.: Nonostante la va lognormale ammetta momenti di tutti gli ordini si può dimostare
che non ha fgm.
Da 8.2, ricordando che E[X] = µx e E[X 2 ] - E 2 [X] = CJ]( si ricavano facilmente media
e varianza di X in funzione di media e varianza di Y = ln X. Infatti:
(8.3)
Viceversa partendo da 8.3 si possono ricavare µ 1nx = µy e CJfnx = Cl} nel modo seguen-
CJ (J2
te: posto __?!_= Ox (coefficiente di variazione) o anche
µX µX
= 03c = [exp(CJfnx) - l], --f
(J2
dalla seconda delle 8.3 si ricava CJfnx = ln(l + 03c) = ln(l + --f) mentre dalla prima si
µX
1 .
ha µln x = ln µ x - 2CJfnx . In conclusione:
1 (J2
µy = µlnX = lnµx - - ln(l + --f)
{ 2 µX (8.4)
2 2 Cl](
Cly = CJlnX= ln(l + -2-)
µX
Per un'applicazione vedere nel capitolo 17 l'esercizio 17.1.27.
Esempio 8.1.9 Si consideri la va esponenziale X difd fx(x; >-)= Àe-Àx I[o,+oo)(x), À >
O e sia y = h(x) = x 2 . Ovviamente h(x) non è monotona ma lo è la sua restrizione
a X= {x: fx(x) > O} = {x >O}. Allora se cerchiamo la fd di Y = X 2 , posto che,
nel dominio che ci interessa, y = x 2 ha inversa data da x = h- 1 (y) = y!}I[o,+oo)(Y),
abbiamo:
fy(y) = d:Fy(y) = d:Fx(h-l(y)) = lxFx(h-l(y)) ld:h-l(y)I =
Àe-Àfo
= fx(h- 1 (y)) IdyÌdx I = 2vY I[o,+oo)(y).
165
In alcuni casi in cui h(·) non è monotona ci si può arrangiare comunque con altri algoritmi.
è continua e il suo determinante det [J(g)] =/-O. Sia ora Y = g(X) il vtan trasformato
di X. Si può dimostrare che la densità di Y è data da
fx(x- 1 (y))
(8.5)
Jy(y) = ldet [J(g)JI ·
Caso bivariato. Riscriviamo le formule in questo caso. Siano X e Y due va. Date 11
U = u(X, Y) e V= v(X, Y), si assuma che u e v siano invertibili nel senso che il sistema
{ u=u(x,y)
v =v(x,y)
{ x=x(u,v)
y =y(u,v)
8(u,v) 8(x,y) 1
Allora, posto det[J(x,y)] = B(x,y) e det[J(u,v)] = B(u,v) = det[J(x,y)] (vedi anche
Appendice) la 8.5 che ci dà fu,v(u,v) di U e V diventa:
{ e= yX2 + y2
8 = L(X,Y)
8 è l'angolo nel rango (O,21r) che il punto (X, Y) forma con l'asse x mentre e è la sua
distanza dall'origine.
y
p
0
o 2n e X
{ x = pcos0
y = psin0
ox
La Jacobiana è det[J(p,0)1- det (
op ox
80 )
é)y =p.
é)y
op 80
1 l 2 2
fx,Y(x,y) = 2 7re- 2(x +Y) quindi:
1 1I 2 . 2 1 p 1 2
f -(P 0) = -e-2 (pcos0) +(psm0) 1 ·p= - . -e-2P ·p > O·O < 0 < 21r.
e,e ' 21r 1r 2 ' - ' -
Osservazione. f e,e(P, 0) risulta essere il prodotto della distribuzione uniforme fe(0) =
1 l 2 1
-11 0 2 ,,.)(0) e della distribuzione di Rayleigh fe(P) = pe- 2P di parametro À = -.
21r ' 2
Esempio 8.1.13 (:•) Trasformazioni lineari. Sia A una matrice (n, n) tale che
det A i, O e sia
Y = g(X) = AX + b. (8.6)
Si basa sul teorema 5.4.6 di unicità. Se la fgm di Y = h(X1, X2, ... , Xn) è riconoscibile
come quella di una distribuzione "notevole" allora Y avrà quella distribuzione. Utilizze-
remo questo metodo più avanti, nella determinazione della distribuzione della somma di
va.
167
8.2 Distribuzione della somma di va
Sia X= (X1,X2)' =(~~)un vta bidimensionale. Indicheremo al solito la densità con-
giunta (legge di probabilità nel caso discreto) con i simboli fx 1 x 2 (x1, x2) = f~_(x1, x2) =
f(x 1,x2), Sia Z = X 1 + X2. Troviamo la distribuzione di Z.
Cerchiamo innanzitutto la fdr Fz(z) di Z. Fz(z) = P[Z::; z] = P[X 1 + X2::; z].
Caso discreto
Cerchiamo la ldp fz di Z. Siano x 1 e x2 le determinazioni rispettivamente di X 1 e X2.
Allora:
{Z = u} = {X1 + X2 = u} = LJ {X1 = x1, X2 = u - x1}
x,
quindi:
fz(u) = P[X1 + X2 = u] = P[LJ {X1 = xi, X2 = u - x1}] =
x,
= I: P[X 1 = x 1, X 2 = u - x 1] = I: fx,x 2 (x 1, u - xi).
x, x,
Si conclude che
(8.8)
Per ogni valore di u la somma è fatta su tutte le coppie x 1, x2 che stanno sulla retta
X2 = u - X1 (vedi figura).
È evidente che fz è una ldp.
Scambiando i ruoli di X1 e X2 e si sarebbe arrivati alla conclusione che:
Oss. 1 La fdr Fz (u) cumula la massa contenuta nella porzione di piano a sinistra della
retta x2 = u - x1.
Esempio 8.2.1 Siano date due va X 1 , X 2 ciascuna delle quali può assumere determi-
nazioni -1,0,1 e sia (X 1 ,X 2 )' il vta2 le cui determinazioni sono le coppie (i,j)' con i,j
interi e -1 ::; i,j ::; 1 (vedi ,figura 8-2), con densità congiunta: Vi, j : fx,x 2 (i,j) =
f(i,j).
Per come sono distribuite le determinazioni del vettore (X 1,X 2)',la Z = X 1 + X 2 ha
le determinazioni -2, -1, O, 1, 2 che rappresentano ovviamente anche le discontinuità di
Fz.
168 CAPITOLO 8. FUNZIONI DI VARIABILI ALEATORIE
u=l
u=-1
(-1,0)
--------------- - -·a-- __
O J
_1 Z
u=-1
Figura 8-2:
Se per esempio O< z < 1, Fz(z) è la somma delle masse di (X 1,X 2)' concentrate sulle
determinazioni contenute nel semispazio indicato in figura dalla zona grigia, cioè:
Fz(z) = f(-l, -1) + f(-1, O)+ f(0, -1) + f(-1, 1) + f(0, O)+ f(l, -1)
La ldp di Z, fz(u), è diversa da O solo sulle u tali che le rette x1 + x2 = u intersecano
qualche determinazione di (X 1 , X 2 )' e, come già osservato, rappresenta la somma delle
densità distribuite sulle determinazioni che stanno su tale retta. Nel nostro caso si ha:
f(-1, -1) u = -2
f(-1, O)+ f(0, -1) = I:~ 1 f(x1, u - x1) u = -l
f(-1, 1) + f(0, O)+ f(l, -1) = I:~ 1 f(x1, u - x1) u = O
fz(u) =
f(O,l)+f(l,O)=I:~f(x1,u-x1) u=l
f(l,l) u=2
O ~rom
da cui si ha:
o z < -2
f(-1, -1) -2::; z < -1
-1
I: I:f(x1,u-x1) -1::;z<O
u=-2 x 1
Fz(z) = o
I: I:f(x1,u-x1) o::;z<l
u=-2 x 1
1
I: I:f(x1,u-x1) l::;z<2
u=-2 x,
1 z~2
Se le due componenti del vta2 (X 1 , X2)' sono indipendenti si ha:
Fz(z) = I: I: f(x1, u - xi)= I: I: fx, (x1)fx 2 (u - x1), Si conclude che
(8.9)
x,
o, analogamente,
(8.10)
169
Definizione 8.2.2 8.9 e 8.10 prendono il nome di convoluzione di fx, e fx 2 nel caso
discreto.
Esempio 8.2.4 Si lanciano due dadi non truccati a tre facce. Sia X 1 = {uscita del pri-
mo dado} e X 2 = {uscita del secondo dado}. Trovare la densità congiunta di (X 1, X 2)' e
di S = X1 + X2.
1
X 1 e X 2 sono iid; f xi (j) = 3;i= 1, 2; j = 1, 2, 3. La densità congiunta è data da:
x1\x2 1 2 3
1 1/ 9 1/ 9 1/ 9
2 1/ 9 1/ 9 1/ 9
3 1/ 9 1/ 9 1/ 9
che rappresenta una distribuzione uniforme sui punti massa. I legami tra (X 1 ,X 2 )' e S
sono evidenziati in figura 8-3.
La ldp di S è data da:
= 2 s=3 s=4 s=5 s=6
fs(s) = {
s
i 9
2 3
9
2
9
1
9
Una distribuzione siffatta, somma di due uniformi indipendenti, prende il nome di di-
stribuzione triangolare (nel discreto) perché unendo i valori del grafico della legge di
probabilità si ottiene un triangolo.
La media di S si può calcolare facendo riferimento alla sua ldp, E[S] = 2 · ½ + 3 ·
i+ !
4 · + 5 ·i+ 6 · ½ = 4 oppure utilizzando la ldp congiunta di (X 1,X2)', E[S] =
I: I::(i+j)f(i,j)=4
j=l,2 ,3
i=l,2,3
var[S] = E[S 2] - E 2[S] = [22½+ !
32i + 42 + 52i + 62½]- 16 = ½
3/ 9
2/ 91 I I 2/ 9
1/~
3 s
2 x,
Figura 8-3:
Esempio 8.2.5 Supponiamo che X 1 e X 2 siano va a valori interi, non negativi, tali
cioè che P[X1 = k] = ak e P[X2 = k] = bk, k ~ O indipendenti
n
{X1+X2=n} = LJ {X1=i,X2=n-i}, quindi fx,+x 2 (n) = P[X1 +X2 = n] =
i=O
n n n
P[LJ {X1 = i,X2 = n-i}] = I: P[X1 = i,X2 = n-i] = I: a;bn-i·
i=O i=O i=O
Scriveremo {an} * {bn} = {cn}, o anche P[X1 + X2 = n] = {P[X1 = n]} * {P[X2 = n]}
Si può facilmente mostrare che:
1) {an} * {bn} = {bn} * {an} (commutatività).
2) ({ an} * { bn}) * {Cn} = {an} * ({bn} * {Cn}) (associatività}.
Se X 1 e X 2 sono iid, cioè P[X 1 = k] = ak e P[X 2 = h] = ah, allora sarà comodo scrivere
(8.11)
e
(8.12)
(8.13)
Per esempio vediamo come si scrive la 8.13 nel caso k = 3 e X 1,X 2,X 3 iid.
X 1 + X 2 + X 3 = n equivale a X 1 = i e X 2 + X 3 = n - i, che a sua volta equivale a
X 2 = h e X 3 = n - i - h. Si ha:
n n n-i
P[X1 + X2 + X3 = n] = I: P[X 1 = i]P[X2 + X3 = n - i] = I: P[X 1 = i] I: P[X2 =
i=O i=O h=O
h]P[X 3 = n - i - h]. In conclusione:
171
Caso continuo
Assegnato un vta2 (X1, X2)' si tratta, di trovare la distribuzione di Z = X1 +X2 quando
la densità congiunta di (Xi, X2)' è una funzione continua f(x1, x2),
Calcoliamo la fdr Fz(z) di Z, cioè Fz(z) = P[Z::; z] = P[X 1 + X2::; z]:
Dunque:
fz(u) = _ 1
+00
00
f(x1, u - xi)dx1.
(8.14)
o, equivalentemente
IV Infatti: Fz(z) =
x1
II
+x2<z
f(x1,x2)dx1dx2 = r~:dx2 I~~x f(x1,x2)dx1,
2
(8.15)
z=l
z=O
f/zJ
XI o I 2 u
Figura 8-4:
Dalla figura 8-4 si vede chiaramente che Fz (z) è l'integrale doppio della I[o,i]x [O,l] (x 1, x2),
funzione indicatrice del quadrato, sulla intersezione del semipiano a sinistra della retta
z = x 1 + x 2 con il quadrato stesso. Se O ::; z ::; 1 l'integrale è calcolato su T 1 , cioè
2
Fz(z) = foz dxi foz-x, dx2 = J0z(z - xi)dx1 = ~
Se l ::; z ::; 2 l'integrale è calcolato T 1 U T 2 . Ma questo è uguale a l meno l'integrale su
1 1 1 (2-z) 2
T3, cioè Fz(z) = 1- fz-l dxi fz-x, dx2 = 1- fz-l (1- z + xi)dx1 = 1- 2
Si osservi che, in questo caso, con regole della geometria elementare sarebbe stato imme-
diato concludere che il valore dell'integrale su T 1 di lato pari a z avrebbe dovuto essere
z2 (2 - z) 2
2 , mentre quello su T3 di lato pari a 2 - z, avrebbe dovuto essere 2
z2 (2 - z) 2
In conclusione: Fz(z) = 2 I[o,11(z) + [1- 2 ]/[1,21(z) e fz(z) = zl[o,11(z)+ (2 -
z)I[i, 21(z) che prende il nome di distribuzione triangolare (nel continuo).
Caso discreto
Teoremino 8.3.1 {:•) Siano Xi, ... ,Xn n va di Bernoulli indipendenti, identicamente
distribuite, di parametro p, cioè tali che \fiP[X; = l] = p, P[X; = O] = q, mxi (t) =
pet + q. Allora
n
LX; rv B(n,p).
i
Dim.: Per la 8.16 è: mL x.(t) = f17=i mx.(t) = (pet + q)n. Ma m(t) = (pet + q)n è la
fgm di una va binomiale di parametri n e p •
P[X = k] =
quindi la sua ldp è quella affermata. Si osservi che la probabilità di estrarre una palla
nera è la stessa a ogni estrazione (vedi capitolo 2 e 3) cioè Vi, P[X; = l] = p = : ed è
questo che garantisce la identica distribuzione delle X;.
Mostriamo ora, con un esempio, che il collegamento tra va di Bernoulli non indipendenti
e ipergeometrica passa attraverso la distribuzione congiunta della va stesse.
001
n
indipendenti I: Xk, Tutto ciò ha una esplicativa rappresentazione grafica suggerita dalla
k=l
figura la cui interpretazione è lasciata al lettore.
Caso continuo
Teoremino 8.3.5 Se X1, X2, ... , Xn sono n va indipendenti con distribuzione esponen-
ziale di parametro À, Y = I:~ X; ha distribuzione r di parametri n e À.
Dim.: Infatti la fgm di ciascuna X; è data da mxi (t) = >.~t.
Per la 8.16 mExi (t) = f1~=lmxi (t) = ( >.~tr che è la fgm di una f(n, ..\) •
C.D.
Se indichiamo con X la durata del sistema e con Xi la durata dell'unità U.1, sapendo
6
che Xi ha fd g(x) = 1 0 e-(x/100); x ~ O, si trova immediatamente che X, come somma
À
di 3 esponenziali, ha la densità fx (x; r, ..\) = f(r) (..\x)'- 1e->-xI[o,+ool(x) di una gamma
6
di parametri r = 3 e À = 1 0 = 0.01; cioè (ricordando che f(r) = (r - l)!):
o.01 . (0.01 . x )2 . e-0.01 x per x >O
fx(x) = { 0 21 altrove -
La probabilità che il sistema funzioni per almeno x ore ( affidabilità del sistema) è data
da:
1
R(x) = P[X > x] = 1- F(x) = 1- J0x 0 2 1 · (0.01. t) 2 . e-O.Ol 1dt.
Integrando per parti, si ottiene:
2 e-OOlx(O.Ol·x)k
F(x) = 1 - I: I X> 0
k=0 k.
176 CAPITOLO 8. FUNZIONI DI VARIABILI ALEATORIE
Nel nostro caso perciò:
2 e-O.Olx(00l·xt [ (00lx) 2]
R(x)=l-F(x)= I:
k=O k.
i =e-O.Dlx l+O.Ol·x+ ·
2
.
In modo analogo si può mostrare che se X 1,X2, .. ,,Xk sono k va indipendenti con
distribuzione r di parametro n e À, Y = I:1 Xi ha distribuzione r di parametri nk e À.
Teoremino 8.3. 7 (:•) (Importante). Siano Xi ,....,N (µi, CJT), indipendenti. Allora
I: aiXi ,....,N (I: aiµi, I::i a7CJT).
Dim: Osserviamo dapprima che
Concludiamo che
2 2
FyM(y) = P[YM::; y] = P[X1::; y;X2::; y] = II P[Xi::; y] = II Fx;(Y) (8.17)
i=l i=l
L'estensione al caso di n va indipendenti è immediata.
La 8.17 ci dice che la fdr del massimo, in caso di indipendenza, è il prodotto delle fdr
delle Xi,
177
Per il minimo:
La f d è data da:
fym(Y) = 2[1- Fx(y)]fx(y).
Esercizio 8.5.2 La somma di due va binomiali è una va con una distribuzione che è
ancora:
QJ [TI binomiale
QJ [TI binomiale solo se le due va hanno lo stesso parametro p
'Vl ['"pl { binomiale solo se, avendo lo stesso
L..:..J L....:_J parametro p, sono indipendenti
Esercizio 8.5.3 Utilizzando come espressione canonica per la densità della distribuzione
esponenziale di parametro>.., fx(x;>..) = >..e--'xI[o,+oo)(x), >..>O e per la densità della
distribuzione r di parametri>.. e r, fx(x;r,>..) = I'(r)(>..xy- 1 e--'xI10,+oo)(x) dover>
v Se X conta, per esempio i successi (probabilità di successo = p) Y conta gli insuccessi (probabilità
di insuccesso = q = l - p)
178 CAPITOLO 8. FUNZIONI DI VARIABILI ALEATORIE
O,À > O dire se la somma di due va esponenziali è una va con una distribuzione che è
esponenziale
esponenziale solo se le due va hanno lo stesso parametro À
gamma solo se, avendo lo stesso parametro À, sono indipendenti
Esercizio 8.5.4 Siano X1, X2, .. , Xn n va tutte definite sullo stesso spazio campionario
O. Sia Vw E O, X;(w) E R Sia Yn = max[X 1,X2, .. ,Xn]- Sia jyJx) la sua fd e Fyn(x)
la sua fdr.
QJ [TI Vw E O Yn(w) =max[X1 (w), X2(w), .. , Xn(w)]
QJ[I] '
Vw E O Yn(w) =max[X1 (w), X2(w), .. , Xn(w)]
;;
w
se :lw E O: Xk(w) > X;(w) per i=/- k allora Yn = Xk
Yn è definita solo se le X; sono equidistribuite
Yn è definita solo se le X; sono indipendenti
se VwE n: Xk(w) ~ X;(w) per i =I-k allora Yn = Xk
jyn(x) = n[Fx(x)in- 1 fx(x) solo se le X; sono indipendenti
{
e tutte equidistribuite con f dr F x (x) e f d f x (x).
f~~ se fxi sono discrete allora Va, /3;fc,_x,+13x2 (x) = afx, (x) + f3fx 2 (x)
se !xi sono continue allora fx,+x 2 (x) = JIR
se Y è discreta allora !aY+f3(Y) = !Y(¾(Y - /3))
fx, (x - t)fx 2 (t)dt
µy = A µX+ b.
(k,1) (k,nl(n,1) (k,1)
n
Infatti la componente i-esima di Y è data da Y; = I: a; 1X 1 + b;. Allora la componente
j=l
n n
i-esima di µy è E[Y;] = E[I:: a;1X 1 +b;] = I: a;1E[X 1] +b; = (a;1, a;2, ... , a;n)µx +b;
j=l j=l
che è l'assserto.
Oss. 1 Supponiamo che il vta X= (X 1 , X 2 )' con densità congiunta {discreta o continua)
fx(x 1,x 2) abbia due sole componenti. Allora il vettore media di (X 1,X 2)Tè ancora
interpretabile come baricentro della massa descritta da f X (x 1 , x 2 ). Cioè: la massa
( diffusa con continuità sul piano X 1 , X 2 nel caso continuo o concentrata nei punti massa
nel caso discreto) ha il suo baricentro nel punto del piano individuato da due coordinate:
{
µx, = x1 = J!';:xifx, (xi)dx1 = J!';:x1dx1 J!';:fx(x1, x2)dx2
µx 2 = x2 = J!';:x2fx 2 (x2)dx2 = J!';:x2dx2 J!';:fx(x1, x2)dx1
(9.2)
Esempio 9.2.1 Come caso particolare della 9.l calcoliamo 1 il valore atteso di una com-
binazione lineare g(X 1,X 2) = a 1X 1 +a 2X 2 di 2 va, mostriamo cioè che vale la seguente
relazione:
Su ognuno dei due tetraedri il possibile risultato di un lancio è indicato da una va Y;, uni-
formemente distribuita tra le 4. È allora evidente che (X1,X2)' = (Y1,max((Y1, Y2))1 =
(m, n), 1::; m::; 4 e m::; n::; 4, descrive i risultati possibili nell'esperimento in esame.
La tabella dei valori della fdd fx(x1, x2) è la seguente:
X2 = 4 1/ 16 1/ 16 1/ 16 4/ 16
X2 = 3 1/ 16 1/ 16 3/16 o
X2 = 2 1/1 6 2/ 16 o o
X2 = 1 1/ 16 o o o
//lii X1 = 1 X1 = 2 X1 = 3 X1 = 4
n
Vti : -h < ti < h, h > O; mx,, ..,Xn (ti, ... , tn) = IT E[exp(Xiti)] = mx, (ti) ... .mxn (tn)
i=l
(9.5)
Dim.: È facile verificare che dalla indipendenza segue la tesi. Infatti:
Y = AX + b
(k,l) (k,n) (n,l) (k,l)
ottenuto da X attraverso una trasformazione lineare. Allora la fgm di Y è:
(9.6)
dove tè un vettore (k, 1).
Dim:
my(t) = E[exp(tTY)] = etrb E[exp((tT A)X)] = etrb E[exp((ATt)TX)] = etrbmx(ATt).
Infatti tTY = tT(AX + b) = tT(AX) + tTb = tTb + (tT A)X = tI'b + (ATtfX.
In questo calcolo si utilizza la proprietà associativa del prodotto tra matrici conformabili
tT(AX) = (tT A)X, e il fatto che la trasposta del prodotto è il prodotto delle trasposte•
Conseguenza:
Corollario 9.3.4 II Siano Xi, ... , Xn n va indipendenti ed esista Vi, la fgm mx; (t) =
E [exp(tXi)] in -h < t < h, h > O.
Poniamo Y = I:~=l Xi, La sua fgm è:
n
my(t) = E [exp(t L Xi)] = II mx;(t) (9.7)
i=l
D[i";.:lla 9. 7 è un caso particolare della 9.6. Basta prendere k = l, A= [l, ... , l], ATt =
Definizione 9.4.2 Il momento centrale misto del secondo ordine di X, si chiama cova-
rianza di X 1 e X 2 , e si scrive:
Esempio 9.4.7 Una macchina è provvista di un pannello di controllo con tre quadretti
Q 1, Q 2 e Q 3, ciascuno dotato di una coppia di lampadine, una verde e una rossa. Se
sul quadretto Q; c'è accesa la luce rossa è segnalato un malfunzionamento in una certa
parte della macchina. Sia X il "numero di lampadine rosse" accese nei quadri Q 1 e Q 2 .
Sia poi Y la va che conta il numero "numero di lampadine rosse" sui quadri Q2 e Q3 .
Le lampadine del quadro Q; sono indipendenti da quelle dal quadro Qi e in ogni quadro
la probabilità che sia accesa la lampadina rossa è p (mentre quella verde è q = l - p ).
Indichiamo con R = { la lampadina rossa è accesa} e con V = { la lampadina verde è
accesa}.
a) Trovare la distribuzione congiunta di (X, Y)'
b) Trovare la distribuzione condizionata di Y dato X = 1.
c) Trovare la cov[X, Y].
Soluzione a): casi possibili
X Q1 I Q2 Q3 y X Q1 I Q2 Q3 y
2 R 2
2 R R 1 V R <
1 R V
}i R
1
1
o V V <
>
V
R
1
1
V o V o
P[VVV] = P[X = O;Y = O]= q3 ; P[VV R] = P[X = O;Y = l] = pq 2 ;
P[RVV] = P[X = l;Y =O]= pq 2 ;P[RVRU VRV] = P[X = l;Y = l] = p 2 q + pq 2 =
pq;P[VRR] = P[X = l;Y = 2] = p 2 q;
P[RRV] = P[X = 2; Y = l] = p 2 q; P[RRR] = P[X = 2; Y = 2] = p 3 •
X\Y o 1 2 ma rgina li di X
o qj pq'L o q'L
1 pq' p'q + pq'L = pq p'Lq 2pq
2 o p'Lq pj p'
margina li di y q' 2pq p' 1
C> Le marginali di X si calcolano considerando che il terzo quadro non esista. I casi
possibili sono perciò quattro: {RR, RV, V R, VV}.
C> Le marginali di Y si calcolano considerando che il primo quadro non esista. I casi
possibili sono quattro: {RR, RV, V R, VV}.
C> Conoscere prima le marginali può essere utile sia come controllo di quadratura, sia
per trovare il contenuto di una casella (per esempio [!] }, conoscendo la marginale e
sottraendo il contenuto di ITJ
e di [QJ:
X\Y o 1 2 marginali di X
o A q2
1
- E 2pq
2
-e p2
marginali di Y q' 2pq p' 1
185
= pq2 = !l, y=O
2pq 2'
. _ _ _ P[Y=ynX=l] _ { _ l,
_ ..E!J....
C> Ora. P[Y - vlX - l] - P[X=l] - - 2gq - 2' y=l
= E.....9..
y=2 = E.,
2pq 2'
P[Y = y n X = l] è il numero all'intersezione della colonna Y = y e della riga X = l
b) cov[X, Y] = E[(X - µx )(Y - µy )] = E[XY] - µxµy
Con facili conti si calcola: µx =O· q2 + l · 2pq + 2. p 2 = 2p = µy; E[XY] = pq + 2p 2q +
2p2q + 4p3 = pq + 4p2q + 4p3 = pq + 4p2 (p + q) = pq + 4p2.
Quindi: cov[X, Y] = pq + 4p 2 - 4p 2 = pq.
La matrice di covarianza
Definizione 9.4.8 Si dice matrice di covarianza C di un vta2 X = (X 1 ,X 2 )'di
media (E[X 1 ], E[X 2])' la matrice 2 x 2 formata dai momenti centrali di 2° ordine µij, 1::;
i, j ::; 2, (i + j = 2) prima definiti, cioé:
Oss. 4 Il prodotto dei due vettori (X - µ) e (X - µf dà luogo a una matrice (n, n).
(n,l) (l,n)
Allora è evidente chem:
Inoltre
Cx= E [( ~~ =~~ )(
X1 - /l1 X2 - /l2 ) = l
_ [
-
2
E[(X1 - µ 1) ]
E[(X2 - µ 2 )(X1 - µ 1)]
E[(X1 - µ1)(X2 - /l2)]
E[(X2 - µ2)2] l= [ var[X1]
cov[X2,X1]
cov[X1,X2]
var[X2]
186 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Proprietà di Cx.
p. 06) Cx è simmetrica.
p .07) Si può mostrare che Cx è semidefinita positiva, cioè Va E IRn, aT Cxa ~ O. Inoltre
se il vettore X contiene va degeneri (cioè costanti con probabilità 1) allora Cx non è
definita positiva. Infatti in questo caso det(Cx) = O, quindi ci deve essere almeno un
autovalore nullo.
p. 08) Se a è un vettore di costanti allora var[X + a] = Cx+a = Cx = var[X]
o equivalentemente:
var[AX + b] = Avar[X]AT
Dim.: Già sappiamo che µy = Aµx + b. Per calcolare Cy procediamo nel modo
seguente:
Cy = E[(Y- µy)(Y- µyf] = E[(AX + b-Aµx - b)(AX + b-Aµx - bf] =
= E[A(X- µx)(X- µxf AT] = ACxAT.
Una generalizzazione
Definizione 9.4.10 Dati due vta X e Y con valori attesi rispettivamente µx e µy,
(n,l) (k,l)
chiamiamo covarianza di X e Y la matrice
E evidente che
Cx = cov[X, X]
Più in dettaglio risulta
cov[X1, Y2]
cov[X2, Y2]
= [cov[X;, Yj]]
(n,k)
Proprietà di cov[X, Y]
p. 09) Se X e Y sono due vta allora var[X + Y] = Cx+Y =Cx+ Cy + cov[X, Y] +
cov[Y,X].
p. 10) Se X e Y sono indipendenti allora cov[X, Y] = O.
p. 11) Date due matrici A e B allora cov[AX, BY] = A cov[X, Y]BT.
p. 12) cov[·, ·] è bilineare, cioè se a, (3 sono due numeri reali, si ha
Altre considerazioni
Mostriamo che la varianza della combinazione lineare di 2 va è:
Ovviamente pesiste se cov[X 1,X2], ax, e ax 2 esistono {cioè se esistono finiti tutti i
momenti del f!' ordine) e se X 1 e X 2 non sono degeneri, cioè ax, > O e ax 2 > O.
Esempio 9.5.2 Ancora lancio di due tetraedri. Nell'esempio 9.2.3 abbiamo trovato che:
E[X1X2] = (135/16), E[X1] = (5/2) e E[X2] = (50/16).
Si calcola facilmente E[X?] = (30/4), E[X?] = (170/16), per cui:
var[X1] = E[X?] - E 2[X1] = (5/4) var[X2] = E[X?] - E 2[X2] = (55/64)
Inoltre: cov[X1X2] = E[X1X2] - E[X1]E[X2] = \3:-
1/t = ~~
· d. ·l ffi · t d. l · ,.
Quin i i coe cien e i corre azione e. Px,x 2 - _ r10/16)
~ ~ -
_ 10 · 2sr,,;- _- 1m
16 5 11 11
y (5/4)y (55/64) vii
Significato di covarianza
(y, - µ r )(x, - µx)<O
.. . . y
• (Y; - µ r )(x, - µx)> O
. . .•
µy
..
. . X
(y 1 - µ Y/(x, - µx/<0
y
(9.14)
Infatti consideriamo
X Y X Y X Y 1
var[- + -] = var[-] + var[-] + 2cov[-,-] - 2-var[X] +
ax ay ax ay a x ay proprietà 4 della cov ax
1 cov[X, Y]
- 2 var[Y] + 2--- = 2(1 + Px y ).
ay axay '
Da questa segue che 1 + Px y ~ O e quindi Px y ~ -1 perché 2(1 + Px y) è una varianza
X , y , ,
e 2(1 + Px y) = O sse - + - = e con probabilità 1, cioè c'è un legame lineare tra X
' ax ay
e Y con probabilità 1.
Rifacendo lo stesso percorso con var[ ~ - 2:._]si ottiene Px y ::; 1 e ancora un legame
ax ay '
lineare con probabilità 1 tra X e Y.
Vediamo due situazioni estreme.
p. 13) Se X 1 e X2 sono indipendenti Px,x 2 = O.
190 CAPITOLO 9. INDICI PER VETTORI ALEATORI
p. 14) Se X2 = aXi + b (cioè X2 linearmente dipendente da Xi, o anche se P[X2 =
aXi +b] =1) come caso particolare della p. 04) si vede che Px,x 2 =far=
±1, a seconda
che a sia positivo o negativo. Mostrarlo per esercizio.
p. 15) Vale anche un viceversa, cioè se Px,x 2 = ±1 allora X2 è linearmente dipendente
da X i e, con probabilità 1 vale la seguente uguaglianza:
X2 - E[X2] = ±_X_i_-_E_[_X_i]
Oss. 8 Si può mostrare che nella 9.15 l'uguaglianza valesse :lt: P[Xi + tX 2 =O]= 1
oppure P[tXi + X2 = O] = 1
La 9.14 si ricava anche dalla 9.15: infatti basta porre nella disuguaglianza Yi = Xi - µ 1 e
Y2 = X2-µ2 dove µi= E[X;] e riscriverla nel modo seguente IE[YiY2]I::; vE[Yi2]E[Yl],
mx,, ...,Xn (ti,•••, tn) = mx, (ti),,, ,mxn (tn) = E[et,X, l · ••••E[etnXn]
C> Fgm di una trasformazione lineare: Y = AX + b allora
µy =Aµx +b.
191
C> La matrice di covarianza Cx di un vtan X= (X 1 , ... , Xn)T è una matrice n x n
, data da:
Cy = ACxAT
C> Trasformazioni lineari. Sia A una matrice (n, n) tale che det A =/-O e sia Y =
g(X) = AX +be x- 1 (y) = A- 1 (y- b) Allora:
f ( ) = f x (A - (y - b))
1
Y y ldetAI ·
Caso univariato
Definizione 9.7.1 La funzione di ripartizione condizionata di X rispetto a un evento
B; (P[B] > O) è la seguente funzione:
d
J(xlB) = dx F(xlB) (9.16)
Esempio 9.7.2 Supponiamo che l'evento B sia:={X ha preso valori compresi tra a e
b}, cioè B = {w : a ::; X (w) ::; b}. Sia F (x) la f dr (incondizionata) di X; vediamo
come si modifica F assumendo l'informazione che B si è verificato. Dalla definizione di
probabilità condizionata si ha:
~ x -F(a)
x<a
F(xlB) = P[X < xlB] = P[{X::; x} n {a::; X::; b}] = { -F(a) a:=;x<b
- P[a::; X::; b] F b
1 X ?:_b
(9.17)
Concludiamo che, conoscendo la fdr incondizionata, possiamo costruire la funzione di
ripartizione condizionata. Discorsi analoghi valgono per la densità di probabilità condi-
zionata J(xlB).
Caso multivariato
Cominciamo dal caso di un vt (X, Yf discreto: indicati con Xi i punti massa di X e con
y 1 i punti massa di Y, si ha:
( ) Pxy(xi,Yj)
PYIX Yj IXi = ( ) (9.19)
Px Xi
(9.20)
193
Che si tratti di una legge di probabilità lo si vede immediatamente. Per esempio per la
9.19 si ha:
"""" ( ·I ·) _ L.1Pxy(xi,Y1) _ Px(xi) _ 1
L., PYIX YJ x, - ( ) - ( ) - ·
1 Px xi Px xi
(9.21)
cioè:
F XIY (X IYj ) = """" ( I ) """" Px ,Y (xi, Y1) (9.22)
L., PXIY Xi Y1 = L., py(y )
{x;::;x} {x;::;x} J
P[{X = x} n {Y = y}]
Le cose vanno diversamente nel caso continuo perché [ ] non è de-
P X= x
finita in quanto P[X = x] = O. Non si dovrebbe parlare allora di funzioni di densità
condizionate ma condizionali. Dopo avervi messo in guardia su questa sostanziale di-
versità tra caso discreto e caso continuo, continueremo a usare l'aggettivo condizionata
secondo la seguente:
Che si tratti di una densità di probabilità lo si vede immediatamente. Per esempio per
la 9.23 si ha:
J +oof
-oo
( I )d =
YIX y X y
J!"; fx,y(x,y)dy
fx(x)
= fx(x)
fx(x)
= 1
.
rvuna definizione analoga vale per il caso vettoriale. Siano Y e X= (X 1 , .. ,,Xn)' un va e un vta
continui con fd congiunta data da fxy(-). La funzione di densità condizionata di Y dato X= x è
indicata con fy1xClx), ed è definita da:
f ( fx,y(x,y)
{ Yx =
YIX
I )
fx(x) se fx(x) > O
non è definita se fx(x) = O
fx(-) è la densità marginale di X.
194 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Osservazione. Ovviamente se X e Y sono indipendenti
fy1x(Ylx) = fy(y)
lx lx
cioè:
I ) fx,Y(t,y)
FxlY (x Iy ) = _ 00 fx1Y(t y dt = _ 00 fy(y) dt (9.25)
Osservazione: si noti anche qui la parentela con le frequenze condizionate osservate del
capitolo 1.
Esempio 9.7.7 Difetti della pompa dell'esempio 4.5.4. Qual è la densità di probabilità
di X dato Y = 3?
Consideriamo il grafico dove si è evidenziato il condizionamento Y = 3:
y
3/ 30
4
3/30
/y(3) =4130
3
1/30
•
1/30 e 1/30 e 3/30
2
o 2 3 4 X
Si ha:
_ Pxy(0, 3) _ 1/30 _ l x __O
PXIY (013) - py(3) - 4/30 - 4
3) - Pxy(x, 3) - O
( x _,_O·,l
PXIY x - py(3)
1
- 1
Esempio 9.7.8 Dati due dadi non truccati siano X e Y il risultato del primo e del
secondo dado rispettivamente. Detta Z = X+ Y le tabelle a doppia entrata che descrivono
la distribuzione congiunta di (X, Yf e di (X, zf sono le seguenti:
195
X\Z 2 3 5 6 7 8
X\Y 1 2 3
o o
1
1
2
2
3
3
4 4
pz 1
Dal punto di vista grafico la situazione è la seguente :
y z
z=5 ,=6 z=7 z=8
I I
Ì6 Ì6
8
2 I I
7 Ì6 io Ì6
I I I
6
ft 116 li 'i6
.!. I I
4 Ì6 i6
2
I 1 J. I
T ii 16 16
1
Z =X+Y 3
I .!.
Ì6 16
I I ]
T
I I I I
I I I
T T T T 7 7 T
X
2 3 4 I 2 3 4
. . P[X = 2 /\ Z = i] P[X = 2 /\ Y = i - 2] / 6 1
i= 3, 4, 5, 6; P[Z = i I X = 2] = P[X = 2] = P[X = 2] = ¼= 4
diversa da O solo per quei valori di i per i quali la retta Z = i interseca i punti massa
sulla retta X = 2 (parte destra della figura sopra).
diversa da O solo per quei valori di i per i quali la retta X = i interseca i punti massa
sulla retta X+ Y = 4 (parte sinistra della figura sopra).
da cui:
k=I
In altre parole (X, Y)T è uniformemente distribuito su un triangolo limitato dalle rette
X= 2, y = 0, 2y ::; X.
a) Trovare k affinché fxy(x,y) sia una fd.
Il triangolo è rettangolo di base 2 e altezza l con area pari a l, quindi k = l.
b) Trovare P[X ~ 4Y], cioè la probabilità che la quantità di particolato dovuto alla ci-
miniera con i filtri sia meno di un quarto di quello dovuto alla ciminiera senza filtri.
:I~
O I 2
~l:;?: 1
O
:=1 I 2y 2
Occorre integrare f xY (x, y) sulla parte più scura del triangolo (parte sinistra della figura
qui sopra):
P[X ~ 4Y] = J;dx fox/ dy 4 = ~ (ma più facilmente si potrebbe calcolare in modo
elementare l'area del triangolo più scuro).
e) Calcolare la probabilità che la quantità del particolato proveniente dalla sola ciminiera
con filtri pesi più di 0.5.
Si tratta di calcolare P[Y ~ 0.5]. Occorre perciò la marginale
fy(y) = J22Y dx= 2 - 2y con O::; y::; 1.
P[Y ~ 0.5] = J;_
5 (2 - 2y)dy = (2y -y
2
5 = 0.25 )1~.
d} Trovare fxlY=y(xlY = y)
Come si evince dalla parte destra della figura:
fxy(x,y) 1 ( ) . ,
fx1Y=Y (x IY = y) = fy(y) = ( 2 _ 2y) I12y; 2] x , cioe per 2y::; x::; 2
197
e) Supponendo che il particolato proveniente dalla ciminiera con i filtri pesi 0.5, trovare
la probabilità che il particolato proveniente dall'altra ciminiera pesi di più di 1.5.
Si tratta di calcolare P[X > 1.5IY = 0.5]. Occorre trovare fx1Y=o. 5 (xly = 0.5). Per il
punto precedente si ha:
fx1Y= 5 (xly = 0.5) = 1 per l::; x::; 2
Ora P[X > 1.5IY = 0.5] = J1\ dx= 0.5.
(:) (·)
Px(x;r,s,y) = (r+:) ;x::; r,y::; s
x+y
Questa legge ora modellizza la probabilità che estraendo x + y oggetti da un'urna che ne
contiene r + s (r non difettosi e s difettosi) se ne scelgano esattamente x non difettosi
( e ovviamente y difettosi).
Vediamo ora come la legge appena descritta si possa ricavare come probabilità condizio-
nata. Siano rispettivamente X rv B(r,p) e Y rv B(s,p), binomiali di parametri rispet-
tivamente r, p e s, p, indipendenti. Intanto osserviamo che X + Y rv B (r + s, p) poi
calcoliamo:
P[X = xlX+ y = x + y] = P[X = x, X+ Y = x + y] = P[X = x, Y = y] =
P[X+Y=x+y] P[X+Y=x+y]
(:)px(l _ p)'-x(~)pY(l _ p)s-y _ (:)(;)
(:!~)px+Y(l- p)'+s-(x+y) - (:!~) ·
Perciò la distribuzione ipergeometrica può essere vista come una probabilità condizionata.
Infatti
(llt)ke-vt
f >-P[N = f À---e-,\tdt
(X) (X)
(X) 1 (X)
k!
O~a
" Jtke-(v+,\)tdt -- -(--,-)k_+_l Jzke-zdz =
o (,\+v)t=z li+ A O CXJ (li+ >-)k+l.
J zke- 0 dz=r(k+l)=k!
o
Sostituendo questo risultato nella (C?) si ha:
P[N = k] = Àllk k! __ >-_ llk Poiché __ >-_ + __ li_ = 1 si
k! (li+ >-)k+1 (li+>-) (li+ >-)k· (li+>-) (li+>-)
À
conclude che N è la va geometrica traslata (indietro) GT(-(--)) con probabilità di
li+ À
À
successo-(--).
li+ À
~ ~ Pxy(x,y)
E[g(X,Y)IX=x]=L..,g(x,y)pylx(Ylx)=L..,g(x,y) () (9.28)
y y
Px x
dove PxY (x, y) è la legge di probabilità congiunta, Px (x) la legge di probabilità marginale,
P[X =x Y=y]
PY1x(Ylx) la probabilità condizionata P[Y = ylX = x] = [ ' ] e la somma è
PX=x
estesa a tutti gli y che sono i valori possibili di Y
Nel caso continuo si ha:
E [y IX = X l= ~
L.., YPYIX (y
IX ) = ~ Pxy(x,y)
L.., y ( ) (9.30)
y y
Px x
Oss. 9 Si consideri la funzione r(x) = E[YIX = x]. r è una funzione reale di variabile
reale per cui r(X) = E[YIX] è una va di cui E[YIX = x] è una determinazione e che nel
caso discreto ha legge di probabilità px(x) = P[X = x] e nel caso continuo ha funzione
di densità fx(x).
VINel caso vettoriale si ha: g(X, Y)
= J-oo+oo( )f ( )
g x,y YIX=x y dy = -oo g x,y
J+oo(
)fxy(x,y)
fx(x) dy
che segue immediatamente da 9.32 e da 9.33. Si può anche mostrare che E[YIX] è
l'unica funzione per cui vale 9.34 (vedi per esempio [BVJ).
Quindi E[YIN = k] = g(k) = kµ. Perciò la va E[YIN] = Nµ, e dalla legge delle
alternative per la media segue:
VIIPiù pedestremente:
k= 2
m(m + 1)
Tornando a P[Xa = m; Y = n] si ha:
2n some- 80
P[Y = nlXa = m]P[Xa = m] = -m-(m_+_l_) m!
dove:
+oo m 2 2 m
E[YIXa = m] = L nP[Y
n=I
= nlXa = m] = L n m(m n+ 1) = ---
n=I m(m + 1)
Ln
n=l
2 =
Varianza condizionata
Definizione 9.7.24 La funzione di x var[YIX = x] si dice varianza condizionata
di Y dato X = x, o curva di variabilità di Y intorno alla curva di regressione
r(x) = E[YIX = x]. var[YIX = x] è la varianza della distribuzione condizionata di Y
dato X = x cioè, nel caso continuo:
J
(X)
Come si evince dalla definizione 9. 1.14, la varianza condizionata è la media dei qua-
drati degli scarti di Y da E[YIX] calcolata rispetto alla densità (o legge di probabilità)
condizionata:
var[YIX = x] = E[(Y - E[YIX = x]) 2 IX = x]
Non è difficile mostrare che la formula precedente si può scrivere anche nel modo seguen-
te, analogo a quello già visto per la varianza non condizionata di una va:
Anche in questo caso si può pensare alla va var[YIX] che ha determinazioni var[YIX = x]
e che nel caso discreto ha legge di probabilità Px (x) = P[X = x] mentre nel caso continuo
ha funzione di densità fx(x). Quindi la 9.39 si può scrivere anche:
J
(X)
E[var[YIX]] = var[YIXlfx(x)dx =
-(X)
(X) (X)
per la 9.37
j fx(x)dx j (y - E[YIX = x])dxf:~~t dy =
-oo -oo
(X) (X)
JJ
-00-00
(y - E[YIX = x]) 2 fxy(x,y)dxdy =
per la 9.29
E[(Y - E[YIX]) 2 ]
Posto
a1= E[(E[Y] - E[YIX])2] a~ = E[(Y - E[YIX])2]
possiamo concludere che la 9.41 afferma che la variabilità var[Y] di Y intorno alla sua
media µ 2 è composta da una variabilità "spiegata" dal legame tra E[Y] e la funzione di
regressione E[YIX] misurata da a1,che prende il nome di varianza spiegata, e da una
variabilità di Y intorno alla regressione E[YIX] misurata da a~, cioè:
y
--------------
l@l@l@l@l@I ....
J~I l@l©I
1-J~
k
J~I l©l@I
l©l©l©l©l©I1-J~
--- - --
Se il primo risultato è
k
© conta i tentativiper avere la prima ©
È evidente che la va {YIX = O} è uguale a l + il numero di insuccessi che precedono
il primo successo a partire dal secondo lancio, quindi è una geometrica di parametro p.
Invece la va {YIX = l} è uguale a 1 + il numero di successi che precedono il primo
insuccesso sempre a partire dal secondo lancio, quindi è ancora una geometrica ma di
parametro q = l - p (infatti si sono scambiati successi con insuccessi). Quindi:
1 1
E[YIX =O]= - E[YIX = l] = -
p q
205
a) Verificare che E[Y] = E[E[YIX]].
Z = E[YIX = l] = -
f con probabilità p = P[X = l]
q
Esempio 9.7.28 Supponiamo che un insetto depositi un grande numero di uova e che
ciascun uovo abbia una probabilità p di sopravvivere (non mangiato da uccelli, serpenti,
altri insetti, eccetera). Sia X il numero delle uova sopravvissute e Y il numero di uova
deposte. Un buon modello è quello di considerare Y rv P(À), Poisson di parametro
À. Se si suppone che le probabilità di sopravvivenza di ogni uovo sia indipendente dal
sopravvivere degli altri, allora sopravvivere o no ha in modello bernoulliano e X IY ,.__,
B(Y,p)rx
La distribuzione di X si ricava perciò da una distribuzione condizionata.
(X) (X)
YIA ,.__,
P(A)
A rv exp(()
Per calcolare la media di X allora occorre un passaggio in più:
E[X] = E[E[XIY]] = E[pY] = pE[Y] = pE[E[YIA]] = pE[A] = r
IX Ricordiamo ancora una volta che con la notazione XIY ~ B(Y,p) intendiamo P[X = klY = n] =
P[B(n,p) = k].
207
Valore atteso condizionato e stima ottima
Data una va reale X, se prendiamo e al posto del valore di X l'errore casuale che si
commette è X - e, mentre l'errore quadratico è (X - c) 2 • Cerchiamo è in modo che
l'approssimazione di X con e renda minimo l'errore quadratico medio E[(X - c) 2 ], cioè
cerchiamo è in modo che
Sia ora (X, Y)' un vta con densità continua fxy(x, y) (o ldp discreta Pxy(x, y)). Suppo-
niamo di poter osservare X ma non Y. Supponiamo di voler utilizzare il valore osservabile
x di X per approssimare il valore di Y, attraverso una g(x)
L'errore che commettiamo, approssimando, è Y-g(x). Cerchiamo g(x) che renda minimo
l'errore quadratico medio, cioè
Teorema 9.7.30 (:•) La.funzione g(x) = E[YIX = x] rende minima la quantità E[(Y-
g(x))2], cioè la funzione g(x) = E[YIX = x], valore atteso condizionato di Y dato
X. realizza la disuguaglianza:
J_+ooYiY1x ( I . I ) fxy(x,y)x
Dim. E [Y IX= xl = 00 y x)dy dove, al solito, !Y1x(Y x = fx(x) Pro-
seguiamo la dimostrazione nel caso continuo (il caso discreto si dimostra con lo stesso
procedimento). Per semplicità indichiamo con W la va che ha come fd la fyix(Ylx) (in
realtà W = YIX = x).
Evidentemente E[W] = J~yfy1x(Ylx)dy = E[YIX = x] = g(x) da cui, per la proposizio-
ne precedente,
Ora Vh: JR--+JR sostituisco e con g(x) poi moltiplico per fx(x) e integro da -oo a +oo:
J~ [J~(y - g(x)) 2 !Y1x(ylx)dy] fx(x)dx::; J~ [f~(y- g(x)) 2 !Y1x(ylx)dy] fx(x)dx.
Poiché !Y1x(ylx)fx(x) = fxy(x,y) si ottiene
X Nel caso discreto sarebbe ovviamente E[X2IX1 = x] = I:YPx 2 1x, (ylx) e Px 2 1x, (ylx)
Px 1 x 2 (x,y)
Px,(x)
208 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Un esempio nel capitolo 15.
Ciò si può formulare anche nel modo seguente:
Formule di riepilogo
Questo riepilogo è scritto pensando al vta (Y, Xi, X2, ... , Xn)' = (Y, X)' con n + l
componenti. Formalmente non cambia nulla. lntepretando il vettore X come una va
unidimensionale X si ottengono le stesse formule già viste prima.
Sia (Y,X)' un vta.discreto con densità congiunta p(y,x 1 , ••• ,xn) e marginali px(x) e
p(y). Allora
L'analogo continuo è:
dove f (y, X1, ... , Xn) è la densità congiunta e fx(x) è la marginale rispetto a X.
Media condizionata nel caso discreto:
E[g(Y,X)IX = x] = L g(y,x)!Y1x(vlx)dy
In particolare
[ I l= ~ I )= ~ PYX (y' X)
EYX=x ~YPY1x(yx ~y ()
Y Y Px x
e:
{ { !Yx(Y, x)
E[YIX = x] = JRYiY1x(vlx)dy = JRY fx(x) dy
Vale:
E[g(X)YIX = x] = g(x)E[YIX = x]
Curva di regressione di Y su X è
XINel caso multivariato, data una qualunque g: !Rn ---->JRmisurabile si ha:
E[YIX].
Vale:
Vg E[g(X)Y] = E[g(X)E[YIX]]
E[Y] = E[E[YIX]]
Proprietà di minimo per la media condizionata.
J
(X)
caso discreto:
var[YIX = x] = L [y -Y
E[YIX = x]]2 PYx~y,)x)
Px x
e anche:
var[Y] = (T1
+ (T1
= E[(E[Y] - E[YIX])2] + E[(Y - E[YIX])2].
210 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Funzioni e rette di regressione nel caso discreto finito
Nella capitolo 1 abbiamo parlato di retta di regressione per l'interpolazione col metodo
dei minimi quadrati di una nuvola di n punti (x;, y;). Abbiamo anche accennato al
caso in cui chi esegue l'esperimento controlla completamente il valore x del predittore e
la "risposta" Y è perciò funzione di una variabile non casuale x. Vediamo cosa accade
quando x è un valore osservato da una va X.
Sia X= (X, Y)'un vta2 discreto finito di ldp congiunta pxy(x,y); siano px(x) e py(y)
le due marginali relative alle due va X e Y. Consideriamo i due casi estremi:
a) X e Y indipendenti e allora pxy(x,y) = Px(x)py(y)
b) Y dipende funzionalmente da X, cioè esiste una funzione misurabile g(·) tale che
P[Y = g(X)] = 1.
Funzioni di regressione
Dal teoremino 9.7.30 sappiamo che il minimo della funzione: S(>.) = E[(Y - >.)2 ] =
I:7= 1 (y; - >.)2py (y;) è À = I: YiPY (y;) = E[Y]; in altre parole il baricentro µy minimizza
la somma (pesata sulla massa depositata sulle determinazioni y;) dei quadrati degli scarti
delle Yi da À, e il valore minimo è var[Y] (una cosa analoga l'avevamo già vista nel capitolo
1).
Ora dalla 9.43 sappiamo che il minimo di S[g(X)] = E[(Y - g(X))2] = I: I:[Yj -
i,j
Rette di regressione
( :•) Se invece della funzione di regressione si cerca la retta di regressione allora occorre
trovare il minimo di
è una forma quadratica che ammette un unico punto stazionario di minimo assoluto.
I conti per trovarlo sono analoghi a quelli già svolti col metodo dei minimi quadrati
presentato nel capitolo 1. Rivediamoli:
(9.44)
j j j
E[Y] E[X]
j j j
Riassumendo:
{ E[Y] = bo+ b1E[X]
E[XY] = b1E[X 2 ] + boE[X] ::::}
2
{ -E[Y]E[X] = -b1E [X] - boE[X]
::::} E[XY] = b1E[X 2 ] + boE[X]
Perciò: E[XY] - E[Y]E[X] = b1{E[X 2] - E 2 [X]}, cioè: cov[X, Y] = b1 var[X], da cui
212 CAPITOLO 9. INDICI PER VETTORI ALEATORI
(Ty
y- E[Y] = Pxy-(x- E[X]) (9.45)
lTx
Analogamente, partendo da s(a, /3) = I:i I:)xi - (a+ /3yj )]2 f xy(Xi, Yj ), otteniamo la
retta di regressione di X su Y:
lTx
x - E[X] = Pxy-(y-
(Ty
E[Y]) (9.46)
Con facili conti, per trovare l'intersezione delle due rette, si mette in sistema la 9.46 con
la 9.45 e si ha:
y - E[Y] = Pxy ~; (x - E[X])
{
x - E[X] = Pxy :: (y - E[Y])
da cui segue
(x - E[X]) = l\'.Y· (x - E[X])
Se Pxy = =fl le due rette sono sovrapposte. In caso contrario c'è intersezione solo per
x = E[X] da cui y = E[Y].
cov[X,Y]
Oss. 11 Il coefficiente di correlazione lineare PxY = ---=---...:.
è uguale a =r=lse e solo
lTxlT Y
se vi è una dipendenza lineare quasi certa tra X e Y vale a dire se e solo se, su tutte
le coppie (x, y) delle determinazioni di (X, Y)' che non stanno sulla retta, è depositata
una probabilità nulla. Nel caso discreto finito tutte le coppie senza eccezione stanno sulla
retta.
Infatti
cov[X, Y] = cov[X, aX + /3]= E[(X - µX )(aX + /3- µax+i3)] =
= E[(X - µx )(aX + /3- aµx - /3)]= aE[X 2] - aµ3c - aµ3c + aµ3c = avar[X].
cov(X, aX + /3) avar[X] avar[X]
Px (aX +/3) = ------
lTXlTaX+/3
= ---;=:;==:;:--;:::::=::::;:====::::;:
vvar[X]vvar[aX + /3]
= ----=---==
var[X]H
= =f1 ·
'
. d' { lTx(Y - E[Y]) = =flTy(X - E[X])
quin i lTy(X - E[X]) = =flTx(Y - E[Y]) .
213
~ iD<ol
~ (1)
~
media della marginale f y (y J
E[X]
"
E[X]
!Variabili X e Y dipendenti!
Non è detto che le rette di regressione siano anche funzioni di regressione. Le funzioni di
regressione si trovano infatti cercando i massimi e minimi liberi di S(g(X)) mentre per
le rette di regressione abbiamo un problema di massimi e minimi vincolati con g(X) =
bo + b1X. Perciò la retta di regressione di Y su X, per esempio, passa per i baricentri a
X fissato solo se è anche la funzione di regressione di Y su X.
Y=E[Y] (1)
Se X e Y sono indipendenti: cov[X, Y] =O{::} Pxy =O{=} { X = E[X]
(2)
(2)
(1)
Y= E[YJ
I X e Y indipendenti I
•=E[XJ
Esercizio 9.8.2 Date due va X 1, X2 di densità congiunta discreta fx,,x 2 (x 1x2), en-
trambe di media nulla, allora
cov(X1, X2) < O significa:
ìVl ìpl { valori di segno concorde per X 1 e X 2 sono più probabili
L.:...J L...=_J di quelli di segno discorde
ìVl ìpl valori di segno discorde per X 1 e X2 sono più probabili
L.:...J L...=_J di quelli di segno concorde
[!] [TI se X 1 cresce è certo che X2 decresca.
214 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Esercizio 9.8.3 Siano X e Y due va finite e sia fx,y(·, ·) la funzione di densità con-
Esercizio 9.8.4 Indicare i valori di verità corretti per le seguenti affermazioni riguar-
danti la matrice di covarianza.
[!] CI] è costituita esclusivamente da quantità positive o nulle
IT1l f'"pl { le quantità positive o nulle sono sulla diagonale principale mentre
L...'.:....J
L...=_J fuori dalla diagonale ci possono essere quantità di segno qualunque
[!] CI] è costituita da quantità positive o nulle salvo che sulla diagonale principale
IT1l f'"pl { è costituita da elementi tra loro uguali se sono in posizione
L...'.:....J
L...=_J simmetrica rispetto alla diagonale principale
~
esiste V vettore aleatorio con un numero finito di determinazioni
F è costituita da elementi tutti > O
F è una matrice simmetrica
IT1l f'"pl { se ha gli elementi sulla diagonale principale tutti nulli
L...'.:....J
L...=_J allora ha tutti nulli anche gli altri elementi
Esercizio 9.8.6 Dato un qualunque vettore aletorio (X 1 ,X2, .. ,Xn) la matrice di cova-
rianza cov[Xh, Xk], 1 ::; h, k ::; n:
IVI f'"pl { :3 sicuramente se il vettore aleatorio possiede
L...'.:....J
L...=_J solo un numero finito di determinazioni
V~ I F:I i costituitada dementi tutti positivi
gli elementi della diagonale principale sono tutti nulli
se esiste è una matrice simmetrica
IVI f'"pl { se ha gli elementi sulla diagonale principale tutti nulli allora
L...'.:....J
L...=_J ha tutti nulli anche gli altri elementi
;!
Esercizio 9.8.10 Siano X e Y due variabili aleatorie qualsiasi dotate di momento se-
condo finito. Allora:
E[XY] = E[X]E[Y]
F Va E JR, E[aXIY] = aE[XIY]
F V(..\,v) E JR, var[..\X + vY] > ..\2 var[X] + v2 var[Y]
F V(..\,v) E JR, var[..\X + v] = ..\2 var[X]
;!
Esercizio 9.8.11 Siano X e Y due variabili aleatorie qualsiasi dotate di momento se-
condo finitoxm. Allora:
E[X+Y]=E[X]+E[Y]
F E[XY] = E[X]E[Y]
F E[X/Y] = E[X]/E[Y]
F E[XY] = E[X]EIY]
Esercizio 9.8.13 Rispondere alla domanda relativa ai grafici a), b}, c) d} in figura
considerando che sui punti massa è depositata la densità fx,Y(x,y) congiunta di due va
X e Y discrete finite.
XIIIPer l'ultima sia Y = 2, va costante. Allora E[XY] = E[X]E[Y] {==} E[X 2] = E 2 [X]
216 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Dove c'è
a] y 1/3 1/3 b] y 1/4 1/4 indipendenza
2 2
tra X e V?
1/3
1 1
X
1 2
masse equidistribuite
e] d]
y 1/16 1 /16 y
2 n
3/16 1/16
1
2
1
X
1 2
masse non equidistribuite masse equidistribuile
:~:r::::ic:·:
v,:::~l
1:D[a:::al:;':~:
:,:)'.~:::,:,
(:, :::n::,::
~::::: ~:
,::b,)"
a31 a32
meri reali. Indicando mx,,x 2(t 1, t 2) con la fgm di X eventualmente esistente, e con
Y = (Y1 , Y2, Y 3 )T = AX + b il vettore risultante dalla trasformazione lineare di X,
apporre i corretti valori di verità alle seguenti affermazioni:
V basta che X sia discreto finito per garantire l'esistenza di mx,,x 2(t 1,t 2)
potrebbe esistere mx,,x 2(t 1, t2) e non E[Xf]
my(t1, t2, t3) = e11b1+t 2b2 +t 3 b3 mx(a11t1 + a21t2 + a31t3, a12t1 + a22t2 + a32t3)
mx,,x2(t1,t2) = E[et,x,]. E[et2X2]
mx,,x 2(t 1,t 2) = E[e 11X1] · E[e 12X2] se e solo se le Xi sono indipendenti
se le Xi sono indipendenti e W = X1 + X2 allora mw(t) = mx, (t) · mx 2 (t)
3)
•
• • EfYIX=x}
• • •
EfXIY=y} EfXIY=y} E/.XJY=y} EfXIY=y}
Figura 9-1:
Esercizio 9.8.18 Dato un vtan X= (X 1 , ... , Xn)', A una matrice (k, n), b un vettore
di costanti reali (k, 1), Y = AX + b e Cx = [cov[Xi, Xjl] = [c;j], Apporre i corretti
valori di verità alle seguenti affermazioni:
F Cx esiste sempre
può esistere Cx e non Cy
se esiste Cx allora Cy = ACxA'
se nessuna Xi è costante con probabilità l allora esiste 1 C:x
Cx è simmetrica se e solo se X è ha una distribuzione particolare
può talvolta essere Cii = O e Cij =I-O per qualche j
Esercizio 9.8.19 Siano X e Y due va indipendenti di media e varianza finite. Allora:
la curva di regressione di X su Y coincide
con la curva di regressione di Y su X
la curva di regressione di Y su X è una retta
Esercizio 9.8.20 Supposto che la retta di regressione di X 1 su X2 coincida con quella
di X 2 su X 1 apporre i corretti valori di verità alle seguenti affermazioni:
:la, b, c E JR: P(aX 1 + bX2 + c =O)= 1
\t'A,B C JR: P({X1 E A} n {X2 E B}) = P({X1 E A})P({X2 E B})
:lE >O: \fa, b, c E JR, P(I aX 1 + bX2 + c I::;E) > O
;!
Esercizio 9.8.21 Date due qualunque variabili aleatorie X e Y dotate di momento se-
condo finito, allora:
E[XY]=µxµy+cov[X,Y]
F cov[X, Y] =O::::} X, Y sono indipendenti
F Se X rv N(O, 1) e Y = X 2 allora cov[X, Y] = O
F I E[XY] 1::;VE[X 2]E[Y2]
Esercizio 9.8.22 Siano X e Y tali che cov[X, Y] = O,E[X] = -2 e E[Y] = 1. Calcolare
E[XY].
cov[X, Y] = E[XY] - E[X]E[Y] =O::::} E[XY] = -2
XIV Sappiamo che, nel caso discreto, le funzioni di regressione E[YIX = x] e E[XIY = y] rappresentano
il luogo dei baricentri delle masse rispettivamente a x e y fissati. Segue che se, per esempio, a x fissato
c'è un solo punto massa la funzione di regressione (in questo caso la retta) deve passare di lì. Un discorso
analogo vale per y. Di conseguenza il grafico accettabile è ...
218 CAPITOLO 9. INDICI PER VETTORI ALEATORI
Esercizio 9.8.23 Siano X e Y due va di momento secondo finito. Sia Pxy il coefficiente
di correlazione. Apporre il corretto valore di verità alle seguenti affermazioni:
F se cov[X, Y] = O allora P[Y = aX + b] = l
,............,.,_.....,
se Pxy = ±1 allora P[Y = aX + b] = l
se cov[X, Y] = O allora X e Y sono indipendenti
se cov[X, Y] = O allora Pxy = O
se cov[X, Y] = 1 allora X - Y rv N(-l; 1)
Esercizio 9.8.24 Sia (Xi, X 2)' un vettore aleatorio continuo, g(.) una funzione {misu-
rabile) da IR.2 a IR e E[g(Xi,X 2)1Xi = x] il valore atteso di g(Xi,X 2) condizionato da
Xi = x. Indicare l'unica risposta valida:
D E[g(Xi, X2)IXi = x] = x JR2
g(x, y)fx,x 2 (x, y)dxdy
[B E[g(Xi,X2)IXi = x] = JRg(x,y)fxf;~i:t) dy
D E[g(Xi, X2)IXi = x] = E[g(Xi, X2)] · E[Xi]
Esercizio 9.8.29 Sia (X, Y) un vettore aleatorio di momenti secondi finiti. Apporre i
corretti valori di verità alle seguenti affermazioni:
la retta di regressione di ....
219
ay
C!JD Y su X è data da: Y - E[Y] = Pxy-(X
ax
- E[X])
cov(X, Y)
C!JD Y su X è data da: Y - E[Y] = 2
ax
(X - E[X])
E[Y] = Pxy(X - E[X])
BEE Y su X è data da: Y -
X su Y è data da: X - E[X] = Pxy(Y - E[Y])
cov(X, Y)
C!JD X su Y è data da: X - E[X] = 2
ay
(Y - E[Y])
è necessariamente negativo
è necessariamente positivo
può essere negativo o nullo
nessuna delle precedenti
Commento: questo test serve solo a mettere in guardia contro ciò che sembra un'e-
videnza conclusiva. Il coefficiente di correlazione lineare segnala una relazione lineare
con probabilità 1 tra X e Y nel senso che se p = ±l allora :la, b : P[Y = aX + b] = 1.
Ma p può essere vicino a 1 anche se la relazione non è lineare, come mostra questo
esempio:
XI X2 X3 X4
X 1 2 3 4
Y = X~ 1 4 9 16
l l l l
P [X = xi] = P[Y = y;]
4 4 4 4
Allora
E[X] = 2.5; var[X] = 1.25; E[Y] = 7.5; var[Y] = 32.25; cov[X, Y] = 6.25;
Veniamo al test. Per capirne la soluzione e fare conti dimostrativi cambiamo leggermente
la figura:
220 CAPITOLO 9. INDICI PER VETTORI ALEATORI
0.5
I
; 0.5 1
-1
Le coordinate dei punti P; che stanno sulla bisettrice R 1 del f!" e 4° quadrante sono
i -i
(x;, y;) = (10 ; 10 ) con i = -10; -9; ... ; 10 mentre quelle dei punti Q; che stanno sulla
bisettrice R 2 del 1° e :I° quadrante sono (-0.5; -0.5) e (0.5; 0.5). Se mettiamo sui punti
P; (che sono 21) la stessa massa M 1 e sui punti Q; (che sono 2 escluso quello che sta
nell'origine) la stessa massa M 2 sarà 21 · lvfi + 2 · NJ2 = 1. Costruiamo il nostro esempio
4 1
prendendo !1'1 2 = - 0 . Allora M 1 = - 2-. Ovviamente, per come sono state messe le cose
1 5· 1
è
E[X] = O;E[Y] = O.
Ma è anche
E[X 2] = E[Y 2 ] = var[X] = var[Y] = 2.733
e
1.267
cov[X, Y] = E[XY] = 1.267;p = 2 _733 = 0.46359 > 1
Quindi il legame tra X e Y suggerito dai punti massa su R1 è solo apparente. In realtà
l 'attrazione tra le variabili è determinata dalla distribuzione congiunta Px ,Y e questa è
molto più intensa su R 2 • Quindi c'è una specie di legame lineare motivato dalla presenza
4
di 5 della massa totale su R 2 , ma p che indica questa correlazione non è vicino a l
perché la relazione è indebolita dalla dispersione delle masse su R 1 .
Come vedete molti dei concetti che riguardano la probabilità (ma anche la statistica) sono
sfuggenti e, a volte, ingannevoli. Non sorprendetevi. Stiamo occuppandoci dell'Incerto.
Capitolo 10
Curati dei tuoi pensieri ...
diventeranno le tue parole.
Curati delle tue parole ...
Diventeranno le tue azioni.
Curati delle tue azioni ...
diventeranno le tue abitudini.
Curati delle tue abitudini ...
diventeranno il tuo carattere.
Curati del tuo carattere ...
diventerà il tuo destino
Frank Outlaw ( attribuito '?'?)
Argomenti speciali
Fu (rnd)
rnd= Fu (rnd)
rnd x=F·'x(rnd)
Lo strumento più semplice di cui disponiamo è un motore per generare numeri casuali
con distribuzione uniforme in [O,l]. Grazie alla trasformazione integrale di probabilità
disponiamo allora di un metodo per generare un campione da una va la cui fdr sia F(·).
Prendiamo per esempio il generatore di numeri casuali in [O,l] di Excel®.
Per spiegare il procedimento si osservi la figura qui sopra: il computer sceglie un numero
casuale rnd. Questo valore punta a rnd = Fu(rnd) che a sua volta punta a Fx(x) da
cui si arriva all'unico X= Fx 1 (x) corrispondente.
Generare n numeri rndn equivale a campionare n volte da una popolazione U distribuita
uniformemente in [O,1] ma anche da una popolazione X distribuita secondo Fx (x) e i
valori ottenuti sono Xn = Fx 1 (rndn),
Esempi
Distribuzioni continue
Esponenziale Per campionare da questa distribuzione X, basta considerare la sua fdr
Fx(x) = (1 - e->-x)I[o,+oo)(x);trovare l'inversa Fx 1 (u) = -±ln(l - u)I[o,ii(u). Per
rette del comportamento della diffusione di neutroni prodotti in un procedimento di fissione di atomi di
uranio durante una reazione a catena, era necessario disporre di campionamenti da varie distribuzioni di
probabilità. La mitologia vuole che si generasse un campionamento casuale da una esponenziale misu-
rando i tempi di attesa del decadimento di sostanze radioattive (la cosa funziona talmente bene che oggi
si possono ottenere numeri casuali generati in questo modo sul sito http://www.fourmilab.ch/hotbits/.
Grazie alla trasformazione integrale si risaliva poi a una distribuzione casuale in [O, 1] e da qui si poteva
arrivare a ogni altra distribuzione.
223
1
quanto detto se U è uniforme in [O,1], X =- ~ ln(l - U)I[o,i) (U) è una va esponenziale
con fdr Fx(x) = (1- e--'x)I[o,+oo)(x).
Normale: primo metodo Nel caso di una distribuzione la cui funzione di ripartizione
non è ricavabile in forma esplicita il metodo della trasformazione integrale non si può
applicare perché non è possibile il calcolo della sua inversa. È quindi necessario ricor-
rere ad altri metodi per generare un campionamento da tale distribuzione. Un metodo
possibile discende dal teorema centrale del limite (vedi capitolo 11). Se si scelgono va
- o.5
_~_1_U_;
1 1
Un uniformi tra [O,l], E[Un] = 2;var[Un] 12 allora Zn = ~n"--==,-- ~ N (O;1) e
f;f
~1Ui - 0.5
generati n numeri casuali u; si hanno approssimativamente n campioni z; = _n~==--
ex
f;f
Normale: secondo metodo La fdr F(x) = -- la cui funzione di densità è f(x) =
1 + ex
( 1 exex ) 2 viene utilizzata per approssimare la distribuzione N(0; 1). Allora invece della
+
vera inversa <I>-1 (x) della N(0; 1) si usa F;/(u) = [ln(u)-ln(l- u)]/1o,i)(u). Per quanto
detto se U è uniforme in [O,l], X = [ln(U) - ln(l - U)]/[o,i)(U) è una va con fdr
ex
Fx(x) = --.
1 + ex
Distribuzioni discrete
Quanto sopra detto vale solo per le distribuzioni continue. Vediamo come c1 s1 può
comportare con distribuzioni discrete.
XJ
Pensiamo ora a una distribuzione discreta X le cui determinazioni siano Xi, i= 1, 2, ....
Sia Fx(x) il grafico della sua fdr. Generiamo un numero casuale y tra [O,l]. Mettiamo
y sull'asse delle ordinate di Fx(x) : riterremo di aver osservato Xi se Fx(Xi-I) < y::;
Fx (xi) avendo posto Fx (xo) = O. Se le determinazioni Xi sono in numero n finito avremo
osservato Xn se Fx(Xn-1) < y::; 1 = Fx(xn),
224 CAPITOLO 10. ARGOMENTI SPECIALI
Osservazione importante
I computer sono macchine deterministiche. Non generano numeri casuali ma pseudo-
casuali che simulano un caos deterministico che assomiglia al caso.
Nella figura mostriamo duemila punti generati casualmente da Excel® nel quadrato di
lato unitario (a sinistra) e generati con una formula caotica (a destra). La formula è:
l g(t)dt
e che, di conseguenza, una stima di fn g(t)fx (t)dt è data dalla media campionaria della
va g(X), cioè da:
l n
- I: g(xi)
n i=I
II ... L'idea di ciò che più tardi sarebbe stato chiamato Metodo Monte Carlo, mi venne durante la
mia malattia, mentre ammazzavo il tempo facendo solitari. Avevo notato che per avere un'idea della
probabilità di riuscita di un solitario ( come il Canfield o simili, dove l'abilità del giocatore non conta
molto) sarebbe stato assai più pratico distribuire sul tavolo le carte, provare il solitario varie volte, e
annotare qual è la frequenza dei giochi riusciti, piuttosto che calcolare tutte le combinazioni possibili;
infatti tali combinazioni, data la loro crescita esponenziale, sono numero così grande che, tranne nei casi
più semplici, non sono trattabili praticamente a causa della complessità di calcolo. Ciò è sorprendente
e, anche se non proprio umiliante, ci dà l'idea dei limiti del pensiero razionale. In problemi abbastan-
za complicati, un campionamento adeguato risulta migliore dell'esame esaustivo di tutte le catene di
possibilità.
226 CAPITOLO 10. ARGOMENTI SPECIALI
dove gli x; sono campionati da X secondo la distribuzione narrata da fx (t).
Lo stimatore è evidentemente
l n
- I: g(X;)
n i=I
Per il TCL
n
I:
.!_ g(X;) ~ N(E[g(X)];
i=I
var[~(X)J)
dove
;;:I1g2(X;) -
l n { 1 n
;;: i~ g(X;)
}
2
n i=I
I:
P[E[g(X)] - 2J var[~(X)J ::; .!_ g(X;)::; E[g(X)] - 2J var[~(X)l] '.:::'.0.95 (10.4)
e che quindi:
l n -l I: g
n 2 (Xi)-
{ l
- I: g(Xi)
n }
è un IC asintotico (vedi pag. 337) di livello 'Y = 0.95 per Ing(t)f x (t)dt = E[g(X)].
lalOe-t2 dt
Facendo fare il conto, per esempio a Matlab, che usa algoritmi di approssimazione molto
efficienti, si ottiene:
lalOe- 12
dt = 0.88623
Noi lo calcoleremo applicando il metodo Monte Carlo in due modi diversi, e poi ac-
cenneremo a un metodo che teoricamente è perfetto ma dal punto di vista numerico fa
orrore.
Illcome si evince dalla tabella della gaussiana a pag. 156 avendo preso in intervallo di semiampiezza
2a.
227
Monte Carlo 1
1
Partiamo da (10.3) prendendo fx (t) = 10 1[0;10] (t), cioè:
X,.__,U(0; 10)
uniforme nell'intervallo (O;10). Si ha:
-l I:n e-xi
2
E[g(X)]
'.::::'. = -1 110 e-t
2
dt
n i=l 10 o
10
Quindi un valore approssimato di f010 e-t 2
dt è dato da - I:n e-xi.
2
Dove gli X; sono
n i=l
campionati da X.
Facciamoci aiutare da Excel, scegliendo prima n = 100 campioni, poi n = 400. Poiché gli
X; vanno campionati dalla uniforme tra O e 10, per noi sarà
Vi; x; = 10 · casuale().
f
I grafici che vedete qui sotto mostrano 100 diverse stime di 010 e- 12 dt ottenute con 100
campioni da X (grafico a sinistra) e con 400 campioni da X nel grafico di destra.
o,, 0,0
o,, o,,
'·' o,,
Si osservi come queste stime ballano intorno al valore vero (che, in questo caso, noi
conosciamo e lo abbiamo indicato con una linea, ma che quando si deve calcolare un
integrale ovviamente non si conosce). L'ampiezza del ballo è ovviamente maggiore per
un campione piccolo (n = 100) che non per quello grande (n = 400). Il ballo è tipico
delle stime Monte Carlo. Ogni stima non dipende dalla altre e ogni volta che faccio una
stima, la variabilità è la stessa e influisce sul comportamento random del risultato.
L'unica cosa che si può fare per rendere la stima più affidabile è aumentare la dimensione
del campione, come si vede anche dai garfici della figura.
Ripetiamo quanto abbiamo già detto in (10.4): per il teorema centrale, ~
n
f: e-x;
i=l
ha
a2 = -1
10
110
0
e- 2 t 2 dt - ( 110 )
-1
10 0
e-t 2
dt
2
è minore di 10- 4 (come si evince dalla tabella della gaussiana a pag. 156) e comunque
la differenza va a O come fa.
Calcolo di 1r
Indichiamo con (U1, U2), dove Ui ha distribuzione uniforme in [O,l], un numero a caso
scelto nel quadrato Q. La probabilità che un punto scelto a caso nel quadrato appartenga
, area(S) 1r
a Se data da P[S] = (Q) = - .
area 4
Si campioni ora N volte da Q: sia sN il numero di punti campionati che cadono in S, cioè
il numero di punti tali che le loro coordinate soddisfino la disuguaglianza + U:j ::;r. vUf
Si ponga PN[S] = 8;.Allora:
Monte Carlo 2
Utilizzando una tecnica analoga a quella esposta nell'esempio del calcolo di 7r, si consideri
la seguente figura:
229
li--,----------------------,
Q
casuale(O;I) 1---......-- ------e
A
o casua/e(O;1O) IO
f
Poiché 010 e-t 2 dt rappresenta l'area di A C O, prendendo un punto Q a caso 1v nel
rettangolo O= (O; 10) x (O; 1), la probabilità che questo punto finisca in A è data da:
rIO t2
P[Q E A] = area(A) = Jo e- dt.
area(O) 10
Per utilizzare Monte Carlo in questo secondo modo, generiamo dapprima n = 100 e poi
n = 400 punti a caso in O. Facciamoci aiutare ancora da Excel. Il generico punto a
caso avrà coordinate (10 · casuale(); casuale()). Tutte le volte che casuale() < exp[-(10 ·
casuale())2)] allora Q E A.
Per la legge dei grandi numeri
area(A) ~ area(O)-#_(Q_E_A_)
n
Dopodiché
1,5
'·'
,.,
0,1
Ae n::::}
area(A) = P(A) = #(Q e A)
area(O.) #(Q E O.)
IV a caso significa che la distribuzione che guida la posizione di Q è uniforme su !1.
230 CAPITOLO 10. ARGOMENTI SPECIALI
Anche in questo caso vediamo i due grafici che si riferiscono alla ripetizione per 100 volte
di un campionamento con n = 100 (a sinistra) e n = 400 (a destra). Anche qui si osserva
quanto già illustrato nel precedente esempio Monte Carlo 1.
Monte Carlo 3
Ricordando che:
+oo xk O +oo x2k
ex= I: - ===} e-x- = I: (-l)k-,
k=O k! k=O k.
e che le convergenze delle due serie rispettivamente a ex e e- x2 sono uniformi su JRe che
vale il terorema di integrazione per serie, possiamo scrivere:
110
O
e-t 2
dt=
110+oo
O
I::(-ll-=I::--- +oo (
k=O
t2k
k! k=O k!
l)k 110t kdt=I:+oo
O
2
k=O
( l)k
-
k!(2k + 1)
102 k+ 1 (10.5)
Ora, la serie che rappresenta l'integrale è una serie a termini di segno alternato. Quindi
se arresto la somma al posto m - 1 l'errore che commetto nel prendere la somma finita
invece del valore vero della serie, non supera in modulo il primo termine trascurato, cioè:
102mk+l
m!(2m + 1)
Come si può facilmente vedere facendo i conti con Excel la serie in (10.5) non è imme-
diatamente a termini decrescenti. E i primi termini sono molto grandi, come è molto
grande la sua somma approssimata.
m
1oim 1C
-t-l
f (- lt 102k+1
m!(2m + 1) k =O k !(2k + 1)
2 10000 9676.66667
50 3.2554. 10"4 2.15. 10" 4
100 5.3309 · 104 U 2.64548 · 104 U
150 5.81487 E· 10"" 2.3111 · 10""
151 3.82549 · 10"" - 1.5144. 10°"
Per esempio, arrestandosi al posto 150 l'errore che si commette non supera in modulo
3.82549 · 1035 , un errore enorme. E la somma approssimata della serie, che dovrebbe
f 10
stimare 0 e-t 2 dt = 0.88623, vale 2.3111 · 1035 .
Un'altra cosa da considerare è quella che, se m > 153, Excel restituisce #NUM! perché
non ce la fa a calcolare il fattoriale al denominatore.
1rkf2rk
(10.6)
r( ~ + 1)
Per esempio, nel caso di k = 3 si ha la nota formula:
4
-1rr3
3
231
Volendo calcolare il volume della ipersfera di raggio r utilizzando la tecnica dell'esempio
precedente, è opportuno pensare che l'ipersfera sia iscritta in un ipercubo O di semi-lato
pari a r.
Per semplificare l'esposizione prendiamo r = l. L'ipercubo O avrà volume 2k. Sia §
l'ipersfera iscritta che ha diametro pari a 2.
Per ogni Q, sia Q = (x1,x2, ... ,xk) un punto scelto a caso in O. Allora ogni x; è un
numero casuale in ( -1; 1) cioè
x; = -1 + 2 · casuale().
Si deve controllare se il punto Q E § cioè se Xj + + ··· + x~ x%::;1.
Si generano n = 100 oppure n = 10000 di questi punti Q.
Il volume cercato dovrà soddisfare questa relazione:
e quindi
l\Ia le sorprese non finiscono qui. Il volume dell'ipercubo O in cui la sfera è iscritta ha
volume pari a
quando la dimensione k dello spazio diventa grande. Dunque un'ipersfera con volume
che tende a O iscritta in un ipercubo il cui volume diventa infinito!
Non tutti gli ipercubi hanno volume divergente. Pensiamo, per esempio, all'ipercubo
iscritto nella ipersfera di prima. Allora la diagonale dell'ipercubo è costante al crescere
della dimensione k dello spazio di immersione, ed è pari al diametro della sfera che è
anch'esso costante e vale 2 (se r = l).
In JRk la lunghezza d della diagonale dell'ipercubo soddisfa la realazione:
d2 = 12 + 12 + ... 12 = k12
-.._,,..._.,
k volte
l=v1
quindi, perché l'ipercubo possa rimanere iscritto, il suo lato deve tendere a O, e così anche
il suo volume.
Generazione di un campione da una distribuzione di Poisson
Supponiamo di voler generare un campione di n x; dalla distribuzione di Poisson p(x) =
e-;,..
>?- 1 la cui funzione cumulativa indicheremo con F( x) Consideriamo la seguente tabella
X.
che dà i valori cumulati di tale distribuzione fino a 19.
Consideriamo n numeri casuali rnd;. Come già indicato se F(k - 1) < rnd; ::; F(k), k =
O, 1, ... , 17 con la convenzione F(-1) = O, riterremo che il valore x; dell'i-esimo elemento
campionato sia k. Evidentemente valori del campione che superano 17 non vengono mai
campionati, data la loro probabilità troppo piccola. Per esempio se rnd; = 0.6578 avremo
campionato x; = 5.
Y = AX + b ===}my(t) = etrbmx(ATt).
(k,1) (k,n) (n,l) (k,1)
12) (legge di propagazione della covarianza) Sia X un vettore (n, 1), A una
matrice (k, n), b un vettore di costanti reali (k, 1) e Y = AX + b. Allora
Cy = A Cx AT.
(k,k) (k,n)(n,n)(n,k)
(10.7)
i=l
I\ fz,(z;) = ~-zZ;.
1 2
dove C è una qualunque matrice simmetrica definita positiva (e quindi invertibile), detC
il suo determinante e µ è un vettore (n, 1) di costanti reali.
Teorema 10.4.3 {:•) Sia A di tipo (n, n) e tale che det A =/-O. Allora se il vettore Z è
un gaussiano standard allora
X=AZ+µ
è un vettore gaussiano nel senso della definzione 10.4.2.
Dim.: Infatti
•) Z = A- 1 (X - µ);
1 1 1 _l(A- 1 (x-µ,))T(A- 1 (x-µ,))
--) fx(x) = I det Alfz(A- (x - µ)) = v(21r)nl det Al e 2
234 CAPITOLO 10. ARGOMENTI SPECIALI
... ; (A- 1 (x-µ))T(A- 1 (x-µ)) = (x-µ)T(A- 1 )T(A- 1 )(x-µ) = (x-µf(AT)- 1 (A- 1 )(x-
µ) = (x - µ)T(AAT)- 1 (x - µ)
Ora: AAT è simmetrica; AAT è definita positiva ldet Al = j(det A) 2 = Vdet Adet AT =
jdet(AAT). In conclusione:
(10.9)
Oss.: Abbiamo sostanzialmente dimostrato che i vtan che sono gaussiani secondo la
definizione 10.4.2, sono tutti e soli quelli che si ottengono attraverso una trasformazione
lineare dal vettore gaussiano standard Z di media O e matrice di covarianza I.
per cui
E[X] = H E[Z] + µ = µ
Cx= HIHT = C
235
Fgm di un vettore gaussiano
Cominciamo a trovare la fgm di un vtan Z rv N(O; I) normale standard. Le componenti
t2
Z; del vettore sono N(O; 1) indipendenti la cui fgm mz,(t;) = exp( ~ ). Si conclude che
la fgm di un vtan normale standard é:
(10.10)
Prendiamo ora un qualunque vtan X rv N(µ; Cx). Per quanto detto in precedenza esiste
una matrice H = HT tale che Cx= HHT = H 2 e X= HZ+µ. Dalla 2) si ha: mx(t) =
T T T l T l
et µ,mz(HTt) = et µ,mz(Ht) = et µ, exp[ 2(Htf (Ht)] = et µ,exp[ 2 (tT HT Ht)]. Quin-
di:
T 1 T
mx(t) = et µ,e2t Cxt (10.11)
Osservazione: nel caso univariato t e µ sono scalari e Cx = cr2 : la 10.11 diventa
1 cr2 t 2
mx (t) = exp(tµ) exp( 2cr2 t 2 ) = exp(tµ + - 2 -) che già conosciamo.
dove C è una matrice simmetrica, semidefinita positiva. Tale vettore sarà indicato con
X,.__,N(µ;C).
È evidente che i vettori che erano gaussiani secondo la definzione 10.4.2 lo sono anche
secondo la definizione 10.4.7. Questa definizione rappresenta perciò una generalizzazione
della precedente.
Consideriamo ora:
X=BZ+b (10.12)
dove B è una matrice di tipo (m, n), Z un vettore gaussiano standard di tipo (n, 1) e
b un vettore reale di tipo (m, 1). Per le proprietà di linearità della media E[X] = b e
per la legge di propagazione della varianza C = BBT (con BBT semidefinita positiva e
simmetrica). Scriviamo la fgm di 10.12: Per quanto già visto in 9.3.3 abbiamo:
Tb T Tb 1 TBBT Tb 1 Te
mx(x) = mBz+b(x) = ex mz(B x) = ex e2x x = ex e2x x
Oss. 1 (:•) Importante: concludiamo che, anche i vtn gaussiani secondo la definzione
10.4. 'l sono tutti e soli quelli che si ottengono da un vtn gaussiano standard attraver-
so una trasformazione lineare. Ora la matrice B della trasformazione non deve essere
quadrata non singolare {det B =f.O) ma non deve essere neppure quadrata.
236 CAPITOLO 10. ARGOMENTI SPECIALI
Oss. 2 (:•) Importante: è anche evidente che, preso un vtn gaussiano X,.__,N(µ; Cx),
anche il vtn:
Y=BX+b
è gaussiano. Infatti
Teorema 10.4.8 {:•) Sia X rvN(µ; Cx) e A una matrice (k, n) e b sia (k, 1). Allora
::.::p::~";::,~::~
/,::::::~:. T::~reL~:
::::ric::·::r:
Riformuliamo il teorema precedente in questo caso. X ,.__,
N(µ;Cx) con Cx = BBT.
Allora Y = I: a;X; e:
X = ZY ,.__,
N(O; 1)
Per il teorema delle probabilità totali:
P[ZY::; t] = P[Z::; tlY = l]P[Y = l] + P[Z:::: -tlY = -l]P[Y = -1] =
= ~P[Z::; t] + ~P[Z::; t] = P[Z::; t]
&&) Mostriamo poi che Z + X non è normale quindi (Z, X)T non può essere congiunta-
mente normale.
Ancora per il teorema delle probabilità totali:
Fz+x (t) = P[Z + X ::; t] = P[Z(l + Y) ::; t]
1 1
= P[2Z::; tlY = l]P[Y = l] + P[O::; tlY = -l]P[Y = -1] = 2FN(0,4)(t) + 2I[o,+oo)(t)
Cw _ [ var[Z] cov[Z,X] ] [ 1 O ]
- cov[X,Z] var[X] O 1 = h,
cioè che Z e X sono incorrelate anche se non sono ovviamente indipendenti (anche se lo
sembrano).
Che entrambe le varianze siano uguali a 1 non è neppure da commentare. Inoltre:
X= [ ~ ~ ] Z = BZ = [ !~].
Per quanto detto sopra X è gaussiano con E[X] = O; Cx = BBT = [ ~ ~ ] . Ovvia-
mente Z 1 e Z1 non sono indipendenti {cov(Z1, Zi) = var[Zi] = 1). Ogni determinazione
(z 1 ,zi)= (x,x) di X appartiene alla retta bisettrice del 1° e 3° quadrante, quindi tutto
il peso di probabilità è su tale retta. Si conclude che, se esistesse una funzione di densità
f(x,y), allora dovrebbe essere
f(x,y) i, 0 {::::::::}X= y
In questo caso si arriverebbe a questa contraddizione:
1= j j f(x,y)dxdy = jj f(x,y)dxdy = O
bisettrice
C=[~~]-
Definiamo il vettore Y = [ i
Y3
], ponendo
Y1 = X2 Y3 = 3X1.
ACAT = [ -2O
3
ll
1
o
[ 4
1
l ] [ O - 2
2 1 1
3 ] =
o
[2O 14O
3 -21
µ=(O, O)'.
1
D = [ -2
O] [ 4
1 1
1 ] [ 1 -2 ]
2 O 1 =
[ 4
-7
4
-7
-7]
14
o
1
Teoremino 10.4.12 (:•) {delle marginali}. Se a= è un vettore reale con
o
o
tutte le componenti nulle tranne la i- esima allora
239
aTx = X;
è la i- esima marginale che per quanto dimostrato alla proposizione precedente è ancora
normale di media E[X;] e varianza a3c;.
Perciò vettori gaussiani hanno marginali gaussiane.
Teoremino 10.4.13 (:•) Sia X ,.__, N (µ; Cx) un vtan gaussiano le cui componenti X;
siano non degeneri (a3c; > O) e scorrelate ('ì!i,j;i-/- j ===} cov[X;,Xj] = O). Allora le
X; sono indipendenti.
Dim:. In queste ipotesi Cx = diag(aT) è una matrice diagonale e si ha xT Cxx = I: a7x7-
La fgm di X allora diventa mx(x) = ex r µ,ezx 1 Te
xx= ex T µ,ez1 "'~ 17 2ixi2 = ex,µ,+zx,
1 2 2
17 , •
.. . . exnµn+½x~a~ = mx, (xi)· .. ·· mxn (xn) prodotto di n fgm di va X; ,.__, N(µ;; aT).
Segue che le X; sono indipendenti.
Oss.: È facile anche vederlo scrivendo direttamente la funzione di densità. Farlo per
esercizio ricordando che Cx:= diag( ~
1
a;
).
Questo teorema afferma che va congiuntamente gaussiane sono indipendenti se e solo se
sono scorrelate.
Un esempio scoraggiante
La scrittura scalare delle formule nel caso bivariato
Come esercizio, per valutare la potenza della simbologia matriciale, riscriviamo,nel caso
n = 2, in forma scalare quanto esposto nei paragrafi precedenti.
Densità
Siano date due va X1 e X2, componenti del vta2 (X1, X2)'. La matrice di covarianza in
questo caso è Cx= [ ; 11
2 :y] dove a12 = cov[X1, X2] e a7 = var[X;]. Si ricava facil-
1
1 a21
mente che cx-l = -------,,----,,,
p
(1 - p 2 )aya~
2_ 2 (x,-µ,)(xz-µ?) 2]
[( x,-µ
<71
1)
p 0"1 <72
+(x2-µ
<72
2)
VI sempre per esercizio mostriamo che è effettivamente una fd, cioè che:
( +) = / 1 e-Q(xi ,xz)dx1dx2 = l.
2na1a2V1-p 2
]R2
240 CAPITOLO 10. ARGOMENTI SPECIALI
O03
0.025
O 02
0.015
0.01
0.005
Figura 10-1 :
Marginali
Sempre come eserc1z10 calcoliamo per la 10.13 la funzione di densità marginale, per
esempio, di X1.
fx, (xi)= J!';:
fx,,x 2 (x1, x2)dx2 =
. . . . 8( X1, x2 ) 2.E.l.
au 1
2.E.l.
òu?
I I
0'1
O I au, au;
qumd1 11suo Jacob1ano è det J = B(u u ) = I 22'..2. .zti O = 0-10-2 che coincide col
1' 2 òu1 òu2 0' 2
suo modulo, per cui risulta:
(+)=J~: J~: 2 "hexP{- 2 (l~p2) [u?-2pu1u2+u~]}du1du2=
= J~: J~: 2 "h exp { - 2(l~p2) [(u1 - pu2) 2 + (1 - p 2 )u~]} du1du2 =
{ ( )2}
exp 1 .::.l..=....i::2 x2-µ? - px1-µ,
[-2( o1 ) ] J+CXJ 1 exp _l o-2 o-1 dx2 = (-"-")-
v'2rro-1 -CX) v'2rro-2~ 2 1 - p2
Ponendo nell'integrale:
x2-µ?_ =.i...=...t:.l.
02 P 01 = w ===} dx 2 = dw si ottiene·
~ 0-2~ •
2
exp [ =.i...=...t:.l.)
1 ( ]
.ll.ll)=
(•• -2 01
v'2rro-
J+CX)1 { 1 2}d
v'2rrexp - 2 w w.
1 -CX)
In definitiva:
Come esempio della fgm di un vta2 calcoliamo quella di una distribuzione normale
bivariata. Abbiamo:
Rispetto al punto precedente si può ora riverificare per esempio che µ 1 = E[Xi]. Infatti
Analogamente si ha:
E[Xr 1x·]
2 -- ~m
ot'ot' x1,x2(t1,t2) I .
1 2 t1=0,t2=0
Da quanto detto segue immediatamente il seguente:
242 CAPITOLO 10. ARGOMENTI SPECIALI
Teoremino 10.4.14 Due va X 1 e X 2 con distribuzione congiunta bidimensionale nor-
male sono indipendenti se e solo se sono scorre/ate.
Dim.: basta osservare che se p = O (variabili scorre/ate) allora mx,,x 2 (t1, t2) = exp[t1µ 1 +
½tia; + t2µ 2 + ½t~a;] = mx, (t1)mx 2 (t2) •
Distribuzioni condizionate
1 [( ~ a, - p'!:.1.:::..../:)2]}
a2
Figura 10-2:
sia (X, Y)' ,.__,N(m, C) con m = (µx, µy )' e C = ( a;.; axy2 ) . All ora s1· puo'
axy ay
dimostrare che
axy
dove p= --.
axay
Come già sappiamo la fYIX (ylx) è una va gaussiana di media µy+~ (x-µx) e varianza
(1 - p )a~. Risulta perciò r(x) = E[YIX = x] = µy + ~(x
2 - µx ). Il valore minimo
dell'errore quadratico medio risulta perciò pari a (1 - p 2)a;,; :
E[(Y - r(x)) 2 ] = (1- p 2 )a~.
C>Vettore gaussiano con densità: è un vtan X rvN(µ; Cx) la cui funzione di densità
è data da:
dove C è una qualunque matrice simmetrica definita positiva (e quindi invertibile), ICI
il suo determinante e µ è un vettore (n, 1) di costanti reali.
C> Standardizzazione di X. L'inversa di X= HZ+µ è:
dove Cx = H HT = H 2 e X = HZ+ µ
C> Vettore gaussiano (generalizzato): è un vettore
X=BZ+b
mx(x) = exTb 1
e'l'x
TG
x
C> Somma di normali: Sia X rvN(µ; Cx) e A una matrice (k, n) e b sia (k, 1). Allora
se Y = AX+b:
segue
I
n'
I --fr
2T -y lT
Figura 10-3:
• l
posizione del baricentro 1/2
di un sistema meccanico costituito
da una sfera di massa 1/2
e da un'asta omogenea di massa 1/2
Figura 10-4:
Osservazione: per il calcolo del tempo medio di attesa si poteva ragionare in modo
intuitivo considerando un sistema meccanico formato da una pallina di peso ~ unita a
un'astina omogenea lunga T e di peso ~- Allora il baricentro (media) dei due sistemi
è la media dei baricentri, cioè f.
Nella figura 10-4 a sinistra il sistema meccanico da
baricentrare e, a destra, la fdr della va mista in esame.
Teorema 10.6.1 Se F(x) è la fdr di una va di tipo misto e x 1 < x 2 < ... < Xk sono i
punti di discontinuità con salti dati da p 1 ,p 2 , .. ,,Pk (p; > O) allora si può scrivere:
(10.15)
Il fatto che X sia distribuita secondo F(x) = (l-a)Fc(x)+aFd(x) non significa affatto
che X =Xc+ Xd,
Nei punti di continuità di F(x) la fd della sua va è f(x) = (1- a)F~(x).
247
1
l - __!_
16
x< 2 =>F(x) = O
2.'.>x<3=>F(x)=
4- ~
l - l l l
l - 3.'.>x<4=>F(x)=
~
2 16 2- x 8
2 9 l
4 .'.>x =>F(x) = l - 2
l X
4 9 _/
O 1
- 2- 3 4
Figura 10-5:
Esempio 10.6.2 Vediamo un altro esempio di scomposizione di una fdr mista disegnata
in figura 10-5:
Ci sono 2 salti, in XI = 3 pari a PI = P[X = 3] = ¼ e in x2 = 4 pari a P2 = P[X = 4] =
I .
2' 3
PI+ P2 = 4 = a
Dim: Sia s < l: allora G(k)(s) = I: p;i(i - l)(i - 2) ... (i - k + l)si-k = E[X(X -
i=0
l)(X - 2) ···(X - k + l)sX-k]
(X)
Dal teorema di Abel citato in nota si ha lim Q(k) (s) = I: p;i(i - l)(i- 2) .. · (i - k + l) =
sTl i=0
E[X(X - l)(X - 2) ···(X - k + l)] •
Teoremino 10.7.3 Se X 1 e X 2 sono indipendenti allora
Esempi
Bernuolli. Sia X rv B(l,p). Allora G(s) = E[sX] = (l - p) + ps
Binomiale. Sia X rv B(n,p) = X1 + · · · + Xn, X; rv B(l,p) indipendenti. G(s) =
[(l - p) + ps]n
>..X-,\ CXJ Àx -,\
Poisson. Sia X rv fx (x) = _e_ 1 -. Allora G(s) = I: _e_ 1 -sx = e->-e>-s= e>-(s-l)
X. x=O X.
Un'altro elemento di somiglianza della fgp con la fgm nasce dalla definizione di fgp
congiunta, cioè Gx,,x 2 (s 1, s2) = E[s{ 1 s: 2 J e dal seguente risultato:
Teorema 10.7.4 Siano X1, ... , Xn n va iid con G(s) come fgp comune. Le va X;
prendano valori interi non negativi. Sia N una va indipendente dalle X; anch'essa a
valori interi confgp data da GN(s). Allora posto
s-{
-
O se N = O
X1 + X2 + ... + XN se N > O
si ha:
n indip. di s 8 da N n
indip. delle sxi
= L cn(s)P[N = n] = GN(G(s)
n
Esempio 10.7.5 Un esempio famoso riguarda i pulcini che nascono dalle uova che de-
pone una gallina. Supponiamo che questa gallina deponga N uova, con N rv f N (n) =
Àne->-
--1 - . Ciascun uovo abbia la probabilità p di generare un pulcino indipendetemente dalle
n.
altre uova. Il numero dei pulcini nati sarà perciò:
(10.17)
(X) Àne->-
dove X; è una Bernoulli di parametro p. Sappiamo che GN(s) = I: -- 1 -sn = exp[>.(s-
n=O n.
1)] e G (s) = (1 - p) + ps
Per la 10.16 Gs(s) = GN(G(s)) = exp[>.({1- p) + ps} - l)] = exp[>.(ps - p)]
Teorema 10.7.6 Siano X 1, ... , Xn, S come nel teorema precedente. Sia E[Xi] = µ e
var[X;] = 0' 2, entrambe finite. Allora:
+(X) +(X)
E[S] = L E[SIN = n]P[N = n] = L E[X 1 + X2 + ... + XNIN = n]P[N = n] =
n=O n=O
+(X) +(X)
= L E[X1 + X2 + ... + Xn]P[N = n] = µ L nP[N = n] = µE[N]
n=O n=O
+oo
= L E[(X1 + X2 + ... + Xn - nµ)2]P[N = n] = L
n=O
+oo
L = L na 2 P[N = n] = a 2 E[N]
n=O
Passiamo al secondo:
Ora al terzo:
+oo
C = E[(X - Nµ)(Nµ- µE[N])] = µ L E[(X - Nµ)(Nµ- µE[N])IN = n]P[N = n] =
n=O
+oo
= µ L E[(X - nµ)(nµ - µE[N])]P[N = n] =
n=O
+oo
= µ L µ(n - E[N])E[(X - nµ)]P[N = n] = 'v
n=O
Poiché E[X] = nµ
+oo
'v = µ L µ(n - E[N]) ·O· P[N = n] = O
n=O
. ::::::::::::::: ~
1
Xz 0 (1)
X1(2) + ... + Xz, (2)
n+l
Xj (n)
251
Xj(n) rappresenta dunque il numero di figli generato dall'individuo j della generazione
n - l (o il numero di individui della generazione n che provengono dall'individuo j
della generazione n - l). Per ipotesi, Vi, n, k = O, l, 2, ... , le va X;(n) sono iid con
distribuzione P[X;(n) = k] = Pk e quindi la stessa media E[X;(n)] = µ e la stessa
varianza var[X;(n)] = 0'2.
Da quanto detto risulta evidente che Zn-I è indipendente da Xk(n) per ogni k, n.
Sia G(s) la fgp di una generica X;(n). Allora per la 10.16 si ha:
Gz 0 (s) = s
Gz, (s) = G(s)
Gz 2 (s) = Gz, (G(s)) = G(G(s))
Gz 3 (s) = Gz 2 (G(s)) = G(G(G(s))) (10.18)
Esempio: In generale i conti per trovare Gzn(s) sono difficili, ma talvolta si possono
fare. Per esempio se le X; sono Bernoulli, e quindi G(s) = q + ps, si ha:
Gz 0 (s) = s
Gz, (s) = q + ps
Gz 2 (s) = q + p(q + ps) = q + pq + p 2s
Gz 3 (s) = q + pq + p2 (q + ps) = q + pq + p2 q + p3s
q + pq + p2 q + p3q + ... + pn S
Teorema 10.7.7
n seµ= l
E[Zn]- µ"m[Zn] - a'µ"_,· { l - µn se µ =f.1
l-µ
E[Zn] = µE[Zn-1]
var[Zn] = E[Zn-1]0' 2 + µ 2 var[Zn-1]
Iterando si ha
n= uAj;VJ,Pj ~ o;LPj = 1.
(10.19)
Quando eseguiamo un esperimento uno e solo uno degli Aj si verifica ma prima che
questo accada nel sistema è presente una dose di incertezza che dipende dai valori dei Pj·
. .
C onvmciamocene con un esemp10: . A*
. con f rontan d o 1. d ue s1Stem1
. =( A1
O.OOOl A2 )
0 _9999
e A ** =( Ai
0 _5
A2
0 _5
) e' mtmt1vo
· · · ch e c1· sia
· una d ose d'1 mcertezza
. .
magg10re . A** ch e
m
in A*. Infatti con A* mi aspetterò che quando eseguo un esperimento si verifichi quasi
con certezza A 2. Definiamo incertezza del sistema A la funzione:
(10.20)
dove gli eventi Aj della partizione {Aj} e i B; della partizione {B;} siano a due a due
indipendenti. Consideriamo il sistema AB: la collezione di eventi AjBi costituiscono
ancora una partizione dell'evento certo e P[AjB;] = pjqi per la supposta indipenden-
za. Se calcoliamo: H(AB) = H(p1,P2, .. ,,pn,q1,q2, .. ,,qk) -'i:,'i:,pjq;lnpjqi
j
M M
Hx(P1, ... ,Pn) = E[I(X)] = L
i=I
P[X = i] ln [ 1_ '] = -
p X - i i=l
L
P[X = i] lnP[X = i]
(10.23)
Si noti l'analogia della formula 10.20 con quella in 10.23 dove Pi = P[X = i].
y
0.625
0.5
IJ.25
0, 125
o
o 0.25 0.5 (}.75
H x (p) è una funzione di p e dal suo gra,fico si vede che il massimo dell'entropia si ha
1
per p = 2.
Ciò corrisponde al massimo dell'incertezza nel risultato. Infatti se p è vicino a O lan-
ciando una moneta mi aspetto X = O mentre se p vicina a 1 mi aspetto X = 1.
Esempio 10.8.3 Se nella 10.20 (o in 10.23) utilizziamo il logaritmo in base 2 invece che
in base e diciamo che l'entropia è misurata in bit. Pensiamo di trasmettere un messaggio
digitalizzato fatto da una stringa lunga n di O e 1. Se O e 1 sono equiprobabili qualunque
sia la stringa la sua probabilità è 2- n. Supponiamo che il contenuto del messaggio sia il
numero binario rappresentato dalla stringa e consideriamo la va X che ha come deter-
minazioni questi numeri {che vanno da O a 2n - 1). I numeri sono perciò 2n ciascuno
preso con probabilità 2-n. Misuriamo l'entropia di X utilizzando il logaritmo in base 2.
Dalla 10.23 abbiamo:
2n-l 2n-l 1 1 1
Hx = - L P[X = i] log 2 P[X =i]= - L 2 n log 2 2 n = -2n 2n (-n) = n (10.24)
i=O i=O
La 10.24 ci da la lunghezza in numero di bit del messaggio trasmesso.
254 CAPITOLO 10. ARGOMENTI SPECIALI
10.9 Compressione di un segnale
Supponiamo di estrarre un ccn (Xi, X2, ... , Xn) da una popolazione di Bernoulli, le cui
determinazioni possono essere interpretate come le parole (xi, x2, ... , Xn); Xi = O, 1 di
lunghezza n di un linguaggio binario il cui alfabeto è composto da due sole lettere, O e
1. Le parole sono perciò punti dello spazio rr=i
{O,l} = On, Gli eventi {Xi= Xi} siano
indipendenti e Vi; P[Xi = l] = p mentre P[Xi = O] = q = I - p. Denoteremo l'evento
{Xi = Xi} n {X2 = x2} n ... n {Xn = Xn} semplicemente con la parola (xi, X2, ... , Xn)-
È allora chiaro che:
Ora:
n[Sn log2 p + (I - Sn) log2 q] = n[plog2 p+ qlog2 q] + n[(Sn - p) log2 p- (Sn - p) log2 q]
n n n n
Si conclude che:
'-'"'~
p~•=l
x
'q
n- '-'"'~
~,=1
x
'= 2-nH(p)+n[( Sn -p) log 2 E.]
n q
Sia ora An(c) l'insieme delle parole (xi, X2, ... , Xn) che hanno probabilità compresa tra
2-nH(p)-ne e 2-nH(p)+ne, cioè:
o anche
An(c) = { (xi, X2, ... 'Xn): rnH(p)-ne < pÌ:~=1 Xiqn-Ì:~=1 Xi < rnH(p)+ne}
P[ I-Sn - p I < t] ~ I - pq
--. I
n n t2
e
Posto t = ~-~ si ha: P[ I -Sn - p I < ~~] ~
e
1 - pq I
- -(log p 2
2- )
llog2 ~I n Ilog2 p-q I n €2 q
255
p(l-p)(log 1pl(J-p)/
p
0.15 0.5 0.75
1 1 p
concludiamo che n ~ ~ > ~pq(log 2 - )2 ===} P[An(c)] ~ 1 - J.
ué ué q
Ciascuna n-upla (xi, x2, ... , Xn) E An(c) ha probabilità maggiore o uguale di 2-nH(p)-ne.
Quindi indicato con #(An(c)) il numero di elementi di An(c) dovrà almeno essere
< 2n[(H(p)-l)+e]
#(OJ=2n
1
Sappiamo che H(p)::; 1 e H(p) = 1 {=::=:;, p -- -2·
Abbiamo dimostrato il seguente
1
Commento Lo spazio Dn dei segnali possibili ha cardinalità 2n. Se p =/-2 (cioè se non
c'è distribuzione uniforme sulle due possibilità per ciascun carattere dell'alfabeto) allora
H (p) < 1 e si può scegliere e in modo che nH (p) + ne < n e quindi 2nH (p)+ne < 2n.
256 CAPITOLO 10. ARGOMENTI SPECIALI
In questo caso #(An(s))::; 2nH(p)+n, < 2n posso utilizzare stringhe di lunghezza uguale
al più piccolo intero che supera nH(p) + ns per descrivere gli elementi di An(s).
D'altra parte c'è una probabilità maggiore o uguale di 1-6 che il messaggio da trasmettere
sia in An(s).
Esempio. Si deve trasmettere un segnale binario di lunghezza n. Supponiamo che
Vi, P[x; = l] = ~ (e di conseguenza P[x; =O]= i)-
Esercizio 10.10.4 Siano X rv N(l; 1) e Y rv N(2; 2). Apporre il corretto valore di verità
alle seguenti affermazioni:
F X-YrvN(-1;3)
F se cov[X, Y] = -1 allora X - Y rv N(-l; 3)
F se X e Y sono indipendenti allora X - Y rv N ( -1; -1)
e--........,r--1
se X e Y sono indipendenti allora X-Y rv N(-1;3)
Esercizio 10.10.6 Sia Z ,.__, N(O; I) un vtan gaussiano standard e sia A una matrice
quadrata di tipo (n, n) con det A =/-O e b un vettore di costanti reali di tipo (n, l) allora
detto Y = (Y1,... Yn); Y = AZ + b, Cy = cov[Y;, Yj] e f AZ+b(Y) la funzione di densità
del vtan Y assegnare i corretti valori di verità alle seguenti affermazioni:
C!:JD fAz+b(Y) = 1 e-½(y-b)r(AAr)-'(y-b)
v(21r)n ldet Al
f Az+b(Y) = 1 e-½(y-b)r(y-b)
v(21r)n
AAT è simmetrica
det(AAT) = det A 2 = det 2 A
Cy = A- 1
A- 1 (Y - b) ,.__,
N(O; I)
Esercizio 10.10.7 Sia Z ,.__, N(O; I) un vtan gaussiano standard e sia A una matrice
quadrata di tipo (n, n) con det A=/- O e b un vettore di costanti reali di tipo (n, 1). Detti
Y = (Y1,... Yn); Y = AZ + b, Cy = cov[Y;, Yj], f AZ+b(Y) la funzione di densità del
vtan Y, mz (t) e my ( t) le fgm rispettivamente di Z e di Y apporre i corretti valori di
verità alle seguenti affermazioni:
C!:JD mz(t) = e½(t~+ +t~l
0D Cy = AAT
T I Tc-1
D0 my(t)=et
f Az+b(Y)
be2t vt
0D = 1
v(21r)n ldet Cyl
e-½(y-b)T(Cv)-'(y-b)
I
0D my(t)
T
= et be2t
Te
vt
f Az+b(Y)
D0 = 1
v(21r)n ldet Cyl
e-½(y-b)rcv(y-b)
~
Y1 + Y2 ha distribuzione normale
Y1 + Y2 ha distribuzione normale solo se
Y1 e Y2 sono indipendenti
se Y1 e Y2 sono congiuntamente normali Y1 + Y2 ha distribuzione normale
Esercizio 10.10.9 Sia Y = (Y1 , ... , Yn) rv N(µ; Cy) un vtan gaussiano. Indichiamo
con fy.(yi) le marginali di Y. Allora:
le fyi (Yi) sono gaussiane se solo se le Y; sono indipendenti
le fyi (Yi) sono gaussiane se solo se le Y; sono incorrelate
le fyi (Yi) sono sempre gaussiane
Esercizio 10.10.10 Sia dato il vettore gaussiano (X, Y)' rv N(m, C), m = (m 1, m2)' e
e= ( C11 C12 ) l a cui. fd in
. Jorma
f
scal are sia
.
C21 C22
258 CAPITOLO 10. ARGOMENTI SPECIALI
fx,Y(x,y)= l~e-2(1-p2)
1 [(x-µx)2(x-µx)(y-µy)+(y-µy)z]
O'x -p
2
O'XO'Y O'y
27l'O'XO'Y l-p-
axy cov[X, Y]
conp= -- = .
axay axay
1. Apporre, per il caso gaussiano, il corretto valore di verità alle seguenti affermazioni.
0D E[YIX=x]=µy+71-(x-µx)
D ìpl
L....:_J
{ la curva di regressione e la retta di regressione
di Y su X coincidono se e solo se X e Y sono indipendenti
D [TI la retta di regressione di Y su X e quella di X su Y coincidono sempre
2. Indicare per i e j che vanno da I a 2 cosa valgono le componenti m; del vettore m e
gli elementi Cij della matrice C.
1
Esercizio 10.10.12 Siano X e Y due va tali che var[X] = 2,var[Y] = 3 e cov[X, Y] =
-2. Calcolare var[2X - Y].
var[2X - Y] = 4var[X] + var[Y] - 4cov[X, Y] = 2 + 3 + 8 = 13
Esercizio 10.10.13 Sia X una va continua e Fx(·) la sua fdr che supponiamo che
strettamente crescente in JR. Poniamo U = Fx (X). Allora:
U ha distribuzione uniforme in [O,l]
U ha distribuzione esponenziale in [O,+oo]
X= p- 1(U) ha funzione di distribuzione F(·)
X= p- 1(U) non può essere una va perché può essere p- 1(U) > I
Comportamenti asintotici
11.1 Il campionamento
Il campionamento ci porta all'essenza della statistica. Abbiamo già accennato a questo
concetto in ambito descrittivo: vediamo ora di definirlo con precisione.
Un metodo fondamentale nell'acquisizione di nuove conoscenze del mondo reale consiste
nell'osservare solo pochi elementi di una popolazione in esame (obiettivo) e, sulla base
di questi pochi elementi osservati, trarre delle conclusioni sulla popolazione nella sua
totalità.
Assumiamo che a ogni elemento della popolazione obiettivo sia associato un valore
numerico e che la distribuzione di questi valori abbia una certa densità.
Esempi
1) Supponiamo di avere un silos con 106 semi che possono produrre fiori bianchi o rossi.
Ogni seme è un elemento della popolazione. Tecnicamente nessun valore numerico è
associato a ogni seme, ma noi possiamo immaginare di associare 1 al bianco e O al rosso.
X; allora varrà 1 o O a seconda che l'i-esimo seme estratto produca rispettivamente un
fiore bianco o uno rosso (i = 1, ... , n). Se preleviamo i semi in modo che le X; siano
indipendenti e abbiano tutte la stessa densità allora Xi, ... , Xn è un campione casuale.
2) Se consideriamo le 10 ruote del lotto, dove si fanno le estrazioni per il famoso gioco
del sabato (e ora anche del mercoledì), allora i primi numeri estratti su ciascuna ruota
rappresentano un campione casuale di dimensione 10, descritto da 10 va X; ciascuna con
densità P[X = n] = 1/90, 1 ::; n::; 90.
2,a) I sei numeri da indovinare nel Super Enalotto rappresentano i primi estratti sulle sei
ruote di (sigle delle province) BA, FI, MI, NA, PA, RM, con il primo estratto sulla ruota
di VE che fa da jolly. Però se indichiamo con X 1 , X 2 , ... , X 6 le va del possibile risultato
del gioco queste non sono indipendenti perché le regole richiedono che nella 6-upla non
ci possano essere 2 numeri uguali.
2,b) Sempre nel caso del lotto, i cinque numeri estratti sulla ruota di Napoli non sono
un campione casuale, perchè non sono indipendenti.
3) Si vuole valutare il numero di figli maschi in famiglie di tre figli. In una scuola si
scelgono 100 alunni (maschi o femmine) provenienti da tali famiglie e a ciascuno si chiede
quanti sono i figli maschi nella sua famiglia. Attenzione si campiona da una popolazione
di risposte che dichiarano il "numero di figli maschi" per famiglia; la risposta è una va X;
che può prendere i valori O;l; 2; 3 e ha ldp B(3,1/2), dove 1/2 rappresenta la probabilità
di successo che, nel nostro caso, è "avere un figlio maschio" (1/2 nell'ipotesi che maschi
e femmine abbiano la stessa probabilità di nascere).
Non esiste un limite superiore alla numerosità del campione: n può essere grande quanto
si vuole. È chiaro che più n è grande meglio è, ma aumentare n si scontra con problemi
concreti di budget versus costi da sostenere per eseguire la campionatura. Teoricamente
n può essere reso grande quanto le circostanze richiedano. Questo ci porta dal vettore
campione casuale X= (Xi, ... , Xn)' al concetto di successione {Xn} di va.
11.2 Successioni di va
Con il simbolo {Xn} indichiamo una successione di va definite su un medesimo spazio di
probabilità (O, A, P). Il suo significato non è banale: {Xn} può essere pensata come una
funzione da n in JR00 • La cosa più delicata è lo spazio dei casi possibili (campionario).
Occorre ricordare che, eseguito l'esperimento, il risultato osservato w E n deve essere
in grado di fornire la descrizione della successione nella sua interezza, cioè di fornire i
valori Xn = Xn(w) per ogni n. Tale successione può essere pensata come la traiettoria di
261
un processo stocastico a tempo discreto e può essere rappresentata come è mostrato in
figura.
o x.(I;)
o x/1;) o x.(w)
ox ,(w) ox,(I;)
o x/w) o x,(I;) o x,,(ç)
o x,(w) o x,,(w)
tempo
o 2 4 11
Esempio 11.2.1 Supponiamo che (O, A, P) sia tale che n = (O,1), A sia la a--algebra
generata dagli intervalli aperti contenuti in (O,1) e P sia la distribuzione uniforme su
(O,1). Allora la probabilità di scegliere un punto appartenente all'intervallo (a, b) e (O,1)
è uguale ab - a. Prendiamo a caso un valore çE (O, 1) e sia {Xn} = 1-
n
_t In questo
caso la dipendenza della va X n dall'evento elementare ç è palese (vedi ,figura).
l-ç /4
-+---------~,........----~l D
-çln
D
D
I- c,/ 3 • 1-w/n
l- c,/ 2
• l-w/3
l-w /4
D
1-ç • 1-w/2
1-w
tempo
o 2 3 4 Il
Esempio 11.2.2 Sia {Xn} una successione di va di Bernoulli iid e sia w un evento
elementare dello spazio campionario n tale che P[Xn(w) = O] = ½ = P[Xn(w) = l].
Si può immaginare che ogni evento elementare dello spazio n coincida con una delle
stringhe in.finite di O e 1 e che potremmo chiamare stringhe campionarie. Per esempio
l'evento elementare ( = (1, O,O,O,... , O,... ) sarà quello per il quale X 1 (() = 1, X 2 (() =
O,X 3 (() = O,X 4 (() = O,... , Xn(() = O,... , eccetera, mentre l'evento elementare ç =
(O,O,l,0, ... ,0, ... ) sarà quello per il quale X 1 (ç) = O,X 2 (ç) = O,X 3 (ç) = l,X 4 (ç) =
O, ... , Xn (ç) = O, ... , eccetera. Poiché tali stringhe sono, per esempio, tante quante i
numeri reali compresi tra O e 1, scegliere un evento elementare w equivale a scegliere un
numero reale x compreso tra O e l.
Esempio 11.2.3 Sia Un} una sucessione di va di Bernoulli iid di parametro p. Sia
Dn = 2In - l. Allora P[Dn = +l] = P[In = l] = p e P[Dn = -1] = P[In =O]= q. Sia
ora Sn = I:~=lDi.
262 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
Supponiamo che [±[] si sia manifestato k volte e, di conseguenza, C=IJn - k volte.
Allora Sn = k - (k - n) = 2k - n
D,
+I
D, D,
___ I____
:
EEJ +/
».
-/
__ J __ _
P[Sn=J]=( ~ )/·F/;j
Inoltre E[Dn] = E[2In - l] = 2p- 1 = p - q e var[Dn] = var[2In - l] = 4var[In] = 4pq.
Da ciò segue:
E[Sn] = n(p - q) var[Sn] = 4npq.
Vedremo che, grazie al teorema centrale del limite,
20
ò
n
" " "
• •
15 Sn =LD; • •" "
10
t:. " IJ. t:. IJ. A
i=\
t:. "
•"
. 6
" "
t:. /J,.
D..
t:,,
t:.
t:.
/J,. h.
-15
Sia l::; x::; N - l Sia E= {esce {T} alla prossima partita}. Allora P[AxlE] = P[Ax+il
e P[AxlEc] = P[Ax- 1 ]. Per il teorema delle probabilità totali, dal momento che P[E] =
P[T] = p si ha:
quindi
fN-2 = (1 + r)fN-l·
Ora prendiamo x =N- 2. Si ha:
Quindi
!N-3 = !N-2 + r 2!N-l = (1 + r + r 2)fN-l·
Continuando così si ottiene:
Se N = k si ha:
fo = l = (1 + r + r 2 + · · · + rN- l )f N-1
Caso r =I-l (i.e. p =I-q)
264 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
È:
2 N-1 l-rN
l+r+r +···+r =---
l-r
da cui:
l-r
fN-l =-1 -r N"
(11.5)
Caso r = l (i.e. p = q)
È
1+r + r 2 + · · · + rN - 1 = N
da cui
1
fN-l =N
N-x y
f X = ~ = N
Analogamente
N-y X
gy=~= N
cioè la probabilità di andare in rovina per A è inversamente proporzionale al capitale
posseduto da B e viceversa.
Osservazioni
1) Nel caso di equiprobabilità se y >> x allora fx::::::1.
2) Se r < l (q > p), e N-x = y---+oo allora r <le da 11.4 segue fx---+ l
3) Se r > l (p > q) allora 11.4 si può scrivere:
cioè la probabilità di non finire rovinato è diversa da O anche se si gioca con un avversario
in.finitamente ricco a patto di avere una probabilità più grande della sua di vincere ogni
singola partita.
4) Se q > p e y ---+ oo allora dalla 11. 5 si ricava che qy ---+ O. Per questo i casinò non
vanno mai in rovina.
In figura una rappresentazione grafica dei possibili cammini del capitale di A e di quello
di B ipotizzando che entrambi partano con un capitale di x = y = 10 euro e che la
moneta che lanciano non sia truccata.
265
20
.. .
19
,, •
.
18
16 •
,,
15 •
/J
12
• . •
.• .•
.
Il
• 8
IO o
• • • A
• .• .
9
.
8
,
5 • .• .• .•
.•
J
•
o I J 7 /J u
2
' 5 6 B 9 IO li 15 /6 17 /8 /9 10 21
I]
Esempio 11.2.4 È noto che per Vn, n ~ l, :lm : 2m- l ::; n < 2m. Per esempio n = l --+
m = l; n = 2, 3 --+ m = 2; n = 4, 5, 6, 7 --+ m = 3 eccetera. Possiamo allora pensare a
definire la successione {Xn} di va nel modo seguente: Xn(w) rappresenta gli stati della
traiettoria w ai tempi (discreti} n. Dividiamo l'asse dei tempi in intervalli [2m- 1 , 2m).
1
Se n E [2m- l, 2m) ci sarà uno stato uguale a l con probabilità 2m- l in uno solo dei
2m- l = 2m - 2m- l istanti dell'intervallo [2m- l, 2m) mentre in tutti gli altri istanti di
tale intervallo gli stati saranno uguali a O. In altre parole: ogni traiettoria si trova nello
stato l esattamente in un punto di ogni intervallo [2m- l, 2m - l] mentre è nello stato O
in tutti gli altri punti di tale intervallo. Inoltre vale l la probabilità che in [2m- 1 , 2m)
esista un istante in cui la traiettoria è nello stato l.
-- ~
Pensiamo a cosa può succedere in pratica: osservare un evento elementare ç significa os-
servare una traiettoria fatta di punti Xn(ç). Quello che si vede nella ,figura è la traiettoria
che corrisponde ai punti x 1 (ç) = 1, x 2 = O, x 3 = 1, x 4 = O, x 5 = 1, x 6 = x 7 = x 8 = O,
x 9 = 1, eccetera. Quello che è certo che per 2m- l ::; n ::; 2m - 1 esattamente uno degli
Xn osservati vale l.
Un'altra traiettoria potrebbe essere: x 1 (ç) = 1, x 2 = 1, x 3 = O, x 4 = O, x 5 = O, x 6 = 1,
x1 = xs = Xg = x 1o = x 11 = O e x 12 = 1, eccetera.
Per le considerazioni che faremo successivamente è comodo pensare a ogni evento ele-
mentare w come a una traiettoria descritta dalla successione {Xn}.
266 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
Esempio 11.2.5 Media campionaria {Xn} di una popolazione di mediaµ. All'i-
stante n la va in giuoco è X n = I:'~ xi dove le X; sono indipendenti ed equidistribuite.
x1 = X 1 (() sarà il valore dell'osservazione all'istante l, Xn = Xn(() sarà il valore del-
l'osservazione all'istante n. Allora il valore di Xn all'istante n sarà Xn = I:f~, Xi, cioè
la media aritmetica dei valori osservati fino a n incluso. L'insieme dei valori (n, Xn) os-
servati per n = l, 2, ... costituiscono il grafico (discreto) di una delle possibili traiettorie
della successione (pallini nella ,figura). Naturalmente è solo una delle traiettorie possibi-
li. Infatti in una seconda occasione avremmo potuto osservare l'evento elementare ç e i
valori a1 = X1(l;), ... ,an = Xn(l;) e il valore di Xn all'istante n sarebbe an = I:f~,ai
e il cammino sarebbe stato quello formato dai punti (n, an) del piano (quadratini nella
,figura).
X 1 + Xz + ... + X 11
o 1 2 n
Nel caso le va siano Bernoulli iid di parametro p è facile vedere che P[x,+x,: ...+xv =
~] = (;)pkqn-k = P[B(n,p) = k]. La figura mostra come potrebbero approssimativa-
mente essere distribuite, in questo caso, le determinazioni della media campionaria a n
.fissato.
Vedremo che si possono definire diversi concetti di convergenza per le successioni di va.
Cominciamo da quello che per noi avrà maggiore rilievo.
Definizione 11.3.1 Si dice che una successione di va {Xn} converge in legge (cL)
a una va X e si scrive Xn i:+X se e solo la successione {Fn(·)} delle fdr delle va Xn
converge puntualmente alla fdr F(·) di X, per ogni punto di continuità di F.
La funzione F(·) si chiama funzione di ripartizione limite e si dice che {Xn} ha come
distribuzione limite quella di X.
Questa definizione implica la seguente serie di relazioni
Fn(a)
l
P[X:=;a] F(a)
267
che si legge: se n è grande Fn(a) è vicina a F(a) quindi P[Xn ::; a] è vicina a P[X::; a],
o anche: per n grande P[X::; a] può sostituire P[Xn::; a].
Nei casi che esamineremo la cosa sarà equivalente alla convergenza delle fd cioè a fn(·)--+
f(·), ma in generale ciò non è vero. Nel caso invece esistano le fgm di Xn e di X, che
indichiamo al solito con mxn (t) e mx (t) si ha la seguente equivalenza:
Se indichiamo con Fn(x) la fdr di Zn e con cI>(x)la fdr della Z,...., N(O, l) allora
JI. JI.
X-µ
CJ/yn ~N(0,l) (11.9)
Distribuzione asintotica
Fermiamoci un attimo sul concetto di distribuzione asintotica, che è fondamentale
in statistica. Supponiamo di avere una successione di va { Sn} con le loro fdr {Fsn}.
Facciamo distinzione fra due concetti differenti, ma legati fra di loro:
Esempio 11.4.2 Un'azienda produce zucchero che viene confezionato in sacchetti il cui
peso è indicato da una va X; di media mezzo chilo e scarto l etto. Per la vendita questi
sacchetti sono imballati a 250 per volta. A loro volta gli imballi sono sistemati a 20 per
269
volta su pallets per la spedizione. Si vuole sapere la probabilità che il peso di un pallet
superi 2510 Kg (al netto del peso del pallet stesso, degli imballaggi e dei sacchetti).
Soluzione. La va S 5 ooo = X 1 + X2 + ... + X 5 ooo rappresenta il peso totale del pallet.
E[S 5 ooo] = 5000 · 0.5 = 2500; var[S 5 ooo] = 5000 · 0.01 = 50. Per il teorema centrale del
. . S 5000 - 2500
limite v50 è asintoticamente una N(0, l). Da ciò:
50
S5000 - 2500 10
P[S5000 > 2510] = P[ v50 > 7_071 ]:::::1 - cI>(l.41) = 1 - 0.9207 = 0.0793.
Pn = P[Sn ~ 2000].
S - n 2000- n
Sn ~ 2000? fa ~ fa
2000 - n] 2000 - n
P [Z ~ fa ~ 0.H::::::::}P[Z < fa ] ::; 0.9.
Nell'ipotesi che Z sia normale, abbiamo (vedi tavola della normale): P[Z < 1.282] = 0.9.
Per cui deve essere: 20 ~n < 1.282::::}n+l.28,/n-2000 >O::::} fa> -1.2s+v1~282 +sooo::::}
n > (44.086) 2 = 1943.6.
Concludiamo che in queste condizioni se le famiglie in rete sono 1944c'è una probabilità
superiore al 10% che la centrale vada in blocco.
Una generalizzazione del problema precedente consiste nel ritenere che la potenza erogata
dalla centrale sia un va W (che è evidentemente indipendente dalle Xi), normale di
media 2000 Kw e varianza 10000 Kw 2 (cioè scarto pari a 100 Kw). In questo caso
Sn - W è approssimativamente normale, con:
Lo stesso tipo di conti si potrebbe fare nell'esercizio precedente. Infatti si ipotizzi che i
pallets vengano spostati da un "muletto" che ne solleva uno per volta e sopporta, senza
rompersi, un peso W, dove W è una va normale di media 2535 Kg. e scarto 20 Kg.
Supponiamo che pallet, imballaggi e sacchetti (cioè la tara) pesino 10 Kg. Se si vuole
calcolare la probabilità che il "muletto" si rompa. Bisogna calcolare P[Y + 10- 2535 > O].
Fare i conti per esercizio.
Esempio 11.4.4 Vediamo come si comportano al crescere dir le densità di r(r, 1). Per
[r]
r = 50 la densità assomiglia a quella della normale. Infatti una f(r, l) = I: X; + Y
1
può essere spiegata come somma di [r] (parte intera dir) esponenziali X; tutte di media
[rl X
f(r - [r], 1). Per il TCL posto X =
1, indipendenti, e di una Y ,.__, X;+ Y, [r] = 2(
[rl X· y
L [rÌ + [r] la sua distribuzione asintotica è quella di una normale di media l e varianza
1
1/[r].
0,6 0,06
:r=O,S
0,5 0,05
0,4 0,04
F50
0,3 0,03
0,2 0,02
0,1 0,01
Come fa il produttore a verificare se E[X] > E[Y]? Questa verifica passa per una analisi
della nuova produzione, non tutta ovviamente, ma solo di un campione estratto da questa.
Viene scelto un campione di 36 lampadine che, sottoposte a un test di durata, mostrano
una vita media di 915 ore.
271
Questo esempio presenta una struttura complessa e riguarda, solo in parte, un'applica-
zione del teorema centrale. Smontiamo il problema pezzo per pezzo e ci sarà utile anche
per i capitoli futuri. All'inizio il teorema centrale non ha rilevanza. Si afferma semplice-
mente: una fabbrica produce lampadine; si sa che la durata di una qualunque
di queste lampadine è una va Y con media 900 ore e deviazione standard di
30 ore, cioè E[Y] = µy = 900 e var[Y] = a} = 900. Fino a questo punto non ci sono
domande: solo una descrizione dello stato di fatto. Leggiamo il prosieguo: viene mes-
sa a punto una diversa tecnica costruttiva che I dovrebbe I aumentare la vita
media delle lampadine prodotte, lasciando inalterata la deviazione standard.
Siamo informati del fatto che il produttore mette a punto un diversa tecnica costruttiva.
Cosa si propone? Di migliorare la qualità delle lampadine, cioè aumentare la loro durata
media. Le nuove lampadine avranno una durata rappresentata da una nuova va X.
I ATTENZIONE I: il produttore conosceva la durata media delle lampadine prodotte con
il vecchio sistema. Da cosa aveva questa informazione? Dalla storia della sua azienda.
In molti anni di produzione, misurando la durata di moltissime lampadine prodotte, anche
se ovviamente non tutte, si è convinto che è ragionevole essere certi che la loro durata
sia codificabile da una va Y con E[Y] = 900 e var[Y] = 900. Ora si trova di fronte a
una popolazione sconosciuta di durate di lampadine, quelle prodotte con il nuovo sistema.
Per ragioni che non ci riguardano, si dà per certo che la va che descrive la durata
delle "nuove" lampadine sia la stessa che descriveva la durata delle vecchie, con un'unica
eventuale differenza: la media. Cioè si da per certo che:
E[X] = µx ignota e var[X] = 900.
A noi non viene chiesto di entrare nel merito di questo fatto: non spetta a noi giudicare
se è giusto o sbagliato. Ci viene solo chiesto di tenerne conto.
w:cchi~<1produzione nuova produzione
distribuzione della durata
di unagenetica lampadina
'''
Veniamo inoltre informati che il produttore, per saperne di più su E[X], esegue un test
statistico. In cosa consiste un test? Lo vedremo dettagliatamente nel capitolo 14. Ma lo
possiamo anticipare qui nella sua idea di fondo. Il punto di partenza per eseguire un test è
la formulazione dell'ipotesi da sottoporre a test: l'ipotesi nulla del test. Nel formulare
l'ipotesi nulla il produttore segue una regola spesso rispettata: sceglie cioè come ipotesi
nulla quella che vorrebbe fosse negata dal risultato del test, in questo caso
ipotesi nulla
che equivale al fatto che il nuovo processo non ha cambiato nulla o addirittura ha peggio-
rato le cose.
L'ipotesi riguarda la vita media. Per verificarla occorre trovare una stima
di questa media. Ciò passa attraverso l'osservazione di una porzione della
272 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
popolazione (cioè di un campione) e l'utilizzo di uno stimatore di tale media,
la media campionaria.
Viene allora scelto un campione di 36 lampadine. Nel nostro caso, il valore osservato sul
campione della media campionaria X 36 = I:fiJxi è X36 = 915.
Il produttore deciderà di non rifiutare l'ipotesi nulla se x36 , il valore osservato di X 36 ,
cadrà prima di 900 o poco distante alla sua destra. Deciderà di ri.fiutarla se x 36 cadrà
distante a destra di 900. Rifiutando µx ::; 900 accetterà µx > 900 cioè accetterà che la
nuova tecnica costruttiva è migliore della precedente.
Entra in gioco il teorema centrale. Per decidere cosa signi.fica lontano non utiliz-
ziamo un metro. Utilizziamo la distribuzione di X 36 . Qui entra in gioco il TCL che
ci assicura che, con buona approssimazione (si spera che n = 36 sia sufficiente per po-
ter utilizzare questa approssimazione), la distribuzione di X 36 è una normale di media
900
incognita µx e varianza O'-x 2 = - = 25. Si decide che x36 è lontano (a destra) da
36 36
µ x se, ipotizzando µ x ::; 900, la probabilità che X 36 cada oltre X36 è piccola (diciamo
inferiore ad a, con a ::; 0.2), cioè P[X36 ~ X36 = 915lµx ::; 900] ::; a. Questo perché
se P[X36 ~ X36 = 915lµx ::; 900] è piccolo, vuol dire che X36 è caduto nella parte dove
la gaussiana che disegna la fd di X 36 si è già abbassata molto, quindi X36 è lontana, a
destra, dal punto di massimo di tale gaussiana, che sta nella sua media µx = µx 36 (::; 900
almeno nelle nostre ipotesi). Osserviamo che il nostro concetto di distanza non è in senso
euclideo ma probabilistico: diciamo che X36 è distante da µx se la probabilità alla sua
destra è piccola.
9l5=X.M
900
µX> 900
915 =x"
Calcoliamo dunque P[X 36 ~ 915lµx ::; 900]. Questa probabilità si chiama p - value.
Dunque, se il p - value è piccolo, diciamo inferiore a 0.2 il produttore rifiuterà l'ipotesi
µX ::; 900II.
Basta calcolare P[X 36 ~ 915lµx = 900], cioè ridurci all'ipotesi nulla µx = 900. Infatti
P[X36 ~ 915lµx < 900]::; P[X36 ~ 915lµx = 900]: quindi se µx fosse minore di 900 la
- - 900
probabiltà di {X 36 ~ 915} sarebbe ancora più bassa. Grazie al TCL X 36 ~ N(900; 36 ),
IIse il p - value è piccolo significa che x35 (la stima di µx osservata) è distante (a destra) da µx.
Si rifiuta perché, come più volte osservato, si tende a pensare che ciò che accade è ciò che è più pro-
babile. Dunque il valore più probabile di µX sembra più grande di quello ipotizzato. Ciò in base a
una banalizzazione del principio antropico: esiste solo ciò che può esistere (o ciò che è più probabile che
esista).
273
quindi Z = X3cr-
5 - µxs6 Xs§-900
5 è asintoticamente una N (O, l ). Ricordiamo che non
X35
si calcola esattamente la probabilità dell'evento {X 36 ~ 915} o, se volete, dell'even-
to {x 36 ~900~ 915 ~900= 3}, perché I NON SI CONOSCE I la distribuzione esatta di
X 36. Via TCL si può calcolare un suo valore approssimato, che è pari alla probabilità
dell'evento {N(0, l) ~ 3}.
P[X36 ~ 915lµx = 900] = P[X36 ~ 915] = P[Z ~ 3] = 1-P[Z < 3] = 1-0.9987 = 0.0013.
Conclusioni. Poichè nell'ipotesi fatta (µx ::; 900), il p- value è molto basso (poco più
dell'l per mille se µx = 900 e ancora più piccolo se µx < 900), decidiamo che µx non
dovrebbe essere 900 ma qualcosa di più. Torneremo su ragionamenti di questo tipo nel
capitolo 14.
Attenzione: accettando l'ipotesi alternativa µx > 900 si potrebbe commettere un errore
nel caso che fosse invece vera µ x ::; 900. C'è un modo di valutare la probabilità di questo
errore. Ci torneremo nel capitolo 14.
Attenzione: se l'ipotesi nlla fosse stata, per esempio, µ x = 915 la probabilità dell'evento
{X 36 ~ 915} {cioè il p - value) sarebbe stata (sempre via TCL) circa la stessa di
{N(0, 1) ~ O} cioè 0.5. In questo caso sarebbe stato difficile ri_fiutare tale ipotesi.
Una delle applicazioni più importanti del TCL riguarda le va binomiali. Ricordiamo che,
se X rv B(n,p), allora X rappresenta il numero di successi in n esperimenti indipendenti,
dove la probabilità di successo in ogni esperimento è data da p. Sappiamo che X si può
considerare come la somma di n va "indicatori", cioè:
X· = { 1 se nell' i - esimo esperimento si ha un successo
' O altrimenti
Abbiamo già visto che E[Xi] = p e che var[Xi] = pq. Per il teorema centrale del limite,
se n è grande, ~ è approssimativamente una N(0, 1).
Modellizziamo con la moneta. Supponiamo di lanciare una moneta bilanciata 10 volte e
di voler valutare la probabilità di ottenere un numero di teste compreso tra 5 e 8, estremi
inclusi. Detto X il numero di teste, il conto esatto è:
P[ 5 ::; X::; 8] = (12)(½)5(½)10-5
+(12)(½)6(½)10-6
+(1~)(½)1 (½)10-8
+(1i) (½)8(½)10-8
E[X] = np = 5
Inoltre· {
· var[X] = npq = (5/2) = 2.5
La funzione P[X = x] è discreta ed è diversa da O solo nei punti di ascissa intera
x = l, 2, ... , 10. Noi però effettuiamo una correzione di continuità per P[X xl,
facendola diventare una funzione a gradini:
274 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
(a)
O 12 ::145 61
l l ..
~ O 1 2 3 4 5 6 l 8 , 10
da 4.5 a 8.5
L'area puntinata rappresenta così la P[X = 5] e la P[5 ::; X ::; 8] è la somma delle aree
8+0.5
dei rettangolini [TI, ITJ,ITJ,[I] che può essere pensata come J
5-0.5
P[X = x]dx. È
anche intuitivamente evidente che l'area [TI è approssimativamente uguale a:
5-0.5
[-(1/2)
v2.5v27r
(x-5)2]
2.5
dx.
A B C
2 3 3 4 O I Z J 4 5 6 7 8
Importante: l'approssimazione di una B(n,p) con una normale N(np, npq) funziona
bene quando sia np che nq sono almeno 5. Quando si parla di approsimazione via
teorema centrale si usa dire che n > 30 è sufficiente a garantire un comportamento
normale della somma di va indipendenti dotate di media e varianza finite. Questi esempi
mostrano che tale affermazione va presa con cautela. Nella figura sopra (da sinistra) sono
mostrati i grafici della ldp di una va risultato della somma di 100 Bernoulli di parametro
p = 0.0001, di 1000 Bernoulli di parametro p = 0.0001 e di 100 Bernoulli di parametro
p = 0.01. Si vede che questi grafici sono molto lontani dall'assomigliare al grafico della fd
di una normale. Nella figura qui sotto invece c'è il grafico della somma di 100 Bernoulli
di parametro p = O.Ol e questa ldp ha l'andamento a campana tipico della gaussiana.
Perché valga la approssimazione si chiede che
n ·p ~ 5 e n ·q ~ 5.
0,5
O I 2 3 4 5 6 7 8 9 JOJI/2/3/4!5/6/718/920212223242526
n=/000; p=0.01
276 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
Tabella delle correzioni di continuità
Valore cercato Correzione Valori in termini di
della B( x, n , p) di continuità distribuzione della N(O, 1)
P[X = x ] P [x - -12 -< X -< x + -21 ] <I?(
x +l / 2 - np ) _ <I?( x - l / 2 - np )
,/ npq ,/np q
P[X:c; x ] ½l
P[X::; X + <I?(x + l / 2 - np )
vnpq
P[X < x] = P [X :e;x - l] P[X :e;x - 1 + ½] <I?(x- 1/ 2- np )
vnpq
P[X 2: x] P[X 2: x - ½] l _ <J?(x - 1/ 2- np )
,/np q
P[X > x] = P [X 2: x + l ] P[X 2: x + 1 - ½] l _ <J?(x +l / 2- np )
vnpq
P[a :e;X :e;b] P [a - -21 -< X < 1
- b + -]
2
<J?(b+ l / 2-np)
vnpq
_ <J?(a -1 / 2-np)
vnpq
Esempio 11.5.2 Supponiamo che due dadi bilanciati vengano lanciati 600 volte. Sia X
il numero di volte che il totale delle due facce è pari a 7. Calcolare P[90 ::; X < 111].
Soluzione. Cominciamo ad osservare che si può pensare a ogni lancio come ad un esperi-
mento con due sole possibili uscite: {7} oppure {non 7}.
P[{7}] = 3~ = ½--+ P[{non 7}] = i
Pertanto la densità di X è una binomiale con n = 600 e p = (l/6).
P [90 ::; X :e;110l = "'110
~j= 90
(600)
j ( l)j (5)600-j
6 6 , che non e, proprio. breve da calcolare.
Ora, np = 100 e nq = 500. Siamo perciò garantiti che l'approssimazione normale della
.
binomia. l f . p . h, { E[X] = np = 100 .h h
e unzwna. oic e: var[X] = npq = (500 / 6 ) si a c e:
= 21 J5exp(-J,J;
-oo
2l t 2 ) dt - l = 2 · (0.8749) - 1 = 0.7498
.
dove, al solito, <I>x)
( = Jx
_ exp(-v'27r
00
(1/2) t 2 )
dt.
1-'l
X= LX;+ = s < 1).
Y; X; rv Pois(l), Y rv Pois(0::; À - [>..]
1
X
--1 - -
[>..] x 1" 1 -1 y x 1" 1 -1
Standardiziamo: ~ = ~ + v[,\] dove ~ ~ N(0, 1).
y € y €
Per quanto riguarda Y si ha: E[ /f\l] = /f\l ----+ O; var[ /f\l] = [ '] ----+ O.
V[>..] V[>..]-'-+oo V[>..] A -'-+oo
Perciò Pois(>..) è approssimativamente una N(>..;>..).
Perché valga questa approssimazione basta
n ~ 20 e p ::; 0.05.
"in, Fn = {o x<0
1/2 O::; X < l ; F =
{o
x<0
1/2 O::; X < l
1 x~l 1 x~l
Convergenza q.c*
Definizione 11.6.7 Si dice che una successione di va {Xn} converge quasi certamente
(cQC) a una va X e si scrive Xn ----+ X se l'insieme degli w tali che lim Xn(w) =
qc n-+oo
X(w), (cioè lim (Xn(w) - X(w)) = O) ha probabilità 1, cioè se
n-+oo
P[n-+oo
lim (I Xn - X I= O)] = 1 (11.11)
P[{w E n: lim
n---++oo
I Xn(w) - X(w) I= 0} 0 i = o (11.12)
Esempio 11.6.8 Utilizzando l'esempio 11.2.4 mostriamo che cP non implica cQC. Iden-
tifichiamo ogni evento elementare w con le traiettorie Xn(w). Da come è costruita la
1
successione {Xn} si vede che P[IXn - O I> s] = P[{w E n :IXn I> s}] = 2m-l dove m
è il più grande intero tale che 2m- l ::; n. Inoltre quando n --+ oo anche m --+ oo. Per cui
lim P[IXn I> s] = O che garantisce la cP a O. Ora se ci fosse anche cQC a O, soltanto
n---++oo
un insieme di traiettorie (cioè di w) di probabilità nulla dovrebbe rimanere fuori da un
tubo di ampiezza 2s che sta intorno a O (figura qui sotto).
lim
n---++oo
I Xn I= O. Di conseguenza P[{w E n: lim
n---++oo
I Xn(w) I= o} =
0
J 1 e non c'è
cQC.
Oss. 1 Per quanto riguarda la Y della sezione dove si è trattato della approssimazione
y
di una Poisson con la normale si può affermare che ~ --+ O quasi certamente e quindi
in probabilità e in legge.
Vs > O : hm P .
n---+oo
[I------
X1 + ... + Xn
n
- µ I s] = hm.
~
n---+oo
P [I-
Xn - µ I ~ s] = O (11.14)
. se A si veri,fica
. { 1 .
Esempio 11.7.2 Sia Xi
lt . =
t· . Sappiamo che X 1 + ... + Xn rap-
0
a rimeni
presenta il numero di volte che A si verifica in n esperimenti. Poichè E[Xi] = p = P[A],
la 11.14 dice che la probabilità che la frequenza (proporzione) del verificarsi di A in n
esperimenti differisca dalla probabilità di A per più di s tende a zero al tendere di n
all'infinito.
Ecco come si comporta la media campionaria nel caso di un esperimento di Bernoulli:
1 P[Xi = l] = p
Xi= { o::;p::;1;
O P[Xi =O]= q
IV Legge forte Sia X 1 , X2, .. , , Xn,, .. una successione di va iid, ciascuna di media µ. Allora, si ha
P [ lim X n = µ] = 1 .
n-=
Dove X n è la media campionaria. Si noti che qui si considera la probabilità dell'evento
{w E !1: limn-= X n(w) =µ}.Si dimostra che la legge forte dei grandi numeri implica la legge debole.
281
detennina.zioni
l'!!:.!
n
2
n I
n
Xl+ .....+Xn
variabili
n
f ....
....
Supponiamo di non conoscere la qualità di una macchina, cioè la proporzione tra pezzi
buoni e pezzi totali prodotti. In buona sostanza non conosciamo la probabilità p che un
singolo pezzo sia difettoso. Il nostro scopo ora è quello di stimare il parametro p di una
popolazione B(l,p). La stima del parametro di una popolazione sarà affrontato in forma
generale nel capitolo 13, ma vediamone qui un paio di esempi.
con probabilità p
Vi· X= {
' ' ol con probabilità l - p
Utilizzare X n per stimare p e la legge debole per valutare quale deve essere almeno la
dimensione n del campione affinché sia I la probabilità che la differenza fra il valore vero
p della qualità della macchina e il suo valore stimato Xn non superi s, equivale a utilizzare
la disuguaglianza di Chebiscev. Vediamo. Sia s = 0.01, 1 = 0.95; si deve trovare n tale
che:
P[IXn - PI < 0.01] ~ 0.95
cioè
a~
P[IXn - PI< 0.01] ~ 1- o.it2 ~ 0.95
{I-Xn-p<O.l=
I } -{ Xn-P
fif!i<W
p(l-p)
0.01 }
p(l-p)
n -n-
e, per n grande, w
Xn-P
~ N(O; 1). Allora:
da cui:
0 ·01
)
~ 1.645 ~ 1~ 100.1.645vp(l~p) ~ vn~ 164.5vp(l-p)
n
1
dove, ricordando che Jp(l - p) ::; 2 si conclude che basta che sia:
164.5
yn ~ -- ~ n ~ [6765.1] + 1 = 6766
2 parte intera
- 1 n
dove, al solito X n = - I: Xi è la media campionaria.
n i=I
Qui Zn ,....,N(0, l) esattamente e non si usa il TCL perché Xi rv N(d, 1). Osserviamo
che l'incognita d (standardizzando) non ha influenza sulla distribuzione di Zn. Stiamo
cercando quanto deve valere n affinchè - l < X n - d < l con probabilità almeno uguale
a 0.99. Allora:
T T
Teoremino 11.7.6 Se A e B sono due va e An---+ A e Bn---+ B allora
T
An-Bn---+A-B.
2
Definizione 11.7.7 La quantità: S2 = n~iI:7= 1 (Xi-X) 2 = n~I [I:7= 1 X;-nX ]
si dice varianza campionaria {corretta) relativa al ccn (X 1 , X2, .. , Xn)'.
Teoremino 11.7.8 Sia X una popolazione di mediaµ e varianza o-2 finite allora
S~ = _l_ -.2---,(Xi
- Xn) 2 !:..,,
o-2
n-lL...,
i=l
Dim.: Infatti, considerato che ¾I:7= 1 X; è la media campionaria di X 2 , valgono le
seguenti relazioni:
- T
Xn ---+ E[X] legge debole
l.n L
'-'':
...d=l X i2 !:.+
E[X 2 ] legge debole
X; !:.+E 2 [X] teoremino 11. 7. 5
¾I:7= 1 X; - X;!:.+E[X 2] - E 2 [X] = var[X] teoremino 11. 7.6
dove y ~ O. Perciò
Oss. 4 Poichè x;,è una r di parametri n/2 e 1/2 si ricava immediatamente che
E[x;,] = $ = n; var[x;,] = (;/2~2 = 2n; mx~ (t) = ( 1_: 21 ) n/
2
(ltl < 1/2) n ~ l.
00
0.5
df=l
df=2
o 5 10 15 20 25 30
Oss. 5 Non c'è una sola chi-quadrato, ma ce ne sono infinite, tante quanti i
gradi di libertà. Il grafico della x;,
non è simmetrico rispetto all'origine, ma la sua parte
non nulla si estende da zero all'infinito. Ovviamente l'area totale sotto la curva è sempre
uguale a l. Nella figura qui sopra è evidenziato l'andamento delle curve di densità della
x2 al crescere dei df. Si noti che la Xi tende all 'oo quando x --+ O mentre la x~ vale 0.5
in ovr
v vedi nota storica in fondo al capitolo
Visi noti che le chi-quadro hanno massimo solo a partire da n 2".2. Per n = 2 il massimo è di frontiera
a) I 1 2 (chi-quadro) I b)
df-10
Supponiamo ora di avere una x2 con df = 10. Cerchiamo il valore 2 tale che l'area sotto x
la curva alla sua destra sia uguale a 0.05. Si tratta di trovare x2 (l - 0.05) = x2 (0.95).
Dalla tabella di Appendice 4 si ha x2 (0.95) = 18.3 (caso b} della figura)
Sussiste l'importante:
Questo teorema ci permette di legare una x2 con un campione (X1, X2, .. , Xn)' estratto
da una densità N(µ, a 2 ) (cioè Vi, X;,...., N(µ, a 2 ). La sua dimostrazione è banale. Basta
pensare che la fgm della somma di va indipendenti è il prodotto delle fgm di ogni singola
va e che una xt è una r(~, ½).
lRn=VEBV_j_
oppure
287
Vy E Ilr; :l!v E V; :l!e E V_!_: y = v +e
cioè ogni vettore di lRn può essere espresso in un solo modo come somma di un vettore
di V e di un vettore di V_!_.Ciò si può formulare anche dicendo che lRn è somma diretta
di Vedi V_]_.
Sia ora V C IRn un sottospazio vettoriale di lRn e sia P un operatore che proietta ortogo-
nalmente ogni vettore y E lRn su V. Come si può intuire dalle seguenti figure osservando VII
la situazione in JR2 ,
Ày
È noto che gli operatori lineari tra spazi vettoriali sono rappresentati da matrici.
Allora è evidente che, dal momento che y = (y1,y2, ... ,Yn)T E IRn, l'operazione di
proiezione
n
Py = I: YiPi
i=l
VIIFigura di sinistra, geometria elementare, si vede che P(y1 + y2) = Py2 +*e *= Py1 mentre
nella figura di destra ~ = ~ = 2. (teorema di Talete studiato alla scuola media) .
.Ày P(.Xy) .À
288 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
P(Py) = P 2 y = Py ===} p = p2
ciò implica
quindi
P=PT
cioè P è anche simmetrica VIII.
Scriviamo ora con una nuova simbologia,
Allora
IRn = IRk EBIRh
P=[h oh,k
ok,h
oh,h
] .I
' n
_ P = [ ok,k
oh,k
dove 0;,1 è la matrice di tipo (i; j) i cui elementi sono tutti zeri.
Fattorizzazione
Un proiettore si può fattorizzare come stabilito dal seguente
Lemma 11.8.6 Sia P (1..) un proiettore su IRn e sia k = rango(P). Allora esiste una
matrice ortogonale U di dimensione (n, k) tale che:
P=UUT I\
VIII Viceversa ogni operatore lineare H tale che H = H 2 = HT, è un proiettore ortogonale sul sottospazio
che è la sua immagine.
289
Vettori aleatori invece di vettori di costanti
Finora abbiamo parlato di vettori di costanti reali x. Consideriamo invece un vettore
aleatorio X = (X 1 , ... , Xn) T. Si dice che X vive in IRn. Sia P un proiettore ortogonale
di IRn su V. Il vettore PX è un vettore aleatorio che vive in V, cioè un vettore le cui
determinazioni stanno in V, mentre (In - P)X è un vettore aleatorio che vive in V_!_.
In appendice, nel paragrafo intitolato Matrici e vettori ci sono tutti i risultati che servono
per le trattazioni relative ai vettori aleatori (gaussiani), sia per quanto riguarda il teorema
di Cochran, sia per quanto riguarda la regressione lineare univariata e multivariata del
capitolo 15. Ma occorre fare una precisazione. Come abbiamo fatto qui sopra, nelle
formule in Appendice utilizziamo vettori di numeri e non vettori aleatori. Un vtan di
IRn non si trova mai in una posizione certa, come accade a un vettore numerico, ma ha una
probabilità di stare in certe zone di IRn piuttosto che in certe altre e questa probabilità
è descritta dalla fd o dalla ldp del vettore.
Vettori gaussiani
Sia ora X rv N(µ; C) il vettore definito in (10.7) del capitolo 10 e siano X1 e X2 due
vettori di dimensioni (p, 1) e (q, 1), p + q = n, tali che
Sia
(11.16)
dove Cn ha dimensione (p,p), C12 (p, q), C21 (q,p) e C22 (q, q) e dove C21 = Cf2 =
cov[X 1 , X2] secondo la definizione a pag. 186 data nel capitolo 9.
Sussiste il:
Teorema 11.8.8 Sia X rv N(µ; In) e P sia un proiettore ortogonale di rango k tale che
Pµ = O. Allora
e
Pµ=0 {::::::::}
uuTµ=0 {::::::::}
ur(UuTµ)=0 {::::::::}
{::::::::}
ur(UuTµ)=0 {::::::::}
hUTµ=0 {::::::::}
urµ=0.
Si conclude che
urx N(O; h)
,.__,
Cioè urx è un vettore gaussiano di dimensioni (k, 1) le cui k componenti sono N(O; 1).
È perciò evidente che I iurxII2 ,.__,x~ •-
Teorema 11.8.9 Sia X rv N(µ, In) un vtan normale di mediaµ e matrice di cova-
(n,1)
rianza In e siano P1 e P2due proiettori ortogonali su due sottospazi Vi e Vi tra loro
ortogonali. Allora:
1} PiX e P 2X sono indipendenti (oltre che ortogonali};
2) anche IIP1Xll 2 e IIP2Xll
2 sono indipendenti.
Dim.: P 1 X e P2 X sono congiuntamente gaussiani 1x perché ottenuti per trasformazioni
lineari da un vettore gaussiano. L'indipendenza segue dal fatto che sono incorrelati.
Infatti
cov[P1X, P2X] = Picov[X, X]Pi = P1InPi = O.
Infatti P1 e P2 sono proiettori ortogonali quindi PiP[ = P1P2. Inoltre i proiettori pro-
iettano su sottospazi ortogonali tra loro quindi PiP[ = P 1 P 2 = O, perchè P 2 v sta su
Vi ..l Vi quindi viene proiettato da P 1 nello O di Vi. I P;X sono dunque incorrelati e
quindi sono stocasticamente indipendenti.
Inoltre se P 1 X,P 2X sono indipendenti allora anche g 1 (P 1 X),g 2(P2X) {dove le g; sono
funzioni misurabili} sono indipendentix, il che conclude l'asserto •-
Teorema di Cochran
I teoremi (11.8.8) e (11.8.9) si generalizzano nei seguenti teoremi.
Teorema 11.8.10 di Cochran: Sia X
(n,1)
rv N(µ, a 2 In); X = (X 1 , ... , Xn)' un vtan
2) X.1 = PiX, ... ,Xk = PkX sono indipendenti (oltre che ortogonali};
3) anche IIP1Xll 2, ... , IIPkXll 2 sono indipendenti.
Dim.: P 1 X, ... , PkX sono congiuntamente gaussiani. Perciò se sono incorrelati sono
indipendenti. Ora:
i-/=j; cov[P;X,PjX] = P; cov[X, X]PT = a 2 PJnPT = a 2 P;PT = O.
Infatti, ragionando come in {11.8.9}, si conclude che i i=j; P;PT = O, quindi i P;X sono
incorrelati e stocasticamente indipendenti esattamente come i IIP;Xll2•-
rx [ ;~i] = [ ;~ ] X.
(2n,n)
xvedi capitolo 4.
291
Oss. 8 (In-Pi)X è ortogonale a PiX quindi, sempre per la gaussianità, PiX e (In-Pi)X
sono indipendenti e quindi anche IIPiXll 2 e ll(In - Pi)Xll 2 sono indipendenti.
Teorema 11.8.11 Se, oltre alle ipotesi del teorema di Cochran risulta P 1 µ = O,P2 µ =
O, ... ,Pkµ = O allora
Ma è evidente che
IIPYll 2 = IIP¾Xll 2 = ~ IIPXll 2
Il teorema risulta così dimostrato •-
Risultati collaterali
Teoremino 11.8.12 (:•) Sia V C IRn lo spazio vettoriale generato dal vettore ln =
(1, ... , l)'. Il proiettore ortogonale Pv di IRn su V è tale che PvX = (Xn, ... , Xn)'.
Dim.: Infatti Pv X è il vettore che sta su V a distanza minima da X. Quindi è il vettore
e = (c, ... , c)', dove lo scalare c deve rendere minima
Teorema 11.8.13 (:•) Sia X rv N(µ,CJ 2 ) e X= (Xi, ... , Xn)' un ccn da X. Siano Xn
e S2 rispettivamente media e vairianza campionaria corretta. Valgono le affermazioni
seguenti:
X n e S 2 sono indipendenti
s2
(n - 1) 2
(J
rv x;,-1
Dim. Sia V_!_lo spazio ortogonale a V generato da ln e sia P 1 X = X nln il proiettore
su V. Sappiamo che il proiettore su V_!_è P2 = In - P1. Applichiamolo a X; otteniamo:
Esempio in IR.2
Supponiamo di avere un vettore aleatorio gaussiano che vive in IR.2 così fatto:
(11.18)
Oss.: Più in generale se si vuole la matrice di proiezione ortogonale sullo spazio Vk ,di
dimensione k, generato dalle colonne u 1 , u2, ... , uk della matrice U = [u1 lu2I ... luk], U
di tipo (n, k), occorre fare questo conto:
P = U (UT U )- 1 UT
(n,n) (n,k) (k,n)(n,k) (k,n)
1 1 T
fx(x) = -e-·p x (11.19)
27!'
vive in IR.3 . La (11.19) è una campana bidimensionale a simmetria rotonda che con i
piani X3 = h o non ha intersezione, quando h supera il valore del maxfx(x), oppure
xEffi!. 2
l'intersezione rappresenta una circonferenza. Dovrebbe essere evidente che, comunque
si scelga una retta per l'origine, le 1000 determinazioni campionate di X si proiettano
secondo una distribuzione gaussiana.
293
x,=x 2
••
•
•
4 • x,
•
•• •
•
•
Altri risultati
Teoremino 11.8.14 (:•) Data X ,..., x;,e W indipendente da X, se Y = X+ W e se
y ,...,
x;,allora w ,..., m x;,_
Dim. Solo nell'ipotesi che W abbiafgm. Da Y = X +W segue che my(t) = mx+w(t) =
mx(t)mw(t).
. .
Quindi mw(t)
my(t)
= --(-) = (i!2tf 12
-- (-1-) (n-m)/2 •
mx t (- 1 -)m/2 l-2t
l-2t
Per capire quale può essere il significato di "gradi di libertà" si osservino le due chi-quadro:
(-")x;,= Zr + · · · + z~ = t (X;a-µ)
i=l
2; (-"-")x;,-1 S 2=
= (n;P t
i=l
(X;;_l[) 2
•
Nella somma (-") ci sono n quadrati indipendenti mentre nella somma (-"-") ce ne sono
solo n - l in quanto I:(X; - X) = O permette di ricavare una delle differenze (X; - X)
dalle altre n - l.
Vale il seguente:
Come conseguenza del teorema 11.8.15 (caso particolare del teorema 4.7.8) se X 1, X2
sono indipendenti anche Y1 = .fi(X1), Y2 = h(X2) lo sono e se Xi, X2, X3, X4, X5 sono
indipendenti anche Y1 = .fi (X3), Y2 = h(X2, X5), Y3 = h(X1, X4) lo sono.
Analogamente presi due campioni, ccn e ccm, da una popolazione qualunque, le relative
medie campionarie X l,n e X 2,m sono indipendenti in quanto si può pensare a un gruppo
di n + m va indipendenti e a X l,n come funzione (media aritmetica) delle prime ne a
X 1,m come funzione (media aritmetica) delle seconde m. Stesso discorso per le varianze
campionarie Sfne S§ m·
Importante. 'se abbiamo due popolazioni normali N(µ 1,CJ 2) e N(µ 2,CJ 2) di media
diversa e uguale varianza allora possiamo pensare a due ccn e ccm rispettivamente
estratti dalla prima e dalla seconda popolazione e alle rispettive medie campionarie X l,n
e X 2,m e varianze campionarie Sf,n e S§,m. I campioni estratti dalle due popolazioni sono
indipendenti, quindi X l,n,X 2,m e Sf.n ,S§.m sono indipendenti. Inoltre per il teorema
11.8.13 sono indipendenti anche X l,n,Sf,n e X2,m, S§.m· Allora tutte e quattro le va
sono indipendenti e si ha che (X l,n - X 2,m) ha media (µ 1 - µ 2) e scarto jCJ 2/n + CJ2/m
e che (x'i,n-X\m)-(µ1-µ 1).
2) ,..._,N(O,
o-yl/n+l/m
Enunciamo un teorema che ci porta alla scoperta di una nuova va.
r[(n + 1)/2] 1
f(t) = y"Jrnr(n/2) . [(t2 /n) + l] (n+l)/2; (-oo < t < +oo) (11.20)
(n-1) (X-µ)
La X~- 1 = ~ S 2 e la t = sI vn hanno un ruolo fondamentale nella teoria degli
stimatori e, più in generale, in statistica, quando si campiona da densità normali.
X 1vedi nota storica in fondo al capitolo
295
Esempio 11.8.18 Supponiamo di avere una t con 15 gradi di libertà (n = 15, campione
"piccolo") e cerchiamo il valore i tale che l'area sotto la curva alla destra di i sia 0.05
(e quindi quella a sinistra sia 0.95}. Usando la tabella dell'appendice 3, qui in parte
riportata, si ha: (caso a) della ,figura della pagina successiva) i= t(0.95) = 1.753.
b} Data una t con df = 14, trovare t(0.l) cioè un t(a) tale che l'area a sinistra di t(a)
sia 0.1. Per la simmetria della t si ha: t(0.l) = -t(0.9) = -1.345 (caso b} della ,figura
sopra).
c) Data una t con df = 16, trovare una valore i tale che P[I t I< i] = 0.95 (caso c) della
,figura). Sempre per ragioni di simmetria
i= t(0.95 + (1 - 0.95)/2) = t(0.975) = 2.120.
Poiché non ha media per Chy non vale il TCL. Si può anzi mostrare che per un cam-
pione casuale (X 1 , X2, .. Xh)' estratto da una densità di Cauchy come in (•) la media
campionaria Xh ha, per ogni h, sempre la stessa densità quindi non converge in legge a
una N(O, 1).
Più in generale la densità di Cauchy ha la seguente forma:
1 ~
(~>O).
f(x,0:,~)= 1r~{l+[(x-0:)/~]2} = 1r{~2+(x-0:)2}
Oss. 10 Se nella 11.20 poniamo n = l otteniamo la (•): quindi una t - Student con 1
grado di liberta è una Chy.
F- x~/n
- x~/m'
dove X~ e x;;,,sono indipendenti. Si scrive F rv Fn,m.
La funzione di densità fn,m(x) della va Fn,m, cioè la funzione tale che P[Fn,m :S u] =
f:(X)fn,m(x)dx è data da:
Ricordo che
m 2m 2 (n + m- 2)
media varianza
m-2 n(m - 2) 2 (m- 4)
n-2 m m 3n-2
moda mediana
n m+2 3m-2 n
297
I conti per modax 11 e le garanzie sulla approssimazione della medianaxm sono in nota.
Indichiamo invece con Fcx,n,mil lOOa-esimo punto percentile della va Fn,m, cioè il numero
tale che
P[Fn,m > Fcx,n,m]= a.
1
-- rv Fmn•
Fn,m '
1
-n-2
1 (-2m + mn - 2nx - mnx) x2
= K(n;m)2 1 1
-m+-n+l
(m+nx)2 2
d mn- 2m m n- 2
-fn m(x) =O{==} X=----=-----
dx ' 2n + mn m +2 n
XIIILa precisione è già molto buona se n 2".2 e m 2':2.
298 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
e, per definizione di quantile, si ottiene:
Cioè l'(l - ì)-quantile della Fm,n è il reciproco del ì-quantile della Fn,m (attenzione
allo scambio dei gradi di libertà).
La (11.21) è scritta utilizzando la simbologia dei quantili. Con i punti percentili la (11.21)
diventa:
a=P[Fnm
'
> Fanm]
' ~
=P[~ c.,n,m
> ~]n,m
1-a=P[~ o:,n,m
< ~]n,m =P[~ o,n,m
<Fm,n]
Nel 1893 Pearson conia il termine deviazione standard. Dal 1893 al 1912 scrive 18 articoli dal
titolo !vlathematical Contribution to the Theory of Evolution dove sono contenuti i suoi più
importanti risultati sulla regressione, la correlazione e il test chi-quadrato di buon adattamento
(1900).
Con Weldon e Galton, è il fondatore del giornale scientifico Biometrika.
XIV Cominciamo a osservare che, nella prima e nella quarta, la conoscenza diµ non influenza la risposta.
Da una popolazione N(µ,u 2 ) campionando si ha: Xn ~ N(µ, 0'
n
2
) mentre 8 2 = - 1-
n-1
I:(Xi - Xn) 2
n-1
è tale che -- 2 -8 2 ~ x;;_ 1 dove E[x;;_ 1 ] = n - 1 e var[x;;_ 1 ] = 2(n - 1).
O'
I:(Xi - µ) 2 1 u2
Poniamo V=
u2
= x;; ==} - I:(Xi
n
- µ) 2 = -V
n
e E[V] =ne var[V] = 2n
da cui
1 0'2
E[- I:(Xi - µ) 2 ] = -E[V] = u2
n n
1 u4 2u 4
var[- I:(Xi - µ) 2 ] = 2 var[V] = -
n n n
La prima domanda chiede se è vero che ~ I:(Xi - µ) 2 u2•
___!:___,
n
Le Xi sono indipendenti quindi anche le Yi = (Xi - µ) 2 sono indipendenti.
Allora per il teorema centrale
Yn - - L, Y,. ~
- _ 1" 2 2u 4
~ N(u , -).
n n
Per una va W di momento secondo finito Chebyscev garantisce che P[I W - µI 2': k] :CC:: va~[:']. Se
var[W] ----> O W converge in probabilità e in legge a µ. Ciò risponde alla prima, alla terza e alla quarta
domanda.
1 -2 L 2
La seconda domanda chiede se è vero che -- I:(Xi - Xn) -----> O' •
n-1
Le Xi - Xn sono indipendenti? No infatti osserviamo per esempio X2 -
Esercizio 11.12.3 Solo per studenti esperti Se X 1, X2, ... , Xn è una successione di
va indipendenti ed equidistribuite, di media µ:
D [J:'.J X1 + ... + Xn n-oo
__!:__,
a una va normale
D [J:'.J se VX;:3 la fgm di X; allora X1 + ... + Xn n-oo
__!:__,
a una va normale
'Vl D X, +X2+ ... +Xv __!:__,
µ
~ n n---+oo
X1+X2+ ... +Xn _ µ L
0D se VX;:3 la fgm di X; allora n
a/fa
-----+
n-oo
N (O, 1)
Esercizio 11.12.5 Si sommano 100 numeri positivi (ciascuno costituito da una parte
decimale e da una parte intera) arrotondando ogni addendo all'intero più vicino. Per
esempio 27.5 è arrotondato a 27 con un errore di 0.5 mentre 27.51 è arrotondato a 28
con un errore di -0.49. Siano X 1 , .... , X 100 gli errori di arrotondamento indipendenti e
uniformemente distribuiti nell'intervallo ] - 0.5, 0.5].
a) Qual è la media µ di X; e qual è la sua varianza a 2 ?
b} Qual è approssimativamente la distribuzione dell'errore totale Y = X 1 +X 2 +. +X 100
per il teorema centrale limite?
Esercizio Solo per studenti esperti Sia X= (Xi, X2, ... , Xn) un ccn da una
11.12.6
1
popolazione esponenziale di media ~. Allora:xv
Esercizio 11.12.7 Sia X,...., N(µ,a 2 ); sia X1,X2, ... ,Xn un campionamento da X.
Siano al solito Xn = Ì:
naria.
:i
e S~ = n~ 1 Ì:~=l (X; - .X) 2 la media e la varianza campio-
xv La prima è vera per la legge debole. La seconda è vera per il TCL considerando che E[XJ]
2 24 4
var[X]
J
+ E 2 [X]J = -À2 e che var[X 2]
J
= E[X J4 ] - E 2 [XJ2 ] = -À4 - -.
À4
1 1
La terza è vera perché posto (X 1 - '>,'
)2 = Y1 è I:(X 1 - '>,')2 = ¾ ¾I: Y1 che converge in probabilità
. .. 1 1 1
e qmnd1 m legge a E[Y1] = E[(X 1 - -)2] = var[(X 1 - -)] = 2
À À À
302 CAPITOLO 11. COMPORTAMENTI ASINTOTICI
00 :1;nµ "'N(0, 1)
00 Xn-µ "'N(0 1)
u/.,/n '
Stimatori e stime
1 1 (x - µ) 2 _ 1
f(x;h(19),k(µ)) = ~ · ::;iexp(- 2 ),(h(19) = ::a,k(µ) = µ).
V 21r u 219 u
Un parametro incognito nella fd significa che la funzione peso P dello spazio di probabilità
(O, A, P), dipende da un parametro non noto 19.
Nasce l'esigenza di ricavarli mediante osservazione, di farne cioè una stima. Si potrebbe
voler stimare la probabilità p che in un certo anno in Italia un bambino nasca maschio
o (che è lo stesso), la percentuale dei maschi sulla totalità dei nati), oppure l'altezza dei
giovani nati nel 1978, oppure ancora la probabilità che una certa moneta sia bilanciata.
Queste operazioni di stima avvengono utilizzando uno stimatore del parametro sconosciu-
to, cioè una funzione di un campione casuale estratto dalla popolazione che si vuole
esaminare. Trovato lo stimatore ne si calcola il valore osservando il campione estratto: a
questo punto ci si chiede quale probabilità si ha che questo valore possa "degnamente"
sostituire il valore incognito cercato.
- - 1 1~
X= Xn = -(X1
n
+ ... + Xn) = - ~X;
n
(12.1)
i=l
Può servire a stimareµ= E[X].
Esempio 12.1.6 Lancio di una moneta. Si deve valutare p = {probabilità che esca
testa}. Il campione casuale è fatto di n va di Bernoulli che possono assumere solo i
valori l o O. La media campionaria X n = ¾I::7= 1 X; ci dà la frequenza dell'uscita
di T in n lanci. Se, lanciando n volte la moneta, otteniamo k teste e (n - k) croci,
allora il valore assunto dalla media campionaria è ~. Quindi lo stimatore è: Tn =
Tn(X1, .. , Xn) = -;;I::7=
1 X;, mentre la sua stima è: ~-
Esempio 12.1.7 Nascite. La situazione è la stessa del caso precedente, con l = {nascita
di una femmina}.
Esempio 12.1.9 {O, 1,0,0,0, 1,0, 1, 1,0,0} sono i risultati ottenuti in 11 lanci indipen-
denti di una moneta. Calcolare i valori di X, S 2 , x;,_
1 , t su questo campione:
X -- IT
4 - 1 '-'n
- IT L..i=l X i,
. s2 -
-
1
11-1
(4 -
11 . m - IT5 - n-1i ("'nL..i=l x2 i -
16 ) - 28 -
·
Se nx2)
facciamo l'ulteriore ipotesi µ = 0.5, presupponendo si tratti di una moneta bilanciata
t = (4 I~
28/110
= -0.896 ex;, 1 ---+ (ll-~l/}1110 = 10.18 (a 2 = (0.5) · (0.5) = 1/4).
-
t = (X - µ)
S/fo
Chi-quadrato di Pearson:
Xn-1
2 = °"(Xi - X) = (n -
L.,
n
O'
- 2
a2
l) 82
i=l
Normale standard:
X-µ
Z=--
a/fo
12.2 Correttezza
Definizione 12.2.1 Uno stimatore T si dice corretto se E,9[T]= ,,J {il parametro che
si sta cercando). Uno stimatore non corretto si dice distorto.
Esempio 12.2.2 Se il parametro incognito è la media, la media campionaria è un suo
stimatore corretto.
Esempio 12.2.3 La varianza campionaria (corretta):
5* 2 = 5~2 = ~ f)xi - X) 2 .
(12.3)
n i=l
Si preferisce la definizione in 12.2 perché E[S 2] = a 2, cioè la media dello stimatore S 2 è
uguale alla varianza della popolazione. Calcolarla per esercizio_!
tt
i=l t=l
= (n~l) 1 ( var[Xi] + µ3.J- n ( var[X] + µ})} = (n~l) {t (0'2 + µ2) - n (:: + µ2)} = ...
Se 8 2 viene da una N(µ; 0'2 ) allora il conto si fa più semplicemente:
E [(n-.V 0
82 ] = E[x~_ 1] =, ..
307
Oss. 4 Sia (Xi, ... , Xn)' un campione casuale estratto da una popolazione di media µ
nota e varianza a 2 incognita. Come stimatore di a 2 si usa la statistica
S0
2
= -1 ~ 2
~ (Xi - µ) .
n i=i
La statistica S5 è uno stimatore corretto di a 2 .
Si noti che quando µ è incognita S5 non è una statistica e pertanto non può essere usato
come stimatore di a 2 .
Oss. 5 Come la varianza campionaria è uno stimatore non distorto della varianza della
popolazione, così si può dimostrare che la covarianza campionaria è uno stimatore non
distorto della covarianza della popolazione. Consideriamo un campione bivariato estrat-
to dalla popolazione (X, Y)r, dove X e Y sono due variabili aleatorie con covarianza
cov[X, Y] = E[(X - E[X])(Y - E[Y])]. Allora la covarianza campionaria è
n~lt(xi-Xn) (Y;-Yn)
i=i
ed è uno stimatore corretto di cov[X, Y].
Esempio 12.2.4 Supponiamo di estrarre un cc2 da una popolazione di media non nota
µ. Dire quali dei seguenti stimatori sono corretti per la media:
a) Y2 = tXi + ½X2
Sì, infatti: Eµ[Y2] = Eµ [tXi + ½X2] = tEµ[Xi] + ½Eµ[X2] = + tµ ½µ µ
=
b) Y2 = max[Xi, X2].
La risposta è negativa. Mostriamolo prima con un esempio.
Sia Xi (i= 1, 2) una va distribuita uniformemente su {O, 1, 2}. Sia Y2 = max(Xi, X2).
Dalla distribuzione congiunta del vta (Xi, X 2)' si ricava la ldp di Y2.
{Y2 = O} se {Xi= O,X2 = O}
{Y2 = l} se {Xi= l,X2 = O} U {Xi= O,X2 = l} U {Xi= l,X2 = l}
{Y2 = 2} se {Xi= 2, X2 = O}U{Xi = 2, X2 = l}U{Xi = 2, X2 = 2}U{Xi = 1, X2 = 2}U
{Xi= O,X2 = 2}
1 1 1
P[Y 2 =O]= 9;P[Y2 = l] = 3 9;P[Y2 = 2] = 5 9
1 10 13 1 2
Ora Eµ[max(Xi,X2)] = 3 + 9 = 9 -/=3 + 3 = Eµ[Xi] quindi Y2 non è uno stimatore
corretto di µ.
Più in generale poiché nel caso del cc X i e X 2 sono indipendenti ed equidistribuite la fd
di Y2 = max(Xi,X2) è data da 2Fx(x)fx(x) dove Fx(·) e fx(·) sono rispettivamente
la fdr e la fd della va Xi (i= l, 2). È allora evidente che in generale:
E[Y2] = J~;: 2xF(x)f(x)dx-/= J~;:
xf(x)dx = E[Xi] = µ.
È immediato verificare che se uno stimatore Tn è corretto (per ogni n) allora è anche
asintoticamente corretto.
308 CAPITOLO 12. STIMATORI E STIME
12.3 Stime asintotiche
Abbiamo definito t e x2 solo per campionamenti da popolazioni normali. Nella pratica
se si ha un campione abbastanza grande da poter considerare che la distribuzione di Xn
sia quasi normale, allora si può mostrare che si è autorizzati a ritenere (';;~ approssi-
mativamente una N. Vediamo a questo proposito il seguente teorema che ci permetterà
di giustificare un risultato ancora migliore.
12.4 Consistenza
Definizione 12.4.1 Si dice consistente uno stimatore Tn che gode della proprietà di
convergere in leggen al valore del parametro incognito, cioè tale che
lim P11[ITn-
n-oo
i?I< s] = 1. (12.5)
Il suo gra,fico è:
1 . ---------------------------------------------------------------
'
.5 ______________________________
.,. _____ ,9
'
.2 ___________
.., ____ 6 '
'
--------0-----0----------,---------
2 6 10
Oss. 6 Fn(x; X) è una statistica, cioè una funzione del campione casuale, quindi una
va.
. !
:
•
---]
F/x,X.) ~
..,:
----- r-
Per trovare la sua distribuzione procediamo così: per ogni osservazione X; definiamo la
sueguente va:
Q; = /(-oo,x] (X;)= { ~ ::
X; >x
X; :S X
N(x)
Fn(x; X) è la media campionaria delle Q;, cioè è Fn(x; X) = quindi
n n
P[N(x) = k] = P [Fn(x;X) = ~].
Poichè E[N(x)] = n · F(x), E [ N~x)] = E [Fn(x; X)] = F(x) (quindi Fn(x; X) è uno
stimatore corretto di F(x)).
Dalla legge debole dei grandi numeri, per n grande segue che:
Vi, "ix; P [1LnQi - E[Q;] I< é]= P [1N~x) - F(x) I< s] = P [IFn(x; X) - F(x) I< s]---+1
(12.7)
N
cioè -1:.2.= Fn(x; X) tende in probabilità a F(x), quindi Fn(x; X) è anche consistente.
n
311
12.6 Efficienza
Introduciamo i seguenti nuovi concetti.per rispondere a domande di questo tipo: 1)
quando uno stimatore si può considerare migliore di un altro? 2) per stimare la media è
migliore x 1 ":3 1
2x 2 oppure 2x 1 3x ? 3) cosa significa migliore?
O
(12.8)
per ogni valore possibile di 1?. Q è più efficiente di T se ha MSE minore o al più uguale
a quello di T.
Definizione 12.6.3 Se uno stimatore Q è tale che MSE 19(Q) ::; MSE 19(T) per ogni
altro stimatore T e per ogni valore di 1?, allora Q si dice stimatore ottimale di 1?.
La ricerca degli stimatori ottimali è un'impresa delicata, che richiede strumenti mate-
matici avanzati. Inoltre tale ricerca ha senso solo se si precisa una classe di stimatori
(soddisfacienti a certe condizioni) all'interno della quale avviene la ricerca. Non ha senso
ricercare uno stimatore ottimale tout court come mostra la seguente osservazione.
Consideriamo lo stimatore T = 1?0 assegnato qualunque sia il campione. MSE,9(T) =
E,9[(1?0 -1?) 2] è uguale a O per 1? = 1?0 . Per uno stimatore S preferibile a T si dovrebbe
avere O :S MS E,90 (S) :S MS E,90 (T) :S O. Ma 1?o era arbitrario quindi se esistesse uno
stimatore S di 1?ottimale fra tutti gli stimatori si dovrebbe avere '71?,MSE,9(S) =O(*).
Se non si precisano perciò condizioni sugli stimatori di un parametro tra i quali vogliamo
definire l'ottimalità l'unico ottimale possibile è sempre quello definito da (*).
Una classe interessante all'interno della quale può avvenire la ricerca di uno stimatore
ottimale è definita dalla seguente importante proprietà.
Si osservi la seguente relazione:
BIAS
,...~
E,9[(Q -1?)2] = E,9[Q 2] - 21?E,9[Q]+ 1?2 = var,9[Q] + {1?- E,9[Q]} 2 (12.9)
Può sembrare che E,9[(Q -1?)2] sia minimo (rispetto a 1?) quando il BIAS 1?- E,9[Q]
è minimo. Vediamo che ciò non è vero per un campionamento da una normale. Sia
S 2 la varianza campionaria: E[S 2] = a 2 per cui il BIAS è nullo e MSE 172(S 2) =
2 2 2
E 172[{ S - a } ] = var 172[S ] = ~~:. Prendiamo ora S* 2 = ¾I:~=l (X; - X) 2. Sappiamo
2
che S* 2 non è corretto perché E 172[S* 2] = E 172[ n~ 1S 2] = n~ 1a 2. Quindi, per la 12.8
MSE 172(S* 2)=E 172 [(n~ 1S 2 -a 2) 2] =var 17 2 [(n~ 1S 2 -a 2)]+{E[(n~ 1S 2 -a 2)]} 2 =
= (n-1)21L+(n-la2 - a2)2 = n2-2n+l 1..L+ 174= var 2[S2]- 3n-1174 < MSE 2(S2)
n n- 1 n n n- 1 ri"T u n- 1 ri"1 u
Nella classe degli stimatori corretti, MSE,9(Q) = E,9[(Q -1?)2] = E,9[(Q - E,9[1?])2]=
var,9[Q]; per cui la 12.8 si scrive var,9[Q] :S var,9[T].
Esempio 12.6.4 Siano X; e Xn due stimatori della media incognita µ di una popo-
lazione di varianza nota a 2 . Poiché E[Xi] = E[Xn] = µ sono entrambi non distorti.
MSEµ(X;) = a 2 mentre MSEµ(Xn) = ~. Quindi Xn è più efficiente di X;.
312 CAPITOLO 12. STIMATORI E STIME
Esempio 12.6.5 Consideriamo gli stimatori: Q 1 = x 1 "3 2X e Q 2 = 2x 1 0
tx3 2, dove X 1
e X 2 hanno mediaµ e varianza a 2 .
a) Sono corretti per la media?
Sì, infatti: Eµ[Q1] = Eµ [x1 "3 2x = ½Eµ[Xi] + tEµ[X2] = µ0
]
Eµ[Q 2] = Eµ [ x 2 1 3 t
x ] = ¾Eµ[Xi] + ¾Eµ[X2] = µ
2
Esercizio 12.6.1 Sia (X 1 , ... Xn) un ccn da una popolazione di mediaµ e varianza a 2 .
Calcolare l'efficienza di Xn rispetto a Xn-l·
Definizione 12.6.6 Se uno stimatore corretto Q è tale che var,9[Q] :S var,9[T] per ogni
altro stimatore corretto T e per ogni valore di 73, allora Q si dice stimatore a varianza
uniformemente minima {UMVUE) di 73.
Teoremino 12.6.7 Nella classe degli stimatori corretti per una popolazione N(µ, a 2 )
con µ e a 2 incogniti X e S 2 sono gli stimatori ottimali rispettivamente per la µ e a 2.
Abbiamo già detto della difficoltà nella ricerca degli stimatori ottimali. Se restringiamo
la nostra attenzione alla classe di quelli corretti quelli ottimali sono gli UMVUE. In
questa classe cercare un ottimale si riduce a cercare un UMVUE. Vedremo che tra
gli stimatori corretti, se valgono certe ipotesi di regolarità, ampiamente soddisfatte, è
possibile stabilire un confine inferiore per la loro varianza. Potremo perciò essere sicuri
di usare uno stimatore buono quando la sua varianza sarà vicina a tale confine. A tale
scopo premettiamo la seguente:
Definizione 12.6.8 Data una va X la cui fd f (x; 73) dipende da un parametro incognito
73, si dice quantità di informazione di Fisher la I(73) = E,9[{; 19 lnf(X;73)} 2].
Definizione 12.6.9 Uno stimatore corretto Q di 73si dice efficiente se var,9[Q] = nl~'9).
Esempio 12.6.10 Sia data una popolazione bernoulliana di parametro (incognito) 73.
Calcoliamo I(73). Osserviamo innanzitutto che è f(x; 73)= 73x(l - 73)1-x; x = O, l.
ln(f(X, 73)) = X · ln(73) + (1 - X)· ln(l - 73); d~ ln(f(X, 73)) = Abbiamo ¾- t::_~
.
ottenuto la va:
(K _ l-X)_ { i} con probabilità 73 (se X = l}
,9 1-'9 - ;::_~ con probabilità (l - 73) (se X= O)
Segue che:
(x l-x) 2 { -;b1 conprobabilità 73 (seX=l}
19 - 1 -'9 = (l-'9) 2 con probabilità (1 - 73) (se X = O}
1 1 73(1-73)
Oss. 8 -- = ---------~ = ---
nI(73) nE,9 [ L~ln(f(X, 73))}2] n
313
Esempio 12.6.11 Consideriamo ora Xn = I:~- Sappiamo che Xn è uno stimato-
i
,9(1-,9) __ l_
re corretto per la media iJ. Poiché var,9[I:: ~] n - nJ(,9)
Teorema 12.6.12 (Rao-Cramer ). Data una va X di densità f (x; iJ) il cui supporto
non dipenda da iJ. Sotto ampie ipotesi di regolarità su f(x; iJ) (che valgono per tutte le
densità viste finora, vedi [MGBJ) se Q(X1,X2, ... ,Xn) è uno stimatore corretto di iJ
allora:
1 1
var,9[Q] ~ nI(iJ) = nE,9[{~lnf(X;iJ)}2]
(12.10)
Sotto le stesse ampie ipotesi di regolarità se Q è uno stimatore corretto per g( iJ) allora
la 11.6 si scrive:
[g'(iJ)]2 [g'(iJ) ]2
var,9[Q] ~ nI(iJ) = nE,9[{~lnf(X;iJ)}2]
(12.11)
Oss. 9 Se oltre alle ipotesi di regolarità previste dal teorema di Rao-Cramer per la den-
sità f(x; iJ) (in particolare che il suo supporto non dipenda da iJ) si chiede un po' di più
sulla sua derivabilità, allora vale la seguente:
(12.12)
iJ ) l{l,2,3,4,s}(x)
ijl{l,2,3,4,5}(x1{1- 5iJ)l-I{l,2,3,4,5}(x) = ( l - SiJ . (1- 5iJ)J{l, 2 , 3 ,4 ,5,6 }(x)
(12.14)
dove I (x ) - { 1 se x = l, 2, 3, 4, 5 ·
{l, 2 ,3 ,4 ,5 } - O altrove '
Qui di seguito indicheremo J{l, 2 ,3 ,4 ,5}(x) semplicemente con J{l, 5}(x).
Calcoliamo la quantità di informazione di Fisher per 12.14
l{ls}(x) } ( )
ln(f(x; iJ)) = ln {( 1_19 519) ' · (1 - 5iJ) = J{l, 5} (x) · ln 1_19
519 + ln(l - 5iJ) =
= J{l, 5}(x) [ln iJ - ln(l - 5iJ)] + ln(l - 5iJ).
J19ln(f(x; iJ) = I{l,5}(x) [ ½+ 1_\,9] - 1_\,9 = I{l,5}(x) [ '9(1~5'9)] - 1-\,9
314 CAPITOLO 12. STIMATORI E STIME
ln(f(X;1?)]2] = [11(1~511JrE11[If1,5}(X)]+
E11[[a'111 (12.15)
2
+E11[(1_ ; 11)2] - 19(1~~19)2 E11[I{l,5}(X)]
g(uo) + g' (u) lu=uo(u - uo) è perciò tanto migliore, quanto più
L'approssimazione g(u) '.::::'.
piccolo è (u - uo).
Sia ora X una va e g(X) una sua funzione sviluppabile in un intorno di uo = E[X].
Allora:
g(E[X]) + g'(u)lu=E[X] (X - E[X])
g(X) '.::::'.
L'approssimazione è tanto migliore quanto più piccolo è (X - E[X]) cioè quanto più
piccola è var[X]. Allora poiché E[g(X)] = E [g(E[X]) + g'(u)lu=E[X] (X - E[X])] è:
E[g(X)] '.::::'.
g(E[X])
e l'approssimazione è tanto migliore quanto più X è vicina a E[X], cioè quanto più piccola
è la sua varianza. L'approssimazione è perfetta se var[X] = O cioè se X = e è degenere.
In questo caso, e solo in questo caso, E[X] = e, g(X) = g(c) e quindi E[g(X)] = g(E[X]).
Geometrica
Prendiamo per esempio la media campionaria della va geometrica X n stima la media !
p
quindi 1 è uno stimatore di p. Consideriamo la funzione g(u) = .!_e scriviamo il suo
Xn u
sviluppo in serie di Taylor nell'intorno di uo arrestato al primo ordine. Se (u - uo) è
abbastanza piccolo:
g(u) '.::::'.
g(uo) + g'(u)lu=uo (u - uo) = g(uo) + - : 2 1u=uo (u - uo).
- 1 1 -
Se prendiamo u = X n e uo = - allora =- = g (X n) e g (uo) = p mentre la relazione
P Xn
precedente diventa:
1 '.::::'.p+- 1 I (Xn-!)=p-p2(Xn-!)
Xn Xn 2 Xn=.!p P P
_ 1L 1 1-p
var[X n] = var[- X;] = 2 n var[X] = -- 2
n n np
cioè quanto più grande è n.
p - p 2(X n -
Quindi se X n è quasi normale anche g(X n) '.::::'. ! ) è quasi
p
normale (a patto
g(u) '.::::'.
g(u 0 ) + g' (u)lu=uo (u - uo) = g(uo) + - : 2 1u=uo(u - uo)
- 1 1 -
Se prendiamo u = X n e uo = A allora =- = g(X n) e la relazione precedente diventa:
Xn
- 1 - 1
L'approssimazione è tanto migliore quanto più piccolo è (Xn - A). Poiché E[Xn] = A'
- - - 1
(X n - E[X nD sarà tanto più piccolo quanto più vicina a O sarà la var[X n] = -- 2 cioè
nÀ
quanto più grande è n.
Poiché X n è quasi normale (via Tcl) anche 1 '.::::'.
À - À 2 (X n - ~), quasi trasformazione
Xn À
- - 1
lineare di X n quando X n è vicino a A (e quindi quando la sua varianza è vicina a O), è
quasi normale.
1
Perciò =- è asintoticamente normale, asintoticamente corretto e consitente.
Xn
Poisson
Prendiamo ancora X rv Pois(À). X n stima À e, via Tcl, X n è asintoticamente normale,
corretto e consistente.
Bernoulli
Prendiamo infine una va di Bernoulli X di parametro p. X n stima p e, via Tcl, X n è
asintoticamente normale, corretto e consistente.
Binomiale
Analogo discorso per una va binomiale X rv B(m,p) di parametro p. Xn stima mp e,
via Tcl, X n è asintoticamente normale, corretto e consistente.
Oss. 11 Importante. La consistenza di alcuni stimatori qui citati può essere decisa
con i teoremini del paragrafo 11. 7. Per esempio per quanto riguarda la distribuzione
di una va geometrica X, poiché per la legge debole dei grandi numeri X n .I..+µ x = !
p
allora g(Xn) = 1 .I..+g( ! ) = p, quindi è consistente. Stessa cosa per l'esponenziale:
Xn p
- T l 1 T l
Xn-----+ µx = - allora g(Xn) = =------+ g(-) = À, quindi è consistente.
À Xn À
317
12.8 Metodi per la ricerca di uno stimatore
In pratica finora abbiamo visto solo due stimatori: la media campionaria Xn = I:;,,Xi
e la varianza campionaria S2 = I: (:~~x)2 Abbiamo visto che sono stimatori non
distorti di µ e a 2 . Non abbiamo però ancora visto come si va alla ricerca di uno stima-
tore. Esporremo brevemente solo due metodi: quello dei momenti e quello di massima
verosimiglianza.
Esempio 12.8.1 Supponiamo di voler stimare sia la media µ che la varianza a 2 uti-
.
lizzan do un ccn d a una popo lazione
. norma l e. P oic a 2==E[X]
. h,e: { µ E[X 2] _ E[X]2 , con i'l
d d . . . h { µ = g(E[X]) E[X] =
meto o ei momenti si a: a2 = g(E[X], E[X2]) = E[X2] _ E[X]2
Usiamo: M 1 = I:~Xi per stimare E[X]; M 2 = I:'nxf per stimare E[X 2]. Quindi:
'
µ= ~ n =X,
{ a,2 = ~
I: X2 - (I:~Xi) 2 = ==-----'-'--
I: X2 -nX 2 _ I:-(Xi-X) 2 __ 5•2.
n n n ~ n
(*)
n.b.: È noto che f (X; -
i=l
X) =
2 f: X'f
i=l
- nX 2 quindi(*).
Per quanto riguarda la stima {J i valori (xi, ... , Xn) sono fissati e rappresentano le
determinazioni di (Xi, ... ,Xn) osservate sul campione.
Nella ricerca del massimo di L(iJ; Xi, .. , Xn) è utile tenere presente che L(iJ; Xi, .. , Xn) e
ln[L(iJ;xi, .. ,xn)] hanno il massimo nello stesso valore fJ. Quindi a volte cercheremo
il valore che massimizza ln[fx,(xi;iJ) · ... · fxn(xn;iJ)] invece di quello che massimizza
fx,(xi;iJ) · ... · fxn(xn;iJ).
d lnfx,.x
[
i=
(xi, .. ,,XniP) l =---i=i
Xi (n -
i=i
i=
Xi)
-d
p "n p l-p
Il valore che annulla la derivata è perciò il valore p tale che:
I:17,1 Xi= (n-~}fi 1 Xi) cioè p = I:;'~,Xi = Xn (valore di Xn sul campione) e lo stimatore
è P = Xn, Si può infatti verificare che è un massimo per la funzione in esame.
Esempio 12.8. 7 Sia data una popolazione con distribuzione di Poisson di media À in-
e->-,\ xi
cognita. Consideriamo un ccn (Xi, ... , Xn), dove ogni Xi ha densità -- 1 -. Per
Xi,
e-,\Àx, e-,\ÀXn e-nÀ,\LXi
l'indipendenza delle Xi, si ha: fx,,,,Xn(xi, .,Xni À) = -- 1 - • .. , • I
Xi, Xn, Xi!"· Xn!
319
n n
Allora: log[fx,,.,Xn (xi, ... Xni >..)]= -n>..+ I: Xi ·ln À-ln c dove c = IT(xi!) non dipende
i=l i=l
da À. Derivando:
n
I: Xi
d ln [fx,,.,Xn ( X1,
d).. ., Xni À )] = -n i=l
+ -À-
n
I: Xi
Il valore di À che annulla questa espressione è i=In = Xn e si verifica
. che è un massimo.
f Xi
Se in quest'ultima sostituiamo ai valori osservati Xi le va Xi otteniamo i=~ = Xn che
è lo stimatore MLE di À.
Supponiamo, per esempio, che il numero di persone che entrano nello spaccio di una
manifattura di scarpe sia una va X con distribuzione di Poisson di media À. Ricordiamo
che P[Xi = x] = e-:r
è la probabilità che entrino nello spaccio X persone in un processo
di Poisson con media giornaliera À. Se dopo 20 giorni di controlli siano state contate
857 persone entrate nello spaccio, allora la stima MLE di À (media giornaliera) è: À =
LI~)
20
Xi -
-
857 - 42 85
20 - . .
Torniamo allo stimatore X n e vediamo le sue proprietà.
Poichè À è la media della distribuzione si sa che X n è corretto. Vediamo se è efficiente.
I(>..)= E>-[{;>-lnf(X; >..)}2] = -E>-[,t; lnf(X;>..)] = -E>-[-i] = pE>-[X] = fo = ½-
Quindi il confine inferiore di Rao-Cramer risulta essere nl(.\) = ~.
Poichè var,9 [X n] = ;b var,9 [I:Xi] = ;b · nÀ = ~ si conclude che X n è efficiente.
Esempio 12.8.8 Vediamo cosa succede con una va normale con media µ e varianza a 2
ignote. Supponiamo di avere un ccn (X1, ... , Xn) da questa popolazione:
fx,,,,xn(x1,.,xn;µ,a) = i=l rr
n 1
av27fexp
[-(xi-µ)
2a2
2]
Px:,-
A
: : µ)']
,;,
Si può veri.ficare che i valori trovati rappresentano effettivamente un punto di massimo.
Se in queste ultime sostituiamo alle osservazioni Xi le va Xi otteniamo gli stimatori
MLE diµ e a rispettivamente.
e -------~
Basta che una delle due
osservazioni x 1 o x 2 cada
fuori dall'intervallo (O,0)
perché la L sia nulla.
9 XJ
Teoremino 12.8.10 Se esiste uno stimatore efficiente per g(iJ) (iJ parametro incognito),
questo è l'unico stimatore MLE per g(iJ).
(12.16)
o, ragionando in termini di standardizzata di Tn (essendo <I>(·)la fdr di N(O, 1)):
Teorema 12.8.13 Se la fd f (·; 73) di una popolazione soddisfa certe condizioni di rego-
larità e se È>n= È>n(X1 , ... , Xn) è uno stimatore MLE di 73la va
(12.18)
Un po' ingenuamente si potrebbe dire che, se per n grande à~ approssima var(È>n), allora
~ e è~ tendono ad avere approssimativamente la stessa fdr.
VO'n
Esempio 12.8.16 Consideriamo una popolazione binomiale B(3, 'IJ) cioè con fdd data
da
f(x;'IJ)= ( ! ),,Jx(l-'IJ) 3-xf{o,1,2,3}(x) (&).
a) esiste uno stimatore efficiente per 'IJ?
b} qual è lo stimatore MLE di '13'= 1 ~t9?
1
Soluzione. a) Consideriamo lo stimatore Tn = - I:; X;. Poichè le X; sono distribuite
3n
secondo la(•) E,9[X;] = 3'13e var,9[X;] = 3'13(1- '13). Quindi Tn è corretto. Infatti:
-LX;
E,9 [ 1
3n
i
l 1 n
= -I:E,9[X;]
3n
i=l
='IJ.
3- 0 } sex=
ln{(~)'IJ0 (1- '13) O
. 1
_ { ln{(r)7J (1-'13) 3- 1}sex=l
Ora ln(f(x,'13)) - ln{G}7J2(l - '13)3-2}sex= 2
ln{G}7J3(1- '13) 3- 3} sex= 3
3-x l{o,1,2,3}(x)} =
= ln{ ( : ) '/Jx(l - '13)
={in(:) +xln'IJ+(3-x)ln(l-'IJ)}/{o,1,2,3}(x).
E,9 [[ft9ln(f(X; '13}]2]= E,9 [X2 ~ 6'/JX + 9'132]= 2 1 {E,9[X2] - 18'132+ 9'132}=
,,J (1 - 7J)2 ,,J (1 - 7J)2
= 1 {E [X2] - E 2[X]} = var,9[X] = 3'13(1- '13) = 3
'132(1_ 7J)2 t9 t9 '132(1_ 7J)2 '132(1_ 7J)2 '13(1_ '13)'
1
Calcoliamo la varianza di Tn: var,9[Tn]= var,9[- I:, X;]= g::3
1 3n'IJ(l - '13).La varianza
3n ' n
di Tn raggiunge il confine inferiore di Rao-Cramer, quindi Tn è efficiente.
n.b.: Abbiamo utilizzato il seguente fatto per I:7=1 X;. Ciascuna X; è una B(3, 'IJ) con
fgm [(l - '13)+ 7Jet]3. Per un noto teorema la fgm di una somma di n va indipen-
denti {che in questo caso sono anche equidistribuite) è il prodotto delle singole fgm.
Perciò mL x.(t) = [(l - '13)+ ,,Jet]3 n che è la fgm di una B(3n, '13). Da questo segue
immediatamente che E,9 [B(3n, '13)]= 3n'IJ e var,9[B(3n, '13)]= 3n'IJ(l - '13).
b) Poichè Tn è efficiente (e dato che valgono le ampie ipotesi di regolarità richieste dal
teor.12.8.10) Tn è uno stimatore MLE. Per Tn vale perciò il pdi per cui uno stimatore
MLE di
,,J' = _1_ è T' = _1_ = 1
l+t9 n l+Tn l+l 3n "C""
L.,i
X
i
nS 2
Sappiamo che var,9[-f-l = var,9[x;,] = 2n.
nS5 2 2
var,9[~]
n2
= 'J'2"var,9[S0 ] {::} var,9[S0 ] = n2t9
2
= iJ.
1
Poichè S5 è uno stimatore MLE per iJ, dal pdi segue che (S5)2 = S15 è uno stimatore
2S 4
MLE per iJ2 e che - 0 è uno stimatoreMLE per iJ'.
n
lxi 2- lxl
f(x;0) = (;)2 (1-0)-2-;x = -2,0,2 e0 E 8.
1
a) e= (O,2)
se 0* '.S -
0*
se 0* 2: -
324 CAPITOLO 12. STIMATORI E STIME
12.9 Riepilogo sul concetto di stimatore
asintoticamente corretti
IStimatori I ~-----~
corretti
e onsistenti
Data una popolazione e un ccn (X 1, ... , Xn) estratto da essa, si dice statistica una
funzione g(X1, ... , Xn) che dipende dal campione ma non dipenda da alcun parametro
incognito eventualmente presente nella distribuzione della popolazione. Una statistica
usata per stimare un parametro si dice stimatore.
Le proprietà richieste a uno stimatore in ordine di importanza sono:
1) Consistenza (convergenza in probabilità al parametro);
2) Correttezza (media uguale al parametro);
3) Efficienza (tra più stimatori corretti, quello che ha varianza minima).
Il metodo dei momenti e quello di massima verosimiglianza sono due metodi per cercare
uno stimatore.
V~Vl:F corretto
asintoticamente corretto
con varianza che tende a O per n --+ +oo
nessuna delle precedenti
Esercizio 12.10.3 Sia X una popolazione con densità f x (x; 19). Sotto ampie ipotesi
uno stimatore MLE Jn di 19 è:
[!J [TI tale che E[Jn] = 19
[!] [TI tale che x-+oo
lim E[Jn] = 19
[!] [TI sempre migliore di ogni stimatore ottenuto con il metodo dei momenti
[!] [TI tale che lim P(IJn -191 > s) = O
n-+oo
[!] [TI dotato della proprietà: g(Jn) è uno stimatore MLE per g(19)
Esercizio 12.10.4 Siano X; osservazioni da una popolazione normale X di media µ e
varianza a 2 incognite e S,; = n~l I:;(X;-Xn)2,S5 =¾I: ;(X;-µ) 2 . Apporre i corretti
valori di verità alle seguenti affermazioni:
52
Q = (n - I)-% è una quantità pivotale
2 a
(n - l )2sn "'Xn-2 l
2 a
117111?1 So ( o-2 )
~~ n 2 "'N µ,,:;:
a
Esercizio 12.10.5 Uno stimatore non distorto per 19 è efficiente quando:
V~ I F: I raggiunge il confine inferiore della disuguagliama di Raa Cramer
tra tutti gli stimatori non distorti per 19ha la varianza più piccola
ha varianza più piccola di ogni altro stimatore di 19
326 CAPITOLO 12. STIMATORI E STIME
Esercizio
V~ § 12.10.6 Se X è una
X 2 è uno stimatore
X 2 / 0' 2 è distribuita
singola osservazione da una popolazione N(O, 0' 2 )
corretto per 0' 2
come una XI
X/ O" è una quantità pi votale
~
3
T2 = max[X1, X2]
T3 = ~X1 + ½X2
T4=yX1+X2
IV Per migliore intendiamo uno stimatore con migliori proprietà. Da questo punto di vista la correttezza
asintotica, la consistenza, la asintoticità a una distribuzione normale, fanno preferire, in generale, un
MLE a uno stimatore ottenuto col metodo dei momenti.
327
Esercizio 12.10.13 Data una qualunque popolazione la cui distribuzione dipende da un
parametro 0 incognito, indichiamo con Q una statistica e con q una sua determinazione,
cioè la stima. Allora:
V F la statistica è una variabile aleatoria
la statistica è una quantità pivotale
una quantità pivotale è una va che non contiene il parametro incognito
la stima q è una variabile aleatoria
uno stimatore di 0 è una statistica Q
l
Esercizio 12.10.14 Data la densità di probabilità f(x,0) = 0I1o,2 01(x);0 > O, indichia-
mo con L(X, 0) la funzione di verosimiglianza, dove X= (Xi, X2, ... , Xn) è un campione
casuale di dimensione n. In questo caso lo stimatore di massima verosimiglianza della
media 0:
;1 è la media campionaria X n
Rispondere agli stessi quesiti con f(x,0)
l
si trova tra le soluzioni di 0L(X, 0) = O
non esiste perché il supporto della densità f dipende 0
è uguale a ½max[X1, ... , Xn]
= l0I1-0,01(x);0 >O
Esercizio 12.10.16 Uno stimatore corretto di un certo parametro incognito di una data
popolazione
V F ha sempre varianza che tende a O per n ----+ +oo
V F è necessariamente consistente
V F è una variabile casuale
V F è una quantità pivotale
V F è necessariamente asintoticamente corretto
Esercizio 12.10.17 Sia X una va da una popolazione f x (x; >.) = :; e->-I{o,i, ...}(x)
dove À > O non è noto. Siano T 1 (X) = X e T2(X) = 1 due stimatori di À basati sulla
scelta di un particolare campione di dimensione 1.
~
T1 è corretto
F T 2 è corretto
F T 1 ha un errore quadratico medio inferiore a quello di T 2 per VÀ
con lo stesso campione T1 è anche lo stimatore
ITJ[TI { di massima verosimiglianza di À
con lo stesso campione T1 è anche lo stimatore
ITJ[TI { determinato col metodo dei momenti di À
Esercizio 12.10.18 Siano X; n osservazioni da una popolazione f (x, 0) di parametro
incognito 0. Dato uno stimatore Tn = T(X 1 , .• ,Xn) mettere il corretto valore di verità
alle seguenti affermazioni
328 CAPITOLO 12. STIMATORI E STIME
OJ[TI se lim E[Tn] = O allora Tn è asintoticamente corretto
n---++oo
I
affermazioni sono vere sotto ampie ipotesi: uno stimatore
F
F
F
corretto è asintoticamente corretto
corretto è efficiente
efficiente è corretto
consistente è asintoticamente corretto
Esercizio 12.10.20 Data una popolazione con densità f(x; i?) essendo i? un parametro
incognito da stimare. Sia (Xi,X2, .... ,Xn) un ccn da f(x;i?). Sia Yn = Y(Xi,-,Xn)
uno stimatore di i?. Dire quale o quali delle seguenti implicazioni, riguardanti le proprietà
dello stimatore, sono vere sotto ampie ipotesi:
uno stimatore corretto è più efficiente di uno distorto
uno stimatore MLE è consistente (almeno in ampie ipotesi}
esistono stimatori consistenti che sono asintoticamente corretti
uno stimatore MLE può non esistere
P-p
Z = è approssimativamente una N(O, 1)
Vf5(i;;,f5)
Esercizio 12.10.22 Data una popolazione con densità f(x; i?) essendo i? un parametro
incognito da stimare. Sia (Xi,X2, .... ,Xn) un ccn da f(x;i?). Sia Yn = Y(Xi,-,Xn)
uno stimatore di i?. Dire quale o quali delle seguenti affermazioni, sono vere sotto ampie
ipotesi: uno stimatore
F corretto è consistente
consistente è corretto
asintoticamente corretto è consistente
efficiente allora è consistente
asintoticamente corretto e con varianza infinitesima è consistente
Esercizio 12.10.23 Usualmente lo stimatore di massima verosimiglianza di un para-
metro À di un campione casuale Xi, X2, ... Xn estratto da una popolazione di densità
f (x; ..\) si ottiene:
V~ I F: I derivanda ri,pvtta a ,\ la funrianv di vvro,imiglianw
applicando il metodo dei momenti
utilizzando la distribuzione x2
Capitolo 13
Oh Dio, potrei star chiuso in un guscio di noce
e credermi re dell'infìnito ...
ma faccio brutti sogni.
William Shakespeare (1564-1616} - Amleto
Il leone e il vitello
giaceranno insieme
ma il vitello
dormirà ben poco.
Woody Allen (1935}
Stima intervallare
f!!J.o-----~f---iD s:2
S1C>-----ID S2
S10-- ..t~----D s2
S1C i D s2
eeegulte M ouervazlonl
S10-----S-1_0 _____.
__t'='-D_S=2---------1D S2
di dimensione n, Il 1OOyl".
s 1o f D s2 degli M Intervalii corrtepondentl
s1c I o s2
s1o----a s2
contiene Il parametro T(fJ)
510 T D S2
Definizione 13.0.1 Dato un ccn (X 1, ., Xn) estratto da una densità f(x; i?) si consi-
derino le due statistiche S1 = S1(X1, .. ,,Xn) e S2 = S2(X1, ... ,Xn) tali che P[S1::;
T(i?)::; S 2] = ì,' O< ì < l; ì indipendente da i?. L'intervallo aleatorio [S1,S 2] si dice
intervallo di confidenza al lOOì % (Ic) del parametro r('I?). -y si dice livello di
330 CAPITOLO 13. STIMA INTERVALLARE
confidenza 1.
Oss. 1 [Si, S2] è un intervallo aleatorio ed è il vero Ic. Per ogni osservazione (xi,., Xn)
di dimensione n, l'intervallo non più aleatorio (s1, s2), dove s; è il valore di S;(X1, ., Xn)
sull'osservazione (x1, .,xn), viene ancora impropriamente chiamato Ic.
Si potrebbe pensare che aumentando il livello di confidenza migliori la precisione nella
stima di T(i?). In realtà accade il contrario come mostra l'aneddoto seguente:
Livello d i Ampiezza
Il sig.'I\1b i chiede a
Ri spo sta confidenza intervallo
un idrauli co : avrò il mio
delll ' idrauli co vo luto d a di
rubinett o rip a rato entro
'I\1b i confidenza
1 anno? Non ci so no dubbi. 99.99999% 1 anno
1 me se? Qua si ce rt a mente . 95 % 1 mese
1 se ttimana? È prob ab ile. 50 % 1 se ttimana
1 giorno? No n ne so no sicuro. 25% 1 giorno
1 ora? P enso di no. 0 ,1% 1 ora
(<52 nota)
Intervallo di confidenza bilatero
Sia X una va da una popolazione normale di media incognita µ e varianza nota a 2 .
Supponiamo di estrarre un ccn da tale popolazione. Cerchiamo un le al 100"( % per
1Alcuni testi usano una diversa notazione. Più precisamente parlano di intervallo di confidenza al
100(1 - a) per cento definendo e, coefficiente di significatività.
IIL'intervallo di confidenza con limite inferiore (o superiore) si definisce anche intervallo unilaterale
destro ( o unilaterale sinistro).
331
µ utilizzando come stimatore la media campionaria X n · L'intervallo cercato sarà del
tipo [Xn - ò, X n + ò]. Ciò significa che IX n - µI < ò. Sappiamo che se la popolazione
è normale , X n ha distribuzione normale. Quindi la quantità pi votale: Z = ': ;":;'*
è una
Figura 13-1 :
[X nvn
_ ~<I>-1( 1 + ì)· X + ~<I>-1( 1 + ì)]
2 ,nvn 2.
(13.2)
il che ci fa intuire, la filosofia "utilizzata" per trovare l'intervallo di confidenza della media
di una popolazione normale (ma anche, più avanti della media di una popolazione non
normale e della varianza di una popolazione normale). Questa filosofia è strettamente
legata al concetto di stima. Se stiamo stimando un parametro cercheremo di trovare un
intorno "piccolo" del parametro stesso,diciamo (µ - ò, µ + ò), dove lo stimatore abbia
una elevata probabilità (diciamo ì) di finire. La dimensione dell'intorno è conseguenza
332 CAPITOLO 13. STIMA INTERVALLARE
del valore della confidenza 'Y· È evidente che far finire lo stimatore vicino aµ equivale a
A volte non interessa una stima intervallare del parametro con due limiti, superiore e
inferiore. Può essere che uno solo basti. Se per esempio ci preoccupa il fatto che µ (che
non conosciamo) sia troppo bassa vorremo essere confidenti al 100"(% che µ appartenga
a un intervallo illimitato a destra ma inferiormente limitato a sinistra (cioè che sia
più grande del limite sinistro con probabilità "f). Per trovare un intervallo siffatto
X-µ
P[ O'/fo::;a]= 'Y::::}a= <I>-1 ('Y).
Xn - 8 µ
(13.3)
333
Esempio 13.1.1 Una centrale del latte deve decidere da chi acquistare i contenitori
di cartone per vendere il prodotto. Uno dei parametri di decisione è la robustezza dei
contenitori. La resistenza alla pressione delle pareti è perciò un parametro importante. Si
sa che è ragionevole considerare tale resistenza ben rappresentata da una va X (espressa
in kg/cm 2 ) normalmente distribuita di media incognita µ e devianza a = 3 (kg/cm 2 ).
Per stimare µ un tecnico del controllo qualità della centrale sceglie un cc25 e trova che
Xn = 31 (kg/cm 2 ), valore della media campionaria sull'osservazione fatta. Si cerca un
intervallo di confidenza al g5% perµ.
Soluzione. Sappiamo che Xn - ~<I>- 1 ('1'!
1)::; µ::; Xn + ~<I>- 1 (1'!
1). Quindi:
3 3
x nv25
_ --<I>-1(0.95±1)
2
<µ <x +
--nv25 --<I>-1(0.95+1)::::}
2
1.96 1.96
::::}31 - 3 · - 5 <- µ <
- 31 + 3 · - 5 ::::}29.824 -< µ <
- 32.176 (.)
a
L 'accuratezza dell'intervallo (.) è fa <I>-1( ~). Quindi possiamo essere confidenti al
95% che l'errore massimo Err = max[lxn - µI] che si commette assumendo Xn come
valore diµ è al più uguale a ~<I>- 1('1'!
1) = 1.176 (kg/cm 2 ).
a. q,-1 ( ì'+1)) 2
Ponendo n = ( Err 2 si vede immediatamente che volendo un errore massimo
138.29 '.:::'.
139.
Potrebbe essere più ragionevole preoccuparsi che la media µ non sia inferiore a un certo
valore con probabilità 'Y· Allora, invece di un intervallo bilatero bisognerebbe cercare un
intervallo con limite inferiore. Poiché la forma di questo tipo di intervallo è data da
Sia X ,....,N (µ, a 2 ) dove µ e a non sono noti. Funziona tutto come nel caso precedente ma,
questa volta, la quantità pivotale è t = ~/;: è una t-Student con n - l df. Estratto
un ccn da N(µ, a 2 ) sappiamo che la quantità pivotale, cioè
334 CAPITOLO 13. STIMA INTERVALLARE
dove indichiamo con tn- 1(ì) il 'Y- quantile di t-Student cioè quel numero tale che alla
sua sinistra sotto la curva t con (n - 1) df è cumulata una massa pari ad 'Y·
Dalla 13.4 si ha con facili conti che P[X - tn-1(1!1') fa::;µ::; X+ tn-1(1!1')7n] = 'Y·
Si conclude che
- l+'Y
Xn - tn-1(- 2 -\lri::;
s µ::; Xn
- + tn-1(- l+'Y-\tn
s (13.5)
2
rappresenta un le al 1001% per il parametroµ di una N(µ, 0' 2 ) con µ e O' ignoti.
Figura 13-2:
Attenzione: in altri testi per indicare i quantili tn- l ( ·) della t-student con n - l
df si usa il simbolo ta,n-l con a tale che a = P[tn-l ~ ta,n-1] (cioè alla destra di
ta ,n- l c'è una massa pari ad a). Gli intervalli si scrivono con il livello di significatività
a= 1- 'Yinvece che con la confidenza 'Y· Si vede facilmente che ta ,n-l = tn-l (ì) e anche
ta/2,n-l = tn- l ( 1 ; 'Y). Con questa notazione l'intervallo in 13.5 diventa:
- O' - O'
X n - ynta;2,n-1 ::; µ ::; X n + ynta;2, n - l
Partendo da P[t ::; a] = P[;;fo ::; a] = 'Y, con a= tn-1("1) si ricava un intervallo con
limite inferiore mentre se si parte da P[t ~ a] = P[;;fo ~a]="( con a= tn-l (1- 'Y) =
-tn-l (ì) si ricava un intervallo con limite superiore cioè:
Esempio 13.2.1 Tra i compiti dell'EPA (Environmental Protection Agency), ente ame-
ricano per il controllo dell'ambiente, c'è quello di controllare la presenza di sostanze tossi-
che nelle acque di laghi e fiumi degli Stati Uniti. Una delle più comuni misure di tossicità
per ogni inquinante è rappresentato da quella concentrazione dell'inquinante stesso che
uccide la metà degli individui della specie test presente nel liquido in un tempo prefissato
(normalmente 96 ore). Questa misura è contrassegnata col simbolo LCSO {lethal concen-
tration killing 50%). Utilizzando una certa specie di pesci come specie test e il DDT come
335
inquinante in 12 diversi rilevamenti sono stati osservati i seguenti valori di LC50 (in par-
ti per milione): 16, 5, 21, 19, 10, 5, 8, 2, 7, 2, 4, 9. Si vuole stimare, con una con,fidenza di
livello 'Y = 0.9, il valor medio di LC50 per il DDT supponendo che la distribuzione dei
valori LC50 sia normale.
P [µ~ Xn - \;~ 4 t 11(0.9)] = 'Y, ossiaµ E [9- 1.8546 · 1.363, +oo) = [6.4722, +oo) con
confidenza del 90%.
Siamo perciò sicuri al 95% che il valore trasmesso stia tra 2.7417 e 3.1383.
Se la varianza a 2 non fosse nota, la quantità pivotale sarebbe stata t = ~77n'
e avremmo
avuto:
(µ ignota)
Supponiamo che X rv N(µ, a 2) conµ e a 2 ignote. Consideriamo un ccn (X1, ., Xn)' e sia
S 2 1a varianza
. . . . t o ch e Xn-
Abb. rnmo vis (n -a l)S 2 '
camp10nana. 2
l = 2 e una ch.1-qua d ro con
(n - 1) df. Quindi la sua distribuzione non dipende da parametri incogniti per cui la va
(n -
a
;)S 2
è una quantità pivotale. Indichiamo con x;_ (a) 1 = l'a - quantile F-}
Xn-1
(a)
di x;_
1 , cioè l'ascissa tale che alla sua sinistra sotto la curva x;_ è concentrata
1 una
massa pari ad a.
P[ 2 (1-,,) < (n-l)S 2 < 2 (1+")] - 2 1
Xn- l 2 - ------;:;:r- - Xn- l 2 - 'Y
9 P[ 1 > 2 ->-~-]-
2 ( 1- ')') -
(Y
(n-l)S 2 (1+1') -
Xn-1 2 Xn-1 2
'Y?
(n - l)S 2 2 (n - l)S 2
9 P[ 2 ( .!=.:r)?: a ?: 2 ( 1±:r) = 'Y-
Xn-1 2 Xn-l 2
Concludiamo che
(n - l)S 2 2 (n - l)S 2
(13.7)
2 ( .!.±J:
) <5:a <5: 2 ( .!=.J:
)
Xn-l 2 Xn-l 2
è un intervallo di confidenza al 100, per cento per a 2 (caso a) della figura 13-3.
b)
1 -y y
.1.::.L+ r = .1....±:i..
x\.1~ 2+ )
x',..1(1 -rJ
2 2
Figura 13-3:
Attenzione: in altri testi per scrivere i quantili della x;_ invece del
1 simbolo x;_1(-)
che usiamo qui, si usa il simbolo ,n- i dove a = x; P[x;_?: x; 1 ,n- 1 ] ( cioè x;, n- l
337
rappresenta l'ascissa del punto alla cui destra c'è una massa pari ad a). Per gli intervalli
si fa riferimento al livello di significatività a = 1 - 1 invece che a quello di confidenza 1 .
Si vede facilmente che x;,n- x;_
l = 1 ( ì) e anche 12 l = x; ,n- x;_
1 1 ). Con questa
1( ;
notazione l'intervallo in 13.7 diventa:
l n
S5= - L(X; - µ) 2 ;
n i=I
L'intervallo con limite superiore (caso b) della figura 13-3) si ottiene da P[(n -
a
;)S>
2
x;_ 1 (1- 1 )] = 1 . Trattandosi di stimare la varianza (che importa sia piccola con una certa
confidenza), in genere non interessa l'intervallo con il limite inferiore, che si ricaverebbe
(n - l)S 2
da P[
a2 ::; x;_ •
1 (ì)] = 1 , ma 11seguente
2 (n - l)S 2
a < 2 intervallo con limite di confidenza superiore (13.8)
- Xn-1(1 - ì)
che garantisce al 1001 % che la varianza non supera il limite superiore.
Esempio 13.3.2 Nel lavoro di laboratorio è importante tenere sotto controllo la varia-
bilità delle letture delle quantità in esame rilevate dai singoli campioni. Supponiamo
allora che nello studio della quantità di calcio presente in un certo tipo di acqua mine-
rale sotto esame vengano effettuati 6 rilevamenti (indipendenti}. In parti per milione
questi rilevamenti hanno dato i seguenti valori. 9.54, 9.61, 9.32, 9.48, 9.70, 9.26. Allora,
'
volendo un le per a 2 al 90% si ha: x 6 = 9.485,
- 82
l+ì
= 0.02855, n = 6, - 2- = 0.95,
1- ì 58 2 58 2
- 2- = 0.05, xi(o.95) = 11.1, xi(o.05) = 1.15 da cui ~---<a 2 < ~---·
xi(o.95)- - xi(o.o5)'
5 · 0.02855 5 · 0.02855
ll.l :=;a2 ::; 1.15 ; 0.01286:=;a2 ::; 0.12413.
mn termine ampio può interpretarsi come il fatto che l'ascissa destra dell'intervallo è superiore a 5 -10
volte l'ascissa sinistra. Nell'esempio precedente l'ascissa destra è addirittura 58 volte l'ascissa sinistra.
338 CAPITOLO 13. STIMA INTERVALLARE
13.4 Osservazioni importanti
Sulle notazioni
Per evitare confusioni con le notazioni di altri testi si ricordi che:
N(O; 1) tn
ì - quantile <I>- (ì) tn(ì)
1---~"'-11--~~---r'c'-n-'-----i
peso a sinistra dix <I>(x)
~-~~~~~~~~~~
t;;:1 (x)
X .< X
Figura 13-4:
Come si vede non c'è univocità di scelta: se le aree [!J sono uguali alle@ entrambi
gli intervalli (ti, t2) e (a, b) nel caso della t-Student e (x;,_
11 , x;,_1 2) e (a, b) nel caso
della x2 individuano lo stesso peso di probabilità Ì· Senza più sott~lineare la cosa noi
sceglieremo gli intervalli che hanno per estremi i ì-quantili
Figura 13-5:
(13.14)
Bernoulli
1 p=P[X=l]
SiaXrvB(l,p);X= { O l-p=P[X=O] e sia X = (Xi, .. , Xn) un ccn da
- ~X;
B(l,p). p = Xn = -- rappresenta uno stimatore della media della popolazione di
n
Bernoulli X.
Vediamo la cosa in un modo leggermente diverso. Supponiamo di considerare un insieme
(col linguaggio della statistica descrittiva chiameremmo questo insieme "popolazione")
di oggetti o individui, ciascuno dei quali può avere oppure non avere una certa qualità
(favorevoli o contrari, maschi o femmine, buoni o difettosi, bianchi o neri, etc.). Interpre-
tiamo, al solito, X come una va che codifica, in un generico individuo estratto a caso da
questa "popolazione", la presenza della qualità, prendendo il valore 1, o la sua assenza,
prendendo il valore O. Volendo stimare la proporzione p della popolazione che possiede
la qualità in esame si deve stimare la media p della va di Bernoulli X.
341
Dal TCL sappiamo che la distribuzione di p è approssimativamente normale di media
.
superiori
p(l - p)
p e vananza --'----'-.
L' . . ' b
w
appross1maz10ne e uona se contemporaneamente
n
a 5. In questo caso Z =
p(l-p)
n
np e nq sono
è approssimativamente
come al solito:
P [
l
w-::;A-
p(l-p)
n
+l
a ~ P[IZI::; a]= 1 = 2<I>(a)- 1::::}a= <I>-1(-1 -)
2
(13.15)
(<I>-1(,,!1) lo si ricava dalla tabella in appendice 2). Procedendo nei conti si arriva a:
(13.16)
Purtroppo gli estremi dell'intervallo nella 13.16 dipendono dal parametro incognito p.
Ci sono tre possibilità:
~(1-p)
7--..;:
p=l/2
1) Nella relazione p- <I>-1( 14l)Vp(l~p) ::; p ::; p + <I>-1( 14l)Vp(l~p), compare p(l - p ),
.
una para blo a ch e raggmnge 1·1suo massimo
. m. p = -1 , qum·d·vp(l-p)
::; 1;;;; · p ur
1
2 n 2vn
non conoscendo p, e scendendo in precisione, possiamo ottenere il seguente intervallo, al
1001 % per p:
2) Si consideri che per una Bernoulli risulta = n~l S; I:~=l(X;-Xn) 2= n~l I:~=l(X;-
2X;p + p2) o= n~l (np- np2) = n':':1fi(l- p).
X;:=X;
Allora per 13.14 un intervallo di confidenza è:
3) Infine poiché p è uno stimatore MLE di p, per il pdi Vp(l: p) è uno stimatore
Oss.: Come si vede l'intervallo 13.17 per n grande è sostanzialmente uguale a quello
trovato nel caso 2).
Oss.: Con conti analoghi si ottiene un intervallo di confidenza (approssimato o asintotico)
unilaterale al 100 1 per cento per p:
ì = P[p::; U] = P[w::;
f>-U
p(l-p)
n
p-p
w]::::}
p(l-p)
n
wp-U
p(l-p)
n
= <I>-1(1- 1 ) = -<I>-1(ì) da cui
Esempio 13.5.1 Dal 1870 al 1900 sono nati in Svizzera 1359671 maschi e 1285086
femmine, per un totale di 2644757 bambini. Cosa si può dire della probabilità p di
nascita di un bimbo maschio?
Soluzione. p = X n = 135~671 = m~~;~ = 0.5141. Poichè n = 2644757 è molto grande, si
può approssimare con la normale. Se 1 = 0.95, <I>-1( ~) = <I>-1(0.975) = 1.96; troviamo
un intervallo di con,fidenza del parametro p al 95%.
Poiché <I>-1(1.±.!)Vf3(l-f3) = 1. 960·6971~ O 0008 si ha·
2 n v'2644757- · ' ·
(t>=r=<I>-1crt1)Jp(l;;,p)) = o.5141 ± 0.0008 = { ~:~~!~
Allora, con probabilità 1 = 0.95, possiamo avere .fiducia che la probabilità di nascita di
un maschio sia compresa tra 0.5133 e 0.5149.
p [I:1:;:,I::;0.005 ';; J ~ 0.95 = ì {::} 0.005 ';; ~ <I>- ci'Y)= <I>- (0.975) =
1 1 1.96
cioè fa~ CJ· 200 · 1.96 (vedere figura) e notare che: 0.005 = 2 0i J.
y = 0.95 y
Essendo CJlo scarto quadratico medio di una va di Bernoulli, abbiamo già visto che
CJ2= p(l - p)::; ¼-Anche se non conosciamo CJ,possiamo affermare che:
vn~ 21 · 200 · 1.96 ~ CJ· 200 · 1.96 ===;, n ~ (1.96) 2 · 100 2 = 38416.
Bastano perciò 38416 persone a darci un'informazione "quasi certa" (95% di probabilità}
su una popolazione di 56 milioni. È sorprendente ( e ovvio al tempo stesso per come è stato
ottenuto n} a questo punto che n rimane uguale a 38416 anche se il test avvenisse sulla
popolazione degli Stati Uniti, che ha 250 milioni di abitanti, o della Cina, che ne ha più
di un miliardo. Bisogna però osservare che l'unico vero problema è la scelta del campione.
Questa scelta deve essere fatta in modo che le X; siano "veramente" indipendenti affinchè
il campione sia "veramente rappresentativo" dell'intera popolazione.
Esempio 13.5.3 È facile rispondere alla seguente domanda. Se un partito politico vuole
sapere .fin dai primi minuti successivi alla chiusura dei seggi la percentuale dei voti che gli
spetterebbero con una probabilità del 95%, sapendo che la media delle schede scrutinate
in mezz'ora è di 125 schede a seggio, da quanti seggi elettorali (opportunamente scelti nel
344 CAPITOLO 13. STIMA INTERVALLARE
territorio nazionale} deve prelevare i dati relativi a questa prima mezz'ora di scrutini?
Risposta:
38416
""""i25~ 308 seggi.
Xm - E[B(50,p)] I Xm - E[B(50,p)]
::; <I>-1 ( 1 t"Y) con probabilità I e anche:
I Jvar[B(50,p)]/m -
{50~(1-~)}/m
Km._ E[B(50,p)]
50 50 ::; cp-1 et')')
~ {50~(1- ~)} /m
L'intervallo bilatero di confidenza (asintotico) di livello I di p è
Si osservi che è lo stesso intervallo di confidenza che si troverebbe nel caso di una Bernoulli
di parametro p con un campionamento di taglia 50 · m.
Geometrica
Osserviamo che la va Y geometrica ha legge py(k) = pqk-l mentre la X = Y - l,
geometrica traslata ha legge Px(k) = qkp. Le leggi contengono lo stesso parametro p. La
geometrica ha media i
mentre la geometrica traslata ha media La varianza invece 1;P.
è la stessa 7. Cerchiamo allora un IC asintotico per p utilizzando la geometrica. Lo
345
1
stimatore MLE della media ¼è X n. Allora è stimatore MLE di p.Per il TCL
Xn
- I
Xn--
P è asintototocamente N(O, 1).
- )
n
(½f) 1(1 - 1) Xn(Xn - 1) All ora
Infatti var[X n] è = P P _P_ , e il suo stimatore MLE è: -----.
n n n
Xn _ <J>-Iet'l)JXn(Xn -1)::; ~::; Xn + <J>-Iet'l)JXn(Xn -1),
n p n
Da cui l'Ic asintotico di livello I cercato 1v:
Poisson
Per una va di Poisson di parametro À, si ha che X n è lo stimatore MLE di À. Inoltre:
var [Xn]= ¾>-;quindi :n è lo stimatore
L'intervallo di confidenza asintotico di livello I è allora:
MLE della varianza dello stimatore di À.
(13.19)
Anche in questo caso, come già fatto con la distribuzione di Bernoulli, si può procedere,
senza utilizzare le proprietà degli stimatori MLE, direttamente via TCL grazie al quale
~À è asintoticamente N(O, 1). Basta ora risolvere algebricamente rispetto a À la
Vn
disequazione
lxffn
->-1::;<I>- et Poniamo per semplicità di scrittura a = <I>-1 et
1 1 ). 1 )
À Àr
fx(x;r,À) = r(r)(,\xr-le-Àx/[0,+oo)(X) = r(r)Xr-le-ÀxI[O,+oo/X)
dove r > O, À > O si dice avere una distribuzione gamma e si indica con il simbolo
r(r,À).
Qual è la distribuzione di Y = 2-\r(n, A) con n intero?
È noto che:
l y
Y = aX ===} fy (y) = j;'j f x C;)
Allora
f
, 2AI'(n,A) (Y ) -- l f ( Y )-
2,\. I'(n,A) 2,\ -
I Àn ( Y )n-I
2A I'(n) 2A e
-lyI
2
( )_
[O,+oo)Y -
-(l)n
- 2
I
I'(n)Y n-1
e -½y
- I[o,+oo)(y )--r (n,2
·1)- -r (2n_l)_
2'2 -X2n2
Applichiamo questo risultato alla ricerca di un intervallo di confidenza bilatero di livello
1 per il parametro À di una popolazione exp(A).
Sappiamo che
Quindi
cioè:
v Poiché X n è uno stimatore MLE di µ = ½,allora uno stimatore MLE di À è -}
n
. Per l'lc usiamo
però X n perché la sua distribuzione asintotica è immediata.
347
2 (1-~) 2 (l+~)
P[X2n -2- < À < X2n -2- ] =
2I:Xi - - 2I:Xi 'Y
2 (1-~) 2 (l+~)
X2n -2- < À < X2n -2-
(13.21)
2 I: Xi - - 2I:Xi
Rispetto all'IC di confidenza asintotico presentato nel mio testo
a2 a '{ a2 a2 a '{ a2
p +- - - p(l - p) + - p +- +- p(l - p) + -
2n fa 4n < < 2n fa 4n
~ _p_ ~ (13.23)
l+- l+-
n n
Lo studente è invitato a riflettere sul fatto che, trascurando termini infinitesimi di ordine
1
superiore a fa si arriva a:
P [-<I>-1('Y+ 1) < X -
2
y - (µ1 - µ2) < <I>-1('Y+
. ; o-r+ O"§ 2
l)l= 'Y (13.24)
V n m
Ossia:
(13.26)
Se le popolazioni non sono normali e i campioni sono grandi l'espressioni 13.24, 13.25,
13.26 valgono ancora ma in senso asintotico.
Esempio 13.6.1 Supponiamo che un produttore di processori per computer voglia inve-
stigare la differente velocità di esecuzione di un programma test da parte di due diversi
tipi di processori (A e B). L'ipotesi del costruttore è che, per entrambi i processori, il
tempo di esecuzione sia normalmente distribuito con media incognita, rispettivamente µ A
e µB, e varianza nota, rispettivamente lTA = 1.10 ms e lTB = 1.5 ms (ms = millisecondi}.
Per confrontare la velocità media di esecuzione dei due processori il costruttore esegue il
programma su n = 10 processori del tipo A e su m = 20 del tipo B e osserva i seguenti
tempi di esecuzione {in ms):
TIPO A: 500;498;499;501;499;502;501;501;500;499
TIPO B: 493;497;493;492;494;496;496;494;492;493
496;495;494;496;493;491;492;495;495;493
Per ipotesi il tempo di esecuzione del generico processore di tipo A è una va. X; rv
N (µA, lT~ = 1.21), con media non nota µ A mentre per il tipo B la va è Y; rv N (µ B, lT~ =
2.25). Si chiede di determinare:
a) Un intervallo di confidenza bilatero al 95% per (µA - µB);
b) Un valore k tale che si possa asserire con il 95% di confidenza che (µ A - µ B) < k.
{ X= 500
Y= 494
Quindi, dato che:
350 CAPITOLO 13. STIMA INTERVALLARE
1)ja~/n
X - Y - <J?-1(-Y~ + a~/m < (µA - µ3) + a~/m
< X - Y + <J?-1(ì'~ 1)ja~/n
avremo: 5.05289 < (µA - µ 3 ) < 6.947108.
Si può perciò essere con.fidenti al 95% che il tempo medio di esecuzione del processore di
tipo A supera quello del processore di tipo B di una quantità compresa tra i 5.52 e 6.48
ms.
l
b) Devo trovare un intervallo di confidenza unilaterale con limite superiore:
p [<J?-1( 1 - 'Y) < X - y - (µ A - µ 3) = 'Y{::}(µ A - µ 3) < X -Y +<T?-1('Y)Va~/n + a~/
ja~/n+a~/m
Nel nostro caso 1 = 0.95 ::::}<J?-1(1 ) = -<J?- 1(1 - 1 ) = 1.64. Quindi (µA - µ 3 ) <
6 + 1.64 · 0.48322 = 6.792478 L'intervallo è perciò: (-oo,6.792478).
(13.27)
(X - Y) - (µ1 - µ2)
aj(l/n) + (1/m) (13.28)
[(n - l)Sr + (m - l)S~]~
n+m-2
è una t con (n + m - 2) df. Si vede che la 13.28 si può scrivere:
(n - l) Si + (m - 1)S~
n+m-2
V+1.
n
..!.
m
(13.29)
351
li
(~+!f
= -,,...-'-----,,----;,---,,... (13.31)
(Sr/n) 2 + (SVm) 2
n-l m-1
si prende df uguale all'intero più vicino a v.
Esempio 13.6.2 In un'azienda che produce marmitte catalitiche per automezzi superio-
ri alle 3, 5 ton si vogliono confrontare due modelli di marmitte, A e B, che utilizzano
catalizzatori diversi per l'abbattimento dell'ossido di azoto (NOx)-
Allo scopo si mettono in prova n = 8 marmitte di tipo A e m = 8 marmitte di tipo B.
Per l'NOx si rilevano i seguenti dati di emissione (espressi in centigrammi/kWh)
SP =
V(n - l)S 2
A
+ (m - l)S B.
2
tP è una t-Student con df dato da p = (n + m - 2).
n+m-2
L'intervallo di confidenza bilaterale è X - Y - t14 ( --y~l )Sp J¼+ ¾ < (µ A - µ B) <
- - + t14(.::r..._)S
X - Y +l Ml 2 - +- P n m
sP = V7 · s~ s1
+ 7 · = V7 · 0.087 + 7 · 0.074 = 0 _284
14 14
1 + ì'
ì' = 0.9::::} -2- = 0.95::::} t14(0.95) = 1.761
L'intervallo è: [(91.73 - 93.75) - 1.761 · 0.284 · 0.5] < (µA - µ 3 ) < [(91.73 - 93.75) +
1.761 · 0.284 · 0.5] da cui: -2.27 < (µ 1 - µ 2 ) < -1.77.
Possiamo avere una confidenza del 90% che le emissioni delle marmitte del tipo A siano
più basse di quelle delle marmitte di tipo B.
352 CAPITOLO 13. STIMA INTERVALLARE
Esempio 13.6.3 Un costruttore di motori per scooters ha problemi con l'inquinamento
acustico causato dai suoi motori. Progetta e costruisce un nuovo motore che dovrebbe far
meno rumore. Per fare dei confronti prende un campione di 41 motori del nuovo modello
e confronta la media dei decibels di questo campione con la media di un campione di 65
motori del vecchio modello. Ecco i risultati del test (X i media campionaria, xi: media
campionaria osservata, Si deviazione e si deviazione osservata):
'Y = 0.95 e, al solito, <I>-1 (-Yt1 ) = 1.96. Si ha: (72 - 84) ± 1.96 (l~t + (94;l2 =
-12 ± 3.99 Siamo perciò sicuri al 95% che la differenza (µ 1 - µ 2 ) si mantiene tra -15.99
e -8.0l decibel.
Se avessimo calcolato i df con (13.31} avremmo trovato:
2 (9.2) 2 ) 2
( (11.6)
65 + 41
V = -'------,,-----,,-- = 98.528
( (11.6) 2 )2 ( (9.2) 2 )2
65 + 41
64 40
Anche in questo caso saremmo stati fortemente motivati a utilizzare quantili della
N(O; 1).
fi,~vto tE
~ è: un intervallo in cui il parametro 0 cade con probabilità ,
;I
Inoltre l'intervallo fiduciario ( n-q2 1 5 2 , n- 1 5 2 ),
q,
dove q1, q2 q1)
q2 ) -_ !.=..::t.VIII
2
è un intervallo fiduciario al 100, % per a 2
F è il più piccolo intervallo fiduciario al 100, % per a 2
F è il più piccolo intervallo fiduciario al 100(1 - ,) % per a 2
F è un intervallo fiduciario al 100( 1 - 'Y) % per a 2
;I
Esercizio 13. 7.4 La t di Student per la ricerca di un intervallo di con,fidenza per la
media non nota di una popolazione (momento secondo finito) si applica esclusivamente
a popolazioni normali quando si conosce la varianza
F a popolazioni normali ( o quasi normali} quando non si conosce la varianza
F a qualunque popolazione quando il campione è numeroso
F a popolazioni normali solo se il campione è numeroso
= ~- Allora 1x
q2)
CI] D
Q = (n - l)~ è una quantità pivotale
D [I] I è un intervallo fiduciario al 100 1 ; ' % per a 2
B s2 2
(n - l)a'2 '""Xn-l
5* 2 è uno stimatore consistente per a 2
s2
VII;,%~ N(l,¾) via TCL.
VIIIvedere Osservazione su unicità dell'intervallo di confidenza.
IX 8*2 = ¼
I:~=l (Xi _ .X)2 = n~ 182
S' 2 (n 1)S 2 2 S' 2 S' 2
~ = ~ ~ Xn-l' Segue che E[~]= n- le var[na- ] = 2(n - 1). Da ciò si deduce che
E[8* 2] = n~ 1 ,,-2 e var[8* 2] = 2C:: l) ,,-2 . Quindi 8' 2 è asintoticamente corretta con varianza infinitesima
da cui ..
354 CAPITOLO 13. STIMA INTERVALLARE
Esercizio 13. 7 .6 La va t = xS/fon - µ dove, al solito, X n è la media campionaria e S 2 =
I: (X~=;
l n
2
la varianza campionaria,
è interviene nella stima intervallare:
ìvl della varianza a 2 (nota la mediaµ) con campione
f""'"i;,l {
~~ numeroso da una popolazione di distribuzione qualunque
ìvl f""'"i;,l { della media µ (nota la varianza a 2 ) con campione
~~ numeroso da una popolazione di distribuzione qualunque
della media µ (nota la varianza a 2 ) con campione
piccolo da una popolazione normale
della media µ (non nota la varianza a 2 ) con campione
{ piccolo da una popolazione normale
r-y-i f"pl della mediaµ (non nota la varianza a 2 ) con campione grande
~ L:_J da una popolazione qualunque di varianza finita
Suggerimento: mettere "F" (falso) nelle affermazioni precedenti se ci sono costruzioni
basate su altre va che danno luogo a stime intervallari preferibili.
Capitolo 14
E se non puoi la vita che desideri
cerca almeno questo
per quanto sta in te: non sciuparla
nel troppo commercio con la gente
con troppe parole in un viavai frenetico.
Fare congetture su fatti che non sono noti con certezza fa parte della vita di tutti i giorni
sia per quanto riguarda sia il lavoro sia il tempo libero. Dovete cambiare l'auto? Se
scegliete di acquistare il modello A significa che, più o meno consciamente, ritenete vera
l'ipotesi: "il modello A è, compatibilmente con le mie possibilità di spesa, migliore di
tutti gli altri modelli sul mercato". Per giungere a questa decisione avrete raccolto
una documentazione e avrete provato vari modelli presso diversi concessionari. Avrete
cioè eseguito un test. Nella decisione a favore della vostra ipotesi vi può capitare di
commettere un errore: accettare come vera un'ipotesi che in realtà (ma voi non
lo sapete) è falsa ( errore del II tipo). Se invece all'ultimo momento, appena prima di
firmare il contratto e staccare l'assegno, doveste cambiare improvvisamente idea, l'errore
che potreste commetere è di un altro tipo: rifiutare come falsa un'ipotesi che in
realtà (ma voi non lo sapete) è vera (errore del I tipo).
Ciò di cui parleremo nella verifica delle ipotesi riguarda situazioni simili a questa. Le
nostre ipotesi non faranno però riferimento a modelli di auto ma a distribuzioni di pro-
babilità con riferimento a due problemi diversi. Nel primo è conosciuta con certezza la
funzione che descrive la fdr (o la fd) di una distribuzione ma non si conosce il o i para-
metri che la definiscono completamente (come accadeva con gli intervalli di confidenza);
avanzeremo e saggeremo congetture sui valori di questi parametri e parleremo di test
parametrici.
Nel secondo caso faremo invece ipotesi sulla funzione stessa che descrive la fdr e parleremo
di test non parametrici.
356 CAPITOLO 14. VERIFICA DELLE IPOTESI
14.1 Test parametrici
Altri approfondimenti e visioni sui test di ipotesi parametrici nel capitolo 17.
Esempio e:?
Introduciamo i concetti relativi ai test parametrici con un esempio. Certe colture del-
l'azienda farmaceutica STOMAL si sviluppano solo se la temperatura ambiente è di 12
gradi C. In un locale dell'azienda destinato a ospitare queste culture è appena stato
installato un impianto di condizionamento. La ditta FAFRED che lo ha installato ga-
rantisce che la temperatura generata dal suo impianto è modellata da una va gaussiana
X rv N(l2, 16) di media 12° e scarto 4°. Un tecnico della STO MAL vuole valutare o
testare l'affermazione della FAFRED. Crede alla gaussianità della temperatura, crede al
valore dello scarto (chissà perché? ma a noi non interessa perché!) ma vuole verificare
la media. A questo scopo utilizza un procedimento statistico, chiamato test d'ipotesi.
Il procedimento consiste innanzitutto nel fissare due ipotesi, l'ipotesi nulla che si indica
con Ho e l'ipotesi alternativa che si indica con Ha oppure con H1, Del modo con cui si
scelgono queste ipotesi discuteremo anche in seguito: per esempio si può scegliere come
H 0 quelle che sembra debba essere vera, oppure H 0 potrebbe anche essere quella che
si vorrebbe rifiutata dal test. La cosa importante è che si decida quali sono le ipotesi,
prima di guardare i dati che vengono raccolti nel procedimento. Dunque non c'è un
solo modo per scegliere: la scelta dipende dal problema che si sta affrontando. Per ora
accontentiamoci di vedere come agisce il tecnico della STOMAL. Le ipotesi che formula
sono le seguenti:
Il tecnico cioè deve decidere se accettare Ho, cioè che la temperatura X rv N(l2, 16)
oppure rifiutare Ho per accettare l'alternativa Ha, cioè che X rv N(0; 16) con 0 =I, 12.
Osserviamo che l'ipotesi Ho : 0 = 12 si dice semplice perché prevede un solo valore per
la media 0, mentre Ha : 0 =I-12 si dice composta perché include più di un valore per
il parametro, anzi, ne include infiniti: 0 > 12, che potrebbero far "cuocere" le colture e
0 < 12, che potrebbero non essere sufficienti a farle "fiorire".
Per decidere, il tecnico preleva la temperatura nell'ambiente in 36 istanti diversi della
giornata (un cc36). La verifica delle ipotesi procede supponendo che l'ipotesi nulla H 0 sia
vera, cioè che 0 = 12. Scelto X 36, media campionaria, come stimatore di 0, intuitivamente
sembrerebbe ragionevole accettare H 0 se X36 (valore osservato di X 36) fosse uguale a 11 o
13.5, cioè fosse "vicino" al valore ipotizzato della media; sembrerebbe invece ragionevole
respingerla se avessimo trovato X36 = 7.5, cioè distante da 12. Infatti 11 e 13.5 ci sembrano
valori probabili se 0 = 12, mentre 7.5 ci sembra molto improbabile. Questo tipo di
ragionamento è un po' ingenuo, intuitivo. Formalizziamolo. Viene istituita una regione,
che chiamiamo Regione Critica e indichiamo con RC, tale che se il valore osservato X36
dello stimatore X 36 appartiene a questa regione, si rifiuta H 0 , altrimenti la si accetta.
In questo caso tale regione si può pensare determinata da un valore e tale che se {X 36 <
12 - e} U {12 +e< X36} (o, analogamente se IX36 - 0ol > e), cioè se X36 si discosta
"tanto" da 12, si deve rifiutare H 0 . I punti di confine 00 ± e della RC si chiamano valori
critici.
L'errore del I tipo è caratterizzato dalla probabilità che IX 36 -0o I > e quando l'ipotesi
nulla Ho è vera, cioè P0=12 [ { X 36 < 0o - e} U { X 36 > 0o + e}]. Usiamo la distribuzione
di X 36, media campionaria ottenuta da una popolazione normale di media 0 incognita e
357
x36 - 12
Invece di ragionare in termini di X 36, consideriamo la statistica test Z =
2/3
Poichè la media di X 36 è 12, la media di Z è O, e i valori di X 36 "distanti" da 12
corrispondono ai valori di Z "distanti" da O, cioè IX 36 - 121 > e {:}I Z I> 2; 3 .
- - e e
P0=12[{X36 < 12-c}U{X36 > 12+c}] = P[I Z I> 213 ] = 2(1-<I>( 2/ 3 )) e i suoi valori,
a seconda dei valori di e, si trovano tabulati in Appendice 2.
e e
Se, per esempio, 213 = 1.96 dalla tabella di Appendice 2, P[I Z I> 213 ] = 0.05 (a) in
@ regione critica
.95
----+----+------+----z
- 196 o 196
U ti·1·
1zzand o ----
X 36 - 12 a bb'iamo ncavato
. una RC* per 1a stat1st1ca
. . test d a cm. possiamo
.
lTx36
risalire alla RC per lo stimatore. Chiameremo indifferentemente regione critica sia la
RC* ottenuta dalla statistica test che la RC per lo stimatore.
Invece di fissare e e di trovare successivamente la probabilità dell'errore di I tipo, si può
fare il contrario. Si fissa la probabilità dell'errore del I tipo 1 - ì e si impone:
x36 - 12 e e
P[I 2/3 I> 2/3] = P[I Z I> 2/3] = 1- ì
da cui si ricava
_c_=<I>- 1(l+ì)
2/3 2
La regione critica per la statistica test è:
358 CAPITOLO 14. VERIFICA DELLE IPOTESI
mentre quella per lo stimatore è:
2 -1 l+ì' 2 -1 l+ì'
(-oo; 12 - 3<J? (- 2 -)] U [12 + 3<J? (- 2 -); +oo)
Vediamo tre diverse RC per tre diversi fissati valori dell'ampiezza 1 - ì' del test.
1 - ì' = 0.1 ===} ì' = 0.9 ===} l; ì' = 0.95 ===} <J?-1 (0.95) = 1.645
7.5 Il 13.5
--~------•
.-----+-----
· ~-+
1 -y = O.I
1-y = 0.05
J - '! = 0.01
----------·--- -O ---O----<J---+----1------0----0- --0 ---
/f!. 283 I 0.69J I 0.903 12 13.097 13.307 13.717
Come si vede dalla figura, delle tre presunte letture dello stimatore, il valore 7.5 è nelle
RC per ognuno dei livelli 1 - ì' fissati; 11 è nella regione di accettazione per ognuno degli
1 - ì' fissati; 13.5 è nella RC per due dei livelli fissati 1 - ì' = 0.05 e 1 - ì' = 0.1.
359
Quale livello scegliere per il test? A questa domanda risponde parzialmente questa altra
tecnica che prevede di fissare una specie di RC senza utilizzare il livello di significatività
ma utilizzando il valore osservato della statistica test (RC per la statistica test) o il
valore osservato dello stimatore (RC per lo stimatore).
La tecnica che andiamo ora a esporre si chiama tecnica del p - value che consiste nel-
l'utilizzare i valori osservati dello stimatore o della statistica test per trovare i confini
della RC. In questo esempio (test a due code) cominciamo ad applicare la tecnica del
p - value determinando la RC per la statistica test. Quasi tutti i software statistici non
lavorano con i livelli di significatività del test ma con il valore del p - value.
Da questo specchietto vediamo i valori osservati della statistica test in corrispondenza
dei tre valori ipotizzati per lo stimatore:
A B c
stimatore Xn 7.5 11 13.5
statistica test z -6.75 -1.5 2.25
In questo caso i confini della RC (che sono 2 perché la regione critica è a due code) si
ricavano dai valori osservati della statistica test.
I Caso A I
Il valore osservato della statistica test è a sinistra dello O. Questo è uno dei due confini.
L'altro è il suo simmetrico rispetto all'origine, cioè 6.75. Il p - value è il peso che la Z
individua sulla
p - value = 2 - 2<I>(lzl)
Dunque:
Caso B I
Il valore osservato della statistica test è a sinistra dello O. Questo è uno dei due confini.
L'altro è il suo simmetrico rispetto all'origine, cioè 1.5. Il p - value è il peso che la Z
individua sulla
RC= (-oo;-1.5)U(l.5;+oo)
p - value = 2 - 2<I>(lzl)
p - value = 2 - 2<I>(lzl)
7.5 11 13.5
1- 1 = 0.1 rifiuto accetto rifiuto
1- 1 = 0.05 rifiuto accetto rifiuto
1 - 1 = 0.01 rifiuto accetto accetto
p-value rifiuto non so rifiuto
Importante
Come già detto, i valori del livello significatività più comunemente usati sono
1-,=0.l
1- 1 = 0.05
1 - 1 = 0.01
e quelli di riferimento per il p - value sono:
È molto importante ricordare che questi valori sono quelli di riferimento nel nostro corso.
Nel mondo reale, i valori di riferimento sono fissati in dipendenza del problema, e non
sono obbligatoriamente quelli che utilizziamo nel corso. Potrebbe cioè capitare di essere
spinti ad accettare con un p - value = 0.05 oppure cercare una RC avendo fissato un
livello di significatività pari a 0.4. Naturalmente l'impianto tecnico rimane lo stesso e non
dipende dai valori di riferimento.
10sservazione importante: il limite p - value = 0.l non sta scritto sulle tavole della legge. Altri
considerano infatti i seguenti confini: p - value < 0.05 rifiuto; p - value > 0.l non rifiuto.
361
Caso generale
Dopo aver visto un esempio di come si ragiona nell'ambito di un test parametrico
per la media di una popolazione normale, riprendiamo i concetti esposti nell'esempio
generalizzando.
Definizione 14.1.2 L'insieme dei valori che ci motivano a rifiutare Ho si dice regione
critica {RC). Se il valore Y(xn) cade nella RC rifiutiamo H 0 .
È uso chiamare regione critica anche quella regione C dello spazio euclideo IRn costitui-
ta dall'insieme dei valori (x 1 , x2, ... , Xn) tali che Y(xn) ERC, cioè quella C tale che
(x1, X2, ... , Xn) E C ?Y(Xn) ERC.
Importante Poiché Y(Xn) è una va, Y(Xn) ERC è un evento rappresentato da quel
sottoinsieme di O il verificarsi del quale fa sì che Y ERC. Ha perciò senso calcolare
Pe[Y(Xn) ERC] e questa probabilità dipende da 0 E 8, spazio del parametro.
La RC sarà perciò determinata da un valore c tale che se {X n < Bo- c} U {Bo+ c < X n}
(o, analogamente se IXn - Bai > c) si rifiuta Ho. I punti di confine Bo± c della RC si
chiamano valori critici.
362 CAPITOLO 14. VERIFICA DELLE IPOTESI
Errori di I e II tipo e Potenza del test
La bontà di un test dipende dalla frequenza con cui ci evita errori. Gli errori sono stabiliti
dalla seguente definizione e sono, evidentemente, incompatibili.
Tipi di ipotesi
Gli obiettivi del nostro corso ci inducono a limitare lo sviluppo della verifica delle ipotesi
esclusivamente ai casi seguenti, dove l'ipotesi nulla è semplice e l'alternativa è composta
ed entrambe riguardano un solo parametro incognito da cui dipende la densità di una
certa popolazione:
Ribadiamo che le ipotesi esposte in 14.4 non sono le uniche possibili. Si potrebbe, ad
esempio, esaminare anche Ho : 0* ::; Bo ::; 0** contro Ha : 0 < 0*, o più in generale
Ho : 0 E 80 e Ha : 0 E 8a. Da qui in poi però ci limiteremo all'esame di ipotesi del tipo
14.4 dove, al più, l'ipotesi alternativa sarà semplice: Ha : 0 = Ba.
Rientrano nella nostra casistica anche l'ipotesi nulle composte del tipo
Cosa determina le quantità A..,, A., A•, 1 e A•,2 (o le B..,, B., B•, 1 e B•,2)? Sono possibili
diversi approcci che dipendono dagli obbiettivi del test. Un modo è quello di determinare
l'ampiezza del test che viene definita nella successiva sezione.
Definizione 14.1.4 Si definisce ampiezza del test (o ampiezza dell'errore del I tipo):
Ho
1 - 'Y=P00 [rifiutare Hai H o è vern]=1ry(0o)=P00 [Y(X n) E R G] semplice
1 - 'Y= sup Pe[rifiutare H ai H o è vera]= sup 7ry (0)= sup Pe[Y(X n) E R G] composta
0E 8 o 0E 8 o 0E 8 o
(14.8)
Ha
I /3=Pe. [accettare Hol Ho è falsa]=l - 7ry(0a)=P0 [Y(Xn) iRC]
0 semplice (14.9)
I (3(0) =Pe[accettare Hol Ho è falsa]=l - 7ry(0)=Pe[Y(Xn) iRC] composta
Useremo, come in molti altri testi, indifferentemente la dicitura ampiezza del test e livello
di significatività. Sottolineiamo inoltre che l'ampieza del test è spesso indicata con a
invece che con 1 - 'Y. Abbiamo preferito la notazione 1- 'Yper mantenere un'affinità con
i simboli della stima intervallare del capitolo 13 che utilizzeremo in seguito.
L'uso che faremo dell'ampiezza del test riguarda la determinazione della RC. Si fissa a
priori il valore dell'ampiezza 1 - 'Y (solitamente uguale a 0.1, 0.05, 0.01) quindi si cerca
come deve essere RC affinché sup Pe[Y(Xn) ERC] = 1 - 'Y·
0E8o
Oss. 2 Ricordiamo ancora che nel resto del capitolo 8 0 = {0 ::; 00 } oppure 8 0 = {0 ~
Bo}. Si potrebbe mostrare che in tutti i casi che esamineremo se 8a = {0 > Bo} allora
sup Pe[Y(Xn) ERG] = P00 [Y(Xn) ERG] cioè si ha il sup in Bo. Analogamente se
0~0o
8a = {0 < Bo} allora sup Pe[Y(Xn) ERG]= P00 [Y(Xn) ERG] cioè ancora si ha il sup
0?_
0o
in 00 . Questa osservazione ci autorizza ad affermare che il caso di ipotesi nulla composta
del tipo 14. 5 conduce alle stesse identiche conclusioni della corrispondente ipotesi nulla
semplice.
364 CAPITOLO 14. VERIFICA DELLE IPOTESI
Il p-value
Definizione 14.1.5 In un test d'ipotesi il p-value viene determinato prendendo come
confine ( o come uno dei due confini nel caso di un test bilatero) della regione critica il
valore osservato della statistica test. Cioè è il peso di probabilità che c'è sulla regione
critica se tale regione è determinata come appena illustrato_ll
Per ulteriori spiegazioni sul p-value vedere più avanti il paragrafo sul riepilogo dei test
parametrici.
Comunque il significato del p-value si può enunciare anche nel modo seguente: il p-value
è la minima probabilità concentrata sulla RC che fa sì che il valore Yp(~n, 0o) della
statistica test calcolata in base all'osservazione ~n sia un valore critico. Indicata con
F(z) la fdr di Yp(Xn, 0o) la figura è esplicativa di ciò che accade:
F(z)------~ F(z)
F(z) .------~
• RC= {Xn-:
fo
µo ::; -<J?-l('Y!l)} U {Xn-: µo~
fo
<J?-l('Y!l)}
•
Ha:µ>
Ha:µ<
µ0
µ0
"'
(14.11)
La RC sarà da considerarsi ottenuta per approssimazione via teorema centrale nel caso
di popolazioni non normali.
Stiamo effettuando uno Z-test. In questo caso per i più usati livelli di significatività del
test ecco lo specchietto dei valori critici per Z.
367
significatività 1 - 'Y 0.10 0.05 0.01
test a una coda ±1.28 ±1.645 ±2.326
test a due code ±1.645 ±1.96 ±2.576
Nei test a 2 code si usano ovviamente entrambi i valori critici col segno "+" e "- 11 • Nei
test a una coda si usa il segno "+" nei test a una coda destra (-") e il "- 11 in quelli a
una coda sinistra (& ) .
L'esempio e:?iniziale illustra uno Z - test a 2 code. Vediamo altri esempi.
.02
Gli esempi e:?e 14.1.7 riguardanti l'ambiente condizionato per dimagrire e le attitudini
degli studenti di Matematica rientrano in • e &. Vediamo un esempio di -"·
Esempio 14.1.7 L 'Environmental Protection Agency (EPA) negli USA fissa i limiti
della concentrazione nell'aria degli inquinanti rilasciati da varie industrie. Supponiamo
che le parti per milione (ppm) ammesse del vinil-cloride sia in media di 55, in un raggio
di 2 miglia intorno all'impianto di emissione. Per testare che un certo impianto chimico
rientri negli standard, i tecnici dell'EPA fanno a caso 100 letture in orari differenti,
effettuate, come prevede la legge, in un raggio di 2 miglia intorno allo stabilimento. Viene
rilevata una concentrazione di 60 ppm. Si sa che le concentrazioni hanno, in generale,
una deviazione dalla media di 20 ppm e questa viene ipotizzata come scarto vero della
popolazione. Ci si chiede: questo stabilimento vìola la legge?
368 CAPITOLO 14. VERIFICA DELLE IPOTESI
Soluzione: { Ho : µ::; 55
Ha:µ> 55 (questa è l'eventualità temuta) ; 1- ì = 0.0 5
La statistica test è Z = X; 1~o ~8;= 5
1~ . Avendo assunto H 0 vera, Z è N(O, 1). Il
valore Z osservato è z = ~~;{5
'.::::'.
2. 5. Poichè il valore z osservato supera il valore critico
= 1.645 (tale evento si veri.fica con probabilità 0.05), l'EPA rifiuta H 0 in.favore
<I>-1 (0.95)
di Ha con probabilità al più pari a 0.05 di sbagliare, cioè conclude che è probabile al g5%
che l'impianto sia fuori legge. Il valore critico per X n è 58.3.
Se osserviamo la figura è evidente che, al variare di 1- ì si sposta la RC e che per certi
valori, in questo caso molto piccoli, di l - ì l'osservazione fatta finisce fuori dalla RC.
/T\ '>l_:~=~::.-::
LU~~ ,,-,-·" 1.28 l.645 2.326
Ci poniamo allora la seguente domanda: qual è il minimo valore di 1- ì per cui l'ipotesi
nulla può essere rifiutata? Cioè: qual è minP[Z = Xn/~o > 2.5] = 1- ì, il p-value?
1-1' a n
La risposta è abbastanza semplice: poiché dalle tabelle della Appendice 2 si sa che
<I>(2.5)= 0.9938 segue che l - ì = 1-0.9938 = .0062. Tale valore è il p - value cercato.
•
(14.12)
Ricordiamo che tn-l (a) è l'a - quantile di t - Student cioè quel numero tale che alla sua
sinistra sotto la curva t con (n - 1) df è cumulata una massa pari ad a.
Oss. 4 Se nell'esempio e:?(pag. 354) a fosse stata incognita sarebbe stato corretto usare
la t-student. Poichè n > 30, qualora le approssimazioni siano compatibili con la pre-
cisione richiesta dagli obbiettivi della ricerca (vedi Appendice 3), per la determinazione
369
della RC si può, utilizzare la tabella di Z, invece di quella di t-Student. Fino all'inizio
di questo secolo si usava la tabella di Z anche per n piccoli. Fu William S. Gosset (ve-
di nota storica alla fine del capitolo 11} a fare notare per primo l'errore in un articolo
pubblicato sotto il falso nome di Student nel 1908. La ragione del falso nome stava nel
fatto che Gosset era impiegato alla birreria Guinness di Dublino, dove si occupava di
analisi statistiche basate su piccoli campioni ottenuti durante la lavorazione del luppolo.
La birreria Guinness si opponeva al fatto che i suoi impiegati pubblicassero i risultati
dei loro lavori scienti.fici, così Gosset optò per il falso nome. Il suo articolo contestava
il lavoro di due ricercatori che, analizzando l'influsso di una sostanza soporifera su 10
pazienti, eseguivano inferenze utilizzando la tabella della normale. Indicata con X la va
utilizzata per codificare il numero medio di ore di sonno in più, questi erano i risultati in
esame:
L'ipotesi più impegnativa era stata formulata come alternativa. Lo stimatore scelto
era X n (la media campionaria della media di ore di sonno in più} la statistica test
z* = sJ)n, dove µ = O corrisponde all'ipotesi nulla e S/,/n è la deviazione standard
campionaria.
Ragionando (in modo errato) come se s7Jn
fosse N(O, 1), fissando un livello di si-
gnificatività l - ì = 0.05, si ha una RC determinata dal valore critico <I>-1 (0.95) =
1.645.
Nel nostro caso: Z* = [~ìfo] _ '.::::'.
1.686 > 1.645 cade nella RC;
µ=0,S=2.644,xn=l.4l,n=l0
quindi rifiutiamo H 0 •
Gosset (alias Student) sottolineò questo errore, suggerendo di usare al posto delle tabelle
della gaussiana quelle di una nuova curva che battezzò t-Student con (n - 1) gradi di
7
libertà. Con la t = 8 fo la R C si determina usando la tabella di Appendice 3 ( e non
di Appendice 2). La RC è data da: P[t > t 9 (ì)] = 1 - ì; t 9 (0.95) = 1.833. Poichè il
valore di t' in corrispondenza del campione è 1.686 e non cade in RC, non rifiutiamo H 0
e quindi rifiutiamo che la sostanza soporifera sia effettivamente efficace. Con Z* come
test il valore critico sarebbe stato 1.645, e quindi le nostre decisioni sarebbero cambiate.
Esempio 14.1.8 Un fabbricante di gelati sostiene che il suo prodotto contiene 500 calo-
rie per 500 grammi. Per provare questo fa analizzare 25 confezioni da mezzo chilo e su
. . { x = 511 calorie
questo campione ottiene: s ~ 23 calorie . Si chiede un livello di signi.ficatività
del 2% (cioè di con,fidenza del 98%).
370 CAPITOLO 14. VERIFICA DELLE IPOTESI
Soluzione.
{
H0 : µ = 500
Ha : µ =/-500
Xn - 500
test bilaterale; lo stimatore è Xn, la statistica test è t = ---- La sua determi-
S/yn
n- 5 oo '.:::'.2 .39 (df = 24) . I valori critici sono
nazione calcolata sul campione è: t' = 523/v'25
evidenziati in figura:
lerratol
• regione critica
....-1 ~ 1
..., ( 2 ) =lfl- (. 99)=2. 32
Z= Xn-µ
o/.fn.
11=
.981 2.39
1- )' =. 02
t= Xn-µ
s/.fn.~.!!',!!-..§l_§l~_!--_J__......,_muhll:a...
m regione critica Icorretto I t ( l? )=t (. 9 9 ) = 2 . 4 9 2
Xn - 500
I gra,fici mostrano che se avessimo usato lo Z-test considerando --~~ come una
S/yn
N(0, 1), avremmo ottenuto un risultato opposto a quello corretto.
P =/-Po •
Ho: P = Po Ha: { P > Po -"
P < Po &
H 0 : p = 0.20
{
Ha :p-/-0.20 .
{ Ho : p::; 0.5
Ha: p > 0.5
. 05
Ho: a2 = a5
(n - l)S2 IV
Utilizzando la statistica test -'---~- abbiamo:
a5
• RC= { s2 <
-
RC:::: {S2 > a5x;,-1(ì)}
oXn-1 -2-
(n - 1)
s2 > O'oXn-1 -2- }
- (n - 1)
(14.14)
- (n - 1)
RC= {S2 < a5x;,-1(l -
- (n - 1)
r\
Esempio 14.1.11 Una macchina è stata progettata per riempire automaticamente di
latte contenitori in cartone da 1 litro, cioè 1000 millilitri (ml}. Ovviamente la quantità
non è esatta ogni volta e c'è uno scarto quadratico medio di 2.95 ml da 1000 nel processo
( così afferma il costruttore). Per verificare questo valore si scelgono 28 confezioni a caso
(tra quelle riempite) e di ciascuna si misura l'esatto contenuto di latte.
Soluzione: intanto si ipotizza che la quantità di liquido X introdotta nel contenitore sia
X rv N( µ, a 2) misurata
. in m.l All ora: 1) { Ha a2 =
Ha :: a2 =/-2_952
2 _95 2 ,
. 2) 1 - ì -- O.O5,. 3)
nS 2
usiamo la statistica test -- 0 in quanto è ragionevole ritenere di conoscere la media,
a5
cioèµ= 1000; 4) questo campione risulta avere s 0 = 3.7659. Si richiede di trarre delle
conclusioni con il 95% di confidenza; 5) RC a due code e, dato che non c'è simmetria
intorno all'origine, si procede così:
m regione critica
l-1
l-1 T= .025
T= .025
1-"
X!(-fl=I5 .3
2
la RC è fatta di quei valori tali che: x 228 ::; 15.3 e 2
x28 ~ 44.5 (figura); 6) ns
~
28},-;~y
92 = 45.63, che è nella RC; 7) rifiutiamo H •
0
p-value Siamo nel caso di test a due code e ancora si utilizza una x 2 come statistica
test. In questo caso il p-value rappresenta il valore dell'area indicata nella figura alla
ns 2
pagina seguente; se il valore osservato --J
della statistica test cade dopo la mediana di
ao
n8 2
IV Se la media µ, della popolazione fosse nota, --f ~ x~ sarebbe la statistica più opportuna.
ao
374 CAPITOLO 14. VERIFICA DELLE IPOTESI
ns 2
x;,,n(l - 9n)3 = 27.339, detta w la massa a sinistra di
2 ---J,
ao
il p-value è 2(1 - w). Se
ns5
~ cadesse a sinistra della mediana = 27.339, il p-value sarebbe 2w:
o
p-value = 2. - 2.M
2.M - 1
xz
n
Questo valore del p - value (che fa sì che la stima sia un valore critico) non è molto
alto. Infatti è compreso tra due livelli di significatività standard 0.01 e 0.05. Continuiamo
perciò a rifiutare Ho ma non con grandissima evidenza. 2(1 - 0.986) = 0.028
Osservazione Vale comunque la pena di osservare che un test sulla varianza è teso
a verificare che a 2 non superi un certo limite, cioè interessa di più un'ipotesi del tipo
Ho: a 2 = a5 (e quindi Ho: a 2 ~ a5) contro Ha : a 2 < a5 che non Ho: a 2 = a5 contro
Ha : a 2 =/-a5. Infatti se, come spesso accade, l'ipotesi nulla è quella che si vorrebbe
ri.fiutata, si vorrebbe di conseguenza non rifiutata l'ipotesi alternativa che afferma che la
varianza della popolazione è minore del valore ipotizzato vero. Interessa insomma che la
varianza sia piccola.
Se in questo caso fosse: H 0 : a 2 = 2.95 2 contro Ha : a 2 < 2.95 2 (che è quello che
il produttore vorrebbe confermato), ancora l - 'Y = 0.05, la RC sarebbe a una coda
sinistra ricavata da P[x 2 < c] = 0.05 ===} c = X§s(0.05) = 16.93. Il valore osservato è
::7s5
ua
= 45.63 > 16.93. Si rifiuta Ha. Il p-value è x;,(-l1(::7s5)ua
> 0.975 quindi non si
rifiuta Ho alla grande, dando torto al produttore.
RA
2) coda dx
RC
RA
3) coda sx
RC
RA
In conclusione
Ma sconsiglio di ricorrere agli IC per risolvere un test a meno che nel fare i conti non
abbiate già trovato un IC prima di affrontare il test stesso.
V Nel caso non si conosca la varianza in tutte le formule scritte, la varianza 0-5 viene sostituita dalla
varianza campionaria 8 2 mentre i quantili q,- l (-) vengono sostituiti dai quantili della tn-1 (-).
376 CAPITOLO 14. VERIFICA DELLE IPOTESI
Test per la varianza di una popolazione normale ignota la media VI; signi-
ficatività 1 - 'Y·
1) due code VS
RC
2) coda dx
RC
(n-1)8 2 2 ( )}
{ --2-- ~ Xn-1 'Y
ao
RA
{ (n - 1)8
2 2 ( )} (n - 1)8 2 < a 02
2 < Xn-1 'Y ~ 2 ( )
ao Xn-l 'Y
3) coda sx
RC
RA
(n - 1)8 2 2
{ 2 > Xn- 1 (1 - 'Y)}
ao
In conclusione
Ma ribadisco che è sconsigliabile ricorrere agli IC per risolvere un test, a meno che, nel
fare i conti, non abbiate già trovato un IC prima di affrontare il test stesso.
VINel caso si conosca la media della popolazione in tutte le formule scritte qui la varianza campionaria
1
8 2 viene sostituita dallo stimatore
n
85
= - I:(Xi - µ,)2 , (n - 1) viene sostituito da ne i quantili non
sono quelli della X~-l ma quelli della x~-
377
Esempio 14.1.12 Poniamo direttamente a confronto la veri.fica delle ipotesi e la ricerca
di un intervallo di confidenza. Secondo la legislazione americana del 1980, il massimo
livello di inquinamento concesso ad un autoveicolo era di un residuo di 5.3 grammi di so-
stanze inquinanti scaricate in un miglio di percorso. Un costruttore afferma che la media
dei residui del modello che lui produce è al di sotto di questi standard. Un test dell'orga-
nismo federale di controllo esamina 16 esemplari di questo modello, facendoli marciare
sulla distanza di un miglio. La media degli inquinanti misurata per questo campione è 5.l
grammi, con una deviazione campionaria di 0.3 grammi. I tecnici dell'organismo federale
vogliono tutelarsi dal fatto di accettare l'affermazione del costruttore nel caso che menta
mettendo un tetto del 10% alla probabilità di sbagliarsi. Fissano perciò l'affermazione del
costruttore come ipotesi alternativa (Ha:µ< 5.3) e il livello di significatività 1-ì = 0.1.
a) Vediamo dapprima come possono agire mediante la ricerca di un intervallo di confiden-
za. Il nostro campione di 16 auto mostra una media pari a 5.l grammi e una deviazione
campionaria pari a 0.3 grammi. Cerchiamo un intervallo di confidenza unilaterale sini-
stro al 90% perµ utilizzando le 13.17. Poiché la dimensione del campione è piccola (e
la popolazione è normale o approssimativamente normale), usiamo t = ~/;:: , che ha
una distribuzione di Student con (n - l) df. L'intervallo di con,fidenza al lOOì per cento è
dato da: X +tn-1(ì)S/fo ~µdove l-ì = 0.10::::} ì = 0.90, tn-1(ì) = t15(.90) = 1.341
da cui 5.1 + 1.341 ( ~) = 5.2006 ~ µ.
Il risultato ottenuto è sfavorevole all'ipotesi H O : si decide perciò di credere al costruttore
{rifiutare H 0 cioè accettare Ha) con probabilità 0.1 di sbagliarsi (Ho vera cioè Ha falsa).
b) Vediamo ora la verifica delle ipotesi. 1) La decisione è quella di prendere come
alternativa l'affermazione del costruttore e nulla l'ipotesi contraria, cioè:
{ Ho:µ~ 5.3 .
Ha:µ< 5.3 '
. Xn-5.3 ( ) . , 1 5.1-5.3
3) usiamo t = S/fo , df = 15; t calcolata sul campione et = 0 _3/v'l6 = -2.67;
y=.9
Xn-1' = 5.1-5. 3 =- 2 61
s/.r,,. . 3/-{ii · m
regione critica
p - value = l - 0.991
5.1 -2.67 -2.67 0.009
(*) valore ottenuto per interpolazione
Anche in questo caso per rendere accettabile H 0 in base alla osservazione fatta sareb-
be necessario abbassare la signi.ficatività molto oltre l'usuale soglia 0.01 : siamo perciò
fortemente motivati a rifiutare H 0 .
Popolazione di Bernoulli
Nel caso di una popolazione di Bernulli il passaggio agli le corrispondenti non è im-
mediato. Si ricorderà che nel caso della determinazione degli le avevamo espresso tre
diverse formulazioni. Non vogliamo insistere su questo argomento. Si osservi solo che,
per esempio, dal caso (•) si ottiene una regione di accettazione data da:
Da quest'ultima, con conti analoghi a quelli svolti nel capitolo 13, si può concludere che
l'ipotesi Ho non è rifiutata se e solo se il valore ipotizzato vero Po appartiene all'intervallo
di confidenza dato in 13.16.
Spieghiamoci con un esempio che riguarda un gioco a dadi dove la regola stabilisce che
perdo tutte le volte che esce la faccia 1 mentre vinco in tutti gli altri casi. Dopo 100 lanci
la faccia 1 si è presentata 27 volte; mi sarei aspettato invece che uscisse intorno alle 16
volte, dal momento che P[faccia= l] = ¼,in ipotesi di dado bilanciato. Mi viene allora
il sospetto che il dado sia uno di quelli truccati che fanno uscire la faccia 1 una volta su
quattro, cioè tali che P[faccia= l] = ¾- In questo caso su 100 lanci l'l dovrebbe uscire
25 volte. Perciò:
Nel nostro caso n = 100. Fissiamo la soglia S = 0.20. Se X n >S = 0.20, cioè I: Xi > 20
(quindi 1 esce più di 20 volte), rifiutiamo p = i· La regione critica è dunque fissata:
Si noti che il valore di soglia S fissato determina la probabilità dell'errore del primo tipo
1 _,,vn_
L'errore del secondo tipo consiste nell'accettare H 0 quando è falsa (o, che è lo stesso,
rifiutare Ha quando Ha è vera). Indichiamo con (3 la probabilità dell'errore del secondo
tipo. Quando l'ipotesi alternativa è composta (3 è in generale una funzione e non un
numero. Se, sono semplici sia l'ipotesi nulla sia quella alternativa , anche /3è un numero
e lo si può calcolare. Considerato che, sotto ipotesi alternativa Pa(l-pa) O 043
100 = ' '
abbiamo (figura):
/3 = P[Xn ::; 0.20IHa] P[xu-o, 25 < 0.20 - 0.25] P[Z < -1.163] = 1 - P[Z <
0.043 0.043
1.163] '.:::'.
0.123.
~= 0.123; probabilità dell'errore del 2° tipo J -y = O.187; probabilità de/l 'errore del / tipo
0
µa = 0.25
---RC
C'è una scelta migliore del valore di soglia 0.2 che abbiamo fissato? 1Iigliore nel senso
che diminuisca la probabilità di errore sia del 1° che del 2° tipo.
VIIN aturalmente la soglia 8 può essere trovata partendo dal valore di 1- "Y.Da P [ VXn -po
Po(l-po)
> a] =
n
1-"Y, cioè a= q,- 1 ("1)si ricava 8 = po+ J po(l,:;-po) q,-l ("Y),Adesso occorre calcolare (3 = P [Xn :S 8IHa]
Ipotizzando 1-"Y = 0.1 nel nostro caso risulterebbe 8 = 0.214 e (3 = P[x6.o~:i 25 :CC::-0.83] = 1-P[Z <
0.83] = 0.2033.
380 CAPITOLO 14. VERIFICA DELLE IPOTESI
Se si prende S = 0.22, cosa succede? Le due gaussiane rimangono centrate sulle loro
medie 0.167 e 0.25. Cambiare il valore limite, spostandolo, per esempio, a destra, significa
spostare a destra la retta verticale tratteggiata. Così facendo, come è ovvio, diminuisce
1 - 'Yma aumenta j3.
Spostando il valore limite non si può diminuire contemporaneamente 1 - 'Y e j3.
L'unico modo per diminuire 1-"( e j3 è quello di aumentare la dimensione n del campione.
Infatti, come mostra la seguente figura, se si aumenta n, le campane si stringono perché
a2 -
diminuisce la varianza - della media campionaria Xn.
n
Fissato n come si sceglie il valore limite migliore? Per questa scelta si può utilizzare il
lemma di Neyman-Pearson (vedi per esempio: [MGB] in bibliografia).
Vediamo un altro esempio.
Uno stabilimento è specializzato nella produzione di un unico tipo di transistor. Un
cliente deve acquistare una partita costituita da un numero molto elevato di questi tran-
sistor e ritiene, giustamente, che la percentuale dei pezzi difettosi in essa contenuta
uguagli la probabilità p che un transistor prodotto dallo stabilimento sia difettoso. Per
salvaguardare i propri interessi decide di fissare la seguente strategia: dette
Ho : p = 5% e H1 : p = 8%
la merce viene accettata se i dati suggeriscono che l'ipotesi Ho sia vera, viene rifiutata
se invece i dati suggeriscono che è vera H1.
Per la verifica di queste ipotesi cliente e stabilimento decidono insieme di esaminare 400
transistor e di fissare il valore critico a k = 6%, in modo tale che, indicando con Pn la
percentuale di pezzi difettosi del campione, si accetta la partita se Pn ,::;k, la si rifiuta se
Pn > k.
Oss.: soglia fissata in base all'intuito generato dall'esperienza; le probabilità dell'er-
rore del 1° tipo e del 2° tipo si calcolano dopo che si è fissata la soglia.
Calcoliamo la probabilità 1 - 'Y di errore di 1° tipo (1 - 'Y = rischio del venditore, cioè
la probabilità che il compratore rifiuti Ho quando è vera) e j3 di errore di 2° tipo (/3 =
rischio del compratore cioè la probabilità che il compratore accetti Ho quando è falsa).
Decidiamo di fare i conti arrestandoci alla terza cifra decimale aumentando di un'unità
tale cifra se la prima cifra trascurata è maggiore di 5. Saranno utili i quantili cI>(0.909) =
0.818 e cI>(l.538) = 0.9380.
Ricordiamo che Pn coincide con Ì: nxi = X n (proporzione campionaria) rilevata sul cam-
pione. Sappiamo che la distribuzione di X n è approssimativamente normale con media
381
p e scarto Vp(I;;_p)
(p incognita). Si è stabilito di accettare Ho se '2:,nXi= Xn,::; 0.06, e
di rifiutarla (cioè di accettare Ha) se '2:,nXi= Xn > 0.06.
Nel nostro caso n = 400. Per calcolare il rischio del venditore assumiamo che l'ipotesi
Ho sia vera, cioè che
p = o.o5;CJ= y~
400 = 400
= o.on
_o._05_._o_.9_5
z = Xn-0.05
0.0ll
da cui
p = o.o8;CJ= y~
400 = 0.08 · 0.92
400
= 0.013
z = Xn-0.08
0.013
- 0.06-0.08
{Xn _::;0.06 quando Ha è vera} ~ Z,::; 0 _013 = -1.538.
Utilizzando i quantili si ha:
da cui
(3 = 0.062
Ho:µ= µ0
N(O;IJ
N(O; I)
cadere lontano a destra mentre la statistica test X;/~o deve cadere lontano da O,
sempre a destra. Se la coda è a sinistra (•) deve cadere lontano a sinistra mentre la
Per determinare il p - value ci si comporta diversamente a seconda che il test sia a due
o a una coda. Se il test è a due code poi occorre distinguere se il valore osservato della
statistica test cade a destra o a sinistra di O.
383
p - value per test a due code (•)
N(O;I)
x- ~•o
x-µ (jtvn
p-vaJue = 2[1 - <l>(--- 6 ,)j
u/v,i'
( Xn - µo)
p- value = 2<1> a/y'ri, ;
.
se mvece
Xn -
aI vn
µo
cade a destra
. ,
d1 o e
N{O:!)
()
X· flo
p-value =I - $(---)
r:Jl'ln'
Abbiamo:
p-value=<f>( a/vn
Xn - µo
); test a coda sinistra
x -µo
p - value =l - <I>(; / vn) test a coda destra.
/I
1.,.,(1 -y ) ,,,.i(y)
Per rifiutare, lo stimatore X n deve cadere lontano da µ 0 . Se la coda è a destra (-" )deve
,,,_,x-~'o 11
,;
S/1/ri
_1 x- ~10
I 11
.J(-; ,r.:-)
s yfl
x-µ (i
slvn
x-µ
p-va/ue =2[/ - r ·\. 1(._'ì/y;f.JJ
S/1/n
Abbiamo:
-1 (Xn - µo)
p - value = tn- l 8/ fa ; test a coda sinistra
-1 (Xn-µo)
p- value = l - tn-l s/fa test a coda destra.
W=~ -X
1
O'o2 n-I
11-
J 11-l- f!/!I'/
X z (.L;,:i..)
11-I 2
386 CAPITOLO 14. VERIFICA DELLE IPOTESI
(n -I>S2
cr/
med(x 2,,_[)
(n -ns 2 (n -ns 2
(j 2
o cr/
Figura 14-1 :
Per rifiutare, lo stimatore S;, = S;, = n~ 1 I:~=l (Xi - Xn) 2 deve cadere lontano da 0-5a
(n- l)S 2
destra o a sinistra mentre la statistica test W = -~~- rv X~- 1 deve cadere lontano
0-5
da n - l a destra o a sinistra.
Test a una coda (.ft) e(•)
w= r,,-ns
cr/
2~x,,_Ji
1 -y
Per rifiutare, lo stimatore S;, = S;, = n~ 1 I:~=l (Xi - Xn) 2 deve cadere lontano da 0-5.
(n - l)S 2
Se la coda è a destra (.ft)deve cadere lontano a destra e la statistica test W = 2
ao
deve cadere lontano da n - l, sempre a destra. Se la coda è a sinistra (•) deve cadere
· · (n - l)S 2
1ontano a sm1stra e 1a stat1st1ca
. . test W = 2
d eve ca d ere 1ontano d a n-1, sempre
ao
a sinistra.
p - value per test a due code (•)
387
.
P er d etermmare ·1
1 p- va l ue vm , se (n - 2l)s2 cade a sinistra della mediana med(x;,,_ 1) ~
a-o
n(l - ~)3 è
9
c«-nt
cr/
p-1 1a/11
e = x1
- ~
<·1)(.:iJl.dli..)
1
p -value = 1 . ,,1
~~
(-J/( C,1 -1),~ )
O"o cr01
Abbiamo:
(n - l)s 2
P - value = x n-1
2 (-l)(--~-)·
2 '
test a coda sinistra
a-o
(n - l)s 2
p- value = l - x;,,_( )
1 -l (
a-o
2 ); test a coda destra.
Invece di un adattamento a una fdr si può fare un test con una fd ipotizzata vera. Ciò
è possibile particolarmente con distribuzioni discrete, come è illustrato nella successiva
sez10ne.
X;_1 = t
k=I
(Nk - n. 7rk)2
n · 7rk
= n. t(
k=I
J::f;
- 7rk) 2
7rk
(14.15)
Ciò ha una conseguenza sul numero dei gradi di libertà della statistica test
2
X2
s-1-r
=X*2 =""""
(N; -
s-1
s
L....,
~
n1rk(8))
~
k=I n1rk(8)
Se il numero dei parametri della popolazione utilizzato per il calcolo dei Jr; e
ottenuto dai dati osservati è r allora vale
y 1-
4) Quindi si osservano i dati (n1, ... , n 8 ) e si trova il valore x;_ o x;_ r) assunto
1 ( 1_ da
X;_1 (o da x;~l-r) sull'osservazione.
5) Allora:
5.a) Se x;_ 1 > x;_1 (ry) (oppure x;_
1 _r > x;_1 _r(ry)): si rifiuta Ho con probabilità 1-ry
di commettere errore;
5.b) Se x;_ 1 .S x;_ 1 (ry) (oppure x;_
1 _r .S x;_
1 _r(ry)): i dati osservati sono compatibili
con l'ipotesi Ho.
In pratica l'approssimazione asintotica è:
a) buona se \ii, n1r; 2".5; (i= 1, ... , s);
b) appena soddisfacente se \ii, n1r; 2".~ (i = 1, ... , s).
I risultati oscillavano da 117 guidatori che non avevano avuto incidenti a 1 guidatore che
ne aveva avuti 11. Una prima semplice verifica per stabilire se fosse ragionevole ritenere
che gli incidenti si distribuivano in modo completamente casuale tra i guidatori o se ci
fosse qualche guidatore più portato ad averne passa per lo studio del seguente modello.
Si supponga che gli incidenti che possono capitare nell'arco di 3 anni a un generico
guidatore si distribuiscano ubbidendo alle seguenti regole:
i) il numero medio di incidenti nell'intervallo [O,1] sia costante e sia un numero reale
li> o
ii} P[esattamente l incidente nell'intervallo di ampiezza h] = vh + o(h)
iii} P[2 o più incidenti nell'intervallo di ampiezza h] = o(h);
iv} Gli incidenti in intervalli di tempo non sovrapposti si verificano in modo indipendente
l'uno dall'altro.
Sia ora X la va che conta il numero di tali incidenti (quelli che possono capitare a un
guidatore nel periodo di 3 anni e seguono i}, ii}, iii), iv)) e indichiamo con À il numero
medio di incidenti in tale periodo.
a) Scrivere la legge di probabilità f x (x, >.) di X.
X= 0,1,2,3, ...
, -
À=Xn=--
I:X;
n
d} Per ottenere una stima >.di À si ritenga che i 708 guidatori osservati costituiscano un
campione casuale da X. Utilizzando lo stimatore MLE di À e i dati della tabella 14.17
verificare che tale stima vale 2.29.
Nel nostro caso n = 708; I: x; = 1623 = numero di incidenti accaduti ai guidatori in
3 anni
,\. = I: X;
= 1623 = 2 _29
n 708
e) Si supponga ora che il valore di À del modello vero sia quello della stima. Verificare
che la probabilità che a un guidatore non capiti nessun incidente in 3 anni è pari a O.I.
-2.29 (2 29)0
P[X =O]= e ~! . = 0.1
f) In base alle ipotesi fatte fino a questo punto la va X segue la legge di probabilità
f x (x; 2.29). Volendo ora eseguire un test di buon adattamento per verificare se accettare
o meno le ipotesi fatte, i 708 guidatori vengono suddivisi nelle seguenti classi:
T1 O incidenti T5 4 incidenti
T2 1 incidente Ts 5 incidenti
T3 2 incidenti T1 6 incidenti
T4 3 incidenti Ts più di 6 inciden ti
Test di Kolmogorov-Smirnov
Consideriamo ora la statistica di Kolmogorov:
Si osservi che 1x
A causa della lenta convergenza della serie nelle vicianze dell'origine, questa approssima-
zione però vale solo per À > O.7.
Indichiamo con ..\1'il 1- quantile relativo alla distribuzione di Kolmogorov cioè il valore
..\1'tale che: K(..\1') = T
. . +oo 2 2 +CX) 2 2 . . .
IX Fissato À > O pomamo: I: (-1Jk- 1 , e- 2 k >- = I: (-l)k-l, ak con ak = e- 2 k >- • Siamo d1 fronte
k=l k=l
a una serie numerica a termini di segno alterno con ak > ak+l, quindi convergente. Perciò arrestando
la somma al primo termine (per k = O) l'errore che si commette non supera, in valore assoluto, il primo
termine trascurato:
1='
k=l
(-l)k-1,e-2k 2 >.2 = e-2>. 2 -e-2·2 2 ->.2 +e-2 3 2 ->.2 -e-2·4 2 ->.2 + ·,, (-l)k-1,e-2k 2 >.2 +,,, ~ e-2>. 2
e il modulo dell'errore non supera e- 2 ·22 >-2 . Ma per À :CC::0.7 questa informazione serve a poco perché
l'errore e- 2 ·22 ·>-2 supera 10- 2 , quindi è "grande".
394 CAPITOLO 14. VERIFICA DELLE IPOTESI
lim
n---+oo
P[yn · Dn _::;>-.]= n-oo
lim P[Dn _::; ~]
y n
= K(>-.)
Oss. 6 Il teorema appena enunciato afferma che yn · Dn ~ K(>-.).Si noti perciò che la
distribuzione asintotica di Dn non dipende da F(x).
è raggiunto in uno dei punti x(j)· Infatti consideriamo, a titolo di esempio, l'intervallo
[x(i-1),X(i)), dove adesso i= 2, 3, ... , n. Come si evince dalla figura
]) 2) 3)
x*
X X X X X X
(i-i) (i) (i-I) (i) (i-I) (i)
395
i casi 1}, 2} e 3} mostrano tutto quello che può accadere tra un'osservazione e l'altra,
dove Fn(x;X) è costante e F*(x) è crescente.
Per esempio, nel caso 1}
In conclusione abbiamo:
oppure, indicando con sx e con dx rispettivamente gli estremi sinistro e destro dell'in-
tervallo [x(i-l), X(i))
n+l
'vi=l, ... ,n+l;Ai-1=[x(i-1),x(i)); U Ai-1=lR
i=l
dove X(o) = -oo e quindi Ao = (-oo;x(1)) e X(n+l) = +oo e quindi An = [x(n);+oo),
n+l
dopo aver osservato che LJAi-1 = JR, si arriva alla situazione seguente:
i=l
An-1 A,,
abbiamo, per i= 1
396 CAPITOLO 14. VERIFICA DELLE IPOTESI
per Vi = 2, ... , n
per i= n + l
1 . ---------------------------------------------------------
.-----------------;
~~~~~~~ ~ ~ ~ ~ -:----_-_-_-_-_-
_-_-_-_-_-_-_-_-_-_--~------
---------_f_}_
-~----------.
----- ------------:------------------i i
Fn(x; X) -
À1'
fa ::;F * (x) ::; Fn(x; X)+
À1'
fa \lx E R (14.19)
In altri termini, qualunque sia la vera fdr F*(x) (purchè continua), essa è contenuta nel
dominio aleatorio definito dalla 14.19, con probabilità ì (detto anche fascia fiduciaria
della fdr di X al l00ì%). Se si è disposti a rischiare molto poco nel rifiutare F* (x) (cioè
se 1 - ì è molto piccolo), allora la fascia fiduciaria risulta molto grande ( À1' è grande).
Si osservi che d~ ::; ~ significa semplicemente che l'ipotizzata fdr di X appartiene alla
fascia evidenziata nella figura qui sopra. Si noti che, quanto più piccolo è 1 - ì, tanto
più grande è À1' (cioè l'ampiezza della fascia fiduciaria), quindi tanto meno significativo
è il test.
Riassumendo, per realizzare un test di Kolmogorov-Smirnov:
1) fisso 1- ì e trovo la fascia fiduciaria al l00ì% ; essa è indipendente dalla distribuzione
di X, nel senso che, qualunque sia la fdr di X, essa è contenuta in tale fascia con
probabilità ìi
2) formulo l'ipotesi F*(x) circa F(x) e calcolo d~. Allora, se:
2.a) I d~::; ¾ IF*(x) cade nella fascia fiduciaria e i dati sono compatibili con l'ipotesi.
Questo non significa che il modello sia corretto cioè che la vera F(x) sia uguale alla F*(x)
con probabilità 1 (o con certezza);
2.b) I d~ > ¾I F*(x) non è interamente contenuta nella fascia. Rifiuto allora F*(x)
con probabilità 1 - ì di sbagliare.
I valori ~ sono tabulati in Appendice 7.
Esempio 14.2.10 Una macchina produce cuscinetti a sfera. La misura x del loro dia-
metro è una va X che si può pensare distribuita normalmente. Si formula l'ipotesi che
X ,....,N(2, 1/3). Si eseguono 80 misure e supponiamo che risulti d80 = 0.17. Scelto
< 1.36
1- ì = 0.05, si trova (Appendice 7/1): d80 ior.;0.17 > 0.1520.
v80
>
Quindi si rifiuta l'ipotesi con 5% di probabilità di sbagliare.
{ Ho:
F*(x) = xl(o,l)(x) è un buon modello per i numeri generati
Ha: Ho è falsa
840 157 145 44 33 121 150 280 434 736 584 887 263
1901 695 294 562 721 76 710 46 402 194 759 319 460
40 1336 335 1354 454 36 667 40 556 99 304 375 567
139 780 203 436 30 384 129 9 209 599 83 832 328
246 1617 638 937 735 38 365 92 82 20
(14.20)
399
Interpretiamo questi dati come campionamento di un tempo di attesa di un successo (il
veri.ficarsi di un terremoto) da una distribuzione geometrica di parametro p. Ricaviamo
p dai dati osservati:
Indichiamo con X la va che conta i giorni d'attesa per avere un terremoto. Con questa
visione sarà ragionevole aspettarsi che i dati provengano da una distribuzione geometrica
(tempo d'attesa del primo successo) di parametro p calcolato dai dati.
Facciamo un test chi-quadro di buon adattamento dei dati osservati a questa geometrica.
Troviamo le classi in cui suddividere i giorni d'attesa. Solitamente si scelgono s classi
Ci in modo che su ognuna ci sia la stessa percentuale di peso calcolata rispetto alla
distribuzione teorica ipotizzata.
Scegliamo allora 10 classi in modo che ci sia circa 0.1 di peso su ogni classe, cioè 1r i ~ 0.1.
Essendo n = 62, ciò basta a garantire che n1ri ~ 5. Per trovare i limiti delle classi
ricordiamo che, se p è il parametro della geometrica allora la funzione cumulativa ha la
seguente espressione:
F(w) =l · - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - · F(/000)
0.9000/
0.9 F(699)
0.8000
0.8 0.6001 F(523) ...
0.7 F(398) ..
0.700/
0.6 F(302)
0.5011
0.5 F(222) ..'"
0.4 0.4002
F(/55) ..
0.3002
0.3
F(97) f
0.2 0.2002
O.I
!.ftKf
rI
46 97 155 222 302 398 523 699 1000
ln(l - a)
Ovviamente se F(k) = 1- qk = a ===} k= lnq ·
400 CAPITOLO 14. VERIFICA DELLE IPOTESI
x s-1-1
2 = n.""(Nk
s
n -
L..,
k=l 7rk
1rk
)2
= 62. 0.113352 = 7.027824
Supponiamo che il livello di significatività sia 0.01. Lo 0.99 quantile della x~è 20.1 quindi
non si rifiuta. Per quanto riguarda il p - value, con un computer si può calcolare
À = p = 0.0023.
Il parametro À rappresenta anche il numero medio di arrivi, nell'intervallo unitario, del
processo di Poisson che, ed è quello che stiamo testando, dovrebbe modellare gli arrivi
dei terremoti.
La tabella (unità di misura: giorni} osservata di questi tempi di interarrivo è la 14.20.
L'ipotesi nulla è:
{ Ho:
F*(x) = J;Àe->-tdt; À = 0.0023 è un buon modello per i numeri generati
Ha: Ho è falsa
I dati tabellati ed elaborati sono i seguenti divisi in 7 tabelle Ti per esigenze grafiche dove
Fn(xo) = O:
401
Dal momento che abbiamo ricavato un parametro (>-.)dai dati non possiamo usare la
tavola dei quantili della Kolmogorov (Appendice 7/1} ma dobbiamo utilizzare la tavola
1.06
dei quantili in Appendice 7I 3. Lo 0.95-quantile in questo caso è ~ = 0.1346.
v62
Poiché d62 = 0.082 non si rifiuta a livello l - , = 0.05. Dalla stessa tabella, poiché
0.86
0.082 < ~ = 0.109 il p - value è superiore a 0.2. Questa è un'altra ragione per non
v62
rifiutare.
Il grafico che riassume la funzione di ripartizione dell'ipotesi nulla e quella della campio-
naria è il seguente:
1,0
---
0,8
0,6
0,4
0,2
0,0
403
Il test qq-plot di normalità
Dal test di Kolmogorov-Smirnov si può ricavare un test grafico detto del q-q plot
(quantili contro quantili plot) spesso utilizzatoper testare se una popolazione ha
una distribuzione gaussiana.
Vediamo come funziona. Consideriamo sempre n osservazioni indipendenti X 1, ... , Xn
di una variabile X di legge F(x) e sia Fn(x) = Fn(x;X) la funzione di ripartizione
campionaria (si ricordi che Fn è una va). Se indichiamo con X(1) < X(2) < · · · < X(n) i
valori osservati, riordinati in modo crescente, allora, fino a X(i) compreso, cadono i punti
e quindi Fn(X(i)) = !...
n
Abbiamo visto (paragrafo 12.5) che, al crescere di n, Fn(x) si
avvicina (in probabilità) a P[X::; x] = F(x). Ma il teorema 14.2.7 garantisce che Fn(x)
converge uniformemente a F(x) con probabilità 1. Quindi i punti Fn(X(i)) si avvicinano
a F(x(i)) non solo in probabilità.
Ipotizziamo che X rv N(O; 1) e indichiamo con <I>la sua funzione di ripartizione. Cam-
pionando da X, nelle ipotesi fatte, al crescere di n, Fn(x) si deve avvicinare a P[X ::;
x] = <I>(x).
i
Per n grande Fn(X(i)) =-
e <I>(x(i))sono vicini.
n
Dunque, indicando con <I>q= <I>-1(q) il q-quantile
della legge normale standard (cioè il
= q), poiché <I>e <I>-1 sono
numero che ha alla sua sinistra una massa pari a q, <I>(<I>q)
continue, si può scrivere
cioè se !..
e <I>
(X(i)) sono i ~ X(i) = <I>-1 ( <I>
vicini anche <I>-1 ( _ni) = <I> (X(i))) sono vicini.
n n
Ipotizzando dunque che X rv N(O; 1), se in un piano cartesiano si riportano i punti
(<I>
i, x (i)) questi devono stare approssimativamente (per n grande) su una retta. Se ciò
n
non accade si mette in dubbio l'ipotesi che la legge di partenza sia una N(O; 1).
Ripetiamo questo ragionamento ipotizzando, più in generale, che X rv N(µ; a 2 ) e indi-
chiamo con <I>µ,0'2la sua funzione di ripartizione. Questa volta, al crescere di n, Fn(x) si
deve avvicinare a P[X::; x] = <I>µ,0'2(x).
i
Perciò se plottiamo (x(i), <I>-1 2( - ) ) li troviamo ancora sulla bisettrice del 1° e 3° qua-
/L,O' n
drante (modo a). Se invece, in difficoltà a trovare i quantili della <I>
/L,0'2
(x) vogliamo
ricorre alle tavole della N(O; 1) procediamo nel modo seguente
Se <I>è la fdr della normale standard, si ha:
= P[X::; x] = P -a-::;
<I>µ,0'2(x) [X-µ -a-x-µJ <I>(x-µ)
-a-=.
i
-~<I> (X(i)
~-- - µ)'
n a
-1.45 -1.3 -1.08 -0.43 -0.42 -0.25 0.52 0.59 0.61 0.8 0.96 1.04 1.17
1.71 1.78 1.8 2.13 2.39 2.58 2.68 2.85 2.98 3.69 3.89 4.07 6.12
Eseguendo i conti come qui esposto si hanno le seguenti figure (a sinistra modo a e, a
destra, modo b): si accetta perciò l'ipotesi nulla.
~ 7
"'
t.i
'<::,
6
Il
b =a ~'/b = aa + µ
~ 5
4 4
,.
'
'
l
3
/·
2 •
-3 ,.,,.,~ 1 3 -3
,>,,~- -2
-I
-2
Lo stesso procedimento si può utilizzare per testare che una va segua una legge F(x).
1) Si ipotizza (ipotesi nulla) che il campione casuale di dati provenga da una popo-
lazione di F(x).
2) L'ipotesi alternativa è che la popolazione di provenienza non abbia legge F(x).
Indicando con çq il q-quantile della F(x) (cioè çq = p- 1 (q)), si plottano i punti
(çi,X(i))- Se questi stanno sulla bisettrice del 1° e 3° quadrante si accetta l'ipotesi
n
nulla, altrimenti la si rifiuta.
Il qq-plot fornisce un test qualitativo per verificare l'ipotesi nulla. Se la nuvola di punti
si discosta abbastanza da una retta si rifiuta l'ipotesi nulla e si accetta come plausibile
l'ipotesi di provenienza da una legge diversa da F(x).
j3 _ µ 3 _ E[(X - µ)3]
1 - (T3 - [E[(X _ µ) 2]]3/2
405
µ4 E[(X - µ)4]
/32 = (T4 = [E[(X _ µ)2]]2
/31 caratterizza la skewness (asimmetria) della distribuzione nel senso che, se una distri-
buzione è simmetrica intorno alla sua media µ allora /31 = O. Valori (31 =/-O indicano
presenza di skewness e quindi assenza di normalità.
Inoltre per la distribuzione normale (32 = 3 e quindi (32 =/-3 indica assenza di normalità.
Per la stima di questi due momenti Pearson suggerisce le seguenti espressioni
"""' - k
d ove M k' L..(X; -
= ------; Xn) k > l e' I·1 momento camp10nano
· · centra 1e d"1 or d"me k , X-ne ' 1a
n
media campionaria e S~ è lo scarto campionario non corretto.
M' 6 M' 24
B1 = -S •33 Rj N(O· -) B2 = - 44 Rj N(3· -)
n ' n S;, ' n
o, equivalentemente:
M'
_4_3
B2 - 3 S•4
-- = N (O·1)
f-! '
.:::..n....__ Rj
f!
L'ipotesi nulla del test di normalità è ora Ho : {X ha una distribuzione N(µ, lT 2 )}.
Immaginiamo un test di livello 1 - 1 .
Se l'ipotesi nulla è vera per n grande vale
[-<J>-1 (!.:p'-),<fi-
1 (!.:p'-)]non si rifiuta l'ipotesi Ho altrimenti si rifuta.
Per esempio sia dato un campione di dimensione 1000 da una popolazione di distribuzione
ignota. Ecco i dati riassuntivi del campione: Xn = 2.075, s~ = 3.9418, m 3= 6.2014, m 4 =
110.6019, 1bi1J6/nl = 1.3012, 1(b2- 3)/v'247°nl = o.3650,, 1
= o.9, <1>- ct'Y)= 1.645.
Allora lbi/ J67'nl < 1.645 e I(b2 - 3)/ v'247'nl < 1.645. Accetto. Se cerco i p-value per
che, per quanto detto, in ipotesi nulla, rappresenta la somma di due va indipendenti
asintoticamente N(O; 1) al quadrato. Quindi JB è asintoticamente una va chiquadro
con 2 gradi di libertà. L'ipotesi nulla X rv N(µ; a 2 ) implica che contemporaneamente
l 'assimetria sia nulla e la curtosi sia uguale a 3. Tale ipotesi viene rigettata per valori
di JB troppo grandi.
Test di indipendenza
Un test molto interessante riguarda la possibilità di sottoporre a verifica l'indipendenza
di due variabili aleatorie X e Y.
Supponiamoche i possibili valori della X siano divisi in k classi e quelle della variabile
Y in h classi. Si estragga da (X, Y)T un campione di dimensione N e indichiamo con
N;j la frequenza assoluta osservata e con 'Trij la frequenza relativa attesa (o probabilità
congiunta) della classe (i,j) dove 1::; i::; k; l::; j::; h. Le due tabelle (di contingenza) a
doppia entrata:
X\Y l h X\Y l h
1 N11 N1h 1 7r11 7r1h
N;i 'Trij
k Nk1 Nkh k 7rkl 7rkh
k h (N,, _ RiS; )2
""'""' L.,
L., 'J RiS; N
i=l j=l N
X\ Y servizi beni
,........,.,,..-----,-.....,....,,,....--,
guadagni 42 18 60
perdite 6 34 40
48 52 10
e·· - [(Nij -
[ tJ] - ~)2]
!!:i0..
N
-[
1.0767
0.0259
0.59
3.1260
0.00006
1,2
0001
1.244
0.741
5.88
1.32
5.66
l
Facendo i conti risulta:
k h k h (N· _ RiS; )2
L L cij = L L 'J Rist = 20.867.
i=l j=l i=l j=l --yr-
I gradi di libertà sono 6, il p-value è 0.002 per cui si rifiuta.
D ìpl { ilinin,fluente
fatto che µ ,f. 1 oppure che µ E / è
L....:__J
0 1
sulle nostre decisioni riguardo a Ho
0 1
409
Esercizio 14.3.2 Sia X1, X2, .. , Xn un campione casuale da f x (x; >-.)= :~ e->-./{o, 1, ..}(x)
la statistica ¼I:7=1 X; serve per stimare >-.
la statistica n~ 1 I:7=1 (X; - X n) 2 serve per stimare >-.
{ la statistica ¼I:7=1 X; serve per discriminare l'ipotesi
Ho : >-.= Ào contro l'alternativa Ha : >-.= Àa
la statistica n~ 1 I:7=1 (X; - Xn) 2 serve per discriminare
{
l'ipotesi Ho:>-.= >-.ocontro l'alternativa Ha : >-.= Àa
Esercizio 14.3.3 In un test sulla media di una popolazione X di momento secondo finito
quando non è nota la varianza, la distribuzione t di Student si applica
[!]O esclusivamente se X è normale
D1J:J esclusivamente se X è normale e il campione è numeroso
D ìpl
L....=_J
{ se X è normale, qualunque sia la numerosità del campione oppure anche
ad altre popolazioni purché il campione sia sufficientemente grandex
Esercizio 14.3.4 Dati due test T1 e T2 per decidere fra l'ipotesi nulla H 0 e l'alter-
nativa Ha, semplici, con probabilità di errore di l O e 2° tipo rispettivamente uguali a
a1,f3 1,a2,f3 2 allora T1 sarà preferibile a T2 se
CTID a1 < a2 e f31 < f32 CTID
0:1 = 0:2 e f31 < h
D1J'.J 0:1 = 0:2 e f31 > f32 D1J:J
0:1 > 0:2 e f31 < f32
Esercizio 14.3.6 Sia X un ccn da una f x (x; >-.)= vk exp [-A (x - >-.)2]
n
la statistica n~ 1 I: X; può servire per stimare >-.
i=l
n
la statistica n~ 1 I: X; è uno stimatore corretto di >-.
i=l
n
la statistica n~ 1 I: (X;-X n) 2 può servire per stimare >-.
i=l
la statistica n~ 1 itl X; può servire per discriminare l'ipotesi
{
0 contro H 1 : >-.= >-.
Ho : >-.= >-. 1
Modelli di previsione
Y=h(x)+c (15.1)
Riprendendo quanto anticipato nel capitolo 1, h dovrà rendere minima la 15.2 sotto la
condizione di realizzare una relazione lineare tra la variabile Y detta responso, dipendente
(nel senso dell'Analisi), e casuale (nel senso della Probabilità) e una (e, per ora, una sola)
variabile indipendente (nel senso dell'Analisi) x, detta predittore, i cui valori possono
essere fissati con certezza. La relazione è la seguente:
(15.3)
1Il caso multivariato verrà trattato più avanti con una tecnica diversa.
II Dal capitolo 9, sezione Valore atteso condizionato e stima ottima) sappiamo che h(x) = E[Ylx]
e, se X è aletaoria, h(X) = E[YIX].
412 CAPITOLO 15. MODELLI DI PREVISIONE
dove x è il rappresentante dei possibili valori fissati, bo e b1 sono numeri reali non noti.
Il modello allora diventa
(15.4)
e c, che prende il nome di errore casuale o rumore, rappresenta una va di media O e
varianza a 2 . Poiché per noi sarà c rv N (O;a 2 ) il nostro modello si dirà lineare gaussiano.
Possiamo allora pensare che, fissati n diversi valori Xi di x, per ognuno di loro c'è una
va Y; (la cui alea è concentrata in c = ci) che si esprime con la relazione:
(15.5)
Ogni volta che viene fissato "con certezza" un valore Xi del predittore x la Y; risulta
composta da una parte deterministica bo+ b1 xi e da un errore aleatorio ci che concentra
in sé tutta l'alea di Y;. Utilizzando il linguaggio vettoriale, le n relazioni 15.5 si possono
riassumere con la seguente simbologia:
Y = [ln, x] [ :~ ] + e
dove
(15.6)
Oss. 1 In generale ogni rumore ci dipenderà da Xi nel senso che dipenderà dai valori di
x la varianza a 2 di ci. In tutto questo capitolo, però, ipotizziamo che a 2 non dipenda da
x (omoschedasticità) e che le ci siano incorrelate; ipotizziamo cioè che e rv N(O, a 2 In)
dove e = (c1 , ... , cn)' e In è la matrice unitaria (n x n) che ha tutti gli elementi della
diagonale principale uguali a l e quelli fuori dalla diagonale uguali a O). Da questo segue
che anche le Y; sono incorrelate.
Nella sezione successiva andremo alla ricerca del legame 15.3 che sarà definito quan-
do avremo trovato i valori bo e b1 o, meglio, le loro stime. Vedremo che le stime
rappresenteranno i valori che due stimatori b0 e b1 assumono su certe osservazioni.
Oss. 2 Per non appesantire la simbologia, indicheremo con bo e b1 sia gli stimatori
(che sono va) sia i loro valori sul campione osservato (che sono numeri). Cioè bo e b1
potranno essere, di volta in volta, a seconda del contesto, stimatori o stime dei parametri
ignoti bo e b1.
110 o.-------------,
90 ~b +b . Y,=b 0 +b,x,+e,
o ,x,
70
30
10
bo
_10 10 10 10 40 50 60 10 80 90 100 110 no 130 uo 150 160 110 180 190 200
Il metodo dei minimi quadrati ci permette, date n coppie di punti (xi, Yi); i = 1, ... , n
di determinare i due valori b1 e bo in modo che le fj; = bo + b1 x; minimizzino l'errore
I:~=I (y; - fJ;)2 = (y - y)T (y - y), quadrato delle differenze tra i valori osservati di Y e i
suoi valori stimati fJo norma al quadrato IIY- 911 2 del vettore y -y = (y1 -fii, ... ,Yn -
~ )T
Yn ·
t empera tura in Cf' 100 110 120 130 140 150 160 170 180 190
percentuale 45 51 54 61 66 70 74 78 85 89
42 49 48 59 67 72 77 82 87 92
altre rilev azioni 4O 48 43 58 63 74 78 80 87 95
41 47 55 60 65 72 75 79 86 93
10 10 10
x = l45;y = 67.3; I: xf = 218500; I: yf = 47225; I: x;y; = 101570
i=l i=l i=l
10 10 10
Bxx = I: x7 - l0x 2 = 8250; Sxy = I: x;y; - nxy = 3985; Syy = I: Yl- l0y 2 = 1932.1
i=l i=l i=l
Sxy
A
b1 = -sxx
= 0.483 bo=y - b1x= -2.739.
~~ ,::::::::/
50
45
4(1______________ _
100 110 /20 130 140 /50 160 170 /80 190 100 JJ0 120 130 140 150 160 170 /80 190
Figura 15-1:
Oss. 3 Per maggiore chiarezza, indicheremo le variabili (aleatorie) con le lettere maiu-
scole e i valori osservati delle variabili con le lettere minuscole. Per esempio: SxY =
I:(x; - x)(Y; - Y) mentre Sxy = I:(x; - x)(y; - y)
X.
'
415
Come si evince facilmente dalla figura, vale la seguente relazione:
n n n
I: (y; _ y)2 = I:('!); _ y)2 + I: (y; _ '!);)2 (15.7)
i=l i=l i=l
che in termini più suggestivi (vedi anche capitolo 17) si può scrivere così:
Oss. 4 Molto importante. Avevamo già introdotto un linguaggio vettoriale nella for-
mula 15. 6. Completiamo quella notazione con le seguenti uguaglianze:
y-y=- (Y1-Y,···,Yn-Y
- -)T ;y-y=
~ - (~ - ~
Y1-Y,···,Yn-Y -)T ;y-y=~ (Y1-YI,···,Yn-Yn
~ ~ )T
(y - yf (y - Y) = (y - Y)T (y - Y) + (y - yf (y - y)
e quindi di:
IIY- Yll2 = IIY- Yll2 + IIY- 911
2 (15.9)
Naturalmente 15.9, che è scritta per una osservazione dei vettori Y, Y ~e Y, vale anche
se sostituiamo i valori osservati con le variabili aleatorie. Si osservi che Y è la proiezione
ortogonale di Y rv N(bo + b1x, a 2 In) su V generato da [ln, x] mentre di Y - Y è la
proiezione ortogonale di Y su V_!_,ortogonale a V (vedi cap. 11). Da questo segue
~ ~
La "varianza spiegata dal modello" si definisce anche "varianza dovuta alla regressione"
(cioè alla presenza del predittore x nel modello), e si indica con SSR mentre la "varianza
residua" si definisce anche "varianza dovuta agli errori" e si indica con SSE come indicato
dalla seguente:
III (Yi - fi) 2 = (iii - fi) 2 + (Yi - iii) 2 + 2(iii - y)(Yi - iii)
I:(Yi - fi) 2 = I:(Yi - fi) 2 + I:(Yi - iii) 2 + 2 I:(iii - fi)(Yi - yi)
Ora è: iii =bo+ b1xi = fi - b1i: + b1xi, Sostituendo si ha:
(iii - fi)(Yi - Yi) = b1(xi - x)(Yi - fi + b1x - b1xi) = -bi(xi - x) 2 + b1(xi - x)(Yi - fi).
Sommando:
'2 2 ' S';y S';y
I:(iii - fi)(Yi - iii) = -b 1 I:(xi - x) + bi I:(xi - x)(Yi - fi) = - - - = O
8xx 8xx
416 CAPITOLO 15. MODELLI DI PREVISIONE
Definizione 15.2.1 Si chiamano residui le quantità
e somma dei quadrati degli errori o somma dei quadrati dei residui l'espressio-
ne:
(15.10)
Oss. 6 Scritta così SSE è una va; invece I:(Yi -fj;) 2 rappresenta una stima di SSE sul
campione osservato.
Poniamo
somma totale dei quadrati degli scostamenti degli Y; dalla loro media e
(15.11)
somma dei quadrati degli scostamenti dei valori del modello lineare dalla media degli Y;.
La 15. 7 si può scrivere:
(15.12)
Nella 15.12 si può pensare che SSr sia un indice della variabilità di Y e che SSR sia la
la parte di variabilità di Y spiegata dai predittori, mentre SSE è la parte dovuta agli
"errori". A proposito dei simboli SSE e SSR vedere una nota nel capitolo 17.
Una formula per S SE
A2 - A_ 2
+ b 1x
A
Oss. 8 Nelle formule seguenti scambieremo spesso Yi con Y;, Yi con Y; e j} con Y a
seconda delle convenienze. Ovviamente dal punto di vista algebrico non cambia nulla e
tutte le formule continuano a valere
Correttezza di b1 e bo
( :•) Correttezza di b1
bo '-"' _ b1 '-"'
=-L..,(Xi-x)+-L..,(Xi-XXi=- _) b1 ('-"' 2
L..,Xi-nx _2)
=b1.
Sxx Sxx Sxx
( :•) Correttezza di bo
Distribuzione di b1 e b0
Distribuzione di b1
(15.15)
I:(xi - x)2 2 a2
A
var[b 1] = 82 a =
xx
s·xx
Distribuzione di bo
418 CAPITOLO 15. MODELLI DI PREVISIONE
A (]'2 I: x2
b0 ,.__,N(b 0 , -
8 xx --')n (15.16)
x2a2 _ a2
Infatti bo = Y - b1x dove b1x ,.__,N(b 1x, -8 N(bo
) e Y ,.__, + b1x, -) da cui segue
xx n
immediatamente che bo è una normale di media bo. Ora
- (]'2 A x2
var[Y] = - e x 2 var[b 1] = -8 a 2
n xx
-A
cov[Y, b1] = cov[I: ~Y;, I: ciY;] e per le proprietà della covarianza (capitolo 9) si ha:
n
- 1 A
c· c· a2
=I:_.:.
n
var[Y;] +2 L L ...1...
n
cov[Y;, Yj] = - I: ci= O.
n
I.,;i<j.,;n
In conclusione:
var[bo] = -
a2
+ -ax2 2
= a
2 [ 1
- + -x2 ] a2
---
I:x7
n Sxx n Sxx
Lemma 15.3.2 Poiché cov[b 0 , b1] = cov[Y - b1 x, b1] = - 8--, b0 , b1 sono indipendenti
xx
se e solo se x = O.
419
varianza spiegata
r 2 =-------
I:7=1(Y;- Y)2
(15.18)
varianza di Y I:7=1(Y;- Y)2
varianza spiegata varianza residua
Poiché dalla 15.8 si ha che 1 = . d' y
varianza 1
+ ------
varianza di Y
la 15.18 si può
scrivere anche:
2
r = l - -------
varianza residua I:(Y;- Y;)2
= 1 - ------
= 1 _ SSE (15.19)
varianza di Y I:7=1(Y;- Y) 2 Syy
Chiaramente O ::; r 2 ::; 1.
Più il modello spiega, più la varianza spiegata deve essere vicina alla varianza di y. Perciò
r 2 vicino a 1 è una condizione necessaria per la bontà del modello. Ma un r 2 alto non
basta a garantirne la bontà come si racconterà nel paragrafo seguente.
, 2 , SxY
Con un minimo di conti, considerato che SSE = Syy - b1 SxY, si ha r = b1 --
Syy
S;y
= '-"'(
{I:(x;-_)x)(Y;
'-"'(
- Y)}2 d
)2
. . . ·1 ffi . d' 1 .
a cm s1 ncava 1 coe ciente 1 corre az10ne:
2
SxxSyy L.. X; - X L.. Y; - Y
I:(x; - x)(Y; - Y)
r = ----;:=========
vI:(x; - x)2 I:(Y;- Y)2
(15.20)
Esempio 15.4.1 Cinque persone affette da bulimia sono state messe a dieta ferrea.
Questi i dati osservati:
I dati plottati e la retta regressione dei minimi quadrati tra Y e X danno la seguente
figura:
12 11
10 y = 1,8x + 1,6 •
• 6
o+--~--~-----~
tettlmane
Infatti si ha:
n = 5, I: x;y; = 123, I: x; = 15, I: x7 = 55, I: Yi = 35, I: YT = 279
. , I: x;y; - nxy , _ , _
da cui b1 = '-"' 2 _ 2 ; bo = y - b1x
L..xi - nx
420 CAPITOLO 15. MODELLI DI PREVISIONE
15 35
123 - 5 O 5 5 O A 35 15
cioè b1 = ( 15 ) 2 = 1.8; bo = 5 - 1.8 5 = 1.6
55-5 5
In base a questo modello si può calcolare per quante settimane si debba fare la dieta per
perdere 20 kg. Infatti:
20 - 1.6
Y = 1.6 + l.8x. Posto Y = 20 si ha x = ---
A A
= 10.222 settimane
1.8
Quanta parte della variazione di peso è spiegata dalla regressione, cioè cosa vale SS;?
ss
SyySxx - S;y
Da SSr = SSR + SSE ::::}SSr = SSR + S dividendo entrambi i membri
xx
per Syy otteniamo
ss
dove S R è la variazione percentuale di Y spiegata dalla regressione rispetto alla varia-
YY
ss
zione totale di Y. Si noti che S R è il quadrato di
yy
ì:=x7 - nx 2
ì:=Y;2-nY 2
r = b1
A lf:
Il valore osservato di-----
r è:
I:x7 - nx 2
A
= b1 '-"' 2
L.. Y; - ny
_ 2 = 1.8
55-5 (1
279-5
5 )2
5
-( 35-), = 0.97619. Quindi r 2 = 0.95295.
5
Concludiamo che il 95.3% della variazione del peso è spiegata dalla dieta.
3) 4)
Figura 15-2:
X = temperature in C 0 100 110 120 130 140 150 160 170 180 190
Y = percentuale 45 51 54 61 66 70 74 78 85 89
fj 45.56 50.39 55.22 60.05 64.88 69.72 74.55 79.38 84.21 89.04
s -0.56 0.61 -1.22 0.95 1.12 0.28 -0.55 -1.38 0.79 -0.04
·L S -l .O
90 IO-O 110 L20 13il 1-1-0 l!fl 160 L70 180 19'0 20U 40 H -1-6 -19 !2 !5 :5R 61 6,_ 67 70 7J 76 i
Il plottaggio dei residui, sia versus y sia versus x, suggerisce cha la regressione possa essere
un buon modello perché la dispersione intorno allo O non sembra evidenziare forme del
tipo 2), 3) o 4) presentate nella figura 15-2.
Se il grafico dei residui non ci convince possiamo cambiare modello. In genere è il contesto
in cui si affronta il problema o il modo con cui sono distribuiti i punti (xi, Yi) a suggerire il
modello. Si può ipotizzare un modello tipo Y =bo+b1 x + b2x 2 (vedi al paragrafo 15.10),
oppure Y= 0: + ,Bln x o, ancora, Y= 0: + (!_.Questi
X
modelli sono sempre lineari nei
coefficienti (ma non nei valori del predittore x). Si può però pensare anche a modelli dove
i coefficienti non appaiono in modo lineare. Tra tutte le situazioni possibili ci limitiamo
a ricordare le seguenti:
. ...
~<0 ~=l -·· ~>l
.-·
-~······
.--
.•..
i,
_ ···
.
•
•
0<
. ~<]
..,
.• .... _
__.-·
•
·--
.. -
.•.···
-
~ ---~ ----~--- ! ... . .... . . .. ,
•
forma ipotizzata trasformazione forma linearizzata rumore
T=ae xr:: Y=lnT Y=lna+,Bx+lnr:: lnr::rvN(O;l)
.
~ <O ~ >O
•
'"_..- .
T=ae 13
x
.
-..-.-·· .
. . --~--. .
····,.
, .---- _
·~----~-
423
P>O
..
•----· ···
. ~--· ~----
~
T-=a +~ lnt
~-
··· ···-~
.--~
•
forma ipotizzata trasformazione forma linearizza ta rumore
T l l
T= Y=-·x=- Y = a-,6x + e c"'-'N(0;l)
at - ,6 + et T' t
q
T=-t-
at-~
Osserviamo che per procedere con la stessa tecnica già utilizzata si deve passare alla forma
linearizzata. Da questa poi, col metodo dei minimi quadrati, si ricavano i parametri che
appaiono nella forma stessa e, infine, si risale ai valori dei parametri del modello iniziale.
Esempio 15.5.1 È noto che grandi masse d'acqua presenti all'interno di un territorio
mitigano il clima delle zone circostanti. Alle ore 24.00 di un fredda notte di primavera
un gruppo di ricercatori, seguendo una direttrice rettilinea di pianura protetta dal vento,
rileva le temperature Y {in gradi centigradi C) in 1O siti che distano 500 metri l'uno
dall'altro. I dati rilevati sono i seguenti:
X 1 2 3 4 5 6 7 8 9 10
(15.21)
Y 2. 78 2.36 1.89 1.62 1.40 1.36 1.33 1.11 0.90 1.06
Nota: il valore dix rappresenta un sito a distanza dix· 500 mt dal lago; quindi x non è
un'etichetta del sito ma la sua distanza dal lago in una unità di misura pari a 500 mt.
La nuvola di punti descritta in 15. 21 potrebbe essere interpolata con un modello lineare
del tipo
Stime
- SxY 52
b1 = - = -0.184 r2 = xY = 0.8474
Bxx BxxSyy
,,.
,.,.
n.,o
,,, o ,.,. t---- -A.,..-A_c,. _____ __ _
,,'·', o
,.o o
..•
0,8
o., .,.,
•11.2
0
0,2
o.o .11
, ,111
~------~-----
IO 8.11 I.! 0.-4 0.6 IIJj I.lt 1.2 u U I.I Z.11 ~.l 7..l ?.ti I.Il J.a
(15.22)
La dipendenza da f3 non è lineare. Il rumore è sempre c. Si chiede di linearizzare il
modello e di controllarne i residui.
Passando ai logaritmi la 15.22 diventa:
ln T = ln a - (3x + ln e
Posto Y = ln T, bo= ln a, b1 = -(3 il modello 15.22 ha la forma lineare seguente:
Y = bo + bix + ln e
dove si chiede che ln e rv N (O;a 2 ).
I valori stimati di b1 e bo si ottengono dalla seguente tabella (plot dei dati nella pagina
successiva):
X 1 2 3 4 5 6 7 8 9 10
Y = ln(gradiC 0 ) 1.02 0.86 0.64 0.48 0.34 0.31 0.21 0.11 -0.11 0.05
425
Sintesi dei dati
10 10
n = 10 L
i= l
xr= 385 B xx = L
i= l
x I2 - 10x 2 = 82 • 5
10 10
x = 5.5 L Xi Y i = 12 S xY = L Xi Y i - nxy = - 9.45
i= l i.= l
10 10
y = 0.39 L
i= l
y;= 2.1025 Syy = L
i= l
y;- 10g 2 = 1.1815
Stime
A SxY Sx2Y
b1 = - = -0.115 r 2 = --- = 0.9162
Bxx SxxSyy
-0.2
2 3 4 S 6 7 8 9 10 -0.2 o 0.2 0.4 0.6 0.8
X 3 7 8 12 14 9 9 4 11 13 12 8 7 6 3
y 16 34 40 93 125 50 48 18 70 110 85 45 40 33 20
(15.23)
Troviamo b0 e b1 del modello: ~ ~ ~
Stime
La 15.24 diventa:
Y = -22.15 + 9.2x
Plot dei dati
I dati sono stati plottati nel grafico della prossima figura nel quale, oltre alla curva di
regressione lineare, sono state tracciate la curva di regressione di potenza e la curva
di regressione esponenziale, relative rispettivamente ai modelli di previsione T = atb e
T = aebx, che analizziamo qui di seguito .
140
120 espo11e11ziale
100
,; ,.::~li11eure
80 ," ._., ~pote 11zu
, ,;
,:
60 ,:.,'
#I*.,.,.
~
40
20
,;
,
o
Il s IO 15
(15.25)
427
Per trovare gli a e b occorre linearizzare 15.25:
Y = ln T = ln a + b ln t = ln a + bx
La tavola 15.23 diventa (mettiamo i dati su due righe per ragioni di impaginazione):
lnt
X = 1.10 1.95 2.08 2.48 2.64 2.20 2.20
Y =lnT 2.77 3.53 3.69 4.53 4.83 3.91 3.87
X = lnt 1.39 2.40 2.56 2.48 2.08 1.95 1.79 1.10
Y = lnT 2.89 4.25 4.70 4.44 3.81 3.69 3.50 3.00
Stime
f = 3. 7924t1. 23
(15.26)
Y = ln T = ln a + bx
La tavola 15.23 diventa (mettiamo i dati su due righe per ragioni di impaginazione):
X 3 7 8 12 14 9 9
Y= lnT 2.773 3.526 3.689 4.533 4.828 3.912 3.871
X 4 11 13 12 8 7 6 3
Y = lnT 2.890 4.248 4.700 4.443 3.807 3.689 3.497 2.996
f = 10.ll 5eo.l805x
Non è però finita. Nei tre casi analizzati dobbiamo ora controllare l'andamento dei residui
( che qui vengono plottati contro i valori stimati). Cioè plottiamo:
Non insistiamo su questo importante argomento rimandando chi sia interessato ad ap-
profondire quanto concerne queste tematiche per esempio a N.R. Draper - H. Smith,
Applied Regression Analysis, John Wiley & Sons, New York, 1966.
15.6 Inferenza su b1
L'ipotesi b1 = O ha un significato importante nella regressione. Descrive infatti il caso in
cui il responso Y non dipende dall'input x. Possiamo allora realizzare un test d'ipotesi
su b1 fissando Ho : b1 = O e Ha : b1 =JO.
, b1 - b1 ( ) l'vI . , .. d' b1 - b1
E evidente che / ~ rv N O, l . a non s1 puo ut111zzare irettamente / ~ per
Sxx
O' V O' V Sxx
fare un test perché questa quantità dipende da O' che non è nota. Per il lemma 15.3.1
b1 -~ b1 rsb1 - b1 N(O, l ) . d'1pen d ente d a -SSE- E' a 11 . d'iato
I vSxx = y .Jxx ___O' è m 2 ora 1mme
rv 2 rv Xn- 2•
O' O'
verificare che:
~ b, -b,
cr
---,,-..-- _ . /(n-2)Sxx
- V (bA b)1 t n-2 (C?)
v cr2~~~2)
SSE l - rv
Lineare Poten1..a
G ratico dei residui (R vs Y) Grafico dei residui (R ,rs \')
20 0,40
!:,.
!:,. 0,30
!:,.!:,.
0,20
!:,.
15 !:,. 0,10 !:,.
!:,.
0, 00 !:,. !:,. !:,.
!:,.
!:,. -0, 10
IO !:,.
-0,20 !:,. !:,.~
-0,30
5 2,50 3,00 J,.50 4,00 4,50 5,00
!:,.
Esponenziale
o - 0,40
Grafico dei residui (R vs Y)
!:,.
0,30
-5 0,20
!:,.
!:,. 0,/0 !:,. !:,.
!:,. !:,. !:,.
!:,. 0,00 ~
!:,. !:,. ~
Ll
!:,. !:,. !:,.
-10 -0, JO !:,.
!:,. !:,.
-0,20
!:,.
-0,3 0
-15 -0,40
o 50 /00 150 2,50 3,00 3,50 4,00 4,50 5,00
Figura 15-3:
SSE l +ì
(n - 2)Sxx . tn- 2 (-2-) (15.27)
Dalle considerazioni fatte qui sopra sulla regione di rifiuto, nel caso di Ho : b1 = O si
ricava facilmente la regione di rifiuto di livello 1- ì nel caso Ho : b1 = /3;e Ha : b1 =/-j3, j3
2-)
Ì
la Re nsulta essere:
.
430 CAPITOLO 15. MODELLI DI PREVISIONE
SSe SSe A
----<b1 (15.28)
(n - 2)Sxx (n - 2)Sxx
(n - 2)Sxx
P[
A
e di conseguenza
Infine, sempre nell'ipotesi di test unilaterale, se si osserva un valore della statistica test
pari a ( il p-value è P[tn-2 < (]. Si rifiuta se P[tn-2 < (] è piccolo.
concludere che:
N(O;1) (T
~ X n(n-2)Sxx
'°'. x2SSE
(bA
O-
b )
O rv
t
n-2
~
~,'
b1 < 1 è quello che ci piacerebbe fosse confermato dal test. Da (C?) la statistica test è
Il valore osservato è ampiamente nella regione critica. Rifiuto l'ipotesi nulla con una
piccolissima probabilità di sbagliare. Del resto il p - value si ricava da p = P[t 8 <
-16.230] = l.04436E - 07 cioè un valore che ci motiva fortemente a rifiutare l'ipotesi
nulla.
e quindi per l'indipendenza del nuovo responso Yo dai precedenti Y; si conclude che
1 (xo - x) 2
N(0,0' 2 [1 + - +
A A
Yo - bo - b1xo
~===== ,.__,
N(O, 1)
n+l (x 0 - x) 2
O' -- + -'------'--
n Sxx
Ora poiché 0' 2 non è noto occorre sostituirlo con un suo stimatore. Per l'indipendeza di
SSe da bo, b1e Y 0 concludiamo che:
Yo - bo - b1xo
---;========----
n+l
--
n
(x 0 -x)
+ -'-------'-
Sxx
2 R!¾ --
(n-2)
rv tn- 2 (C?C?)
n + l + (xo -
n Sxx
x) 2 J SSe
(n - 2)
Esempio 15.7.1 Nell'esempio relativo al modello di regressione delle altezze dei figli su
quelle dei padri visto in precedenza scelto un nuovo individuo padre di altezza pari a 68
pollici abbiamo: Y0 (68) E 67.568 ± 1.05 con il 95 per cento di confidenza.
IV Infatti:
bi = - 1- Dxi - x)Y; bo = Y - b1x = ~ I: Y; - _x_ I:(xi - x)Yi = I: Yi [~ - _x_ (xi - x)]
A ,
Sxx
bo+b1xo = Y -b1x+b1xo
_ , ,
= -
1
n
I:
8xx
x - xo
Y;- --
n
Dxi-x)Y;
Sxx
n
=
8xx
I: [1 x - xo
Y; - - --(xi
n
l ,,
Sxx
- x) , cioè bo+b1xo
è la combinazione lineare di n va indipendenti Y; di media O e varianza o-2 .
Da ciò segue che var(bo + b1x 0 ) = o-2 I: [~ -
n
_x_-_x_o
8xx
(xi - x)]= 2
2 ]-
_
-0'
2 "[
L, --
1 2 --x-xo( _) (x-xo)2(xi-x)
Xi-X+------ -
n2 Sxx Six
_
- O'
2 [1 -
n
- 2 "x-xo(.
L.., --
8xx
Xi -
_) + "(x-xo)
X L, ---,,...---
Six
2 (xi-x) 2 ]-
- O'
2 [1+ ---
(x-x
-
n 8xx
0)2 ]
433
Esempio 15.7.2 Nell'esempio 15.1.1 otterremmo invece, con x 0 = 200 e 'Y O,95,
otterremmo:
-2.739 + 0.483. 200 ± 2.306 11
10 + (2008250
- 145) 2 J 7·224 . , 93 861 ± 2 654
-8- cioe · · ·
Osservazione
Si noti che la semiampiezza di questo IC
1 + 'Y
tn-2(- 2 -)
n+l
n
+ (x 0 -x)
Sxx
2 J SSE
(n - 2)
è minima quando x 0 = x e aumenta progressivamente all'allontanarsi di x 0 da x, come
mostra la figura seguente.
1
..-··
..-···
_
y ................
............
..
.l ..±:·1··-....
X1 ->·f X xn
··...___
...···
__ ··--...
··-...
quindi
per stimare bo e b1 osservo n volte Y (cioè e) e interpolo col metodo dei minimi quadrati
i punti (xi, Yi) trovati.
Gli stimatori sono boe b1 e, di conseguenza una stima del modello è:
434 CAPITOLO 15. MODELLI DI PREVISIONE
La stima intervallare di bo e b1 la ottengo dalla distribuzione delle quantità pivotali
(i7= ~)
bo - bo
-A /-fli-n=S=x=x
rv tn-2
(J' " 2
L...Xi
E[Y(x*)] - bo - b1x*
----"----;========- rv tn- 2
1 (x* - x) 2
- + ...;.._-----'--
n Bxx
L'lc è
1 (x* - x) 2 ~SE
-+---
n Bxx
--
(n - 2)
(15.30)
(n-2)Sxxb
S SE l
= lv Sxx b I
MS E l > tn- 2
(l+,)
2 .
Ricordiamo che, data tm con m gradi di libertà, per il suo quadrato vale la seguente
proprietà:
t~ rv Fi,m
Quindi i due metodi sono equivalenti VI.
N(b1, -8
b1 ,.__,
1 2
O' )
A
bo,.__,
N(bo, - 8 'O'
I: x2 2
)
xx n xx
Residui
Y; - (bo+ b1x;) = Y; - Y;
Varianza residua o somma dei quadrati dei residui (o degli errori)
v Infatti
2 1 - 2 (n - 1)8 2 S'yy . (n - 1)8 2
8 =--I:(Y;-Y) ==} ~xn_2 1.Cioè- -= ~xn_2 1.Inoltre
n-l u2 u2 u2
S'S'E 2 _ S'yy _ S'S'R 88E . 88R 2
- 2- ~ Xn-2' S'yy - S'S'R + S'S'E, - 2- - - 2- + - 2- da CUl - 2- ~ Xi·
(7 (7 (7 (7 (7
VI N(O; 1) . 2 xp1
tm = ~; elevando al quadrato s1 ha tm = _I = F1,m,
vx?n./m Xm m
Inoltre ltml 2':a <a==? t~ 2".a 2 , da cui P[ltml 2':a]= P[t~ 2':a 2 ] = P[Fi,m 2':a 2 ] = 1- 'Y
Allora a= tm(.!.:p-),a 2 = F-y,1,m e F-y,1,m = t~(11'Y).
436 CAPITOLO 15. MODELLI DI PREVISIONE
Varianza spiegata o somma dei quadrati dovuti alla regressione
Varianza di Y
Syy = SSr = ~ - 2 ~ 2
L..,(Y; - Y) = L.., Y; - nY
-2
Ss _ SyySxx-S;y -S bA S
E - - YY - 1 xY
Sxx
Una formula per Syy = S Sr
. 'b uz1one
D 1str1 . SSe
d'1 --
0'
E [ SSe] = 0' 2
n-2
Standardizzata di b1
l+, SSe
(3 + tn-2(- 2 -) ---- <b1
(n - 2)Sxx (n - 2)Sxx
SSe A 1+1
(n - 2)Sxx < (3 <bi+ tn- 2(-2-) (n - 2)Sxx ·
l
Al solito c rv N(O, 0' 2) rappresenta l'errore casuale, Y è una va funzione dice i coefficienti
bi e O' sono da ritenersi ignoti e da stimarsi attraverso l'osservazione.
X;,1
Per la stima di b si fissano n valori [ per ciascuno dei k predittori x j; j = l, ... , k
XJ,n
(xj,i rappresenta l'i-esimo valore dello j-esimo predittore). Ciò genera un campione
Y1, Y2, ... , Yn di dimensione n dei responsi dove l'i-esimo responso Y; è legato ai k valori
Xj,i nel modo seguente:
k
Y; = bo+ b1x1,i + b2x2,i + ... + bkxk,i + ci =bo+ I: bjXj,i + ci, (15.32)
j=l
Riterremo che la varianza 0"7degli ci sia la stessa per ogni i (come accadeva nel caso
univariato). Dalla 15.32 abbiamo:
k
E[Y;] = bo+ b1X1,i + b2X2,i +,,, + bkxk,i =bo+ I: bjXj,i
j=l
438 CAPITOLO 15. MODELLI DI PREVISIONE
1C
Y;
•''
A !X1.2 :
Y41< -----------::,~:---'
X 2,4 X 2.3
YI X
I ,'
//
X Y3 /
,
,,, I ,.
:----------- x,.,: ,.,,,.
I : _,I'
________ ..
-{,,.
......... ~ I'\ ,..
Nella figura un'immagine geometrica del problema nel caso di due predittori, cioè del
modello:
Rispetto al caso univariato abbiamo qui un piano di regressione invece della retta di
regressione. Fissiamo per esempio n = 4 valori per ognuno dei k = 2 predittori. Siano
x1,;,x2,;;i = 1,2,3,4 questi valori e siano y;;i = 1,2,3,4 i valori osservati dei corri-
spondenti responsi. Nello spazio IR3 avremo quattro punti (x1,i, x2,i, y;); i = 1, 2, 3, 4 da
interpolare col piano 7r di equazione Y = bo + b1x1 + b2x2 i cui coefficienti b; sono de-
terminati col metodo dei minimi quadrati. I punti (x1,1,x2,1,Y1) e (x1,3,x2,3,y3) sono
risultati sotto 7r mentre (x1,2,x2,2,Y2) e (x1,4,x2,4,y4) sono sopra. I punti (x1,1,x2,1,Y1),
(x1,3, x2,3,y3), (x1,2, x2,2, Y2) e (xi,4, x2,4, y4) stanno ovviamente sul piano 7r.
Non insistiamo su questo punto. Per la nostra trattazione la rappresentazione geometrica
più indicata sarà un altra che illustreremo dopo aver introdotto un conveniente linguaggio
matriciale.
Scriviamo in forma compatta la 15.32, osservando che, posto k + l = p, la matrice
XI , l Xk,l
XI ,2 Xk,2
X·.J,i ]- I 1 X1
XI,n Xk,n
è la matrice dei valori dei predittori. Y = (Y1 , ... , Yn)T è il vettore dei responsi,
(n,l)
b = (bo,b1, ... ,bk)T è il vettore incognito dei coefficienti, è = (c1, ... ,cn)T è il
(p,l) (n,l)
439
vettore del rumore. Ovviamente 1 = (1, 1, ... , lf e Xi= (xi,l, Xi,2, ... , Xi,n)T.
Y=Xb+c
(n,1) (n,p)(p,l) (n,1)
Per come abbiamo costruito le cose vale l'ipotesi ipotesi gaussiana:
cov[ci, c1] =O
le éi sono gaussiane indipendenti, con media O e varianza 0' 2
Osservazione:
1) si fissa X e si osserva Y (attraverso e); non si osservano be 0' 2 ;
2) X, b, 0' 2 sono numeri, e è aleatorio e di conseguenza lo è Y;
3) i parametri ignoti sono le componenti di b :,__0'2.
Per trovare lo stimatore dei minimi quadrati b di b utilizziamo il metodo geometrico
descritto a pagina xxxiii VII dell'Appendice 1. Da quanto là affermato segue il:
VII Gli stimatori bo,b 1 , ••• ,bk dei parametri bo,b 1 , ••• ,bk sono i minimi della funzione L che rappresenta
la somma dei quadrati delle differenze tra i responsi Y; e i loro valori attesi. cioè:
n 2 n k . 2
L = I: ei = I: (Y; - bo - I: b1xj)
i=l i=l j=l
Appplicando il metodo differenziale, si tratta di trovare le soluzioni di:
àL . . àL
- =O \fi; i= 1, ... , n; - =O
àbo àbi
L = I:~=léf = eTe = (Y-xb)T(Y-xb) = yTy _ bT xTY - yT xb+bTxTxb = yTY-2bTxTY +
,,__,..--,
scalari
bTxTxb.
Il sistema è equivalente alle seguenti k +l condizioni scritte in forma matriciale:
àL
àb = -2xTY + 2xT xb = O
la cui soluzione è:
b = (XT X )-lxT Y
(p,l) (p,n)(n,p) (p,n)(n,1)
' k '
Yi = bo+ I: b1x 1,i
j=l
s=Y-Y,
è detto vettore dei residui. Indichiamo con SSE la somma dei quadrati dei residui:
n
ssE = IIY- xf;11= IIY- v11= llsll = 2)si) 2 .
2 2 2
i=l
La matrice
Y = x (xrx)- 1 xr Y = PY.
(n,p) (p,p) (p,n)(n,1)
(In - P)Y =Y - PY =Y - Y = s.
Si conclude che le proiezioni di Y su V e su V_!_coincidono con Y e s.
VIII Poiché y - Xb deve essere ortogonale al piano 1r 1 n x dei vettori Xb deve valere \fb; (Xb)T(Y -
Xb) = 0 cioè \fb; bT(XTY - XTXb) = 0, il che può a~venire se e solo se XTY - XTXb =0 da cui
b = (xTx)- 1xTy_
441
Rivediamo geometricamente quanto esposto nel caso n = 3 e k = l.
Ricordiamo che (capitolo 10) la proiezione di un vettore Y sullo spazio E generato dal
vettore unitario (13 in questo caso) è il vettore (Yn, Yn, Yn)'.
Come si evince dalla figura 15-4, Y = PY è la proiezione di Y sul piano generato da
coli (X) = 13 e da col2 (X) = Xi; Y n è la proiezione di Y sullo spazio E generato da
coli (X) = 13.
Inoltre IIY-Ynll
Syy; llv-vf SSE
2= IIY-YnfSSR. = e = Come si vede Syy =
SSR + SSE.
\ ~ Y-r
:I /~-~
Sn, =IIY- YII'
ss, = IIY-r 11 '
l,,,/
r
',,, { =:cip!, (X)
SS, = 11Y - Y Il'
i :~~
-l/ :,-
_.---~-'.---' Y= bocoli(X) +b1col1 (X) = Xb
I X :
......_ ..
_,,.,/
....~ .., '
·, ,,
,
',
:
'
/
',
",~
----- ----------------------- ______
,,, x 1 = col, (X)
x/ ------------------------------------____
______ 1_••• ~
_____
Figura 15-4:
(15.33)
Partendo da 15.33 possiamo ricavare:
SSE=Y T
Y-nYn--
2 (~T
b X Y-nYn -2) T
e ricordando che Syy = SSR + SSE e che Syy = yTy - nY! si arriva a:
(15.34)
442 CAPITOLO 15. MODELLI DI PREVISIONE
Proprietà del modello gaussiano
Ecco dunque il nostro modello lineare multivariato:
Y=Xb+e (15.35)
(n,1) (n,p)(p,l) (n,1)
Il seguente teorema enuncia alcune proprietà delle quantità coinvolte nella 15.35.
l
I punti iii) e iv) si dimostrano in modo analogo.
Per dimostrare i punti v) e vi) si ricorda che i e Y sono congiuntamente gaussiane e
ortogonali (capitolo 11, pag. 289 e seguenti), quindi indipendenti. Invece
cov[i1,bi] cov[i1,b2] . . . cov[i1,bp]
~ ~ cov[i2,bi] cov[i2,b2] . . . cov[i2,bp]
cov[e, b] = [ . .
(n,p) : :
cov[?n,biJ cov[?n,b2] cov[in,bp]
= cov[è, b] = cov[(/n - P)Y,(XTX)- 1XTY] = (In - P) cov[Y, Y]((XTX)- 1XT)T =
= (/n-P)(a 2In)X{(xrx)- 1V = a 2(In-P)X{(XTX)T}- 1 = a 2(In-P)X(xrx)- 1=
= a 2(X(xrx)- 1 - (X(xrx)- 1xr)x(xrx)- 1) =
= a 2( x (xrx)- 1 - x (xrx)- 1(xrx)(xrx)- 1= o .
(n,p) (p,p) (n,p) (p,p) (p.p) (p,p) (n,p)
Osserviamo che l'uguaglianza E[b] =b mostra che b è uno stimatore corretto di b.
Y=Xb+e,
(n,l) (n,p)(p,l) (n,l)
ss
si conclude che la variabile aleatoria ---f (T
a-2 x~-p
ha la legge X~-p, SSE ,.__,
L 'ultima affermazione del teorema segue dal fatto che il valore atteso della legge X~- P è
pari a n - p.
Lo stimatore naturale (e corretto) per il parametro a-2 , varianza del rumore e, potrebbe
essere
l n
- """"E:2
n L.., '
i=l
n
cLs? =e. ssE
i=l
con la costante C scelta per avere la correttezza. Poiché per il teorema precedente,
E[SSE] = (n - p)a-2 , lo stimatore corretto per a-2 sarà
~2
~
V
--- SSE
- '
n-p
Y=Xb+e,
(n,l) (n,p)(p,l) (n,l)
è lo stimatore di b.
Numeriamo da O a k le k + l righe e colonne della matrice (Xrx)- 1 e indichiamone con
Cij l'elemento di posto (i+ l,j + 1) (i,j = O, 1, ... , k). Cioè:
posizione 1 2 i+ 1 k +l
1 coo CQl CQk
2 ClQ Cn Cl k
j+l Cij
Allora
~ 2 b; - b;
b; rv N(b;, Cl C;;) ===} ,;;:;-:--: rv N(O, 1).
ClyCii
~2
(J =--=--
ll?ll2 SSE
n-p n-p
&2 SSE 2
CJ2 (n - p) =7 rv Xn-p·
Sappiamo che è e b sono indipendenti, e perciò lo sono anche b; e & 2 . Sappiamo che
dividendo una N(O; 1) per Jx;,-p/(n- p) otteniamo una t-Student con n- p gradi di
libertà. Facciamolo:
Si rifiuta l'ipotesi a livello 1 - 'Yse la statistica test è troppo grande in valore assoluto, e
precisamente se
l
è dato da (p = k + l):
(n - p)&2 (n - p)&2
[ 2 l+'Y' 2 1-"( .
Xn-p(- 2 -) Xn-p(-2-)
(n-p)&2
Utilizzando la statistica test --.,,...-- possiamo, per esempio, eseguire il seguente test
a5
di livello 1 - 'Y :
2 2
&2 < aoxn-p (.!.=..:i:)
2 2 2
&2 > aoxn-p (.!±1)
2
- n-p - n-p
2
L e propneta · · test (n-p)&
· 'dll e a stat1st1ca
2
·
possono ovviamente essere ut1·1·
1zzate anc h e
ao
per un test del tipo: Ho : a 2 = a5; Ha : a 2 > a5.
446 CAPITOLO 15. MODELLI DI PREVISIONE
15.11 Analisi della varianza
Abbiamo visto che, per ogni i,
bi - bi
Ti= ~ r,:;-:-: rv tn-p•
CTy cii
bi bi
Ti=--=-
~
&V'-T1, (J-bi
X1 b1 (Jb1 = &~ TI PI
x k bk (Jb k = &..;e;; Tk Pk
dove, per ogni i il valore Pi indica il p-value per la verifica dell'ipotesi Ho : bi = O e sqm
è lo scarto quadratico medio.
Spesso viene riportato anche il valore r 2 del coefficiente di variazione che ha la stessa
espressione formale del caso univariato, cioè:
e la tabella ANOVAx.
(15.36)
(15.37)
rifiutare questa ipotesi significa accettare che, per almeno un j > O,bi =/-O quindi:
dove, al solito
p = k + l, SSR = .;rxry - nY2, SSE = yry - .;rxry e Syy = SSR + SSE.
Altri test
Ritorniamo ancora a:
Y=Xb+e,
(n,l) (n,p)(p,l) (n,1)
Abbiamo appena esaminato l'ipotesi che nessuno dei k predittori influenzi il responso,
cioè Vi 2".l; bi = O. Ci proponiamo ora di verificare se r predittori xii, xh, ... , Xjr non
influenzano il responso Y, (1 < r < k), cioè Ho : bii = bh = ... = bir = O. I casi r = l e
r = k sono già stati esaminati.
Y = bo+ b1X1 + ... + bj, Xj + ... + bj 1 2 Xjz + ... + bjrXjr + ... + hxk
'--v-' '--v-' '--v-'
bh =0 bh =0 b)r =0
Vogliamo cioè decidere se un modello ridotto è più adeguato di quello completo a spiegare
i dati osservati. Riscriviamo il modello in modo che gli r predittori che si vogliono scartare
siano gli ultimi, cioè quelli dal posto k - r + l in poi.
r
448 CAPITOLO 15. MODELLI DI PREVISIONE
L'ipotesi nulla diventa:
Ho : bk-r+1 = bk-r+2 = · · · = bk = O
contro l'alternativa:
b1 e b2 .
(k-r+l,1) (r,1)
Abbiamo:
Ho: b2 =O
Per il modello completo sappiamo che
Il test avviene confrontando la somma dei quadrati dei residui proveniente dal modello
completo SSE con la somma dei quadrati dei residui proveniente dal modello ridotto
SSEo·
= IIY- Y Vi generato da
l
SSEo X1b1f è la distanza di dallo spazio
1
X1 = [ 1 ;_:_=::~
=[1 X1 Xk-r ] .
(n,k- r+l) i·· Xk-r,n
Poiché Vi e V abbiamo
449
cioè
F = (SSEo - SSE)/r
SSE/(n - (k + 1))
=YTY-bfXfY
XIIsi ricordi che S'yy = S'S'E - S'S'R per il modello completo e S'yy = S'S'Eo - S'S'Ro per il modello
ridotto. Quindi S'S'Eo -S'S'E = S'S'R-S'S'Ro· Perciò se S'S'Eo -S'S'E è grande anche S'S'R-S'S'Ro è grande,
il che significa che la variabilità spiegata dalla regressione nel modello completo S'S'R è più grande di
quella spiegata dalla regressione nel modello ridotto S'S'Ro· Quindi è chiaro che Ho (cioè modello ridotto)
va rifiutata.
XIIIa >be X~ indipendente da XE ==} X~ - XE = X~-b
450 CAPITOLO 15. MODELLI DI PREVISIONE
Oss. 11 Il caso 15.37 equivale al caso appena esaminato ove si ponga r = k. Infatti se
r = k è b1 = b2 = · · · = bk = O e si ha:
X1= [
(n,1)
l
l
l (Xfxi)-1= ~;
;Vi, Y; =bo+€,;
1
n
X[Y = L Y;; b1 =; (Xfxi)- XfY=Y n;
( 1,1)
Yi = bo+ b1x; + €;
con i = l, ... , 25 sotto le ipotesi gaussiane ( cioè E[e] = O, V ar[e] = <J2 I 25 dove al solito
I 25 è la matrice identica 25 x 25).
451
a) Si trovino, in base ai dati sopra esposti, le stime bo e b1 dei coefficienti bo e b1 .
Sxy
r - ____,,===
- JSxxSyy.
2027.7
r = ---;:::::::::::::::::============
= O.98183
y698.56 · 6105.7
e) Qual è la percentuale della variazione dei tempi di consegna spiegata dal modello?
23 · 698.56
219.90 2.9027 = 24.812 >> t23(0.95).
Y=
( 24;45
995 ) '
21.15
X=
(: ,': 8
5
15 )
Da cui:
l
25 206 2491
xrh [ 206 2396 23163
2491 23163 318417
l
0.21514 -0.007502 -0.001137
(XTX)-'- [ -0.007502 0.001668 -0.0000626
-0.001137
xry = [
-0.0000626
725.82
8008.47
82491.36
l 0.0000166
Dopo l'esecuzione della regressione le stime dei parametri e la somma di quadrati residua
sono risultati
0.21514
[ -0.007502
-0.001137
-0.007502
0.001668
-0.0000626
-0.001137
-0.0000626
0.0000166
l[ l [ l725.82
8008.47
82491.36
2.253288
2.745094
0.04175
0.04175
quindi la statistica test osservata vale: ---;::====== = 4.4808. Si rifiuta.
y5.23 · 0.0000166
g) Qual è in questo caso la probabilità dell'errore del I tipo?
0.1
h} Quanto valep-value? {Può essere utile il fatto che 4.4808 è ilO.99991 quantile della
t 22 ). Che conclusioni possiamo trarre dal suo valore?
Poiché il valore ossevato della statistica test è 4.4808 e P[t 22 _::;4.4808] = 0.99991 il
p- value è 2 · (1- 0.99991) = 0.00018, un valore molto piccolo che ci motiva fortemente
a rifiutare.
k) Avendo già rifiutato Ho : b2 = O sarebbe inutile testare l'ipotesi Ho : b1 = b2 =
O contro l'alternativa Ha : uno almeno dei bi diverso da O. Facciamolo lo stesso per
esercizio.
2
SSR = brxry _ nY 2 = 27063.471- 25. ( 72~/ 2 ) = 5990.9
~bi = [ bo
b1 l[ 2.253288 ]
2.745094 ; Xi =
(::)
SSEo = IlY-X1b1 ~ Il=Y T Y-b ~T
1X T1Y
In questo caso un intervallo di confidenza bilatero di livello I per Yn+l è dato da:
Tenuto conto che il massimo valore per x 1 è 20 e per x 2 è 186 trovare, in base al modello,
un intervallo di confidenza di livello 0.95 per il responso in x 26 , 1 = 25, x 26 ,2 = 186.
Vengono dati i valori x~+ 1(Xrx)- 1xn+l = 0.451 e y26 = 78.646,t 22(0.975) = 2.074
455
Si ha:
Y=Xb+r:: (15.39)
l, l, l
((n,l) (n,2)(2,1) (n,l)
se k+ I - 2 alloca h [ : :~ Y -[ : b - [ :: ] ,e -[ ~~ e la 15.39
diventa:
Ci ,.__,N(O; 1) i= 1, ... ,n
2) Scriviamo xrx
-I:xi ] e quindi:
n
4) Troviamo xry
456 CAPITOLO 15. MODELLI DI PREVISIONE
5) Scriviamo lo stimatore b = (xrx)- 1 xry
__, I:x2 x
nSxx Sxx
x 1
Sxx
da cui:
~ I:x 2 x - I:x 2 - nx 2 + nx 2 x
bo = --' I:Y; - -I:xiY; = Y ' - -I:xiY; =
nSxx Sxx Sxx Sxx
- x - - ,
= Y + -(nxY - I:xiY;) = Y - xb1
Sxx
~ -x l I:(xi - x)Y; SxY
b1 = -S I:Y; + -S I:xiY; = S = -S
xx xx xx xx
Osservazione
y = py = Xb = X(xrx)- 1 xry è la proiezione di y sullo spazio generato da X;
dim(PY) = 2
6) ScriviamoXIV
ssE = yr Y - f,T xr Y
(1,1) (l,n)(n,l) (1,2)(2,n)(n,l)
Osservazione
SSE = I:(Y;- Y;)2 llv- vf
= liUn- P)Yll2 . Il proiettore Un- P) proietta
Y sullo spazio di dimensione n - 2 ortogonale a PY; quindi per il teorema di Cochran
ll(In- P)Yll2 = -SSE- rv X~- • D1. conseguenza E[-SSE-] = n-2 per cm. --SSE è corretto.
"'--'-----'----"- 2
a2 a2 a2 n- 2
Esempio 15.13.1 Importante.
-1 o 1
2 o
: Il ~ 1 1
X;
-2
Yi
o
XiYi
o
x2
4'
3
y = 0,7x + I •
-1 o o 1 2
o 1 o o
2
1 1
3
1
6
1
4
•
I: o 5 7 10
I 2
O 5
A I: x;Y; - nxY 7- 5· 5·5 A 5 A _ O
b1 = ---==--=-----,--
I:x7 - nx 2
=
10-5·
(o)
5
2 = 0.7· bo= Y - b1x = -5 - 0.7 · -5 = 1
o
1/10 ] [~ ] [o\]
Se si vuole invece interpolare i dati in (-") con una parabola si usa il modello:
o 1 -2 4
o 1 -1 1
Y= 1 X= 1 o o = [ 1 X x2 ] .
1 1 1 1
3 1 2 4
Segue che:
1 -2 4
xrx- [
1
-2
4
1
-1
1
1
o
o
1
1
1
1
2
4 l
1
1
1
1
-1
o o
1
2
1
1
4
[
5
o
10
o
10
o
10
o
34 l'
458 CAPITOLO 15. MODELLI DI PREVISIONE
o
1 1 1 o
-1 o 1 1
1 o 1 1
3
l
Facendo i conti si trova:
17/35 o -1/7
(xrx)- 1 = [ o 1/10 o .
-1/7 o 1/14
Infine:
17/35 o
o 1/10
-1/7 o
di conseguenza:
, 4 7 3 2
y = - +-x+-x.
7 10 14
che, riscritto per la stima dei coefficienti b;, tenendo conto delle ipotesi sugli r::; diventa:
Y=Xb+r::,
(n,l) (n,p)(p,l) (n,l)
1) Lo stimatore corretto di b è
proiezione ortogonale di Y sullo spazio vettoriale generato dalle colonne della matrice X.
2) Il modello lineare è allora:
Y= x (xrx)- 1 xr Y = PY. (15.40)
(n,p) (p,p) (p,n)(n,l)
e= y - y = y - py = Un- P)Y,
e,.__,
N(O,a 2 (In - P)).
ee y sono indipendenti.
e e b sono indipendenti.
2 ,.__,xt
IIPWll
Inoltre se W rv N(µ, a 2 In) allora:
1 2
2SSE rv Xn-p·
a
In particolare E[SSE] = (n - p)a 2 .
14) Lo stimatore corretto per a 2 è
~2 SSE
a
n-p
460 CAPITOLO 15. MODELLI DI PREVISIONE
15.15 Test di avvenuto apprendimento
Esercizio 15.15.1 Dato un modello lineare gaussiano univariato apporre l'esatto valore
di verità alle seguenti affermazioni:
b1= I:(x; - x)Y;
00 I:(x; -x)2
0 0 bo= Y + b1x
0 0 bo,b1 sono indipendenti
0 0 bo,b1 sono indipendenti se e solo se x = O
Esercizio 15.15.3 Immaginiamo una situazione in cui un responso Y possa essere ef-
ficacemente descritto sulla base di 3 dati in ingresso, x 1 ,x 2 e x 3 . Si ipotizzi di eseguire
tre diverse letture di ciascuno di questi dati e sia
X3,1
X3,2
X3,3
l
la matrice che le riassume. Sia E: rv N(O, a 2 ). Sia Y; la componente i - esima di un
campione Y = (Y1 , Y2 , Y3 f di taglia 3 dal responso Y. Allora:
Y =bo+ b1 x 1 + b2 (x 2 ) 2 + b3 y'X3 + s è un modello multivariato lineare
Y = b0 + b1 x 1 + xt2 + v'i½x 3 + s è un modello multivariato lineare
X(Xrx)- 1 xr è il proiettore del vettore Y sullo spazio generato da X
In - X(Xrx)- 1 xr è il proiettore del vettore Y sullo spazio generato da X
Y=Xb+s,
(n,l) (n,p)(p,l) (n,1)
allora:
0D b = (XTX)-lXTY
b = xry è uno
è uno stimatore corretto di b
ffiB
D0
n-p
b ,.__,N(b,a 2 (XTX))
stimatore corretto di b
§.§..i,_ ha media a 2 perciò è uno stimatore corretto di a 2
Esercizio 15.15.5 Dato un modello lineare gaussiano univariato apporre l'esatto valore
di verità alle seguenti affermazioni:
461
2 SSE
[!][TI r =--
§_yy ~
[!][TI (Y - Y) e Y sono indipendenti
Esercizio 15.15.6 Dato un modello lineare gaussiano univariato apporre l'esatto valore
di verità alle seguenti affermazioni:
1T71 ["""""i;,l b1 - b1
~~ / ~ rv N(O, 1)
a vSxx
[!] [TI bÌ~
a Bxx
è una quantità pivotale
~ bI - b I
[!J [TI -----;=========
v rv tn-
"2~~~2)
2
C!JCTI v ss
~b1 -bi ,.__,N(O 1)
,
cr2 (n~2)
[!J [TI SSE ,.__,
X~-2
Capitolo 16
Il mio quore sofriva la matina
lo stommaco faciva glu, glu, glu
la pancia crepitava, birichina
la lengua me sembrava de cauciu
Guido Almansi (1931-2001}
16.1 Introduzione
Un processo stocastico è uno strumento matematico che si propone di modellizzare l'a-
leatorietà di un certo fenomeno. Tale fenomeno può, al solito, manifestarsi come uno
degli eventi elementari ( di uno spazio campionario n. Tale evento può essere pensato
visivamente come uno dei cammini o traiettorie del processo. Il tempo può essere discre-
to e allora gli istanti saranno indicati con n = l, 2, 3, ... (che eventualmente per ragioni
di opportunità potranno anche cominciare da O). oppure continuo e gli istanti saranno
indicati con t ~ O, t E R Ciò che modellizza l'aleatorietà a ogni istante n o t è una va
Xn(() o Xt((). Le va potranno essere le stesse (cioè avere la stessa legge) a ogni istante
oppure cambiare legge.
Le successioni {Xn} di va già viste nel capitolo 11 rappresentano un primo esempio di
processo stocastico. A ogni istante osserveremo il fenomeno, rileveremo l'evento elemen-
tare e scriveremo il valore che la va prende su quell'evento. La cosa ha una semplice
rappresentazione grafica che mostriamo nel caso in cui la successione (dovremmo ora di-
re il processo) sia, per esempio, la media campionaria {Xn} di una popolazione di media
µ. All'istante n la va in giuoco è la media campionaria Xn = Li=n'xi dove le X; sono
indipendenti ed equidistribuite. X1 = X 1 (() sarà il valore dell'osservazione all'istante 1,
Xn = Xn(() sarà il valore dell'osservazione all'istante n. Allora il valore di Xn all'istan-
te n sarà Xn = I:j'~, Xi, cioè la media aritmetica dei valori osservati fino a n incluso.
L'insieme dei valori (n, Xn) osservati per n = l, 2, ... costituiscono il grafico (discreto)
464 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
X 1 +x 2 •
2
a, +a2 + ... +a
• Il
n
µ+----------------------
n
o 2 n
Figura 16-1:
di uno dei possibili cammini o traiettorie del processo stocastico (pallini nella figura).
Naturalmente è solo uno dei cammini possibili. Infatti in una seconda occasione avrem-
___
, I ---·----·-·-· -· ___
, I -· --+-.-·--· -· -·
Figura 16-2:
Esempio 16.1.2 Sia x un numero scelto a caso tra (O, 1) e sia ( = L +oo b·
. ....:.,
2'
i=l
bi= O, l
la sua espansione binaria. Possiamo definire un processo stocastico a tempo discreto
Xn(() = bn di Bernoulli pensando a una va di Bernoulli che esprima la sua aleatorietà
a ogni istante (intero) del tempo assumendo il valore O oppure l. Ogni numero ( E (O,1)
è perciò in corrispondenza biunivoca con un cammino.
Nella figura 16-2 è rappresentato un generico cammino (a sinistra) e il cammino che
1
corrisponde a ( = 2 individuato da b1 = l e bi = O per i > l.
e cp0 possono essere va. Supponiamo che T 0 sia costante e che valga l, che c/Josia nulla
e che A 0 sia un numero casuale compreso nell'intervallo [-1, l]. Allora i cammini del
processo X(t, Ao) = Ao cos(27rt) saranno quelli indicati in figura 16-3.
465
0,6
0,2
o
18
-0,2
-0, 6
-1
Figura 16-3:
t
Se il processo invece fosse X(t,</; 0 ) = cos(21rT 0 + </;0 ); </;
0 E (-1r,1r) allora i cammini
sarebbero, sempre nell'ipotesi T 0 = 1, quelli della figura 16-4.
Figura 16-4:
Noi ci limiteremo qui a esaminare solo tre processi: quello bernoulliano, di cui abbiamo
già fatto un esempio, quello di Poisson e quello di Wiener.
466 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
20
15
10
·5
· 10
· 15
Figura 16-5:
Fxn, ,Xn2,..,,Xnk(xn,' Xn2, ... , Xnk) = P[Xn, ::; Xn,' Xn2 ::; Xn2, ... 'Xnk ::; Xnk] =
Fx (xn, )Fx (xn 2) · · · Fx (xnk ).
E[Xn,]2 ] )
E[Xn ( µµ )
(
E[Xnk] µ
Esempio
a2
16.2.1 Consideriamo il processo {Dn} dove le va sono iid tale che lfn :
P[Dn = -1] = 1- p, P[Dn = l] = p, E[Dn] = 2p- l, var[Dn] = 4p(l -p). Si ricavano in
~'
l
modo elementare il vettore µ{Dn} C{Dn} e la fdd fxn,,Xn 2,..,,Xnk(xn,,Xn 2,,,, ,Xnk).
467
Se, per esempio, si vuole calcolare P[D 1 = l, D 2 = -1, D 3 = -1, D 4 = l] si ha:
P[D1 = 1, D2 = -1, D3 = -1, D4 = l] = P[D1 = l]P[D2 = -l]P[D3 = -l]P[D4 = l] =
(1 - p) 2p 2. In modo analogo sarebbe P[D 2 = -l, D 9 = l] = P[D 2 = -l]P[D 9 = l]
(1 - p)p.
Nella figura 16-6 vediamo uno dei possibili cammini di {Dn} ottenuto per un valore di
p = 0.4.
ll+-+---.'-2....;3;......,..4~s;......+~-+-i-+....,;;.ll
...,Lc..'
......,1~4
.;,;!5-+--+-+----i'19'--+--'i2.;;..1
......,2.;;..3
;,..24....;2;...5
-,.....;2,...7-+-2;...9-+-',31
O 13 6 17 18 20 ' 2 ' 26 : 8 : 30 :
-I
• • •
Figura 16-6:
Molti interessanti processi sono ottenuti come somma di una successione di va iid (ab-
biamo visto all'inizio il caso della media campionaria). Precisamente da Xi, X2, X3, ...
poniamo Sn = X1 + X2 + · · · + Xn = Sn-l + Xn e, per convenzione, So= O.
• 2 4 5 6 7 8 9 10 11 2 13 14 L......
3__,__,......,.......,.......,.......,..._...,......,......,.........-
I 16---,---,__,......,.......,.......,..
7 18 19 20 2 1 22 .......
23 ....,.......,......,..........,....,----,,......
04 25 26 27 28 29 '.lO 31
o ___
- 1
•
-2 • • • • •
- 3
• • • • • • • •
-4
- :5
• •
Figura 16-7:
Oss. 4 Dall'uguaglianza
E[Xt-Xs]
v=-----
t-s
si ricava il significato, che avevamo già anticipato nel capitolo 6, del parametro v: è pari
alla media del numero di arrivi in un intervallo diviso la lunghezza di quell'intervallo;
perciò
v = numero medio di arrivi per unità di tempo.
Oss. 5 Nella condizione 2) della de.finizione non si afferma che, per esempio, siano in-
dipendenti Xt e Xr. Si richiede invece che siano indipendenti gli incrementi del processo
(cioè Xt - Xs e Xr - Xp) su due intervalli (p,r] e (s,t] disgiunti. La condizione 2) si
esprime dicendo che il processo ha incrementi indipendenti.
Oss. 6 La condizione 3) implica che, se gli intervalli disgiunti (p, r] e (s, t] hanno la
stessa lunghezza, gli incrementi Xt - Xs e Xr - XP (che sono pari al numero di arrivi
durante quegli intervalli} seguono la stessa legge. Questa condizione si esprime dicendo
che il processo ha incrementi stazionari. In particolare nel processo di Poisson il
numero (casuale} di arrivi in un intervallo di tempo dipende solo dalla sua durata, e non
dalla sua collocazione nel tempo.
Ovviamente non è vero che ogni fenomeno di arrivi nel tempo si può descrivere con
un processo di Poisson. Bisogna decidere di volta in volta se si può adottarlo come
modello oppure no. Per esempio prendiamo il caso degli arrivi dei clienti a una cassa di
un supermercato nell'arco di una giornata: può essere che in un'ora di punta il numero
medio di arrivi sia superiore che in un'altra ora (e questo viola la condizione di incrementi
stazionari); inoltre un cliente che si avvia a pagare sceglie la cassa con la coda più
corta (e questo viola la condizione di incrementi indipendenti). Può darsi tuttavia che
il processo di Poisson sia una buona descrizione degli arrivi dei clienti non nell'arco
dell'intera giornata, ma solo in un periodo di tempo di poche ore. La condizione 3 1
)
dice in sostanza che, per un intervallo (s, t] di "breve" durata, la probabilità di trovare
un solo arrivo è proporzionale alla durata t - s dell'intervallo, mentre la probabilità di
trovarne più di uno è trascurabile. In molte situazioni pratiche questa ipotesi è del tutto
ragionevole, e ciò spiega perché il processo di Poisson è un modello molto usato.
Può essere utile il grafico di uno dei possibili cammini del processo di Poisson (fig. 16-8).
470 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
17 .......,
16 ~
15
14
13
12
li
10 '"1
9 ~
8 ~
7 ~
'
6 ....!
5 t-:
,,
4
3
.
t-::
....-i::
,,
2
I
..-: : :
111
:
...-------1· : : ::
I
o : : :::
o 1, /IO 112 114 16 17
111 113 1,5
Figura 16-8:
Possiamo ora considerare l'intervallo di tempo che intercorre tra il primo arrivo e il
secondo arrivo: indichiamolo con T12- Si usa chiamare T 12 tempo di attesa tra il
primo e il secondo arrivo. Anche T 12 è una variabile aleatoria che prende solo valori
positivi.
In modo analogo possiamo considerare il tempo di attesa T23 tra il secondo e il terzo
arrivo, e definire in modo analogo T34, T 45 eccetera.
Vale il seguente teorema, che non dimostriamo.
i) Bo= O.
ii) Il processo ha incrementi indipendenti.
iii) Per s::; t, la va B 1 - Bs ha la legge gaussiana con media zero e varianza (t - s).
4i) Le traiettorie del processo sono funzioni continue del tempo t.
Figura 16-9:
Ricordiamo che la condizione ii) significa che se (p, r] e (s, t] sono intervalli disgiunti
allora B 1 -B. è indipendente da Br -Bp, Notiamo che sono indipendenti gli incrementi
del processo sui due intervalli. Non sono indipendenti, ad esempio, le variabili B 1 e Br,
La condizione iii) implica che, se gli intervalli disgiunti (p,r] e (s,t] hanno la stessa
lunghezza, gli incrementi B 1 - Bs e Br - Bp seguono la stessa legge. Questa condizione
si esprime dicendo che il processo ha incrementi stazionari.
Dato che B 1 ha legge normale, i suoi valori possono essere qualunque numero reale. Ciò
rappresenta una grande diversità rispetto al processo di Poisson, in cui i valori di X 1
possono essere solo numeri interi non negativi. In particolare la condizione 4i) sarebbe
impossibile per il processo di Poisson, perché le sue traiettorie "saltano" da un intero a
un altro, e sono necessariamente discontinue.
- I
- 3 O particella jjsica
Figura 16-10:
Il moto browniano è un modello appropriato per descrivere il movimento lungo una linea
di una particella che si muove di moto caotico; il valore (casuale) Bt si interpreta come la
posizione della particella al tempo t. La condizione 4i) esprime il fatto che la particella
si muove senza saltare da un punto a un altro. Nel grafico che mostriamo è eviden-
ziata la posizione "virtuale" della particella ai vari istanti t nello spazio bidimensionale
(tempoxposizione). La particella in realtà si muove lungo una linea e la posizione fisica,
in ogni istante, è la proiezione sull'asse delle posizioni della particella virtuale nello spazio
bidimensionale (figura 16-10).
Questo tipo di fenomeno fu osservato dal botanico inglese Brown mentre osservava il
movimento di particelle in sospensione in un liquido, e ciò spiega il termine "moto
browniano" .
Gaussianità
Vogliamo mostrare che il moto browniano è un processo gaussiano, nel senso della
definizione seguente.
Sappiamo che ciascuna di loro è gaussiana. Inoltre sappiamo che sono indipendenti
(perché il moto browniano ha incrementi indipendenti). Allora il vettore
Bt, - B10
Bt2 - Bt,
A= Bt 3 - B12
m(t) = O.
Di conseguenza, p(t, s) = E[B 1B 8 ]. Calcoliamone il valore supponendo dapprima O ::;
s ::; t; scriviamo
Condizione iii). Per s::; t, le variabili Bs, Bt sono congiuntamente gaussiane e quindi
è gaussiana anche Bt - Bs. La sua media è m(t) - m(s) = O e la sua varianza è pari a
cov[Bt - Bs, Bt - B.] = p(t, t) - p(t, s) - p(s, t) + p(s, s) = t- s- s +s = t - s.
La proposizione è dimostrata. •
1
I
I
2
3 •
I
I I
·.:::
.e
•
I I
., I
I
I
I I
\ I I
'\, \. I I I
\ • I I
M-1 \ I I I
- - - ..- - - _,
\ I I 1I
M ~
o 1 2 n-1 n
istanti
Figura 16-11:
P[Xn = in I {Xo = io} n {X1 = i1} n ... {Xn-1 = in-1}] = P[Xn = in]
Se indeboliamo un po' l'indipendenza e riteniamo che la probabilità di trovarsi nello
stato E;n all'istante n sia influenzata esclusivamente dallo stato in cui si trova il sistema
all'istante (n - 1) avremmo invece:
P[Xn = in I {Xo = io} n {X1 = i1} n ... {Xn-1 = in-1}] = P[Xn = in I Xn-1 = in-il
(16.1)
Poniamo Pij,n = P[Xn = j I Xn-1 = i]. In linea di principio Pij,n dipende dall'istante n.
Noi considereremo solo il caso in cui Pij non dipende da n ma è la stessa per ogni istante
n considerato, quindi Pij,n = Pij
Pn P12 PIM
P21 P22
PMI PMM
si dice matrice di probabilità di transizione {di ordine 1}.
M
Ovviamente O::; p;1 ::; 1 elfi; I: Pij = 1 (la somma degli elementi di una qualunque riga
j=l
è uguale a 1). Una matrice 7T' siffatta si dice matrice stocastica.
Esempio 16.5.4 Ogni giorno un uomo esce di casa con l'auto o con la bici. Non prende
mai la bici due giorni di seguito ma se un giorno esce in auto il giorno dopo prende l'auto
con probabilità p e la bici con probabilità q = l - p. Lo spazio degli stati è E1 = {auto}
e E 2 = {bici}. Si tratta di una catena markoviana perché a ogni giorno si può pensare
collegata una va Xn che prende il valore l (auto) oppure 2 (bici) e {Xn = i} dipende
solo dal valore della catena all'istante n - l.
La matrice di transizione e il suo grafo sono i seguenti:
1----1--
1-p
..... G
L'elemento P11 = P[Xn = l I Xn-1 = l] = p; P12 = P[Xn = 2 I Xn-1 = l] = 1- p;
P21 = P[Xn = l I Xn-1 = 2] = l; P22= P[Xn = 21Xn-1 = 2] = O.
p
l-p
o
o
p
l-p
o
p
..·i
oppure j 'I i + 1 Pii = O. La matrice di transizione è perciò la seguente:
o
...
Supponiamo ora di voler conoscere Pj(l) = P[X1 = j]. Poiché {Xo = i} costituisce una
partizione dell'evento certo, per il teorema delle probabilità totali si ha:
Pj(l) = P[X1 = j] = I: P[Xo = i]P[X1 = j I Xo =i]= I: Pi(0)Pii· Da cui
477
Figura 16-12:
P(l) = P(0)1r
Sempre dal teorema delle probabilità totali abbiamo Pj(2) = P[X2 = j] = I:P[X1 =
k
k]P[X2 = j I X1 = k] = I:I:P;(O)PikPkj I:P;(O)I:PikPkj I:P;(0)p;j(2).
k i k
Pensiamo alla matrice
1r(2) =[p;j(2)] =
Il termine Pij (2) = I: PikPkj è il risultato del prodotto della riga i-esima della matrice
k
71" per la sua colonna j-esima. Si conclude che
Pn(n) P12(n)
[ P21(n) P22(n) (16.7)
PM1(n)
si dice matrice di probabilità di transizione {di ordine n) di una catena di Markov
omogenea, finita e i suoi elementi Pii(n) = P[Xn = JIXo = i] si chiamano probabilità
di transizione {di ordine n).
Osserviamo che, poiché la 16.6 dipende da 1r che però non dipende dall'istante n in cui si
osserva il sistema, nota la distribuzione del sistema all'istante m saremmo potuti partire
da m e in n passi arrivare all'istante m + n. Avremmo dimostrato la 16.6 in una forma
apparentemente più generale:
Risulta perciò
(16.9)
Si possono ora facilmente verificare le equazioni di Chapman-Kolmogorov.
n[pt]
M
O::; k::; n; Pij(n) = LPih(k)Phj(n - k); 1::; i,j::; M (16.10)
h=l
M
n, m ~ O;p;1(n + m) = LPih(m)ph 1 (n); 1::; i, j::; M (16.11)
h=l
Infatti Pij (n) è l'elemento di posto (i, j) della matrice 1rn. Del resto 1rn = 1rk1rn-k. Per
cui p;1 (n) si ottiene moltiplicando la riga i-esima di 7rk per la colonna j-esima della
1rn-k_ Così facendo si ottiene esattamente la 16.10.
Per esempio per n = 3 si ha: Pij(3) = I: Pik · Pk1(2)
k=l
= I: Pik ( I: Pkh · Phj)
k=l h=l
o 1 2 m
Figura 16-13:
Oss. 8 Le formule scritte per le catene di Markov .finite si estendono facilmente alle
catene in cui il numero di stati è numerabile. Le somme diventano serie e i prodotti tra
matrici diventano prodotti tra matrici in.finite dove l'algoritmo di calcolo del prodotto è
lo stesso che nel caso finito, cioè righe per colonne.
Definizione 16.5.8 Uno stato Ej si dice accessibile da uno stato Ei ( e si scrive i ---+j)
se per qualche n è Pii (n) > O. Se lo stato Ej è accessibile da Ei e lo stato Ei è accessibile
da Ej gli stati Ei e Ej si dicono comunicanti (e si scrive i +-+ j).
Valgono le proprietà:
Definizione 16.5.11 Una catena di Markov si dice irriducibile se tutti gli stati comu-
nicano.
Definizione 16.5.12 Una matrice di transizione 1r = [pij] si dice regolare se V(i, j), :ln:
Pii (n) > O. In questo caso la catena si dice regolare.
Si vede facilmente che una catena la cui matrice di transizione sia regolare è irriducibile.
Supponiamo che una catena si trovi all'istante O nello stato Ek, cioè {Xo = k}. Sia fk(n)
la probabilità che il primo ritorno nello stato Ek avvenga esattamente dopo n passi.
Grazie al teorema delle probabilità totali si può mostrare che vale la relazione seguente:
n
Pkdn) = L fk(m)pkk(n - m)
m=l
dalla quale si possono ricavare le fk (m).
La quantità
!k = I:!k(n) (16.13)
n=l
rappresenta la probabilità di ritornare almeno una volta a Ek partendo da Ek. Dunque
(X) (X)
I: fk(n) ::; 1 e se I: fk(n) < 1 il processo potrebbe non ritornare mai allo stato Ek
n=l n=l
partendo da Ek.
Se fk = l lo stato k si dice ricorrente perché c'è probabilità 1 che il sistema ritorni a Ek.
Si può vedere che se ci torna una volta allora ci tornerà infinite volte (infatti ripartendo
da Ek è come se il processo ripartisse da capo e ritornerà a Ek con probabilità 1).
(X)
Se I: fk(n) < 1 lo stato Ek si dice transiente perché c'è una probabilità positiva che
n=l
una volta passato di lì il processo non ci torni più. Si può vedere che il processo visita
uno stato transiente al più un numero finito di volte.
Indichiamo con Tk il primo istante in cui la catena X 1 visita lo stato Ek (essendo partito
da un qualunque altro stato).
Stabilire se uno stato è ricorrente o transiente non è semplice perché non è semplice
trovare fk(n) per ogni n. Si può invece calcolare il valor medio µk di Tk sotto la condizione
{Xo = k }. Infatti, poiché:
(X)
Nella 16.14 µk rappresenta il tempo medio di attesa del tempo di primo ritorno nello
stato k quando inizialmente la catena si trovava nello stato k. Inoltre se lo stato Ek è
481
ricorrente e µk = oo allora Ek si chiama ricorrente nullo. In caso contrario Ek si
chiama ricorrente positivo.
Consideriamo ora la va di Bernoulli così definita:
Ik ={ O
1 se Xn =k (16.15)
n se Xn =/k
Definizione 16.5.13 Il tempo trascorso dalla catena nello stato k fino al tempo
n è dato
Allora i passaggi della catena per Ek (cioè il tempo trascorso dalla catena nello stato Ek)
(X)
(compreso quello iniziale) è dato da: I: /~. Tale valore può essere finito o infinito. Si
n=O
osservi che la va di Bernoulli I~ ha valore atteso E[/~] = P[Xn = k]. Calcoliamo allora
il numero medio di ritorni E [I::~=O I~ I Xo = k] nello stato Ek partendo dallo stato Ek,
Si vede che:
E [n~OI~ I Xo = k] = n~OE[I~ I Xo = k] = n~OP[Xn = k I Xo = k] = n~/kk(n).
Si può ora dimostrare il seguente:
1
(16.16)
l-fk'
Se Ek è ricorrente allora
(16.17)
Una conseguenza della proposizione 16.5.15 è che gli stati di una classe chiusa sono tutti
ricorrenti o tutti transienti (cioè ricorrenza e/ o transienza è una proprietà di un'intera
classe).
Sia ora T l'insieme degli stati transienti di una catena. Gli stati ricorrenti possono essere
suddivisi in classi chiuse disgiunte C1, C2, ... tali che gli stati di C; non comunicano con
quelli di Cj se i =Jj e ovviamente neppure con quelli di T sempre per la proposizione
16.5.15.
482 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
Concludiamo che:
1) se lo stato Ek da cui parte una catena è ricorrente, allora il processo:
1.1) non può visitare nessuno stato j transiente;
1.2) visita invece infinite volte tutti gli stati della propria classe chiusa;
1.3) non può visitare nessuno stato di una diversa classe chiusa;
2) Se lo stato di partenza Ek è transiente allora il processo può entrare in una classe
ricorrente (e poi non ne esce più) oppure può restare per sempre nella classe T ma senza
(X)
ripassare infinite volte dallo stato Ek, altrimenti si avrebbe I: Pkk(n) = oo vietato dalla
n=I
16.16.
Uno stato Ek si dice periodico di periodo t se il processo può tornare in Ek solo in
t, 2t, 3t, ... passi in modo che Pkk(n) = O se n non è divisibile per t. Uno stato si dice
aperiodico se t = 1.
Oss.: Si può mostrare che tutti gli stati di una classe chiusa hanno lo stesso periodo,
quindi anche la periodicità è una caratteristica di una classe chiusa.
Uno stato Ek ricorrente positivo che sia aperiodico si dice ergodico. Anche l'ergodicità
è ovviamente una caratteristica di una classe chiusa.
Teoremino 16.5.16 Gli stati di una catena di Markov irriducibile sono o tutti tran-
sienti, o tutti ricorrenti nulli, o tutti ricorrenti positivi.
Una catena di Markov irriducibile si dice ergodica se tutti gli stati sono ergodici.
V= V7l' (16.18)
Per quanto detto in 16.6 se v = P(O), cioè se la distribuzione iniziale della catena è
stazionaria, allora si ha "in, P(O) = P(0)7r = ... =P(0)7rn cioè la distribuzione sugli stati
è sempre quella iniziale (cioè non dipende da n, il che giustifica il termine stazionaria).
Una catena stazionaria è l'analogo di un sistema in condizione di equilibrio (anche se le
transizioni tra vari stati avvengono senza sosta a ogni passo).
V7l' = (v 1,v2) [ 1 ~a ~
1 b ] = (v 1,v2)
Si tratta di risolvere il seguente sistema:
{ v1(l-a)+v2b=v1 .. _
che ha soluzioni v 1 - --
b . _ a
, v2 - --
v1a + v2(1 - b) = v2 a +b a +b
Vale il seguente:
Vk=l/µk;
Qualunque sia la distribuzione iniziale P(O) risulta:
l n
--
n+l
LI~ -+Vk,
m=O
per n-+ oo,
con probabilità l.
Oss.: Si noti che, se una catena è irriducibile e ricorrente positiva allora, per la propo-
sizione 16.5.16 µk < oo. Segue che vk > O. Inoltre se µk, il tempo medio di attesa del
tempo di primo ritorno nello stato Ek quando inizialmente la catena si trovava nello stato
Ek, è "grande" Vk è "piccola". Ciò è ragionevole: infatti se il sistema mediamente impiega
molto tempo a tornare a Ek partendo da una condizione di equilibrio v ={
vi, v2, ... },
Vk = P[Ek], la probabilità di trovare il sistema nello stato Ek non può essere grande.
n
Inoltre I: I~ è il numero di istanti di tempo spesi dal sistema nello stato Ek nei primi
m=O
l n
n+ listanti a partire dal momento iniziale m = O. Pertanto -- I: I~ è la proporzione
n + l m=O
di tempo speso dal sistema nello stato Ek, nei primi n + l istanti della
sua evoluzione.
Il teorema afferma che, sul lungo periodo, la frequenza della presenza nello stato Ek
converge alla probabilità della presenza Vk.
Equilibrio
Siamo interessati a studiare il comportamento delle probabilità di transizione a n passi
Pii(n) per n-+ oo. Vediamo le seguenti proposizioni la cui dimostrazione esula dai limiti
di queste dispense.
La matrice di transizione 1l'nconverge a una matrice le cui righe sono i vettori dell'unica
distribuzione stazionaria. Inoltre poiché P[Xn = j] = (P(0)7rn)j = I: P;(O)p;1(n) -+
i
I: P;(O)v; = V; cioè qualunque sia la distribuzione iniziale P(O) la distribuzione di Xn
i
converge alla distribuzione invariante v. Si osservi che se la matrice di transizione della
catena è regolare la catena è irriducibile.
484 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
Teorema 16.5.23 Se una catena è irriducibile e transiente ( oppure irriducibile e ricor-
rente nulla) allora
lim Pij(n)---+ O
n-oo
Teorema 16.5.24 Se alle ipotesi del teorema ergodico 16.5.20 si aggiunge l'aperiodicità
allora:
lim Pij(n) = Vi
n-oo
La proposizione 16.5.24 è una generalizzazione al caso del numero degli stati infinito
numerabile del teorema di Markov 16.5.22.
16.6 Esempi
Supponiamo che Caio confidi a un'altra persona A che un comune conoscente, Tizio,
evade le tasse. A sua volta A si confidi con B, B con C e così via, passando ogni volta
la confidenza a una persona diversa. Ammettiamo per ipotesi che ogni persona abbia
probabilità p di riferire la confidenza così come l'ha ricevuta e (1 - p) di riferire il suo
esatto contrario. Qual è la probabilità che alla n-esima persona venga confidato che
Tizio evade le tasse?
Soluzione. Possiamo considerare la catena di confidenze come una catena di Markov
Xn a due stati che indicheremo con 1 e 2. Il processo all'istante n sarà nello stato 1 se
alla ennesima persona viene riferito che Tizio non paga le tasse, nello stato 2 altrimenti.
Allora Pll = P[Xn = 1 I Xn-1 = l] = P, P12 = P[Xn = 2 I Xn-1 = l] = 1 - P,
P21 = P[Xn = 1 I Xn-1 = 2] = 1 - p e infine P22 = P[Xn = 2 I Xn-1 = 2] = p. La
matrice di transizione allora è:
7r=[ l-pp l-pJ·O<p<l.
p '
Ovviamente 7rè regolare e ammette un'unica distribuzione stazionaria v = (v1, v2) =
(t-p)'t-p))
2 l-p 21-p
=(½,½)(vedi esempio 16.5.18). Per il teorema di Markov la di-
stribuzione della catena converge alla distribuzione stazionaria (½, ½)- Questo significa
che quanto più grande è n tanto più vicina a ½ è la probabilità che all'n-esima persona
venga riferito che Tizio evade le tasse e altrettanto vicina a ½ è anche la probabilità di
riferire che Tizio non le evade. Quindi l'informazione finale è indipendente da quello che
Caio ha confidato la prima volta e dalla probabilità p che ogni persona ha di riferire
correttamente l'informazione ricevuta.
IIPer una soluzione trovata senza la tecnica delle catene vedere il capitolo 10.
485
Supponiamo che due giocatori G1 e G2 posseggano rispettivamente N e M dollari e
facciano un gioco che consta di tante partite. A ogni partita G 1 riceve un dollaro da G 2
con probabilità p (O< p < 1) e gliene cede 1 con probabilità 1 - p = q. Il gioco termina
quando uno dei due giocatori è rovinato, cioè non ha più soldi. Indichiamo con Xn il
capitale di G1, Gli stati possibili per il sistema sono i valori che Xn può assumere, cioè
O, 1, ... , M + N. Il valore che Xn+l può prendere dipende solo dal numero di dollari che
G1 aveva all'istante n. Scriviamo la matrice di transizione.
Se i # O !\i # M + N
sej=i+l
sej=i-1
altrimenti
Inoltre:
Da ciò si ha la matrice (M + N + l, M + N + 1) :
1 o o o
q o p o o
o q o p o
7r'=
o q o p o
o q o p
o o O 1
Classifichiamo gli stati. Dalla matrice si vede immediatamente che lo stato k = O è
assorbente e così capita anche allo stato k = M + N.
Se invece O < k < M + N allora k comunica con tutti gli altri stati: infatti Pk(k- l) = q > O
quindi k---+ (k - 1). Per la stessa ragione (k - 1)---+ (k - 2), (k - 2)---+ (k - 3), eccetera.
Per quanto si è mostrato nelle 16.12, k comunica con (k - 1), (k - 2) fino a O.
Infine tutti gli stati k diversi da O e M + N sono transienti. Infatti k comunica con O ma
O non comunica con k.
Le distribuzioni v1 = =
(1, O, ... , O) e v2 (O, O, ... , 1) sono stazionarie per la catena che
codifica la rovina del giocatore.
0.4 0.6 o
0.2 0.5 0.3
0.1 0.7 0.2
Dal grafo si vede che tutti gli stati comunicano, quindi la catena è irriducibile. Poiché,
per esempio, lo stato E 1 è ricorrente tutti gli stati sono ricorrenti.
ri
1/4
[f
9/10 1/10
7i =
1/5 4/5
o o
1/4 1/4 115
1ffi
8 8
112 4/5
1/10
@9 / 10
Ak = _l [ /3 a ] + (1 - a - /3)k [ a -a ]
a+/3 /3 a a+/3 -/3 13
quindi
487
Segue: f
k=O
P22(k) = !
3
f
k=O
[2 + (i7
0 )k] = oo quindi E2 è ricorrente.
1
Sia Yn una succesione di va di Bernoulli indipendenti tali che \fnP[Yn = l] = 2.
Evidentemente Yn rappresenta una catena di Markov a due stati (infatti P[Yn = in IYo=
w
io, ... , Yn-l = in-1] = P[Yn = in] per l'indipendenza) Il suo grafo è il seguente:
1/2 m 1
1/2
+------
1/2
O 1/2
Figura 16-14:
Ora, la catena Xn = 1 (Yn + Yn-1) non è una catena di Markov. La legge di probabilità
di Xn è la seguente:
1
P[Xn = O]= P[Yn = o,Yn- l = O]= 4
1 1
P[Xn = 2] = P[Yn = o,Yn-l = l] + P[Yn = 1, Yn-l =O]= 2
1
P[Xn = l] = P[Yn = l,Yn-l = l] = 4
Facciamone il grafo
1/2 ~+----e-~
r"r:\
o
1/4
1/2
112
114
""
112
1/2
Figura 16-15:
Infatti
488 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
1
[ 1 ] P[Xn=2,Xn-1=l] P[{Yn=O,Yn-1=l,Yn-2=l}] 1/8 1
P Xn = 2 1
Xn-l = l = P[Xn-1=1] P[Yn-1=l,Yn-2=l] = 1/4 = 2
Figura 16-16:
1
Xz 0 (l)
X1(2) + ... + Xz,(l) (16.19)
Gz 0 (s) = s
Gz, (s) = G(s)
Gz 2 (s) = Gz, (G(s)) = G(G(s))
Gz 3 (s) = Gz 2 (G(s)) = G(G(G(s))) (16.21)
Probabilità di estinzione
n seµ= l
Ricocdando il t=rema 15.8.6 è E[Zn] - µn va,[Zn] - a'µ•-<· { 1- µn
seµ# l
1-µ
Qual è la probabilità che la popolazione si estingua?
490 CAPITOLO 16. PROCESSI STOCASTICI: CENNI
Definiamo estinzione:
(X)
{estinzione}= LJ {Zi = O}
i=l
Poniamo:
Poiché
dove Gzn(s) è la fgp di Zn, e avendo posto P[Zn =O]= Gzn(O) = 7rn si ha:
CXJ n
1r = P[ LJ{Zi =O}]= lim P[ LJ{Zi =O}]= lim P[{Zn =O}]=
j=l n-oo j=l n-oo
= lim Gzn(O) = lim 7rn = ?[{estinzione a una generazione :S n}]
n---+oo n---+oo
dove:
G(l) = I: Pi = l.
j=0
.,,
"':
.,,"" :
,,' :
s
o 1tse µ > / se µ ~ J
Figura 16-17:
dsj=O
f
G'(l) = .:!._ Pisil
j=l
f
jpj =
j=0
f
jpj = E[X] = µ. Come si evince dalla figura se
s=l
µ ::; 1 c'è una sola soluzione s = l = 1r. Quindi c'è la certezza dell'estinzione. In caso
contrario, se µ > l 1r < l e la certezza dell'estinzione non c'è più •-
La 16.22 significa:
00 00
P[{Zn---+ O} U {Zn---+oo}] = 1
Markovianità
Riprendiamo l'ultima delle 16.19:
Si ha:
in -1 in -1
= P[ I: Xj(n) = inlZo = i 0 , ••• , Zn-1 = in-1] P[ I: Xj(n) = in]
j=O ,----------.. j=O
indipendenza da 16.20
Scriverà lui stesso che la sua principale lacuna è l'aritmetica. Leo Wiener allora, intuendo
che Norbert deve essere stimolato con problemi più difficili, interviene togliendolo dalla scuola.
Comincia così a insegnargli lui stesso l'algebra. Da questo momento si occuperà in prima persona
della sua formazione
A 9 anni Wiener viene mandato di nuovo a scuola e ammesso a classi più avanzate per la sua
età. A 11 anni prende il diploma di liceo presso la Ayer High School con compagni di sette anni
più vecchi di lui.
Pur essendo ancora praticamente un bambino Wiener all'età di quattordici anni entra a Harvard
nel 1909. Lascia Harvard nel 1910 per tentare una laurea in zoologia alla Cornell University, ma
torna a Harvard dove riprende gli studi di filosofia e di matematica.
A 18 anni ottiene il dottorato in logica matematica. Nel 1914 si trasferisce a Gottinga dove
studia con Hilbert. Subisce l'influenza di Bertrand Russell e Hardy. Questi sono gli anni in cui
Wiener si convince che "occorre vivere con la matematica, non basta studiarla".
Torna in America prima che scoppi la Guerra Mondiale e, appena questa finisce, gli viene offerto
un posto al MIT. Lì affronta lo studio del moto browniano che fa nascere il suo interesse per il
calcolo delle probabilità.
Alcuni suoi contributi sono di grande importanza per gli studi sul moto browniano, per il pro-
blema di Dirichlet, per i processi stocastici, per l'analisi armonica, per la trasformata di Fourier.
Wiener mostra una vastissima gamma di interessi: a lui si devono risultati importanti sulla teo-
ria dei quanti e sulla teoria dell'informazione. Il termine cibernetica è coniato da lui, e a questo
proposito ricordiamo il suo libro Cybernetics, or Contro] and Communication in the Animal and
the JVIachine pubblicato nel 1948.
Nonostante la sua indiscussa genialità, Wiener ha fama di cattivo conferenziere e disordinato
espositore delle sue idee nei suoi articoli e libri.
Il matematico e storico Hans Freudenthal scrive di lui: "Wiener parla molte lingue ma in nessuna
di queste è facile capire quello che dice".
Ricordiamo infine God and Golem, Inc.: A Comment on Certain Points Where Cybernetics Im-
pinges on Religion (1964) che tratta delle implicazioni etiche e religiose riguardanti la possibilità
delle macchine di imparare.
Capitolo 17
Teorema del Salario: Meno conosci, piu guadagni
Aggiunte e spiegazioni
con µ 1 e µ 2 ignote.
Si scelgono due campioni
stimatore di µ 1 stimatore di µ 2
X y
H O : µ 1 - µ 2 = do = O
Ha : µ 1 - µ 2 = do =/-O
Come per gli intervalli di confidenza, si presentano i seguenti casi.
caso 1) ai
e a§ note.
Statistica test:
X-Y
----;:::==""N(O,l)
. I a'f + a~
Vn m
La regione di rifiuto è
x-y E RC
V/.5.
n
+ 5m
si rifiuta.
si rifiuta.
dove
82 + -1. 82) 2
( ....!.
n m
d.f = intero più vicino a -,,...-'---:,,-----,,----,,-
(si/n)2 + (s§/m) 2
n-l m-1
497
La regione asintotica di rifiuto è
(x-'i]) E RCa
s2 s2
_!. + __l
n m
si rifiuta.
Test unilatero
La sua formulazione è la seguente:
Coda dx
Ho: µ1 = µ2 equivalente a
H O : µ 1 - µ 2 = do = O
Ha: µ1 > µ2 Ha : µ 1 - µ 2 = do > O
Coda sx
Ho: µ1 = µ2 equivalente a
Ho : µ 1 - µ 2 = do = O
Ha: µ1 < µ2 Ha : µ 1 - µ 2 = do < O
Si presentano i seguenti casi:
caso 1) ai e a§ note.
Statistica test:
X-Y
----;::::== "'N(O, 1)
Vl.5.+.'.d.
n m
si rifiuta.
498 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
caso 3) ai e a§ ignote; e ai -/=a§ (eteroschedasticità).
Statistica test
(X - Y) - t
-v-;:::(=sl:;::::2
=+=(
;=n=) s=~;;::::/=m=)
- df
dove
t = _(X_--=Y=)=-=d=-o
sP Ji+.l.
n m
x;,-l
(n-l)S1
O'x x;,_
i/(n - 1)
(17.1)
-2 - "" (m- l)S? 2 /( l) = Fn-l,m-l
Xm-1 ~~~-- Xm-l m -
a-t
cioè !~ja}
Y ay
è una distribuzione di Fisher 1 con n- l e m- 1 gradi di libertà.
Test bilatero
Supponiamo di voler eseguire il test:
H 0 : ai= a}
Ha: ai# a}
Prendiamo come stimatori di ai e a} le varianze campionarie relative alle due popola-
52
zioni, cioè 8} e 8r La statistica test (che si ricava sotto ipotesi Ho) è 8J
y
che per la
(17.1) è distribuita come una Fn-l,m-l·
s2
Saremo portati a rifiutare se il valore osservato si » s} (cioè 8
; > k) oppure se
y
s2
s X2 « 2 < h), con h e k opportuni,
s Y2 (cioè ....K
8
mentre saremo portati ad accettare se
y
52
si::::: s}. Questo significa che la regione di rifiuto (sotto ipotesi Ho) sarà 8 Jy < h oppure
52
8 J > k, con h e k costanti fissate dalla significatività del test. Cioè:
y
8} a 1- , 81 a 1- ,
h: P[S2 < h] = 2= - 2 - /\ k: P[S2 > k] = 2= - 2-
y y
82 /a-2
1Tecnicamente -; / : è una quantità pi votale perché dipende dai due parametri incogniti a-5ce a-}
8y O'y
mentre la sua distribuzione Fn-1,m-1 non dipende da nessun parametro incognito.
500 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
quantili:
RC=(-oo;F 1 )U(Fa/2·n-l·m-1i+oo)
o/2;m- l;n-1 ' '
Conclusioni
*ERC
Test unilatero
Senza motivare nel dettaglio come abbiamo fatto in precedenza (cosa che lasciamo even-
tualmente al lettore), vediamo come funzionano le cose nel caso del test unilatero seguen-
te:
Ho: oJ = a}
(17.2)
Ha: a1' > a}
Si rifiuta se
s2
FTn-l·m-1
, , = Fa·n-l·m-1
, , < Sy:
Il test
Ho: a1' = a}
Ha: a1' < a}
è analogo a quello in (17.2). Basta scambiare le popolazioni X e Y.
Esempi
a) Cominciamo da un test di ipotesi sulla varianza di una popolazione normale.
Un'azienda costruisce rondelle di diametro medio pari a µ cm con una macchina Mx.
La macchina può essere settata per produrre rondelle di diversi diametri µ. La misura
del diametro delle rondelle prodotte è rappresentato da una va gaussiana X rv N (µ; a1')
Quello che interessa è la precisione intorno a µ con cui opera la macchina. Il responsabile
della produzione sostiene che la variabilità nella misura dei diametri non supera 0.0002
cm 2 . La direzione dell'azienda decide di verificare l'affermazione del responsabile per
stabilire se sono necessari interventi di controllo. Viene scelto un campione (casuale) di
10 rondelle dalla produzione, e si imposta il test:
Ho : a1' ::;0.0002 = a5
Ho : a1' > 0.0002
501
Lo stimatore di oJ è la varianza campionaria S1
La significativitità è fissata in 0.05. Allora la RC è (X§(0.95), +oo) =
(16.9, +oo), la
. . test è (n-l)S1 . O sservan d o 1·1 campione,
stat1st1ca . .
è stata registrata .
una varianza
2
ao
9 · 0.0003
campionaria pari a 83(= 0.0003. La statistica test osservata è pari perciò a 0 _0002
13.5, che cade nella regione di accettazione. Si ritiene dunque accettabile l'affermazione
del responsabile della produzione.
b) Supponiamo invece ora che, per produrre rondelle, all'azienda venga proposto di
acquistare una macchina My. Il costruttore della macchina Afy afferma che il diametro
delle sue rondelle è una va Y rv N(µ; a}), non importa quale sia il valore di µ. Sostiene
inoltre che a} < a3(. L'azienda, prima di acquistare la nuova macchina My predispone
il seguente test:
Ho: a3(::;a}
Ha: a3( > a}
equivalente a
Ho: a3( = a}
Ha: a3( > a}
Il campione scelto dalla popolazione Y ha dimensione m = 20.
La statistica test (sotto Ho) è allora
83( 0.0003
-2-=--=3
8y 0.0001
Si rifiuta perciò di credere che la macchina Mx abbia una variabilità inferiore a quella
della macchina fvly, cioè si accetta che la My lavori meglio della Afx.
ay
x ax
pivotale perché dipende dai due parametri incogniti ai e
a} mentre la sua distribuzione Fm-1,n-1 con m-1 e n- l gradi di libertà non dipende
da nessun parametro incognito.
IC bilatero
~l+y)/2J!l-1Jl-1
J,~l+y)/2,11-l,m-l
Fa/2,m-l,n-1
Fa/2,n-1,m-1
Occorre trovare un IC all'interno del quale la quantità pivotale (QP) (17.3) sta con
probabilità Ì·
Si può perciò mostrare che i confini dell'IC sono i seguenti.
Utilizzando il linguaggio dei quantili
Conclusioni
Quantili
1 si/a}
< sx2/a2 < F(l+'Y)/2;m-1;n-1
F(l+'Y)/2;n-l;m-1 hT"'1
B= D
1 S X<
2
-S2
~X<
-2-
S Xp
2
-S2 (l+'Y)/2 ;m-l;n-1
r(l+'Y)/2;n-l;m-1 y ay y
punti percentili
1 52 /a2
y y F
Fa/2;n-l;m-1
< S2 /a2 < a/2;m- l;n-1
X X
[I]
B=
1 52
X ai
< -;;'2 <
S1
S2Fa/2;m-l;n-1
Fa;2 ;n-1;m-1 si y y
(17.4)
503
a2
e gli eventi A e B si verificano con probabilità 'Y· L'IC bilatero per ---f
ay
è:
quantili
B
~-----=----5x_5xp
F(l+-y)/2;n-l;m-l 52 '52 (l+-y)/2;m-l;n-l
punti percentili
B
( F 0 ;2;n~l;m-l !t Ì #°Fa/2;m-l;n-l)
(17.5)
Esempio
Un ingegnere decide di testare due diversi catalizzatori in processo chimico per valutarne i
rispettivi rendimenti. Utilizzando un impianto pilota l'ingegnere modelizza il rendimento
relativo al primo catalizzatore con una va X rv N(µ 1 ; ai) mentre il rendimento relativo
al secondo con una va Y rv N(µ 2 ; <J§).
La prima cosa che si propone di fare è trovare un IC bilatero di livello 'Y per la differenza
delle medie µ 1 - µ 2 . A questo fine, poiché non si conoscono le varianze dei due processi,
ritiene ragionevole lavorare sotto l'ipotesi che le varianze siano uguali, cioè
(17.6)
Sappiamo che in questo caso la quantità pivotale è:
(X - Y) - (µ1 - µ2)
-5=-p-y-;=(=1/;=n;=)
+=(1::::;/=m:;::-)
tm+n-2
Cv
5 _
P -
J (n- l)Sf +(m-
n+m-2
l)S~
·
Si osservi che O E IC quindi sembra ragionevole ritenere che i due catalizzatori producano
rendimenti medi uguali.
Se l'ingegnere avesse ritenuto troppo restrittiva l'ipotesi (17.6) avrebbe dovuto procedre
alla ricerca di un IC asintotico utilizzando la quantità asintoticamente pivotale
s2
( _!. s2) 2
+ --2
n m
V=-------~
(si/n) 2 + (s§/m) 2
n-l m-1
Nel nostro caso è
(3.:9
+ 4.i2) 2
(17.8)
n = 8; m = 8; Xn = 91. 73; Yn = 93. 75; Si = 3.89; s~ = 4.02; ì' = 0.95; t14(0.975) = 2.145.
e con questi dati la (17.8) diventa
a2
0.25532 ::; --½::;3.6674
a2
che contiene 1. Quindi non è sbagliato pensare che possa essere ai = a§.
È evidente che
- - - - - - PI(l-pI) P2(l-p2)
E[Xn - Y ml= PI - P2;var[Xn - Y ml= var[Xnl + var[Y ml=----+----
n m
(17.10)
Qui si presenta lo stesso problema che si presentava nella ricerca dell'IC bilatero per p
di una singola popolazione di Bernoulli, Se è vero che l'evento
(17.11)
o i punti percentili
confine dx
Ho : PI = P2 = PI - P2 = O
PI -/=P2 = PI - P2 -/=0 2 code
Ha : { PI < P2 = PI - P2 < O coda sx
PI > P2 = PI - P2 > Q coda dx
PI = P2 ===} PI = PI\ P2 = P
cioè PI e P2 sono entrambe uguali a un p ignoto, sotto ipotesi nulla la (17.10) diventa:
Xn - y m ~ N(O, l) (17.13)
Jp(l - p)(¾ + ~)
Per un test di livello di significatività a = 1 - 1 , dopo aver osservato, si dovrà controllare
se la (17.13) appartiene alla regione critica asintotica (RCa), scritta con il linguaggio
dei quantili:
RCa
PI - P2 -/=0 (-oo;-<I>-I( i_tl')) U (<I>-I(l"*'l'); +oo)
PI - P2 <Q (-00;-<I>-1(,))
PI - P2 >Q (<I>-1(,); +oo)
Jp(l - p)(~ + ~)
quindi non è un numero perché dipende da p che non è noto. Quindi la (17.13) non è
ancora una statistica test. Si pone rimendio stimando p con lo stimatore seguente:
, nXn +mYm
p=-----
n+m
per arrivare finalmente alla statistica test:
507
(17.14)
Esempio
Supponiamo che un'azienda produca semiassi per un modello di auto. Dalla produzione
se ne scelgono 75 e se ne trovano 12 difettosi. L'ingegnere che segue la produzione si
propone di determinare la percentuale di difettosità PI presente nella produzione. A tale
scopo si immagina che la difettosità di ogni singolo semiasse sia codificata da una va di
Bernoulli X che prende il valore 1 se il pezzo osservato è difettoso e O nel caso contrario.
È chiaro che P[X = l] = PI e che E[X] = PI·
Per stimare PI si utilizza la media campionaria Xn, La stima intervallare si ottiene
utilizzando la quantità asintoticamente pivotale
Xn-PI
Jxn(I;,Xn)
12
Con il campione scelto di dimensione 75, con Xn 75 e fissata una confidenza pari a
'Y= 0.95 (e di conseguenza con il quantile <I>-I(0.975) = 1.96) l'IC asintotico cercato è:
1
Poiché non conosciamo PI ma in ogni caso sappiamo che PI (1 - PI) ::; 4 basterà che:
IIIRicordo che con il simbolo rrl si intende il minimo intero maggiore o uguale dir.
508 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
E= 10- 3 n?. l
¾106 • 1.96 2 = 960400
E= 10- 2 n?. ¾10000. l
1.96 2 = 196041 = 9604
Supponiamo ora che l'azienda introduca una variante nella sua produzione, dando così
luogo a una nuova popolazione di semiassi caratterizzata da una percentuale di pezzi
difettosi P2 in generale diversa da P1. Quindi si pensa che la nuova popolazione sia
descritta da una va Y di Bernoulli di parametro P2· Si vuole determinare un IC bilatero
e asintotico per la differenza PI - p2 di livello "( = 0.95.
Abbiamo visto in precedenza che la quantità asintoticamente pivotale è
(17.15)
_ 12 _ 10 1 + 'Y -1
Xn = 75 ; Yn = 85 ; - 2 - = 0.975; <I> (0.975) = 1.96
Ho : P1 = P2 = P1 - P2 = O
Ha : PI -:/ P2 = PI - P2 -:/ O
(17.16)
e la RC asintotica è
(-oo; -<I>- 1 (0.975)) U ( <I>-1 (0.975); +oo) = (-oo; -1.96) U (1.96; +oo)
e con questi dati la (17.16) diventa O.73 ét,RC, quindi non si rifiuta l'ipotesi PI = P2·
509
17.5 Errori di II tipo
Test bilatero per la media di una gaussiana, varianza nota
Iniziamo ad analizzare il problema della media per popolazioni normali nota la varianza.
Consideriamo il test:
Ho:µ= µo
(17.17)
Ha:µ °I µo
cioè ipotesi nulla semplice, ipotesi alternativa composta.
Per quanto riguarda la formulazione dell'ipotesi nulla, possiamo pensare ai seguenti casi.
1) H 0 è suggerita dalla passata esperienza, cioè o dalla conoscenza del fenomeno o da
informazioni registrate in esperimenti eseguiti in precedenza, riguardanti il fenomeno. In
questo ultimo caso il test potrebbe essere motivato dall'esigenza di verificare se le cose
sono cambiate.
2) H 0 può essere suggerita dal fatto di sapere che un fenomeno analogo si comporta in
un certo modo.
3) Si ha l'esigenza di verificare che il fenomeno in esame rispetti parametri fissati per
legge (riempimento bottigliette di gazzosa).
4) Ma, a volte, il test può essere disegnato partendo dall'ipotesi alternativa. Se per
esempio la cosa più rischiosa per lo sperimentatore fosse accettare un'ipotesi quando
è falsa, basterebbe far diventare questa ipotesi quella alternativa. Dal momento che
controlliamo la probabilità di rifiutare l'ipotesi nulla quando è vera, controlliamo anche
la probabilità di di accettare l'alternativa quando è falsa.
Ho vera H o fa lsa
accetto Ho no errore errore II t ipo rifiuto H a
(17.18)
rifiuto H o errore I ti p o no errore accetto H a
H a falsa H a vera
È noto come si affronta , per esempio, il test (17.17) per la mediaµ di una popolazione
N(µ; a 2 ) nota la varianza. Lo stimatore è la media campionaria Xn, la statistica test è
Z = X;/~o che, se è vera l'ipotesi nulla, si comporta come una N(O; 1). Fissando il
livello di significatività a= 1 - ì, poniamo
P[Xn - µo -r Xn - µo r IH]
a/fa ::; a/fa V a/fa ~ a/fa o =a= 1- 'Y
r r _ 1 l+'Y
a/fa= Za/2 V a/fa= <I> (-2-)
oppure
oppure
a _ 1 1 + 'Y . a _ 1 1 + 'Y _ .
RA= (µ0 - ;;;:;-<I>(--),µ 0 + ;;;:;-<I>(--)) = (r1,f2).
yn 2 yn 2
Valgono dunque le seguenti relazioni
max (3(µ) = 1 - a = 1
µEIR
Nella prossima figura (a sinistra) abbiamo disegnato il grafico della funzione di (3(µ), che
è simmetrica rispetto a µ 0 (ma non è una curva gaussiana anche se le assomiglia!). A
destra abbiamo invece disegnato la funzione di potenza
7r = 1r(µ) = 1- (3(µ)
Si osservi ancora una volta che, mentre (3(µ) rappresenta la probabilità di accettare Ho
quando è falsa, la funzione di potenza rappresenta la probabilità di rifiutare Ho quando
.
Ho è falsa
1 1
}
•
e>•
-----,--~
e -,-,,:;-,-;.--,-~--,--;..--;.........~~:.-.-
.,.,
t:)
t:)
t:)
.,.,
t:)
o:,
.....
.{ t:)
.,.,
s:,
:::;.
t:)
t:)
.,.,
t:)
o:,
.....
I + +s:, + I
s:, +s:, + +
.:J: .:J: :::;. .:J: :::;. :::;. .:J: .:J:
Il Il Il Il Il Il Il Il
:::;. :::;. :::;. :::;. :::;. :::;. :::;. :::;.
-1 1+, -1 1+,
RC = (-oo; -<I> (- 2 -)) U (<I> (- 2 -); +oo) = (-oo; -Za;2) U (Za;2; +oo)
-1 1+, -1 1+,
RA= (-<I> (-2-);<I> (-2-)) = (-Za;2;Za;2)
È noto che
- az X n - µo
vera H o ===} Xn rv N(µ 0; - ) I\ Z = / vn, rv N(0 ; 1)
n a n
az
- a2 X n - µ0 N(>-.a; - )
n "" N(>-.fo, ; 1)
vera H a ===} X nrv N(µ 0 + >-.a;- ) /\ Z = / vn, ""
n a n a / Fn
(17.21)
In ogni caso è
Esempio 01
La velocità media alla quale brucia un certo propellente per razzi è fissata in 40cm/s.
Uno sperimentatore si propone di verificare la velocità media dello stesso propellente
ma costruito secondo nuove tecniche. Lo sperimentatore sa che questa velocità è una
variabile aleatoria gaussiana. La sua media dovrebbe essere 40 (misurata in cm/s), Lo
sperimentatore dà per certo che lo scarto sia noto e pari a 2 cm/s. Dunque predispone il
seguente test:
Ho:µ= 40
Ha:µ =J40
-1 l+ì' -1 l+ì' -
(-oo, -<I> (- 2 -)) U (<I> (- 2 -), +oo) = (-oo, -Za;2) U (Za/2, +oo)
Nota
Se avessimo
. osservato Xn = 40 .38 , Ia stat1st1ca
. . test sare bb e stata z = 40.38/ - 40 = O.9 5,
2 5
sarebbe caduta nella RA e avremmo accettato. Con che probabilità di sbagliare? Non
sappiamo. Accettando potremmo commettere un errore di II tipo. Vediamo cosa vale
l'errore di II tipo ipotizzando alcuni valori per µ e ricordando che, se la media vera è
.../.. 11 Xn-40 N(µ-40;4/25) N(µ-40· l)
µ r µo a ora 2/5 ,.-., 2/5 ,.-., 2/5 ,
µ /3(µ) µ /3(µ)
35 2.8. 10- 26 41 0.295
36 4.49 · 10- 16 42 0.0019
37 1.51 · 10- 8 43 1.51 · 10- 8
38 0.0019 44 4.49 · 10- 16
39 0.295 45 2.8. 10- 26
40 0.95
Si intuisce che
Si vede che, per esempio, se il valore della media fosseµ = 37, allora la massa individuata
!
da N ( 0270 ; 1) nell'intervallo (-1.96; 1.96) che rappresenta la RA, è (errore di II tipo)
pari a
-40 3 3
P[-1.96::; N(~; 1)::; 1.96] = P[-1.96- 2/ 5 ::; N(0; 1)::; 1.96- 215 ] =
Indicheremo lo scarto tra µ e µ 0 con Àa, cioè µ = µ 0 + Àa con, per ora, À > O, e sia
sempre (17.17) il test in esame, cioè H 0 : µ = µ 0 versus (vs) Ha:µ =f.µ 0 .
Abbiamo già visto (17.21) che (repetita iuvant)
- O'z X n - µo
vera H o ===} Xn rv N(µ 0; -
n
) /\ Z = a (J nn rv N(O; 1)
O'z
- a2 X n - µo N(Àa; - )
vera H a ===} X nrv N(µ + Àa ; - ) /\ Z = / vn
n rv N(Àfo,; 1)
0 rv
n a n a / vn
(17.22)
Quindi, se Ha è vera allora
0'2
N(Àa; -)
(3(µ) = P[-Za/2::; a/fa ::; Za;2]
, 1 e -1 I +y 1 e 1 e -1 I+ Y e
-Zaiz -,.,vn =-<I> (--)-,.,vn ,
Z a/2
-,.,vn =<I> (-)-,.,vn
1
2 2
Saremmo arrivati allo stesso risultato partendo invece che dalla statistica test, dallo
stimatore (la verifica è lasciata al lettore).
Osservazioni
1) Grazie alla simmetria della gaussiana, le (17.23) valgono sia per À > O, sia per
À < o.
515
2) Repetita iuvant. Lo abbiamo già detto: assegnati a e n, più il valore vero della
media µ è lontano da µ 0 ( cioè più grande è À in modulo) più piccola è la probabilità
(3(µ) di II tipo. Ciò equivale a dire che, assegnati a e n, è più difficile (probabilità bassa)
sbagliarsi ad accettare grandi differenze traµ e µ 0 , mentre è più facile (probabilità alta)
sbagliarsi ad accettare piccole differenze.
3) Assegnati À e a l'errore di II tipo (3 decresce al crescere di n.
l+ì
À » 1 ===} (3(µ) = <I>(<I>-
1 (-
2 -) - >-Jn)= <I>(Za;2- >-Jn)
l+ì l+ì
À « -1 ===} (3(µ) = -<I>(-<I>- 1 (- 2 -)->-yn) 1 (-
= <I>(<I>- 2 -)->-yn) = <I>(Za;2->-vn)
(J (J -] l+y (J (J -1 1+ y
µo-
-vn
rZa12 =µo- -vn
r<I> (-) µo+ rZa12 =µo+ r<I> (-)
2 -vn -vn 2
Cioè
0.9
0.8
0.7
0.6
0.5
0.4
...
, \
I0.3;
...._.
0.2
.,......
.....
IO.I;
,
Lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una verticale da
À = 0.5 si incontra la OCC relativa a n = 25 più o meno a quota 0.3. Dovrebbe a questo
punto essere chiaro che (3(41) = 0.3. La OCC ci dice però altre cose. Se avessi voluto un
(3(41) = 0.1 si sarebbe dovuto tirare una linea orizzontale da 0.1 sull'asse delle ordinate,
fino a raggiungere la retta À = 0.5. Il punto di intersezione sta approssimativamente
sulla OCC in corrispondenza di n = 40. Avremmo perciò dovuto scegliere un campione
di dimensione n = 40 se avessimo voluto sbagliarci solo 10 volte su 100 ((3 = 0.1) ad
accettare µ = 40 quando µ = 40 è falsa.
Ho:µ= µo
(17.26)
Ha:µ> µo
VI occorre ricordare che il test (17.26) è in realtà figlio del test: Ho : µ :S µ 0 vs Ha : µ > µ0•
517
1) Decidere il test in base al comportamento di Xn
Intuitivamente accettiamo µ = µ 0 se Xn osservato cade "non lontano a destra" da µ 0
mentre rifiutiamo se Xn osservato cade a sinistra di µ 0 ma anche a destra di µ 0 ma
non "troppo lontano" da µ 0 . Anche nel caso di questo test il "non lontano a destra"
si chiama regione di non rifiuto o di accettazione che indichiamo con RA, mentre il
"lontano a destra" si chiama regione di rifiuto o regione critica che indichiamo con RC.
La dimensione di RC è determinata dalla significatività del test, cioè dal valore a che
rappresenta la probabilità di errore del I tipo, cioè a= P[Xn E RC]. Ancora una volta
per motivi storici i confini di RC si trovano con i quantili o con i punti percentili della
N(O; 1). Si cerca dunque un valore r tale che:
oppure
oppure
t:)
: .g t:) .g '~
' ......
:+
.:r +.:r
+
' I
' ~ ' ~
':::l. ' :::l.
: Il Il Il Il
: :::l. :::t :::t :::l.
_______
'
.J ______ _
dove o:, fJ,ì eµ sono sempre gli stessi. Considereremoµ= µ 0 + Àa. Se è vera Ho allora
À = O mentre se è vera Ha allora À =JO. Di conseguenza, vedi anche (17.21) e (17.22),
e, in ogni caso, è
/3(µ) = P[Z E (-oo; Za) IHa] = P[Z E (-oo; <I>-1 (,) )IHa]
Esempio 02
Prendiamo il problema di prima e trasformiamolo nel test seguente:
Ho:µ= 40
(17.27)
Ha:µ> 40
Fissiamo la probabilità dell'errore del I tipo pari a a = 1 - 'Y = 0.05. La dimensione
del campione sia ancora n = 25. Lo stimatore è sempre la media campionaria Xn e la
Xn - 40 .
statistica test è 215 . Come pnma, a esperimento eseguito, la media campionaria
. . 1 . . . 41.25 - 40
osservata sia pan a Xn = 4 l. 25 e a stat1st1ca test sia 2/ 5 ~
3 .125.
La RC è:
(1.645, +oo)
La statistica test cade nella RC quindi rifiutiamo con probabilità pari a a = 0.05 di
sbagliare.
Nota
se avessimo
. osservato Xn = 4o.38 , 1a stat1st1ca
. . test sare bb e stata z = 40.38/ - 40 = o.9 5,
2 5
sarebbe caduta nella RA e avremmo accettato. Con che probabilità di sbagliare? Non
sappiamo. Accettando potremmo commettere un errore di II tipo. Vediamo cosa vale
l'errore di II tipo ipotizzando alcuni valori per µ e ricordando che, se la media vera è
µ .../..
µ allora Xv-40 ,---,N(µ-40;4/25) rv N(µ-40· l)
i I I
1 O 2/5 2/5 2/5 '
(3(µ)
(3(µ) 1 40 /3(µ)0.95 43 /3(µ)
2.383 · 10- 9 46 5.527 · 10- 41
1 41 0.19623506 44 3.2676 · 10- 17 47 o
0.999983 42 0.00039662 45 9.4252 · 10- 28 48 o
Si vede che, per esempio, se il valore della media fosseµ = 43, allora la massa individuata
da N( 4 ~;i
0 ; 1) nell'intervallo (-oo; 1.645) che rappresenta la RA, è (errore di II tipo)
pari a
3 3
P[N( 215 ; 1)::; 1.645] = P[N(0; 1)::; 1.645 - 2/ 5 ] =
520 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
= P[N(O; 1) ::; -5.855] = 2,383. 10- 9
cioè praticamente O.
a2
X - µo N(>.a;-)
Z = n ,.__, n N(>.fa; 1)
,.__,
a/fa a/fa
Quindi
a2
N(>.a; -)
f3(µ)=P[ a/fa ::;Za]
Osservazioni
1) Si noti che, assegnati a e n, più lontano da µ 0 è il valore vero della mediaµ (cioè
più grande in modulo è >.)più piccola è la probablità (3(µ) di II tipo. Ciò equivale a dire
che, assegnati a e n, è più difficile sbagliarsi ad accettare grandi differenze tra µ e µ 0 ,
mentre è più facile sbagliarsi ad accettare piccole differenze.
2) Assegnati À e a l'errore di II tipo (3 decresce al crescere di n.
Indicato con -Z13 = <I>-1 ((3) la (17.28) diventa:
(17.29)
521
Se ( Za~Z13)
"' non
2
è intero si arrotonda all'intero successivo più prossimo.
-1 -0.5 4.5
1-a=y
µ, µ.,
Si noti come (figura a sinistra), al crescere della dimensione del campione, la OCC relativa
si stringe e quindi diminuisce la probabilità di errore del II tipo a parità di scostamento
da µ 0 . Si noti anche che (figura di destra), se si passa da una significatività det test a 2
a un valore di significatività più piccolo a 1 la curva della probabilità dell'errore di II
tipo fJ(µ) si alza. In altri termini, a parità di dimensione del campione, diminuendo la
probabilità di errore di I tipo aumenta quella dell'errore di II tipo.
La forma della OCC cambia a seconda che il test sia unilatero (destro) o bilatero.
Si noti che la OCC per test unilaterale sinistro sarebbe la curva simmetrica rispetto a
µ 0 della OCC per test unilaterale dx. Nella pratica si usa la OCC del test dx anche nel
caso di test sx, avendo semplicemente cura di cambiare segno allo scostamento da µ 0 .
Infine, le osservazioni appena riportate valgono anche per le OCC disegnate per la media
di una gaussiana, quando non si conosce la varianza, tema che affrontiamo nei successivi
paragrafi.
Ho:µ= µo
(17.30)
Ha:µ -I µo
cioè ipotesi nulla semplice, ipotesi alternativa composta, quando però non si conosce la
vananza.
523
È noto che lo stimatore è la media campionaria Xn, e che la statistica test, sotto ipotesi
, Xn - µo
Ho, e T = S/fa rvtn-l·
Decidere in base al comportamento di T
Tutto si svolge come nel caso della varianza nota. Cambiano solo i quantili, cioè i confini
l+-y l+-y
della regione critica RC che, per la va T, sono -tn-1(- 2-) e tn-1(- 2-), oppure
-ta/2,n-l e ta/2,n- l, cioè
RA= (-ta/2,n-l;ta/2,n-I)
{ o l'analoga scritta con i quantili
l+-y l+-y
RA = (-tn-1(- 2 -);tn-1(- 2 -))
È noto che
Z + Afa (17.32)
S/a w
dove Z rv N(0; 1) e W rv Jx;,_i/(n- 1). Inoltre Z e W sono indipendenti. Si osservi
che il numeratore della (17.32) non è una N(0; 1) ma è
Ho:µ= 150
Ha : µ =/-150
524 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
decidendo che la probabilità dell'errore del I tipo sia pari a o: = 1 - 'Y = 0.05. Utilizza
un campione di dimensione n = 15. Lo stimatore è sempre la media campionaria Xn e la
. . test è T = Xn - ~
stat1st1ca 150 . A espenmento
. . la me d'ia camp10nana
esegmto . · osservata
S/v .1u
risulta pari a Xn = 152.18 mentre la varianza campionaria osservata è risultata essere
2 . . 152.18 - 150
s = 16.63. La stat1st1ca test è t = --;:::====;==- 2.07.
'.::::'.
)16.63/15
Ora i confini della regione critica sono:
l+'Y l+'Y
-tn-1(- 2-) = -ta/2,n-l; tn-1(- 2-) = ta/2,n-l
,- ·
.
0 .21--...;:;;;,
.......
# ...
I o.,
0.61
Anche qui, lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una
verticale da À = 0.61 si incontra la OCC relativa a n = 15 più o meno a quota 0.43.
525
Dovrebbe a questo punto essere chiaro che ;3(152.25) = 0.43. La OCC ci dice però altre
cose. Se avessi voluto un ;3(152.25) = 0.1 si sarebbe dovuto tirare una linea orizzontale da
0.1 sull'asse delle ordinate fino a raggiungere la retta À = 0.61. Il punto di intersezione sta
approssimativamente sulla OCC in corrispondenza di n = 30. Avremmo perciò dovuto
scegliere un campione di dimensione n = 30 se avessimo voluto sbagliarci solo 10 volte
su 100 (/1= 0.1) ad accettareµ= 152.25 quandoµ= 152.25 è falsa.
Ho:µ= µo
(17.33)
Ha:µ> µo
Xn-µo
Lo stimatore è sempre la media campionaria Xn, e la statistica test è T = --- rv
S/fo
RC = (ta,n-li +oo)
{ o l'analoga scritta con i quantili
RC = (tn-l (,); +oo)
e, di conseguenza, la regione di accettazione RA è
P[T E RCIHo] = o: = 1 - ,
P[T E RAIHo] =ì
P[T E RAIHa] = ;3(µ)
dove o: è un numero, ;3 è una funzione e dipende dai valori che assume la media quando
µ = µ 0 è falso. In questo caso la valutazione dell'errore del II tipo dipende ancora dalla
distribuzione della va
Sappiamo già (vedi (17.32)) che questa va si chiama t - student non centrale e che
Per i motivi già esposti, una volta fissati o:, À e n si trova il ;3 corrispondente, oppure
fissati o:, À e /1si trova l'n corrispondente, utilizzando le OCC.
526 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
Esempio 04
Tutto, salvo Ha, è come nell'Esempio 03.
Ho:µ= 150
Ha:µ> 150
Questa volta la media campionaria osservata risulta pari a Xn = 151.23 mentre la varianza
campionaria osservata è risultata essere s 2 = 16.63. La statistica test osservata è t =
151.23 - 150 68
-====-
)16.63/15
'.::::'.
1.1 .
Il confine della regione critica è:
l.00
0.90
0.80
~ ~, . ~
~ i'-.' r--...
# .. 1
f 0.70 '
# -- ---·
1-- -
--·- \\ ~\\ Ì\' r'\. Ì"-.
0 .60
'!\ ,\ Ì\ ~ r-..."
0.50
0.40
1\ l\
"\\ ~~ \ \ \ !\
\ \ \ '\
~
"' "'-.'
\. "'
0.30
'°"'"',
....'
0 .20
8
•!,\~~
;1\\;1:-;,
\\ \ ;I \ ' -t ~ ~ l'---.t~.].
----- -
i ~;I ~ ~~S-~1' ~
---HD,&'t
!S' ---.....
f o.~
....o ~
~ ~::,=:-----
0.1 1~
# r--
-0 .8-0 .6-0.4-0 .2 O 0.2 .,0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2
# i '
, _,
( 0.3 I
Lungo l'asse delle ascisse sono riportati i valori di À. Si nota che alzando una verticale
da À = 0.31 si incontra la OCC relativa a n = 15 più o meno a quota O.70. Dovrebbe
a questo punto essere chiaro che ,8(151.23) = 0.70. La OCC ci dice però altre cose. Se
avessi voluto un ,8(151.23) = 0.1 si sarebbe dovuto tirare una linea orizzontale da 0.1
527
sull'asse delle ordinate fino a raggiungere la retta À = 0.3. Il punto di intersezione sta
approssimativamente sulla OCC in corrispondenza di n = 100. Avremmo perciò dovuto
scegliere un campione di dimensione n = 100 se avessimo voluto sbagliarci solo 10 volte
su 100 ((3= 0.1) ad accettareµ= 151.23 quandoµ= 151.23 è falsa.
che viene dalla teoria delle distribuzioni condizionate o condizionali, dove (X, Yf è un
vettore aleatorio (dotato di quello che deve essere dotato).
Nel caso univariato
var[Y] = __.,
var[E[YIX]]
.....
+ var[s] (17.38)
~
varianza spiegata varianza residua
Le quantità var[Y], E[Y], Y non si conoscono e si devono stimare insieme alle quantità
E[(Y - E[Y]) 2 ] e E[(Y - Y)2] da cui la (17.34).
Y1 ::-~ '
I
I
I
I
X2
A B
Nel caso A tutte le rette del fascio per (x1; Y1) interpolano perfettamente l'unica coppia,
mentre nel caso B c'è una sola retta che interpola le due coppie (x1;Y1) e (x2;Y2) ed è
la retta per le coppie.
Se invece immaginiamo il modello y = b0 + b1 x 1 + b2 x 2 + s (k = 2) di cui si può dare
una rappresentazione in IR3 . Per stimare bo, b1 e b2 si fissano n valori a ciascuno dei due
predittori x1 e x2 e si cerca la retta che meglio interpola le coppie corrispondenti, sempre
utilizzando il metodo dei minimi quadrati. È evidente che se n = l oppure n = 2 oppure
n = 3 si presenta questa situazione:
Y, ·, ,
',,
', r
X2 ,1
x,
XLI
x, x,
A R e
Nel caso A tutti i piani del fascio per (x11;x21;Y1) interpolano perfettamente l'unico
punto, Nel caso B tutti i piani del fascio che ha sostegno nella retta per (x11;x21;Y1) e
(x12; x22; y2) interpolano perfettamente i due punti. Infine nel caso C i punti sono 3, cioè
(x11;x21;Y1) e (x12;x22;Y2) e (x13;x23;y3), e c'è un unico piano che passa per questi 3
punti, il piano interpolatore,
Dovrebbe essere evidente che questi casi non sono interessanti, Quindi, avendo indicato
con k il numero dei predittori, in generale viene scelto n > (k + 1). Anzi è consigliabile
che n » (k + 1).
Collinearità
Ma il problema non si risolve completamente scegliendo n > (k + 1). Infatti sia
530 CAPITOLO 17. AGGIUNTE E SPIEGAZIONI
1 X11 X1k
1 X21
1 Xnl Xnk
n2".k+l.
1 X1
1 X2
X= [lix]=
1 Xj
1 Xn
X= kl
cioè
Y1 1 k
Y2 1 k
Y; 1 k [ ] bo
b1
Yn 1 k
Y,,
Si cerca il minimo di
2 n
IIY- Xbll = I: [y; - (bo+ b1k)]2 = S(bo, b1)
i=l
n n n n
I: [Yi- (b0 + b1k)]2 = I: [y; - 2y;(b 0 + b1k) + (b + b1k)2] =
0 I: y; - 2(b0 + b1k) I: Yi +
i=l i=l i=l i=l
n(b 0 + b1k) 2 =
n n n
= I: Y[ - 2bo I: Yi - 2b1k I: Yi + nb~ + 2nkbob1 + nbjk 2
i=l i=l i=l
~S
ubo
= -2 f: Yi + 2nb
i=l
0 + 2nb1k = O
{ 8S n
-;:;--= -2k I:Yi + 2nkbo + 2nb1k 2 = O
ub1 i=l
che ha le infinite soluzioni
{ bo+ b1k = t}
bo+ b1k = y
Anche dal punto di vista geometrico ho infinite soluzioni, come si deduce dalla figura.
Infatti
Tutte le rette costituiscono un fascio per (k, y) e ciascuna rappresenta la retta dei minimi
quadrati. È chiaro che la situazione non presenta nessun interesse.
Per il caso multivariato ci limitiamo al caso k = 2. Se, per esempio, i vettori X1 e X2
sono linearmente dipendenti, allora si ha:
'. X
2
= /cxI
Quando non si può trovare l'inversa di xrx si dice che si ha un problema di collinearità.
Abbiamo già detto che, se è lo statistico che sceglie i valori dei predittori (cioè la matrice
X), questi agisce in modo che ciò non accada. Ma se i dati provengono da fonti esterne e
non sono scelte dallo statistico, allora ciò potrebbe accadere. In letteratura sono indicati
vari metodi per porre rimedio al problema.
533
Osservazione
Ci sono notevoli problemi non solo quando det(XTX) = O ma anche quando det(XTX) =J
O ma det(XTX) ~ O come capita nell'esempio seguente.
Matrice di Hilbert
Ecco un esempio che potrebbe narrare un problema analogo alla collinearità tra le colonne
di una matrice: la matrice di Hilbert. Riportiamo la versione 4 x 4 di tale matrice, ma
si potrebbe costruire una matrice di Hilbert n x n qualunque, una volta capito l'algoritmo
che la genera. Vediamo cosa succede.
1 1 1
l
1
1 I I 1
H-[ I I 1 I
I 1
4 5
I6 ~7
Con un computer si ricava facilmente:
l [I i][l
1 1
l
Y1 b1 c1
I I
[ Y2
Y3
Y4
I 1
15 I6
b2
b3
b4
+[
r::2
€3
€4
3.55.
3.55.
1
10- 15
10- 15
o
1
o
-5.68 · 10-
2.84 · 10-
14
14
-1.14.
1.14.
o
1
10-13
10-13
-1.14: 10-" l
Ricordiamo che, presa una generica matrice M, simmetrica (Ji1 = MT) e non degenere
(det(M) =JO), anche 1i1- 1 deve essere simmetrica. Infatti
Ora HHT è simmetrica. Osservate qualcosa che non va nella(&)? Riuscite a indovinare
quali possono essere i problemi in situazioni di questo genere?
E[g(X)] = l g(x)f(x)dx
1 Il 2
E[g(X)] ~ g(µ) + 2g (µ)O' (17.40)
Esempio
L'approssimazione è perfetta se var[X] = O cioè se X = e è degenere. In questo caso
E[X] = e, g(X) = g(c) e quindi E[g(X)] = g(E[X]).
Oppure se, per esempio, g(X) = aX + b, allora g" =
O e, come già sapevamo, la relazione
vale con "=" e non solo con con "~", cioè:
E[g(X)] = l g(x)fx(x)dx
Allora
Ora
e, per la (17.40)
1 Il 2
E[g(X)] ~ g(µ) + 2g (µ)O'
la (17.42) diventa:
var[g(X)] ~ l [
g(µ)
I
+ g (µ)(x - µ) + 2g
1 11
(µ)(x - µ)2 - g(µ) -
1 11
2g (µ)0' 2
]
2
fx (x)dx =
r[
= }'JRg'(µ)(x - µ) + 21,,g (µ)(x - 1,,g (µ)0' 2 ] 2 fx (x)dx
µ) 2 - 2
s1 arnva a:
(17.43)
(17.44)
(17.45)
I= V
R
Supponiamo che R sia una variabile aleatoria mentre V = 100 volt sia costante. Allora
anche I è una variabile aleatoria VIII
V
I= -
R
= g(R)
Sia E[R] = 200 (ohm) la media di Re O'R = 20 il suo
scarto quadratico medio. Si vuole
la media e la deviazione standard della intensità I. In questo caso
V 100
E[J] ~ g(x)lx=E[R] = E[R] = 20 amp = 5amp.
var [Il ~
- [g '( µ )]2O' 2 _
-
~
E2[Rt 2 -_ ...
Come unico esempio di caso multivariato, citiamo la legge di propagazione della varianza
trattata nel teorema 9.4.9. Lì viene calcolata la matrice di covarianza di un vettore Y
funzione lineare di un vettore X, cioè Y = AX dove A è una matrice opportuna.
Fx(x) = { ~ sex< e
sex2".c
Infatti
Esercizi
Ora io so una canzone dell'Africa, una canzone della giraffa e della luna nuova
sdraiata sul dorso, dell'aratro nei campi e dei visi sudati degli uomini
che raccoglievano il caffè ... ma sa l'Africa una canzone che parla di me?
Vibra nell'aria della pianura il barlume di un colore che io ho portato,
c'è fra i giochi dei bambini un gioco che abbia il mio nome,
proietta la luna piena, sulla ghiaia del viale, un'ombra che mi assomiglia,
vanno in cerca di me le aquile del Ngong?
Karen Blixen, La mia Africa
0.1 Probabilità
Esercizio 0.1.1 o
Sia Y una va (continua) che misura la massima velocità del vento in una certa località
marina. Non si conosce la sua distribuzione ma le rilevazioni fatte su un lungo arco di
tempo dicono trattarsi di una va Y con media 20km/ ora e deviazione standard 2km/ ora.
Cosa si può dire, utilizzando la disuguaglianza di Chebyscev, della probabilità che domani
la velocità del vento sia compresa tra 16 e 40km/ora?
Si vuole trovare
P[l6 :S Y :S 40].
Trattandosi di una va continua dalla disuguaglianza di Chebyscev P[I Y - µ 12':ko-] :S tz
abbiamo anche P[µ - ko- :S Y :S µ + ko-] 2".1 - ,!,z.Poichè µ = 20 e O' = 2 possiamo
ragionare così:
P[l6 :S Y :S 40] 2':P[l6 :S Y :S 24] = P[20 - 2 · 2 :S Y :S 20 + 2 · 2] 2':1 - ¼= ¾
Esercizio 0.1.2 o
Esercizio 0.1.3 o
- 1 X -x/2
fr(x) - 2r( 2) 2 e 110,+oo)(x)
Esercizio 0.1.4 o
Detta p la probabilità che nel gioco del lotto un dato numero venga estratto su una certa
ruota in una data settimana, calcolare:
1) la probabilità che un dato numero non venga estratto per k settimane consecutive
Sia X va tempo d'attesa del 1° successo.
540
P[X > k] = qk (prob. che non venga estratto per k settimane consecutive); q = l - p
2) la probabilità che un dato numero venga estratto esattamente dopo n + k settimane
sapendo che sono passate n settimane senza che sia stato estratto.
P[x _ + k I X> n ] -- P[X=n+k,X>n] _ P[X=n+k] _ ~ _ k-1 _ P[X _ k]
- n P[X>n] - P[X>n] - qn - pq - - '
Esercizio 0.1.5 o
0sex<0
Sia X una va la cui densità è data da f(x) ={ e-x sex 2".O
1) Calcolare la fgm di X.
mx(t) = Jt etxe-xdx = l~t·
2) Utilizzando i risultati del punto precedente calcolare var[X 2]
Esercizio 0.1.6 o
Sia X una va (continua) che misura in decibel la rumorosità di una zona dei Navigli di
Milano adiacente a due discoteche nella notte di sabato. Non si conosce la sua distri-
buzione ma le rilevazioni fatte su un lungo arco di tempo dicono trattarsi di una va X
con media a decibel e deviazione standard 2 decibel. Cosa si può dire, utilizzando la
disuguaglianza di Chebyscev, della probabilità che il prossimo sabato la rumorosità della
zona sia compresa tra a - 4 e a+ 10 decibel?
Trattandosi di una va continua, dalla disuguaglianza di Chebyscev P[I X - µ 12". kO'] :S tz
abbiamo anche P[µ - kO' :S X :S µ + kO"] 2".1 - Poiché µ = a e O' = 2 possiamo tz.
ragionare così:
P[a - 4::; X::; a+ 10] 2".P[a - 4::; X::; a+ 4] =
= P[ a - 2 · 2 ::; X ::; a + 2 · 2] 2".1 - ¼= ¾
Esercizio 0.1. 7 o
Si supponga di lanciare due dadi a 4 facce. Siano X1 e X2 le due va che codificano l'uscita
di un numero su ciascuno dei due dadi. Siano poi X= max[X1, X2] e Y = min[X 1, X2],
1) Indicare in una tabella le determinazioni del vettore aleatorio (X, Y), la densità con-
giunta di (X, Y), le determinazioni di X e di Y e le due densità marginali fx(x) e
fy(y).
X1 1 1 2 1 3 1 4 2 2 3 2 4 3 3 4 4
X2 1 2 1 3 1 4 1 2 3 2 4 2 3 4 3 4
X 1 2 2 3 3 4 4 2 3 3 4 4 3 4 4 4
y 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4
fx 1/ 16 3/ 16 5/ 16 7/ 16 1
4 o o o 1/ 16 1/ 16
3 o o 1/ 16 2/ 16 3/ 16
2 o 1/ 16 2/ 16 2/ 16 5/ 16
1 1/ 16 2/ 16 2/ 16 2/ 16 7/ 16
I Y/ X 111 I2 I3 14
541
2) Calcolare il coefficiente di correlazione Px,x 2.
E[X 2 ] = / 6 (1 · 1 + 4 · 3 + 9 · 5 + 16 · 7) = \ 76 = 8 °
E[Y] = / 6 (1 · 7 + 2 · 5 + 3 · 3 + 4 · 1) = {~ = 5 ; 1
E[Y 2 ] = / 6 (1 · 7 + 4 · 5 + 9 · 3 + 16 · 1) = ~~ = 3;
E[XY] = / 6 = [(l · 1) · 1 + (2 · 1) · 2 + (2 · 2) · 1 + (3 · 1) · 2 + (3 · 2) · 2+
+(3 · 3) · 1 + (4 · 1) · 2 + (4 · 2) · 2 + (4 · 3) · 2 + (4 · 4) · l] = 1 ;i
- E[XY]- E[X]E[Y] -_ 100
cov [x,y l - 16
_ 25·15 _ 25.
64 - 64' Pxy -
_ cov[X,Y]_ 25/64
O'XO'Y - 55/64
_
-
25 _
55 -
2
11
Esercizio 0.1.8 o
Si fanno tre estrazioni con reimmissione da un'urna contenente palle rosse e palle nere.
Sia p la probabilità che, a un'estrazione, venga pescata una palla rossa. Sia X il numero
di palle rosse nelle prime due estrazioni e Y il numero di palle nere nella seconda e nella
terza estrazione.
1) Scrivere le determinazioni di X e Y.
X= O, 1,2; Y = o,1,2
2) Utilizzando come modello la tabelle seguente (e lasciando eventualmente vuote le righe
e le colonne in eccesso) scrivere la matrice di densità congiunta di X e Y:
p/2 i= O
fYIX=1(i) = 1 ì; ~,i) = { 1/2 i= 1 ::::}E[YIX = l] = ½+ 1- p
(l-p)/2 i=2
542
Esercizio 0.1.9 o
Si definisce numero casuale R (compreso tra O e 1) un allineamento siffatto (nella sua
scrittura decimale): O.C1C2 ... Cn .. ., dove le Cj sono va indipendenti tra loro le cui
determinazioni sono i numeri interi O, 1, 2, ... , 9 ciascuno con peso 1 Risulta perciò: 1.
R _ Qi.. + TIµ
- 10 Co +
•••••••••••• + _Q,,._
lQn
+ ••••••• -_ '-'+oo
L..j=l 2J.._ '-'+oo A,J
lOJ - L..j=l
1) Calcolare E[R] (sapendo che E[ì:=;:;' Aj] = I:;:;'E[Aj]),
Osserviamo che VjE[Cj] = 4.5. Quindi
E[R] = E[ì:=;:;' =fo7]I:;:;'
161E[Cj] = 4.5 161 - 1) = 4.5(I:;~ 1) = 0.5 C-i/10-
Oss.: Si può verificare che R è distribuita come una va uniforme su [O,l].
2) Facoltativo: perché R non è distribuita normalmente in base al teorema centrale?
Perché R non è somma di va equidistribuite.
3) Siano ora R1 e R2 due numeri casuali indipendenti definiti ai numeri precedenti.
Calcolare la funzione di densità f(u) di R1 + R2 tracciandone il grafico.
JR,+R 2 (u) = J(u) = JR JR, (u - x)JR 2 (x)dx = JRJR, (x)JR 2 (u - x)dx =
= f01 I[o,1J(u-x)dx = (T)
Ora O :S x :S 1 e O :S u - x :S 1 ::::}O :S x :S u per O :S u :S 1 e u - l :S x :S 1 per 1 :S u :S 2.
Con questo (T) diventa:
(EB)= fcou
dxl[o,1](u) + ful-1 dx/[1,2](u) = { u per O :Su :S 1
2 - u per 1 :S u :S 2
f(u)
-----....
I
.---------
R2
l2 nl R2 [TI]
R 1+R 2 =2
R 1 + R 2 = 312
"'
R1 + R 2 = 1/2 "
R 1 + R 2 = 112
R1 R1
1/2 l 312 1/2 2
P[H1IC] =0
Esercizio 0.1.11 o
Il 60% dei passeggeri in arrivo all'aeroporto di Milano-Linate vola con aerei di una com-
pagnia aerea estera, il 30% con quelli di una compagnia aerea italiana, tutti gli altri con
aerei di piccole compagnie aere private. Di quelli che volano con aerei di compagnie estere
il 50% viaggia per lavoro, con aerei di compagnie italiane il 60% viaggia per lavoro, con
aerei di piccole compagnie private il 90% viaggia per lavoro. Si indichi con A1 l'evento
{passeggero che vola con aereo di compagnia estera}, A2 l'evento {passeggero che vola
con aereo di compagnia italiana}, A3 l'evento {passeggero che vola con aereo di piccola
compagnia privata}. Si scelga un passeggero a caso tra quelli in arrivo.
1) Calcolare la probabilità dell'evento B = {il passeggero scelto viaggia per lavoro}
P[A3B] 1 1
P[D] = P[A3 I B] = P[B] = P[B] P[B I A3]P[A3] = 0.570.9 · 0.1 = 0.157
4) la probabilità dell'evento E= {il passeggero scelto viaggia per lavoro sapendo che ha
volato con un aereo di una compagnia italiana}
C = (A-B) D = (A- B) U (B - A)
C=A-B D=(A-B)u(B-A)
Esercizio 0.1.13 o
Un'azienda vende due diverse varietà di bulbi, tipo R tipo G. Da un bulbo R si sviluppa
un singolo fiore rosso mentre da quello G un fiore giallo. I bulbi sono stati suddivisi in 3
scatole , [!J , (J[] e [QJ . Ognuna di queste scatole contiene un egual numero di bulbi
R e G. Un commesso preleva un bulbo dalla scatola [!J, uno dalla (J[] e uno dalla
[QJ , nell'ordine e vende i 3 bulbi prelevati alla signora Anna.
Sia X la va che conta il numero dei fiori rossi che nasceranno alla signora Anna dai
primi 2 bulbi e Y la va che conta il numero dei fiori rossi che le nascono da tutti e 3 i
bulbi.
1) Determinare la probabilità congiunta Pij = P[X = i, Y = j] e le marginali Px (i), py (j).
X\Y o 1 2 3 Px (i )
o 1/8 1/8 o o 1/4
1 o 1/ 4 1/ 4 o 1/ 2
2 o o 1/8 1/8 1/ 4
py(j) 1/8 3/8 3/8 1/8 1
(1,3l2)=(E[X], E[Y])
-1/2
X
Y\X o 1 2 3
o 1/ 60 2/ 60 3/ 60 4/ 60
1 4/ 60 6/ 60 8/ 60 2/ 60
2 9/ 60 12/ 60 3/ 60 6/ 60
546
Calcolare: P[X < 2Y]; P[X > l]; P[X = Y].
2 2
3 3
Figura 0-1:
Esercizio 0.1.15 o
Una moneta ha due facce: {T} e {C}. Supponiamo che sia p ={probabilità che esca T
in ogni singolo lancio} e che la moneta venga lanciata n volte.
1) Calcolare la probabilità dei seguenti eventi: A ={le facce uscite non sono tutte uguali}
e B ={ esce T al più una volta}.
Ac ={escono tutte facce uguali}={escono tutte T}V{escono tutte C}
P[Ac] = pn + qn; (q = 1- p); P[A] = 1- P[N] = 1- (pn + qn)
B ={ escono tutte C}V{ esce esattamente una Te (n - l)C};
P[B] = qn + npqn- l perché T può uscire al primo, al secondo, all'ennesimo lancio.
2) Determinare in caso di moneta bilanciata (p = 1/2) l'unico valore di n in corrispon-
denza del quale A e B sono indipendenti.
AB ={escono esattamente una Te (n - l)C}; P[AB] = npqn-l
A e B sono stocasticamente indipendenti {::}P[AB] = P[A] · P[B] (T).
P[A] = 1 - }n;P[B] = n2;; 1 ; P[AB] = 2~; da cui per soddisfare la condizione (T) si ha:
(1 - 2~) . n2;;1 = ~ {::}n + l = 2n- l {::} n = 3
Esercizio 0.1.16 o
Data una variabile aleatoria assolutamente continua, non negativa X, si definisce "tasso
di fallimento" la funzione
h (t) _ fx(t)
x - 1- Fx(t)'
hy(t) = fy(t)
1 - Fy(t)
Esercizio 0.1.17 o
Si consideri il vettore gaussiano (X, Y)T di media (O, O)T con distribuzione congiunta
f X,Y (X , y) =-e-1 l( 2
2 2x -2v2xy+3y
In 2
)
47f •
Si ricordi che, per i vettori gaussiani, la funzione di densità in forma vettoriale è data da
1 Posto c- 1 = [ ; ~ ] , trovare c- 1 .
Determiniamo a, b e c.
(x, y) [ ; ~ ] ( ; ) = (ax + by; bx + cy) ( ; ) = ax 2 + 2bxy + cy 2 .
Da questo segue che a = 2, b = -v'2, e= 3
2 Determinare C.
v'2
-1 -1 1
C = (C ) = det(C- 1 )
[ e
-b
-b
a
3
v'2 2 ] [ 3/4
v2/4
v2/4 ]
1/2
548
3 Siano Zi rv N(O; 1), i = 1, 2 le componenti indipendenti del vettore gaussiano Z =
(Z 1 , Z 2 )T. Scrivere, utilizzando la notazione vettoriale, la funzione di densità fz(z) di Z.
2~
1
fz(z) =-e-c!z lT
/z dove I= [l
O
Q]
1
È noto che se si sottopone un vettore gaussiano Z a una trasformazione lineare X =
HZ + b il vettore che si ottiene è ancora gaussiano X rv N(b; Cx) con matrice di
covarianza Cx = H HT e media b. Se esiste l'inversa di H si può ottenere l'inversa di
X = HZ + b cioè Z = H- 1 (X - b) che trasforma X in Z rv N (O;I). Tale trasformazione
viene detta standardizzazione di X.
4 Trovare la matrice H di tipo triangolare alto (H = [ ~ ~ ] ) tale che H HT = Cx
[ ~ ~ ] [ ; ~ ] = [ ;~ +~
2
~i ] = [ ~/ 4 ~4 ] da cui
"r2= 1/2 ::::}ì = ±v2/2
~ì = ±~v2/2 = v2/4::::} ~ = ±1/2
0:2 + ~2 = o:2 + 1/4 = 3/4::::} o:= ±v2/2
Esercizio 0.1.18 o
Cy = [ ~-1
o
o ~
1 -1 l.
1
A= [ -21
1
Pertanto X ha legge normale con valore atteso µx =b e matrice di covarianza Cx
ACyAT = [ ~9 -9 ]
16
Infatti:
o
][ l l
2 -1 -1 2 -1 2
l[ !, l [
-1 1 1 -3 1
2 1 -1
o 1 o 1 1
5 1
1 1
A
-1 o 3 1 -1 1 -1
Cy AT
549
2) È noto che se X rv N(µ; Cx) esiste una matrice H tale che Cx = H HT = H 2 e
X = HZ + µ dove Z è il vettore gaussiano standard. Trovare la matrice H di tipo
triangolare alto (H = [ ~ ~ ] ) tale che H HT = Cx
[ ~ ~ ] [ ; ] ~ [ ;~ + ~
2
~i ] = [ ~ 9 ~: ] da cui
"r2= 16 ::::}
'Y = ±4
9
~'Y = ±M = -9::::} ~ = T4
81 v47
l
2
o:2 + ~ = o:2 + - = 8::::}o:=±--
16 4[ ov47447 9
Quindi una matrice H può essere: 4
4
~i
::::fil::::::,:·.d:ll:rr
4) Scrivere la trasformazione che porta X nel vettore gaussiano standard Z.
~ j{[i;]-[~']}
z-w'(X-µ)-~[:
Esercizio 0.1.19 o
[~:l [~ ~:
l [! l o
2
-1
-11
1
µ- l
b- [ ~I
2. Scrivere la densità di X.
X,.__,N(µ;Cx)
3. X1 e X2 sono indipendenti? E X2 e X3? E X1, X2 e X3?
X1 e X2 sono indipendenti perché cov[X1, X2] = cov[X2, X1] = O ed essendo gaussiane
l'incorrelazione è sufficiente per l'indipendenza.
X2 e X3 sono dipendenti perché cov[X2, X3] = cov[X3, X2] = -1 quindi correlate
Se X 1, X2 e X3 fossero indipendenti allora Cx= I, matrice identica cosa che non è.
550
Esercizio 0.1.20 o
Siano (X, Y) le coordinate di un punto scelto a caso all'interno del cerchio di raggio 1 e
centrato nell'origine (vedi figura).
fx(x) = J+oo
_ 00 fxy(x,y)dy =
J
v'l-x 2
l 2
-;çdy= ;~I1-1,11(x)
-~
Per simmetria:
Esercizio 0.1.21 o
3
P [X < 3] = ~ e- 5 -5k = e- 5 ( 1 + 5 + -25 + -125)
- L, k! 2 6
k=O
5) Scrivere la probabilita condizionata P [Y = ylX = x] di Y dato X= x.
Innanzi tutto osserviamo che, essendo Z =x - Y:
P [Y = y IX = x] = P [Y = y IY+ Z = x] = P [Y = y IZ = x - y]
Inoltre, usando la definizione di probabilita condizionata e sfruttando l'indipendenza di
Y e Z possiamo scrivere:
p [Y = YIX = x] = P [Y = y, Z = x - y] = P [Y = y] · P [Z = x - y]
P[X=x] P[X=x]
Sostituendo le formule ricavate prima otteniamo, infine:
-2 2" -3 3x-y
x! 2Y · 3x-y
P [Y = YIX = x] = _e_y_!_e---,-.,..(x_-_Y)_!
e-(5)~ y! (x - y)! 5Y · 5x-y
x!
6) Si tratta di una legge notevole?
Si. É una legge binomiale B (n, p) di parametri n = x ep= f
7) Calcolare la funzione g ( x) di regressione di Y su X
Abbiamo appena visto che YIX = x segue legge binomiale. Dunque g (x) = E [YIX = x] =
p· n= ¾x
8) Calcolare il coefficiente di correlazione tra X e Y.
l. = 10°"11 7
funzione di densità
D.5
2) :Mostrare che la probabilità che un diodo duri più di 10 anni (anni tutti di 365 giorni)
è 0.734051.
Un anno è costituito da 365 · 24 · 60 = 525600 = 5.256 x 105 minuti. La probabilità
cercata è
553
5.256x 10 6 5.256
P[Di > 5.256 x 106] = 1 - Fvi (5.256 x 106) = e- 1.1107 = e 11 = e- 0-30918 =
0.734051
3) Scrivere l'evento: {tutti i 12 diodi durano più di 10 anni}.
{D1 > 5256000} n {D2 > 5256000} n ... {D12 > 5256000}
4) Calcolare la probabilità di tale evento.
Per l'indipendenza si ha
= P[{D1 > 5256000} n {D2 > 5256000} n ... {D12 > 5256000}] =
= P[D1 > 5256000] · P[D2 > 5256000] · ... · P[D12 > 5256000] =
= 0.734051 12 = 0.024475.
r
5) Giustificare che la probabilità che la vita di tutti e 3 i transistor superi t (minuti) è
uguale a [e- 1./1os 1
P[{T1 > t} n ... n {T3 > t}] = P[T1 > t] · ... · P[T3 > t]
1
Per ogni i è P[Ti > t] = e- 1.3-108 t. Per l'indipedendenza segue l'asserto.
6) Indichiamo con T la va che codifica la durata dell'intero sistema S. Il sistema funziona
se e solo se tutte le sue componenti funzionano. Scrivere, in termini delle durate delle
singole componenti, l'evento {T > t}, cioè l'evento {la durata del sistema supera t}.
{T > t} = {T1 > t} n ... n {T3 > t} n {D1 > t} n ... n {D12 > t}n
n{C 1 > t} n ... n {C8 > t} n {R 1 > t} n ... n {R 15 > t}
7) Calcolare l'affidabilità R(t) del sistema, cioè la probabilità di {T > t} (può essere
utile il valore 1} 108 t 1./io 7 + 1} 107 + 6 _11~08 = 1.4202 x 10- 6 ).
2 = 704130 (minuti)
À =
Esercizio 0.1.23 o
4) Xu conta gli arrivi in (O, u). Sia Xt-u la va di Poisson che conta gli arrivi in (u, t)
di ampiezza t - u. Considerando la figura se X 1 = l e Xu ~ l quanti devono essere gli
arrivi in (O,u) e in (u,t)? E di conseguenza cosa devono valere Xu e Xt-u?
u t-u
o t
l'arrivo
u
P[T1 ~ tlXt = l] = O
P[T1 < OIXt = l] = 0
555
9) Da quanto detto concludiamo che P[T 1 < ulX 1 = l] = TI(o, 1/u), dove al solito
I(o,t) ( u) è la funzione indicatrice dell'intervallo (O, t), rappresenta la fdr della va T1 IX1 =
1 tempo del primo arrivo di un processo di Poisson di intensità À nell'intervallo unitario,
a numero di arrivi pari a 1 nell'intervallo (O, t). Riconoscete questa fdr come quella di
una distribuzione nota?
È la fdr della distribuzione continua uniforme nell'intervallo (O, t).
Esercizio 0.1.24 o
N(O;I)
0.98 0.99
0.9864-9
L'area a sinistra di 0.98649 è pari a P[Z ::; 0.98] sommata all'area della figura (segnata
in grigio nel particolare ingrandito) che sta sotto il grafico della fd della N (O; 1) tra 0.98
e 0.98649.
Tale area è approssimativamente pari all'area del trapezio rettangolo di altezza 0.00649 =
1 0.98 2 1 0.98649 2
(0.98649 - 0.98) e basi rispettivamente r,ce- 2 = 0.24681 e r,ce- 2 =
v2K v2K
0.24524.
. 0.24681 + 0.24524
Con le regole della geometria elementare tale area è data da: 0.00649· 2
0.001596.
Con questa approssimazione P[Z::; 0.98649] = P[Z ::; 0.98] + 0.001596 = 0.8381.
Se avessimo fatto i conti col computer avremmo avuto P[Z ::; 0.98649] = 0.83805. La
differenza, pari a 0.8381 - 0.83805 = 0.00005, è inferiore a 10- 4 , uno scarto che, nella
maggior parte dei casi, si può certamente trascurare.
2) Il tempo di ritorno T( qx) relativo a un limite fissato qx per una grandezza aleatoria
Q, rappresenta l'intervallo di tempo x che mediamente intercorre tra il verificarsi di due
556
successivi eventi { Q > Qx }. Se l'unità di misura del tempo è l'anno si dice che, per
esempio, una portata Q10ha 10 anni di tempo di ritorno se l'evento {Q > Q10}si verifica
mediamente ogni 10 anni, cioè se Q supera q10 mediamente ogni 10 anni. Ne consegue
1
che P[Q > q10] = 10 .
(O)
1 a~
µlnQ = lnµq - -2 ln(l + - -2)
{ µQ
2
2 aq
alnQ = ln(l + 2 )
µQ
Cosa succede se nell'esempio di prima la va Q è lognormale? Come si fa cioè in questo
caso a trovare Q100tale che P[Q > Q100]= i6o? Semplice, ci si riconduce a un caso
normale partendo da ln Q che è normale. Si ha a Q = 2±_;quindi
µq 110
7~ 1 1
afnQ = ln(l + 1102 ) = 0.37333 e µlnQ = lnµq - 2afnQ = ln 110- 20.37333 = 4.5138.
P[Q > 183] = P[lnQ > lnl83] = P[lnQ-µlnQ > [lnl 33 -µlnQ] = P[N(O;l) >
a1nQ a1nQ
5 · 2095 - 4 ·5138 ] = 1 - P[N(0; 1) < 1.1386] = 1 - cI>(l.1386) '.::::'. 1 - cI>(l.14) = 1 - 0.8729
yO.37333 -
Il valore esatto sarebbe 4>(1.1386) = 0.872565.
Per quanto riguarda il calcolo di Q100si ha
P[Q > Q100]= 0.01 da cui P[Q::; Q100]= 0.99.
ln(q100) - 4.5138
P[Q::; q100] = P[lnQ::; ln(q100)] = P[N(0; 1)::; yO_37333 ] = 0.99.
ln(Q100) - 4.5138
Dalle tavole: -~;:;::::::=====:::::::::;:-- = 2.33 quindi:
yO.37333
ln(q100) = 2.33 · vO.37333 + 4.5138; Q100= exp(2.33 · vO.37333 + 4.5138) = 378.97.
557
Esercizio 0.1.25 o
Una sorgente di informazioni genera i simboli casuali e:?,<),-", •. con probabilità: Pr(C?) =
1/2, Pr(<)) = 1/4, Pr(-") = Pr(•) = 1/8. Uno schema di codifica trasforma i simboli in
codici binari nel modo seguente:
e:?f----+ o
<>f----+ 10
-" f----+ 11O
• f----+ 111.
1
P[X = l] = P(C?) = 2
1
P[X=2]=P(<))= 4
1 1 1
P[X = 3] = P(-" oppure.)= P(-") + P(•) = 8+ 8= 4
P[X = k] = O sex ,f. {l, 2, 3}.
Esercizio 0.1.26 o
~--------~- - x,
2
P[X1 < 2,X2 > l] = J12 dxi Jt' e-x 1 dx2 = J12 e-x 1 (x1 - l)dx1 =
= -e-x 1 (x1 -1)- e-x'li = -e-x 1 x1li = -2e- 2 + e- 1
2 Trovare P[X1 ~ 2X2]
,~' ,
x,
,f---~~---------x,
-1
Esercizio 0.1.27 o
Una città è collegata a una centrale elettrica da un sistema formato da due linee, tra di
loro indipendenti. Il tempo di funzionamento della prima linea sia Y, va esponenziale
misurata in migliaia di ore (i.e. Y = 1 significa che la prima linea si è guastata per la
prima volta dopo mille ore) di media pari a diecimila ore, mentre quello della seconda sia
una va Z esponenziale, anch'essa in migliaia di ore, di media pari a duemilacinquecento
ore (Y e Z rappresentano rispettivamente l'intervallo di tempo fino al primo guasto
della prima e della seconda linea). L'assunzione del modello esponenziale per i tempi
di funzionamento è giustificato dal fatto che le linee non sono soggette a significativi
deterioramenti e un guasto può verificarsi solo per cause accidentali, fulmini, meteoriti,
attentati, frane, ecceterea).
1) Scrivere le funzioni di densità marginalidi probabilita e la funzione congiunta del
vettore (Y, Z)'.
Y è una va esponenziale di parametro À = 0.1 (E[Y] = ½= 10 mila ore) dunque avremo:
fy(y) = O.le- 0 · 1Y 110,+oo)(Y)
dove al solito IA è la funzione indicatrice dell'insieme A della
retta reale.
560
Analogo discorso per Z: quindi fz(z) = O.4e- 0·4z I1o,+oo)(z).
Poiché Y e Z sono indipendenti, la funzione di densità congiunta sani:
li11ea I li11ea 2
Sia X = min[Y, Z] il tempo di durata del sistema. Ricordando che X > x se e solo se
contemporaneamente Y > x e Z > x calcolare la probabilità che il non arrivi corrente
alla città per almeno diecimila ore.
Si tratta di calcolare P[min[Y, Z] > 10] = P[{Y > 10} n {Z > 10}] = P[Y > lO]P[Z >
10] = e->-ioe-µIO = e-0.5·10 = e-5 = 6.7379 x 10-3
5) Calcolare la funzione g (z) di regressione di Y su Z
Per l'indipendenza g(z) = E[Y] = ½= 10
Esercizio 0.1.28 o
=~ _1_ ( ~ + 4 ) = ~ 4 + 6y
2 1 + 2y 3 y 3 1 + 2y .
Esercizio 0.1.29 o
.
P ren d iamo i·1 processo co i1egato a i1a rappresentazione
. b'mana. .,,
f:
= L+(X)
b; =
. ---,, -b1 + -b2 +
i=l 2' 2 4
b; + ... , b; = O, l di un numero reale casuale ç con distribuzione uniforme tra O e 1 (vedi
esempio 15.1.2 del testo e CD). Il processo a tempo discreto collegato è Xn(() = bn,
1) Calcolare la probabilità che all'istante 1 il processo si trovi nell stato O., cioè P[Xo(ç) =
O]
1
Perchè ciò accada deve essere b1 = O, cioè O_::;
ç < 2. Si conclude che P[Xo(ç) = O]=
1 1
P[0::; ç < 2] = 2
2) calcolare la probabilità che il processo si trovi nello stato O all'istante 1 e nello stato
1 all'istante 2.
Dobbiamo calcolare P[X1(ç) =O/\ X2(ç) = l]. Perché si verifichi l'evento X1(ç) =
0/\X2(ç) = 1 deve essere b1 = O e b2 = 1, cioè~_::; ç <~-Perciò P[X1(ç) = 0/\X2(ç) =
1 1 1
l] = P[4 _::;ç < 2] = 4
3) Si fissi ora una stringa di k elementi fatta di O e 1. Pensiamo che gli elementi delle
stringa siano b1, b2, ... , bk. (ovviamente b; = O; l). Calcolare la probabilità che il processo
si trovi nello stato b1 al tempo 1, b2 al tempo 2, ... , h al tempo k.
.
F issare b1, b2, ... , bk sigm
. 'fi ca imporre
. f: 1
a .,, a seguente 1·imitazione:
. . .._.k-l
L..i=l
b; < f:
<
2i _ .,,
g(t) g(t- T)
1 1
o A)
1 t o T B) T+1 t
O 1
,-----""-----
(incrementi indipendenti)
P[Ns = i]P[N(t-s) = j - i] =
Esercizio 0.1.32 o
Consideriamo un processo X 1 che assume solo i valori ±1. Supponiamo che Xo = ±1 con
probabilità ~- e che X 1 cambi polarità a ogni arrivo di un processo di Poisson. Un tale
processo può modellare un segnale telegrafico che cambia polarità in modo casuale.
In figura un evento elementare
1 1 1 1
_, -] -]
Esercizio 0.1.33 o
cov[Xt,Xs] = I+=
-=1+= -= xyfx,x,(x,y)dxdy- m2 = 1+=
1+=
-= -= xyfx 0 x,_ 8 (x,y)dxdy- m2
cioè cov[Xt, Xs] deve dipendere solo da t - s. Vale un risultato analogo per i processi discreti.
565
0.2 Statistica
Esercizio 0.2.1 o
La durata di certi tubi elettronici è una variabile aleatoria T ,....,r(2; a), a > O la cui
funzione di ripartizione Fr(t) = [l - e-at (1 + at)]/10,+oo) (t)
1) Trovare la densità fr(t) della distribuzione di T.
Derivando Fr(t)si ha:
h(t)
r(t) = 1-
F T (t ) , t > O
è detta "failure rate" e Tè detta IFR (increasing failure rate) se la funzione t f--+ r(t)
è crescente, e DFR (decreasing failure rate) se la stessa funzione è decrescente.
4) Calcolare r(t) e stabilire se Tè DFR oppure IFR.
t a2te-at a2t d a2
r(t) - ---1.r..!Jl_- ---- - -- · -r(t) - ----,,- >O===}Tè IFR.
- l-Fr(t) - e-°'t(l + at) - 1 + at ' dt - (1 + at) 2
5) Calcolare E[T] e var[T].
Poiché T rv r(2, a) segue immediatamente che E[T] = ¾;var[T] = ~
Allo stesso risultato si può arrivare calcolandosi direttamente E[T] e var[T], utilizzando
la funzione di densità della r(2, a)
6) Determinare, con il metodo dei momenti, uno stimatore per a.
Da a = E[T] si ricava che lo stimatore cercato è dato da jn dove T n, è il momento
campionario del primo ordine (e anche la media campionaria ottenuta dalla popolazione
T).
566
7) Detta T n la media campionaria ottenuta da un campione casuale (T1, T2, , Tn)
di dimensione molto grande estratto dalla popolazione T, determinare un intervallo di
confidenza asintotico di livello 1 = 95% per a.
D etta S2 la varianza
. . . essen d o 1·1 campione
camp10nana, . d.1 d.1mens10ne
. gran d e, T nS/fo
- E[T]
Esercizio 0.2.2 o
Si supponga di avere un'urna contenente biglie bianche e rosse in una certa proporzione.
Una va X codifica con 11 111 l'estrazione dall'urna di una biglia rossa e con "O" quella di
una bianca. Sia p = P[X = l], O< p < l.
1) Scrivere la legge di probabilità f(x,p) di X.
X è una va di Bernulli di media p, quindi; p = P[X = l]; 1- p = P[X = O]; e la legge di
probabilità di X è data da:
J(x,p) = P[X = x] = px(l- p) 1 -x;x = {O, l}.
A queste biglie è collegato un gioco a premi che consiste nell'estrazione di una biglia
dall'urna: chi partecipa vince se estrae una biglia rossa. Dopo ogni estrazione la biglia
viene reimmessa nell'urna e le biglie rimescolate.
2) Sia s quello che un giocatore punta per ricevere Sin caso di vincita e G = S · X - s il
guadagno del giocatore. A cosa dovrà essere uguale p perché il gioco sia equo (E[G] = O)?
E[G] = I:~=o G(i)fx (i)= -s(l - p) + (S - s)p = Sp- s =O=} p = j.
Gastone Paperone partecipa a questo gioco e perde molti soldi contrariamente al suo
solito. Sospetta perciò che il gioco non sia equo e si propone di fare una verifica utilizzando
un campione (Xi, X2, ... , Xn) di n estrazioni di biglie.
3) Aiutate Gastone determinando per lui lo stimatore P di massima verosimiglianza della
probabilità p che un biglia estratta sia rossa.
La funzione di verosimiglianza è L(p, X1, X2, ... , Xn) = pL Xi (l - p )n- L Xi. Questa ha gli
stessi estremanti di ln(L(p, x1, x2, ... , Xn)) = I: Xi lnp + (n - I: Xi) ln(l - p)
..Z..ln(L(p· X1 X2 ... X )) =O{::} L Xi = (n- L Xi) {=} p = L Xi {=} p = L Xi = X
8p ' ' ' ' n p l-p n n n
4) Definite anche uno stimatore per la varianza della popolazione
Poiché X n è uno stimatore MLE di p, per il principio di invarianza X n (l - X n) è uno
stimatore MLE di p(l - p) = var[X].
Gastone osserva che in 1000 giocate viene estratta una biglia rossa 360 volte.
5) Utilizzando le proprietà asintotiche degli stimatori di massima verosimiglianza per
valutare la distribuzione di P e prendendo come stima p di p il valore che si ricava dalle
osservazioni di Gastone, trovare un intervallo (asintotico) di confidenza a due code di
livello 1 = 95% per p (può essere utile ricordare che <J?-1(0.975) = 1, 96).
Per le proprietà asintotiche degli stimatori MLE ~
P(l-P)
tende a distribuirsi come una
n
N(0, 1). Si ha: O,95 = P[I.P - pi <a]~ P[IN(O, 1)1< aJ P(l'::._P)] =} a P~~~~) =
= <J?-1(0.975) = 1,96::::} a= V \~~o =
0,36(1-0,36)
0,0298.
L'intervallo cercato è perciò: (O, 36 ± O, 0298)
567
Ora Gastone vuol rimettersi a giocare sotto la convinzione che p = 36%. Ma prima vuole
saggiare ancora l'ipotesi H 0 : p = 36% contro H 1 : p =f.36%.
6) utilizzando il risultato dedotto al punto 5) dire se Ho viene rifiutata o meno al livello
5% nel caso che Gastone osservi che una biglia rossa è stata estratta 200 volte in altre
1000 giocate.
L'intervallo trovato al punto 5) costituisce la regione di accettazione. In questo secondo
caso esce un'osservazione di p pari a O,2. Tale valore cade al di fuori dell'intervallo in
questione. Perciò rifiuto l'ipotesi Ho.
Supponiamo ora che, detta ancora p la probabilità di estrarre una biglia rossa, il banco
offra un premio di 2s a chi punta s per partecipare. Gastone decide di starci cominciando
a fare una puntata di importo pari a 1, raddoppiandolo poi ogni volta. Smetterà di
giocare alla prima vittoria (cioè la prima volta che estrae una biglia rossa) ma se non
dovesse vincere mai si fermerà in ogni caso alla 5a giocata.
Indicando con la lettera R l'evento "estrazione di una biglia rossa" e con B l'evento
"estrazione di una biglia bianca" decrivere nella tabella tutti gli eventi che possono
capitare a Gastone, le puntate s che fa via via a ogni giocata, le eventuali vincite S
della singola giocata, i relativi guadagni che, se alla giocata i-esima, (i > 1) c'è una
vittoria, sono G = 2i - I::=o?
7) Scrivere G completando correttamente la formula sostituendo i numeri giusti ai punti
di domanda nel caso di vittoria alla i-esima giocata.
G = 2i - I:~--::12k = 2i - ( 1 + 2 + 22 + .. + 2i- l)
8) Scrivere la tabella
9) Ovviamente G è una variabile aleatoria che su ciascuno degli eventi della 2a colon-
na assume le determinazioni della 6a colonna con le relative probabilità. Calcolare il
guadagno medio di Gastone cioè E[G]
Posto 1 - p = q abbiamo
Si osservi che E[G] < O, cioè una perdita, tutte le volte che p < ½ (gioco favorevole al
banco).
10) Detto Gn il guadagno se le giocate fossero n, che espressione avrebbe E[Gn]?
Da ciò si conclude che per n--+ +oo P[ll - Gnl < s] = 1- qn--+ 1 (o, analogamente, per
P[ll - Gnl > s] = qn--+ O).
Esercizio 0.2.3 o
Sia X; il numero di meteoriti che collidono con un satellite durante l'orbita i-esima. Le
X; siano indipendenti ed equidistribuite come delle va di Poisson di parametro À.
1) Detto I:N il numero totale di collisioni in N orbite, scrivere l'espressione della densità
discreta di I:N.
À X
X·,...., e->-_. X= 0,1,2, ..
' X.I'
<I>-1 (!:p))XN/N
1"1= (xN- <I>-1 e~'Y)vxN /N,xN+ <I>-1 e~'Y)vxN IN)= (272.43, 211.57)
Oss.: utilizzare la parte di tavole riportata in fondo al testo.
Qui XN = 275, N = 160, <I>-1 ('Y) = 1.645, <I>-1 (1.:p) = 1.96, 1 = 0.95
9) I tecnici del centro affermano che, durante ogni orbita, le collisioni sono in media non
meno di 290 (cioè,\ 2".290). Sempre sulla base dei dati del punto 5 dire se si deve credere
loro qualora si accetti una probabilità di errore del I tipo a= (1- 1 ) = 0.05, specificando
Ho e Ha.
Ho={,\ 2".290} e Ha= {,\ < 290}
Regola di decisione: se 290 E (-oo, f(N + <I>-1 ('Y)v f(N /N) accetto Ho altrimenti accetto
Ha.
290~ (-oo, 275+ 1.645-1.31) =
(-oo, 277.159) quindi rifiuto Ho con probabilità di errore
del primo tipo a= 0.05. Hanno perciò torto i tecnici.
10) Qual è il valore di a oltre il quale viene rifiutata l'affermazione dei tecnici del Centro
Spaziale?
Poichè 1 = 1 - a segue che se a è tale che 275 + <I>-1 (1 - a)l.31 2".290 accettiamo
l'affermazione fatta dai tecnici. Ciò implicherebbe <I>-1 (1-a) 2".11.45; 1-a 2".<I>(ll.45) ~
1::::} a~ O
11) Accettereste l'affermazione dei tecnici del Centro?
Evidentemente no.
Esercizio 0.2.5 o
L'errore di un altimetro per aereoplani è dato da una X,...., N(0, 152 ), di media O metri e
varianza 225 metri. Quanti altimetri devono allora essere montati su un aereo per avere
confidenza al 99% che l'errore medio degli altimetri sia minore o uguale a 30 metri?
Sia Xi la va errore dell'altimetro i-esimo. Allora
Nelle 6 prove di volo di un aereo le velocità massime registrate sono riportate in tabella:
Esercizio 0.2.7 o
Esercizio 0.2.8 o
Sia X1, X2, .. , Xn, ... una successione di va indipendenti e identicamente distribuite con
la stessa funzione di distribuzione F(x).
1) Fissato n esprimere la funzione di distribuzione Gn(Y) di Yn = max{X1,X2, .. ,Xn}
in termini di F(x).
P[X; _::;x] = F(x), i= 1, 2, .. , n. Per l'indipendenza delle Y; segue che Gn(Y) = P[Yn _::;
y] = P[X1 _::;y,X2 _::;Y, .. , ,Xn _::;y] = P[X1 _::;y]·P[X2 _::;y]· .. . ·P[Xn _::;y] = {F(y)}n.
572
2) Sia F(x) la distribuzione uniforme sull'intervallo O_::;x _::;1.
2.a) Scrivere l'espressione esplicita di F(x)
1 per x > l
F(x) ={ x per O_::;x < l
O per x < O
2.b) Scrivere l'espressione esplicita di Gn(Y)
1 per y 2".1
Gn (y) = { yn per O _::;y < l
O per y < O
2.c) Verificare che Yn !:.+l cioè che Yn converge in probabilità a 1.
Per definizione deve essere VE> O P[IYn - li _::;s] ---+ 1 per n---+ oo quindi
Vs> O P[IYn - li_::; s] = P[l - s _::;Yn _::;1 + s] = Gn(l + s) - Gn(l - s) =
Esercizio 0.2.9 o
Esercizio 0.2.10 o
Esercizio 0.2.11 o
. d"iamo ch e 1a varianza
R 1cor . .
camp10nana. S2 =-~---e
I:;(X; - µ) 2 ' uno stimatore
· corretto d"1
n-l
2 n-1 2 n-1 n-1
a 2, cioè E[S 2] = a 2. Ora à = --S 2 ::::}E[à ] = --E[S 2] ::::}--a 2 ----+ a2
n n n n-+oo
Quindi à 2 è asintoticamente corretto.
2) à 2 è consistente? (si, no, perché)
4
n-1s2
~
2
rv Xn- l ::::}
n ,2
?IO' 2
rv Xn- l ::::} var [?la
n ,2]
= 2( n - 1) =} vara['2] = 2(n- n 2l)a ----+
n---++oo
o.
Da questo e da un noto criterio sufficiente segue che, essendo à 2 asintoticamente corretto,
è anche consistente.
3) Scelto à 2come stimatore scrivere un intervallo di confidenza bilatero al 100, per cento
per a 2 .
.,
L a quant1ta . l,n,2 I:(X;-µ)2 2 c11·
p1vota e e 2 a = 2 rv Xn- l · a co iamo
(J' (J'
P[x2 (1-')') < I:(X; - µ)2 < x2 (l+'Y)] = 'Y {:} P[ 1 > (]'2 >
n-1 2 - a2 - n-1 2 x~_1 (Yl I:(X; _ µ)2
v2
1( 1 +~) ]- - / {:}
A.n-1 2
574
{::}P[I:(X;- µ)2 > a2 > I:(X; - µ)2] = 'Y·
X~- 1 (?)- - X~- 1 ( 1-:p)
I:(X - µ)2 I:(X - µ)2
Concludiamo che 2 ' l+ì' ::; a 2 ::; 2 ' 1_,, è un intervallo di confidenza al 1001
Xn-1(-2-) Xn-1(-2-)
per cento per a 2 .
4) Per controllare la varianza della sua produzione un'azienda sceglie tre motorini appena
terminati. La lettura del rumore massimo emesso da questi tre esemplari dà questi
risultati: 85.4; 86.8; 86.1.
Utilizzarli per ricavare dall'intervallo teorico appena trovato l'intervallo di confidenza /i
al 90% per la varianza.
Con un campione di dimensione 3 e con il I:(X; - µ) 2 osservato (uguale a 0.98) sfrut-
tando la tavola della chi-quadrato con 2 gradi di libertà da cui si ha x~(1±t9 ) = 5.99;
x~(1-t9 ) = 0.1 l'intervallo del punto precedente diventa: 0.16 _::;a 2 _::; 9.8.
5) Non soddisfatta dell'ampiezza dell'intervallo /i l'azienda allarga il campione esami-
nando altri 7 motorini e ottenendo i seguenti ulteriori risultati:
Esercizio 0.2.12 o
Sono state eseguite n misure dell'accelerazione di gravità; tali misure possono essere
ritenute indipendenti ed equidistribuite, tutte normali di media g e varianza a 2 incognite.
=
1) Trovare un intervallo di confidenza di livello 1 1 - a per la media g.
fo(Xn - g) [- (.!±1) s ]
S rv tn- l ::::} g E X n ± tn- l 2 fa ,
2) Per l'accelerazione sono state rilevate 6 determinazioni ottenendo della media campio-
naria e dell'errore standard (radice della varianza campionaria corretta) rispettivamente
le seguenti stime:
Xn = 9.78 m/sec 2 es= 0.08 m/sec 2 . Determinare un intervallo di confidenza al 90% per
l'accelerazione di gravità.
Assumendo indipendenza e normalità per le misure g E [xn ± t 5 (0, 95) e poiché ,;.J
t 5 (0, 95) = 2,015 si ha g E [9, 78 ± O, 066]. L'unità di misura è m/sec 2.
Esercizio 0.2.13 o
X= componente
1 buono
o recuperabile
-2 da scartare
Y\X -2 o 1
-2 o q/ 2 o
o q/ 2 o p/ 2
1 o p/ 2 o
dove q = 1 - p. Esistono valori di p per cui X e Y sono indipendenti (si,no,perché)?
No perché la diagonale principale è formata tutta da O (se fossero indipendenti questo
implicherebbe che le marginali fossero tutte nulle)
7) Esistono valori di p per cui X e Y sono incorrelate (si,no,perché)?
Perché siano incorrelate occorre e basta che cov[X, Y] = E[XY] - E[X]E[Y] = O.
J(X = -2) = q/2 = J(Y = -2)
Le marginali sono identiche: J(X = O) = 1/2 = J(Y = O)
J(X = 1) = p/2 = J(XYl)
E[X] = E[Y] = -q + ~; E[XY] = O;cov[X, Y] = (~ - q)2 =O{::}~= q? p = l
Esercizio 0.2.14 o
[i = _: , reciproco
della media campionaria.
Tn
7) Indicare la distribuzione asintotica dello stimatore verificando che la media e la
varianza di tale distribuzione sono uguali a v e v 2/n.
1
Dalla teoria degli stimatori MLE si ha Vn ~ N(v, [[ 8 ( . ] 2]) dove:
nEv BvlnfT,v)
f( T·' v) = ve-vTJ +(T)·lnf = lnv- vT· ' i!....1nf = lv _ T·' (i!... 2 = 1 - 2T..+ T 2 =
R ' 8v 8v lnf) v2 v
(T-t)2
Ev [[JJ(T, v)]2]= Ev [(T- t) Vn ~ N(v, ~)
2 ] = varv[T] + E~[T]} = ;},r;
8) Utilizzando il risultato del punto precedente, trovare un intervallo di confidenza
P :n/~
bilatero al 1001 % per v.
Esercizio 0.2.15 o
Sia X rv N (µ, 400 2) una popolazione normale di media incognita µ e varianza 400 2.
578
1) Dato X= (X 1 ,X2, ... ,X15), campione casuale (cc) di dimensione 16 da questa
popolazione, utilizzando come stimatore diµ quello ottenuto con il metodo dei momenti,
si determini un test di significatività a = O, 05 per l'ipotesi Ho : µ 0 = 1000 contro
Ha : µa = 1600.
Lo stimatore ottenuto con il metodo dei momenti è µ= ¾I:; X; = X n media campio-
. O vvmmente
nana. . Z = xgO/v'16
-woo rv N(0 , 1) .
4
Si vuole a : P[Z > a] = 0.05 {::}P[Z < a] = 0.95. Dalla tavola della normale segue che
a = q,- l ( .95) = 1.645. Da cui con facili conti si ha Re è la regione delle osservazioni per
cui Xn > 1164.5.
2) Si supponga di aver osservato sul campione una stima di µ pari a 1111. In questo
caso accettereste Ho?
La risposta è: sì.
3) Si calcoli la probabilità di errore che si commette accettando Ho quando questa è
falsa.
In ipotesi Ha
(3 = P[Xn < 1164.5] = P[:~~ 1~ 0 < -4.355] = <I>-1 (-4.355) '.:::'.
O.
a.= 0.05
/lo = 1000
1164.5 [] regione critica
(X -Y) ,.__,
N(-600,500 2)
6) Calcolare la distribuzione annuale (12 mesi) di costi e ricavi nell'ipotesi che quello che
accade in un mese sia indipendente da quello che accade negli altri.
I:t,:,
1 X; rv N(l2000, 12 · 400 2 ) nell'ipotesi ovvia che ViX; rv N(lO00, 400 2 ).
Analogamente: I:t,:,
1 Y; rv N(l9200, 12 · 300 2 ) ancora nell'ipotesi ovvia che ViY; rv
N(l600, 300 2 ).
579
7) Calcolare la probabilità che l'azienda chiuda l'anno in perdita.
12 12 6
P[LX; - L Y; <O]= P[N(0, 1) < 5Vl2]= <I>(4.157)'.:::'.
1
i=l i=l
Esercizio 0.2.16 o
La percentuale p degli ingegneri che hanno studiato statistica non è nota. Si intende
stimarla utilizzando un campione casuale di n ingegneri estratti a sorte. Detta X la
va che assume il valore 1 se l'ingegnere estratto ha studiato statistica e O se non l'ha
studiata, è noto che tale ha distribuzione di Bernoulli:
ln(l - p) se x = O
J(0;p) = 1- p; f(l;p) = p: lnf(X;p) = { lnp
sex= l
nEp[- . .] = n{ (l- 1p)1 (1- p) + '?p} = p(l".:_p).
Quindi l'efficienza è uguale a 1.
4) Utilizzando lo stimatore Xn si intende valutare la percentuale p in modo che la stima
differisca dal valore vero al più del 2% con probabilità del 95%, cioè P[IXn - PI < 0.02] ~
0.95. Calcolare la dimensione del campione n utilizzando la disuguaglianza di Chebyscev.
Per Chebyscev P[IXn - PI< 0.02] ~ 1- v~~o;t
= 0.95 (0)
La (0) è soddisfatta se ,;M,~;]
2 :S 0.05. Tenuto conto che al più p(l - p) = 1/ 4 basta che
n ~ 12500.
5) Indicare un intervallo di confidenza al 95% per p
p E (X12500 - 0.02, X12500 + 0.02) = ( 12700 - 0.02, 12700 + 0.02),
dove m rappresenta il numero di ingegneri che hanno studiato statistica tra i 12500 scelti.
Esercizio 0.2.17 o
Alcuni ecologi stimano pari a M il numero di esemplari di una certa specie sparsi su
un grande territorio. Sanno che un gruppo di ricercatori che li ha preceduti da poco
tempo su quel territorio ha catturato e "marcato" N esemplari. Questo tempo è stato
sufficiente perché tali esemplari si siano rimescolati agli altri, ma non abbastanza lungo
perché il numero M degli esemplari sia variato.Gli ecologi si propongono di catturare un
campione di k individui.
1) Indicata con X la variabile aleatoria (va) che conta il numero degli individui marcati
del campione, dopo aver riconosciuto che alla situazione si adatta un noto modello di
estrazione, scrivere chiaramente la formula che dà la funzione di densità discreta (fdd)
f x ( h) di X nell'ipotesi appunto che la popolazione totale sia M.
580
(1)
k
2) Se M :S 0.1, cioè se la dimensione k del campione è piccola rispetto a quella della
popolazione) la fx(h) è approssimata dalla fdd di una binomiale Y rv B(k, :). Scrivere
la fy(h) di tale binomiale.
-kN
fw(h) = e h!M (k J:;.t
P[H = l] = 200/M =p
P[H =O]= (M - 200)/M = 1- p = q
È noto che E[H] = 200/M e che uno stimatore MLE di E[H] è la media campionaria
H n· P er 1·1 pnnc1p10
. . . d.1 mvananza
. . d eg 1·1 st1maton
. · MLE 1o stimatore
· 200
cercato e, m, = =-
Hn
7) Si scriva (senza eseguire conti) uno stimatore per la varianza di tale popolazione
motivando il risultato e le proprietà.
La varianza 0' 2 della popolazione è pq. Per il principio di invarianza uno stimatore MLE
della varianza è èr2 = Hn(l - Hn)-
8) Si determini un intervallo di confidenza con limite inferiore asintotico di livello 1 = 95%
per la proporzione p da cui ricavare e scrivere un intervallo con limite superiore asintotico
di livello 1 = 95% per M.
581
Cerchiamo un intervallo di confidenza con limite inferiore asintotico per la proporzione
p di una popolazione di Bernulli (varianza ovviamente non nota).
Hn-P
Per il teorema centrale del limite e per i teoremi sugli stimatori MLE ---:======--- ~
VHn(l - Hn)/yn
N (O,1). Quindi l'intervallo asintotico con limite inferiore per p si ottiene da:
P[ Hn-P < <I>-1 ('\/)] = 'V con 'V= O 95· <I>-1 (0 95) = 1 645 cioè:
1 1 1
yHn(l-Hn)/fo - ' ' ' ' '
200
M < -------;=====--
- H n - l, 645 V H n ( 1 - H n) / yn
9) Nell'ipotesi che gli ecologi abbiano estratto un campione di 100 esemplari trovandone
4 marcati, scrivere il valore dell'estremo sinistro dell'intervallo di confidenza trovato per
p.
- 4 1
Dalla(-") dove n = 100, Hn = lOO = 25 si ha: 0,0077 $. p
10) Nelle stesse ipotesi del punto 9) scrivere il valore dell'estremo destro dell'intervallo
di confidenza trovato per lv!.
- 1
Dalla (-"H-")dove n = 100, H n = 25 si ha: M $_ 25757, 55
11) Sulla base dell'intervallo trovato gli ecologi decidono di accettare l'ipotesi Ho : p ~
0,01 (equivalente a M $_ 20.000) contro l'alternativa Ha : p < 0,01 (equivalente a
lv! > 20.000). Se i dati osservati motivassero gli ecologi a rifiutare che tipo di errore
potrebbero commettere e, in questo caso, che probabilità avrebbero di sbagliarsi?
Dalla teoria si sa che (L, +oo) è un intervallo di confidenza al 100"( % per p allora si
rifiuta l'ipotesi p ~ Po contro l'alternativa p < Po se Po ~ (L, +oo) con probabilità 1 - 'Y
di sbagliare. 1 - 'Yè perciò la probabilità di errore del 1° tipo.
12) (facoltativo) Se campionando come è stato fatto si fosse trovato solo 1 individuo
marcato che considerazioni si sarebbero dovute fare sull'intervallo di confidenza in (-")?
L'estremo inferiore dell'intervallo di confidenza con limite inferiore per p è negativo.
Quindi con probabilità pari a 0,95 sono compatibili con l'osservazione fatta tutti i valori
di p. Perciò l'intervallo trovato non è significativo e l'esperimento va proseguito con nuove
osservaz10n1.
Esercizio 0.2.18 o
Xn-µ
l/fa rvN(0,l)
~ P[I
~/;:I~a]= 0.9 ~a= <I>-1 (0.95) = 1.645
Fissiamo anche questa volta I e cerchiamo a tale che P[I:: /Jn"I :S a] = ,. Poi-
.X-µ
ché n /
µX
fan ~ N(O, 1) l'o: cercato è sostanzialmente lo stesso (se n è grande) dell'o:
che si troverebbe imponendo P[IN(0, 1)1 :S a] = 1 . Sappiamo che in questo caso a=
1 +, 1 +, Xn - µ
<J?-1(--).
2
Concludiamo che, con probabilità 1 , vale -<J?- 1(--)
2
<
µX n
< /fa
<J?l(l+,)d
- - 2- a cui...s1 ncava
- 1( -1 +')
con a= <J? R 1so1vere questa d.1sequaz10ne
. . a >..' ., comp r1cato
e un po ' pm
2- rispetto
che nel caso della esponenziale. Grazie a un teorema della teoria della stima che qui però
non possiamo citare, si può mostrare (come intuitivamente si potrebbe intuire) che anche
584
Xn->- ~ N(O, 1) (per dare una spiegazione euristica di questo risultato, si osservi
ffn!fa
che, poiché si usa Xn per stimare À, l'idea è quella di sostituire a ~ al denominatore
un suo stimatore vXr,).A questo punto si può garantire che con probabilità I vale:
- ffn - ffn
Xn - a fa :S À :S Xn + a fa
1 = 0.99 ---+ 1 ; 1 = 0.995 e q,- l (0.995) = 2.576 (come si evince dalla tavola della
normale in fondo al libro).
Esercizio 0.2.19 o
Sia X rv N(µ, 0' 2) doveµ e O' sono incogniti. Sia (X 1 , X2, ., Xn) un campione casuale di
dimensione n (ccn) da X.
1) Verficare che lo stimatore 8-2 MLE per 0' 2 non è la varianza campionaria.
Il ccn (Xi, ... , Xn) è estratto da una popolazione la cui distribuzione segue la densità:
fx (x; µ,O') = O'F27r
exp 2
[ - (~~f ) ]
fx,,X2,,,Xn(x1,-,xn;µ,O') = rr
n
i=l
1
0';/2iiexp
[-(x;
-µ)2] 20'2
8 [ . )] _ I:;(x;-µ) _
{
8µ log f X 1 ,X2,,,Xn (x1, ., Xn, µ, O' - 0'1 - 0
80'
lo g[fx,,X2,,,Xn (X 1, ·, X n,. µ, O')] =
2.... _!!:
O' + L;(x;-µ)2
O'g = O
{ fl=
Cl=
L[~X(i·-')2]1/2
~j µ Xi
n
585
""'
.
L o stimatore ,2 , ., ,2 L..(Xi-Xn)- 2
d X , 1 d. . .
a- cercato e percio: a- = ------ ove n e a me 1a campionaria.
n
.
Q uesto stimatore d.ff .
1 ensce d a 11a varianza
. .
campionaria. s2= ì:=(Xi - Xn)2
=-'-------'-
n- l
2) &2 è corretto? Si chiede di decidere utilizzando l'uguaglianza(-") [(Xi -Xn) + (Xn -
µ)]2 = (Xi - µ) 2 .
No infatti per la (-") si ha
E[à]
2 1
= -
L E[(Xi 2 - 2 2
- µ) ] - E[n(Xn - µ) ] = a- + var[Xn] = --o-
- n-1 2
n n
3) Descrivere il test di Student (che prevede l'utilizzo della pivotale t - Student) per ve-
rificare l'ipotesi Ho : µ ~ µ 0 contro l'alternativa Ha : µ < µ 0 a un livello di significatività
del test pari a 1 - 'Y· Indicare la regione critica.
Il pivot utilizzato nella determinazione della regione critica (che è a coda sinistra perché
·
H o comvo 1ge 1·1 segno _>) , e' t = XS/fo
n - µo d ove S e' 1o scarto campionano.
· · La regione
·
critica è determinata da 1 - 'Y nel modo seguente: P[X;/~o < k] = 1 - 'Y dove kè lo
(1 - 'Y) - quantile della t - Student con n - l gradi di libertà.
Detto tn- 1(1 - 'Y) (= -tn- 1('Y)e quindi < O) tale quantile si ha:
Rc=(Xn<µo+
- s
fotn-1(1-'Y))=(-oo,µo+
s
fotn-1(1-'Y))
Una fabbrica giapponese di automobili pubblicizzando la futura vendita del suo nuovo
modello "Nonconsumo", dichiara che i chilometri che questo modello percorre con 1
litro di carburante sono distribuiti normalmente con media µ 0 superiore o uguale 20,
mentre non comunica la varianza. La rivista SuiCerchioni, per verificare l'affermazione
dei giapponesi, si fa consegnare in anteprima 5 diversi esemplari di questo modello e li
prova rilevando i seguenti chilometraggi medi percorsi con 1 litro:
5) Calcolare l'errore del 1° e del 2° tipo se questa è la strategia (possono essere utili i
valori <I>(l.4142)= 0.9213 e <I>(2.1213)= 0.983).
Abbiamo un campione di dimensione 50. Siano ancora Xi i consumi dei veicoli. Poiché
si conosce la varianza il pivot, in ipotesi Ho, è Z = :/fo0 • Sia a l'errore del 1° tipo e (3
l'errore del 2° tipo. La regione critica è fissata dalla strategia. Re = (X n < 19.6) con
50
-Xn = 1 "'
50 ~Xi.
1
RC 19.6
µ0 =20
- Xn-20 19.6-20
a= P[Xn < 19.6IHo] = P[ y5() < y5() ] = P[N(0, 1) < -1.4142] =
2/ 50 2/ 50
= 1 - P[N(0, 1) < 1.4142] = 1 - 0.9213 = 0.0787
- X - 19 19.6 - 19
(3 = P[Xn > 19.6IH1] = P[ n y50 > y5() ] = P[N(0, 1) > 2.1213] =
2/ 50 2/ 50
= 1 - P[N(0, 1) < 2.1213] = 1 - 0.983 = 0.017
Esercizio 0.2.20 o
1) Ricavare dai dati della tabella x e fj medie rispettivamente dei valori del predittore e
del responso.
x = 31.1
fj = 31.01
2) Calcolare Bxx
Bxx = I: x7 - nx 2 = 10109 - 10 · 31.1 2 = 436.9
3) Scrivere l'espressione formale degli stimatori b1 e bo (ottenuti con il metodo dei minimi
quadrati) dei coefficienti della retta di regressione E[Ylx] = b1x + bo
bi = I:(xi - x)(Y; - Y) = I: x;Y; - nxY = SxY
I:(x; - x) 2 I: x; - nx 2 Bxx
bo= Y - b1x
4) Scrivere la stima di b1 e bo calcolata in base ai dati osservati (utilizzare i simboli b1 e
bo sia per gli stimatori che per le stime).
r 2 = 1.0192
.
::::!~ = 0.99424
.f(n-2)Sxx(' )
8 ) Ricordando che V SSE b1 - b1 è una quantità pivotale scrivere la regione
critica del test di livello 0.05 per Ho : b1 = 1 contro l'alternativa Ha : b1 =Jl.
/ (n - 2)Sxx , /,...,...(n---2,,..,...)S=-x-x
,
Sappiamochey SSE (b1-b1)rvtn-2.Lastatisticatestèperciò: y SSE (b1-
l). In base ai valori osservati la regione critica è:
. f (n - 2)Sxx , ( ) . / (n - 2)Sxx (' ) (
y SSE (b1 - 1) :S -ts 0.975 ; y SSE b1 - 1 ~ t 8 0.975)
da cui:
Esercizio 0.2.21 o
X~ ,~
i Xi Zi Yi X iZi zi X iYi Zi Y i
1 1 0.5 1 1' 0.5 0.25 1 0.5
2 - 2 0.5 - 1 4 -1 0 .25 2 -0. 5
3 o 0.5 - 1 o o 0 .25 o - 0.5
4 - 1 0.5 o 1 -0. 5 0 .25 o o
5 2 - 2 1 4 - 4 4 2 - 2
L i o o o 10 -5 5 5 -2.5
dove SSE = Syy - b1Sxx calcolare un intervallo di confidenza al livello 90% per il
coefficiente b1 della regressione (può essere utile sapere che lo 0.95 quantile della t con 3
gradi di libertà è pari a 2.353).
t} = O quindi= I:~=l (Yi - y) 2 = I:~=l y;= 4 quindi SSE = 4- (0.5) 2 · 10 = 1.5
Syy
e
.I SSE {T:s 1+ 1 .I
y (n _ 2)Sxx = y :f'"lO = 0.2236. tn-2(- 2 -)y
SSE
(n _ 2)Sxx = 2.353 · 0.2236 =
0.526 perciò l'intervallo di confidenza cercato è l'intervallo della retta che ha per estremi
0.5 ± 0.526 cioè (-0.026, 1.026).
3) Ora si ipotizzi il legame multilineare Y; = bo+ b1 xi + b2zi + Si e, sempre sfruttando
i valori riportati in tabella, si effettui la stima puntuale dei coefficienti b0 , b1 e b2 della
regressione multilineare. Si ponga al solito
o
0.2
0.2
Esercizio 0.2.22 o
Una compagnia mineraria preleva da un fondale oceanico venti campioni nei quali misura
in microgrammi la presenza di feldspati (x) e di uranio (y). Questi i dati osservati:
590
1) Plottare i dati osservati e trovare con il metodo dei mm1m1 quadrati la retta
regressione di Y su x.
27 uranioversusfeldspatl
26
25
14
23
22
21
10
e;:
E 17
t2 15
16
14
j:!
E 13
~ 12
.2 11
~ 10
~ 9
8
7
8
5
4
J
,o
2
+-,,-.,.-,--,-..-,.....-r--.--,--.- ...... -...-,-...--..--,-,--,--,-..-,,-.,.-,--,-..-,.--,
O 1 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 13 24 25 26 27 28
f,kltlpotllnm~«l),.,,.,,I
Syy = ~Yi 2
- ny-2 = 4782- 20 · ( 286) 2 = 692.2
20
3) Calcolare il valore della varianza residua SSE = ~(Y; - Y;)2 per i dati osservati.
591
A 2 A
5 ) Ricordando che
V (n - 2)Sxx ,
SSE
)
(b1 - b1 è una quantità pivotale scrivere la formula
che individua la regione critica per il test d'ipotesi Ho : b1 = /3 contro l'alternativa
Ha : b1 -/- /3a livello 1 - 1 .
J(n-2)Sxx, ) .
SSE (b1 - b1 rv tn-2 da cm
1 +,
tn-2(--)
2
V( _SSE)S
n 2 xx
= 0.157 · 2.878 = 0.45185
e la regione critica diventa:
Esercizio 0.2.23 o
1) Trovare le distribuzioni marginali delle distribuzioni congiunte assegnate nei tre casi
a), b), e).
In tutti e tre i casi risulta:
a) b) e)
P [A]= 2/ 3 2/ 3 2/ 3
P[B] = 5/ 6 2/ 3 2/ 3
P[C ]= 2/ 3 1/ 3 1
Si consideri E[(Y - aX - ;3)2]. Mostare che perché E[(Y - aX - ;3)2] sia minimo deve
cov[X,Y]
essere (1 = E[Y] - aE[X] e a = var[X] tali che
Suggerimenti: trovare prima (1 ricordando che data una va W il minimo di E[(W - 0)2]
si ha per 0 = E[W]. Perciò considerando W = Y - aX il valore di ;3 è ...
Per trovare a derivare rispetto a a l'espressione E[(Y - aX - E[Y] + aE[X])2] ottenuta
da E[ (Y - aX - ;3)2] sostituendo a ;3 il valore trovato
min E[((Y - aX) - ;3)2] = E[Y - aX] = E[Y] - aE[X]
fJ
~E[((Y- aX)- E[Y] - aE[X])2] = ~E[(Y- E[Y]- a(X - E[X]))2] = ~E[(Y-
da da da
E[Y] - a(X - E[X]))2] = &
Ora E[(Y - E[Y] - a(X - E[X]))2] = E[(Y - E[Y]) 2 ] - 2aE[Y - E[Yl]E[X - E[Xl] +
a 2 E[(X - E[X])2] da cui segue:
cov[X,Y]
& = O {::} -2cov[X, Y] + 2avar[X] = O {::} a = -..c....,---,--c. che è immediato vedere
var[X]
trattarsi del minimo. Si conclude che:
Esercizio 0.2.24 o
- 1+, e - 1+, e
X - tn-1(- 2 -)8/vn :S µ :S X+ tn-1(- 2 -)8/vn
rappresenta un intervallo di confidenza al 1001 % per il parametro µ cercato.
2) Scrivere, motivando brevemente, un intervallo di confidenza con limite inferiore (uni-
laterale destro, cioè del tipo ( a, +oo)) di livello 1 = O,95 per a 2.
Consideriamo ancora un ccn (X 1, ., Xn) con X e 8 2come al numero precedente. Sappiamo
che x;-1 = (n-O'V82 è una chi-quadro con (n - 1) df quindi è una quantità pivotale.
Indichiamo con Xn- 1(a) l' a-quantile della x;_
1 (cioè Xn- 1(a) = (a)) F;l
L'intervallo con limite inferiore si ottiene da P[(n-0'1)S2 :S x;_ 1('Y)] = 1 per cui
(n - 1)8 2 2
2 <a
Xn-1('Y) -
è l'intervallo cercato.
3) Utilizzare il risultato al punto 2) per decidere su un test di ipotesi semplici Ho =
{a 2 = a5 = 25} contro H 1 = {a 2 =ai= 36} fissata la probabilità di errore di II tipo
/1= 0.1
Osservazione.
Supponiamo di avere un test d'ipotesi semplici sulla varianza, H 0 : a 2 = a5 contro
H1 : a 2 = a1. Lo stimatore è 8 2 = - 1- I:(X;-X)2, di cui sappiamo (n - ;) 82 ,.__, x;_ 1.
n-l a
In un caso di questo genere si decide un limite e tale che se 8 > e si rifiuta mentre se 8 2 <
2
e non si rifiuta. Il valore e si può ragionevolmente ottenere dal livello di significatività 1- 1
del test nel modo seguente. Da 1- 1 , probabilità dell'errore del I tipo, si ha, sotto ipotesi
(n - 1)8 2 a5
Ho, P[ > x;_ 1('Y)] = 1- ,. Segue che e= --x;_ 1('Y) e P[8 2 >e]= 1- 1 .
a 02 n- l
2
La Re è dunque (~x;_ 1('Y),+oo). Se s 2, il valore osservato di 8 2, cade nella Re si
n-l
rifiuta.
Per trovare l'errore del II tipo ;3occorre calcolare P[8 2 < e] sotto ipotesi H 1. Cioè occorre
(n-1)8 2 (n-1) a5 2
calcolare P[ 2 < -- 2-c = 2 Xn-1h)].
a1 a1 a1
594
Naturalmente si può procedere in un mondo alternativo cercando la regione di accet-
tazione (cioè Re 0 ) invece della Re. Basta fissare l'errore del II tipo (3 e ricavare
e tale che, sotto ipotesi H 1 , P[8 2 < e] = (3. Quindi ragionare in modo analogo al
a2
precedente. La regione di accettazione risulta (-oo, --
n- l
1 -x;_1 ('y)). Per trovare l'er-
rore del I tipo occorrerebbe ora calcolare P[8 2 > e] sotto ipotesi H 0 . Cioè calcolare
(n - 1)8 2
P[ -'---~2'--- (n - 1) _ ai 2 ( )]
> 2 e- 2 Xn-1 Ì ·
ao ao ao
Risolviamo ora la richiesta 3). Dal punto 2) abbiamo che P[8 2 :S (n~ijX;_ 1 ('y)] = Ì·
Ponendo
a2 =ai= 36 e ì = 0.1 = (3 la regione di accetazione è {8 2 :S (:Jl)x;_1 ('y)} =
{ 8 2 :S (n~l)x;_
1 (0.l)} mentre la regione critica è { 8 2 :S (n11)x;_
1 ('y)}e. Si conclude
Esercizio 0.2.25 o
Come esempio di calcolo di responsi ottenuti per interpolazione attraverso la retta di re-
gressione, osserviamo questa tabella ricavata dall'esempio 3.1.17 (plot dei dati in figura):
sigarette/giorno O 5 10 20 40 50 60 80
probabilità di cancro 0.059 0.114 0.192 0.259 0.340 0.406 0.458 0.556
•'umo
Rca_no.l-onc-li11,coart• Rcl:rrnNl•ot?lhu!1u-c-
u.;oo Y•
'V• tl!Hi. rtUit di r~rdSion(', R = rrsidui
o.o.s
u
Graricodr-ira.idui (R n \'1
0,6(1(1 O,O•
HI
0,(~0
0..~0tl
0,010
(),-100 O,OIO
0,Jll(J 0,00 0
O,lllO -0,GIO
--11,IJ.:2
0
0,100
-0,0JO
O,()(J{) -0,lt~O
•11,JOO
,
-0,0!Q "
o 10 15, 20 2s .:mJS "u -'iS $0 5$, 60 6S 70 75 80 lii$ iì,OflO Il, IOO 11
,200 iì.JllO 11
,-mo 11
,SUO 11
.,00 Il,71H)
Utilizzando i dati precedenti vorremmo sapere la probabilità che un individuo che fuma
mediamente 35 sigarette al giorno contragga un cancro. Sempre dal capitolo 3 sappiamo
che
1 - P[x] = t · qx
P= l - 0.916 · (0.99lt
Qui, sostituendo a x 35 si ha il valore cercato 0.33247.
Esercizio 0.2.26 o
Il campo magnetico del cervello umano va da 0.1 a 1.0 pT (picoTesla = 10- 12Tesla).
Quello terrestre va da 31 µT (microTesla = 10- 6 Tesla) alla latitudine di 0° (equatore)
a 58 µT alla latitudine di 50°.
Il campo magnetico misurato a 1Iilano a una latitudine di 45.47°
Y = b1x +bo+ s
( l(
0.342885375 -0.012747036 9.88142· 10- 0 \ 1005.465
-0.012747036
9.88142·10-o
0.000667702
-5.92885·10-o
-5.92885·10-o
5.64653·10-o
53267.4
3836721.75 Il
I
44.88050395 )
= ( 0.002681959
0.000181169
3 Si calcoli il valore di SSe sui dati osservati cosiderato che f;TxTy = 45963. 7313.
Sappiamo che: SSe = yTy - bTXT y. Sappiamo che yTy = I: YT= 45964.181. Allora
-(
0.342885375 -0.012747 1005.465 \
0.0000988 ) ( 44.88 )
-0.012747036
0.0000988
0.0006677
-0.0000059
-0.0000059
0.00000006
53267.4
3836721.75
I = ( 0.00268
0.00018
Ricalcoliamo il valore di SSe sui dati osservati, considerato che f;TxTy = 45958.63575.
Sappiamo che: SSe = yTy- f;TxTy e che yTy = I:Yr = 45964.181. Allora
Una differenza enorme rispetto al valore trovato in (*)- Considerazioni sui danni del
troncamento dei dati esulano comunque dai contenuti del nostro corso.
Riprendiamo l'esercizio
597
6 Indicare lo stimatore cf2della varianza a 2 del rumore s e la sua distribuzione.
~2 SSe 2
a = n - 3 ,.__,
Xn- 3
7 Indicare l'espressione della statistica test e la sua ditribuzione per verificare l'ipotesi
La statistica test è:
8 Considerato che
~
0.342885375 -0.012747036 9.88142·10- 5
Co2 ) (
Cn -0.0127 4 7036 0.000667702 -5.92885·10- 0
c21 9.88142· 10- 5 -5.92885·10-b 5.64653· 10-~
indicare con precisione la regione critica RC per il test (L) a un livello di significatività
1 - 'Y= 0.01 (può essere utile lo sapere che P[trn < 2.861] = 0.995).
La RC si ricava da P [lb;~o
>a] I = 1 - 'Y = 0.01. Ciò implica a = t 19 (0.995) =
2.861.
Ora:
VC22
= V5.64653 · lQ-S = 2.3762 X 10- 4
~=[!!i= J 0 ~~97 = 0.15385
b2 = 0.000181169
Da questo si ha:
0.000181169 1.81169
0.15385 · 2.3762 X lQ- 4 0.15385 · 2.3762 = 4 ·9557
La statistica test cade nella RC quindi si rifuta.
9 Quanto vale il p - value? (può essere utile sapere che P[trn < 4.9557] = 0.999956).
Che conclusioni possiamo trarre dal p - value?
Dal suggerimento il peso a sinistra del valore osservato della statistica test è 0.999956;
quindi alla sua destra c'è 1 - 0.999956 = 4.4 x 10- 5 _
Il p-value è perciò pari a 2 x 4.4 x 10- 5 , un valore molto piccolo che ci motiva fortemente
a rifiutare.l'ipotesi nulla.
XXl
Appendice 1
Il salame fa bere,
bere disseta,
dunque il salame disseta
Miche] de Montaigne (1533-1592)
Per comodità degli studenti e per uniformità di linguaggio abbiamo aggiunto una
breve appendice di argomenti di matematica di cui si fa uso in questo volume.
Diagrammi di Venn
Legge commutativa: A U B = B U A; A n B = B n A .
Legge distributiva: AU(BnC) = (AUB)n(AUC): An(BUC) = (AnB)U(AnC)
Legge associativa: A n (B n C) = (A n B) n C: A U (B U C) = (A U B) U C.
n A;
(X)
n LJ LJnAk(T)
(X) (X) (X) (X)
Teoremi di De Morgan
UA,\)c
( ÀEA nA
ÀEA
0
,\
n A-')c = u
( ÀEA Af
ÀEA
XXlV
Funzione indicatrice
Definizione 0.2.15 Funzione indicatrice (o caratteristica). Sia A e n. La funzione
indicatrice di A è una funzione I A(·) così definita:
I (w) = { O se w ~ A
A l se w E A
O per x < -l
x + l per - 1 :S x < 5
Per esempio la funzione f = { 11 _ x
per 5 :S x < 6
O per x ~ 6
può essere scritta, utilizzando la funzione indicatrice nel modo seguente:
0.3 Logica
Si considerino i seguenti simboli (tutti binari salvo la negazione):
A B A /\ B A VB ,A A=}B A<=;,B
V V V V F V V
V F F V F F F
F V F V V V F
F F F F V V V
Esiste un legame simbolico tra logica e teoria degli insiemi che sfrutteremo poi con gli
eventi. La scrittura insiemistica A C B, ad esempio, si può pensare equivalente alla
scrittura logica A =} B, mentre A e equivale a ,A. Infatti se A e B sono eventi, A C B
significa che il verificarsi di A implica il verificarsi di B, cioè che B è vero quando A è
vero (mentre quando A non è vero, cioè non si verifica, può essere sia B vero che B non
vero, cioè B può verificarsi oppure no).
N-l N-l
eccetera 1, fino a 1111 ... 11 = ( I: I: 2i + 1.
(2)i)2. Quindi 2N =
i=O i=O
Un secondo modo per vedere (C?)viene da un risultato algebrico elementare: aN - bN =
(aN-1 + aN-2b + ... + abN-2 + bN-I)(a - b)
Con a = 2 e b = l si ottiene la (C?)
1Il simbolo (•)2 indica che scriviamo in base 2 del numero•.
XXVl
il numero binario è quello ottenuto leggendo la colonna dall'alto in basso cioè: 11010 =
(26)2
Per i numeri decimali l'algoritmo si deduce da questo esempio:
eccetera ...
Se ci arrestiamo qui il binario corrispondente è
0.0101100110
e vale
1 1 1 1 1 1 1 1 1 1
0--+l·
2
-+O·
22
-+l·
23
-+l·
24
-+O·
25
-+O·
26
-+l·
21
-+l·
28
-+O·
29
-
210
= 0.349609375
+oo a
Se pensiamo a coefficienti ak = O oppure ak = 1 si ha: O ::; I: 2~ ::; 1 dove l'uguaglianza
k=l
a destra vale sse Vk : ak = O mentre quella di sinistra vale sse Vk : ak = 1. Ciò significa
che a ogni stringa infinita di O e 1 si può pensare associato un numero reale compreso
tra O e 1. C'è dunque corrispondenza biunivoca 11 tra le stringhe infinite di O e 1 e i
reali. Infine poiché a ogni stringa del tipo {00100111010010101001010 ... } corrisponde
un sottoinsieme dei naturali (quel sottoinsieme fatto dei numeri interi k tali che ak = 1)
l'insieme di tali stringhe è in corrispondenza biunivoca con l'insieme delle parti di N. Tale
insieme ha perciò la potenza del continuo.
n!~nne-n~ (1)
oppure n! = (; r v"27rneO"n con o< Cln< l~n
(con ripetizione di oggetti dunque). Conveniamo che due stringhe differiscano fra loro
solo per numero di volte che compare un oggetto ma non per l'ordine con cui gli oggetti
compaiono. Quante stringhe otteniamo?
Immaginiamo di agire così: fissiamo n spazi con (n + 1) separatori:
1 2 3 4 5 6 7 n- l n
I I I I 1 .......... 1
1 2 3 4 5 6 7 8 n-l n
11 **
~
2
11
-...-
* * * * **
6
11 I I *
'-'V"""'
1
1 ....... 1 ......._,_.,;
***
3
11
Questo allineamento codifica che il campione è fatto dall'oggetto due che compare due
volte, dall'oggetto quattro che compare sei volte, dall'oggetto otto che compare una volta,
eccetera. Tenendo fissi i due separatori esterni, ho in tutto (n-1) separatori, r asterischi
ed ognuno di questi allineamenti è fatto da una successione di separatori ed asterischi.
Quanti sono? Sono le permutazioni di (n + r - 1) oggetti, di cui r uguali fra di loro e
(n - 1) uguali fra di loro. Cioè:
(n+r-1)!
r!(n - l)!
( n +n_r-1 1) (n + rr- l) = C' n,r = Cn+r-l,r (2)
0.7 Coniche
Un cono a due falde è una figura geometrica nello spazio IR3 come rappresentato nella
figura seguente.
circonferenza
asse
La figura si ottiene prendendo una circonferenza, un asse che passi per il suo centro e
un punto su tale asse che chiameremo vertice V. Poi si prendono le infinite rette che
XXlX
-..'
'
------~---
'
A B e
Curve di questo tipo si chiamano coniche.
L'equazione in IR.2 di una conica si può scrivere nel modo seguente:
Sia
)
a11 a12 a13
A-( a12
a13
a22
a23
a23
a33
allora
)
a11 a12 a13 X
B=( a11
a12
a12
a22 )
xxx
Teorema
La conica si dice degenere se det A = O.
Se la conica non è degenere allora
>o ellisse
se detB { = O la conica è una { parabola
<0 iperbole
Metodo dei minimi quadrati
Si tratta di minimizzare la funzione delle due variabili b0 e b1 data da:
n
S(bo, bi) = I: [y;-(ba+b1x;)] 2 = nbl+ I: x7b1 +2 I: x;bob1-2 I: y;bo-2 I: x;y;b1 + I: Y7
i=l
(3)
Allora
B=(
Poiché
è un minimo.
A=
La mahice In - [ I 1
di tipo (n, n) si dice matrice Identica.
4 3
Esercizio: date le due matrici conformabili: A = [ ; -7 o
-2 o 6
scrivere la matrice C = AB.
Definizione 0.8.3 Si dice trasposta di una matrice A di tipo (n, m) la matrice AT o A'
di tipo (m,n) il cui elemento a[; di posto i,j è uguale all'elemento a1i di posto ji di A:
è un vettore riga di tipo (1, n). Ovviamente (t1, t2, ... , tn)T = t
Esercizio: scrivere la matrice di tipo (1, 1) (cioè lo scalare) risultato del prodotto tTt.
Esercizio: mostrare che l'elemento di posto ij della matrice di tipo (n, n) risultato del
prodotto tt T è dato da tit 1 .
Se A e B sono conformabili e B e C sono conformabili allora vale la proprietà asso-
ciativa del prodotto tra matrici, cioè:
(AB)C = A(BC)
Definizione 0.8.4 Una matrice A quadrata, cioè (n x n), si dice non singolare se
detA =/-O.Si dice poi inversa di A una matrice (n x n) A- 1 tale che:
dove I è la matrice identica che ha gli elementi della diagonale principale uguali a 1 e
tutti gli altri elementi uguali a O.
(AB) =B A
(4)
det (A - 1) = ( det A)- 1 = -- det A = det(AT)
XXXll
Sia ora:
a12 a1n
[ an
a21 a22 ann
A= . ]- [a,;]
anl an2 ann
Sia M;k il minore complementare dell'elemento a;k, cioè la matrice che si ottiene da A
eliminando la riga i-esima e la colonna k-esima.
Definizione 0.8.5 Si chiama cofattore del termine a;k il numero A;k = (-I)i+k det(M;k),
Con queste premesse il generico elemento di posto i, k della matrice inversa A- 1 è dato
, Aki .,
da aik = det A. Perc10:
A-1 _ [ , ] - [A;,k]I'
- aik - detA ·
La matrice A= [a;k] = [A;k]I' si dice matrice aggiunta di A.
I è una particolare
D-[!~
matrice diagonale.
il
Teorema 0.8. 7 di Binet: se A e B sono due matrici quadrate dello stesso ordine
allora:
det(AB) = det A· det B
Definizione 0.8.8 Una matrice A quadrata, cioè (n x n), e simmetrica, si dice semi-
definita positiva, se Vr E IRn ===} rT Ar ~ O e definita positiva se Vr E IRn;r =J
O::::}rT Ar > O.
,, .. ,IAI
vale il seguente
XXXlll
Una condizione equivalente può essere espressa in termini di autovalorim della matrice
come segue:
Teorema 0.8.12 A è definita positiva sse esiste una matrice non singolare B tale che
A= BTB.
Teorema 0.8.14 spettrale: se A è simmetrica (n.n) allora esiste una matrice ortogo-
nale B (n, n) tale che
diag(>.i) = D = BT AB
è diagonale e gli elementi Ài sono gli autovalori della matrice A.
Oss. 5 Inoltre se A è semidefinita definita positiva allora esiste H (n, n) tale che HHT =
H 2 = A. Il fattore H è a volte chiamato la radice quadrata di A per ragioni ovvie.
Infatti A = B DBT. Ora, se A è semide.finita positiva, tutti i suoi autovalori sono non
negativi ed esiste perciò D 1 12 = diag(>.t12), la matrice che ha sulla diagonale principale
la radice quadrata degli elementi della diagonale di D. Poniamo H = B D 1 12 BT : allora
H 2 = BD 1 12 BTBD 1 12 BT = A essendo BBT = I.
Teorema 0.8.15 Decomposizione di Cholesky: Data una matrice A di tipo (n, n),
simmetrica, tale che "ix =f.O,xT Ax > O (cioè definita positiva) allora la matrice A si può
fatto rizzare nel modo seguente:
dove T è una matrice triangolare alta con gli elementi della diagonale principale tutti
positivi.
Questa decomposizione si chiama decomposizione di Cholesky.
Dim.:
1} Poniamo t11 = vaii
2) Per j = l, 2, ... , n poniamo t 1j = aij
t11
3) Per i= 2, ... , n sia
msi chiamano autovalori di una matrice quadrata A le n soluzioni dell'equazione det(A-ÀI) = O dove
det(A - >-I) si chiama polinomio caratteristico della matrice.
XXXlV
TTT = [ 16 ~3 ]
-3
[ ; ~ ] [ ~ ~ ] [ :~ 16
-3
-3
5
] da cui
o:2 = 16 ::::}o: = ±4
3
o:(3= ±(34 = -3 ::::}/3= =f 4
,2 ,2 ±-v"7I
+]·
2 9
(3 + = _ + = 5 ::::}'Y =
16 4
h11
Esempio 2: Trovare la matrice H di tipo triangolare alto (H = [ ~
taleche HTH - [ ; : n
HT H - [ ~:: ~:: Ll[t ~::
l
~::
hy 1 = 9; h11h12 = 4; h11h13 = 4 da cui h11 = 3, h12 = ~' h13 = ~
h2
12 + h 222 -
-
9 d a cm. h2 -
22 -
9 - 916 c10e
. ' h 22 -- V{65
9
Vettori
X 7 Y
cos( 0)- ,~,r::;-:
y yX 7 XyY 7 Y
Y,
x,
X X
xry xry
cos 0 = ------ (5)
vxrxyyTy LxLy
dove, per esempio, Lx= Jxy +X§= vxrx.
Infatti
Il vettore Y
Ly cos 0
proiezione
= x;xy per il versore t
si ottiene perciò moltiplicando la lunghezza della proiezione,
che individua il vettore X. Conclusione:
e quindi
xry
b = xTY(XTx)- 1
-------
xrx è uno scalare
xrx·
Pertanto:
XXXVI
(6)
Dal quadrato della distanza del vertice di Y dal vertice di Y si ricava immediatamente 1v
l'importante disuguaglianza di Schwarz che vale per qualunque coppia di vettori:
(7)
Y=Y+e
.-···-:.:···
.•.
IIY- vW ....--····
___
....
e \\I_IY
- Yll1
V
Y-Xb=O
(2,1) (2,1)(1,1) (2,1)
e=Y-Y.
(2,1)(2,1) (2,1)
Y - X b = O (8)
(3,1) (3,2)(2,1) (3,1)
dove:
IV Infatti il quadrato è dato da
IIY-XxTyll2
xrx
(Y-XxTy)T
xrx
= (Y-XxTy)
xrx
= (yr _xTxTy)
xrx
(Y-XxTy)
xrx
(XTY)2 (XTY) 2 (YTY)(XTX)-(XTY) 2
= yTy _ 2---+XTX -- =--~------.Peri nostri scopi basta osservare
xrx xrx xrx
che il numeratore di questa frazione è non negativo, cioè (YTY)(XTX)-(XTY)2 2':O.
v Una soluzione vera e propria b di Y = Xb non esiste se Y non giace sulla retta per X.
XXXVll
3 3
L(Yi - b1x1- b2x~)2::;
L(Yi - b1x1- b2x~)2,
i=l i=l
Y-Xb=O
(n,l) (n,r)(r,l) (n,l)
i=l i=l
V 1Vale il seguente:
Lemma 0.8.16 Le colonne della matrice X sono linearmente indipendenti se e solo se la matrice
(n,r)
XTX è invertibile.
(r,r)
Va : ( X a
(n,r)(r,1)
f ((n,l)
Y - X b )=O
(n,r)(r,l)
oppure
xT y - xT X f, = o
(r,n)(n,1) (r,n)(n,r)(r,1) (r,1)
e quindi
(xrx)-1xr Y = f, (9)
(r,r) (r,n)(n,l) (r,1)
1
1 ~l[!!]-[;
~1 ]
XXXlX
1
Si conclude che b- 1
= 49 [ _10
1 1
rango(P) = dim V.
Si vede facilmente che P è idempotente, infatti (vedi 4)
H = H 2 = HT (10)
Teoremino 0.8.20 Ogni vettore Y E IRn si può scrivere in modo unico nella forma
~ _j_
Y=Y+e, YEV,eEV.
Generalizzazione
Possiamo generalizzare supponendo che i sottospazi vettoriali ortogonali in gioco siano
più dei due precedenti, V e V_!_.Ipotizziamo che siano per esempio tre, Vi, Vi, Vi (ma la
generalizzazione a k è ovvia), tra loro ortogonali, cioè tali che
Gli operatori Pi, P2, P3 che a Y associano i vettori Y 1, Y 2, Y 3 sono i proiettori ortogonali
sui tre sottospazi, e risulta
Esempio 0.8.21 Siano Vi, ... , Vk k spazi vettoriali di JRn tali che Vi abbia vettori con
le prime r 1 componenti diverse da O, Vi con le seconde r 2 componenti diverse da O, ½
abbia j- esime rj coordinate diverse da O,... , VK con le k- esime rk coordinate diverse
da O (r 1 + r 2 + · · · + rk = n) sia cioè:
V1 = (Y1,... ,Yn,,O, ............................................................ ,O)'
V2 = (O, ......... ,O,yn,+I,···,Yn,+n 2,0, ....................................... ,0)'
nAi = A -
1
u1 [A - Ai]
(X)
Definizione 0.9.3 Sia A una a-algebra e JR*= JRU{-oo} U { +oo} e sia µ : A -+JR*.
µ è una misura su A se µ ~ O e se data una successione A 1 , A 2 , .. di elementi di A
(X) (X)
a due a due disgiunti (cioè Vi,j; i =I-j; AiAj = 0) allora µ[U Ai] =
1
I:1 µ[Ai], cioè è
u-additiva.
xli
Definizione 0.9.4 Ogni misura P A ---+JR+ tale che P[O] 1 è detta misura di
probabilità.
Non insisteremo sulla definizione A-misurabilità perché ciò esula dagli scopi di questo
corso. Ma ci piace parlare di funzione misurabile perché è semplice e serve ad abituarsi
a un linguaggio più avanzato. Ci basterà conoscere il seguente:
Esempio 0.9.9 Una g : JR ---+JR+ è detta B-misurabile (cioè misurabile rispetto alla
a-algebra dei Borelliani di JR) se g- 1 (B) E B per ogni insieme di Borel di JR*. In
particolare è possibile veri.ficare che se g è continua allora è B-misurabile.
Definizione 0.9.17 Dato uno spazio di probabilità (O, A,P) e una successione {Xn} di
funzioni misurabili Xn : O ---+JR* diciamo che {Xn} converge in probabilità a X : O ---+JR*,
X se Vs> O, lim P[w: IXn(w) - X(w)I ~ s]
X misurabile, e scriviamo Xn '.E+ = O.
n---++oo
Esempio 0.9.18 Sia O= [O,l] e A la CJ-algebra B dei Borelliani di [O,l]. Sia P la mi-
sura di probabilità uniforme in [O,l] cioè se I= [a, b] e [O,l], P[I] = b- a. Consideriamo
la va Vw E O, Xn(w) = w + wn. Se w E [O,1), lim Xn(w) = O mentre lim Xn(l) = 1.
Xn converge puntualmente
n-= n-=
a O tranne che sull'evento elementare {l} che ha probabilità
O. Allora Xn ---+O su O
qc
= [O,l], dove per O si intende la va degenere che vale O con
probabilità l.
VIII Attenzione: i grafici delle funzioni in figura sono i grafici delle funzioni variabili aleatorie da
Sì---->[O,1]. Non siamo abituati a rappresentare le va in questo modo. Non si confondano perciò i grafici
delle funzioni va con i grafici delle loro fd.
xliii
-
solo liminf Xj(w) = O e limsupXj(w) 1. C'è dunque convergenza in probabilità ma
non convergenza quasi certa 1X
El,
/,-!---.
'i
-
1.--.
I :
1/1 ù}
Jr-= I
7;
r---:
1/2
}
(,J
-
I f"1
1-,J
0
1d2li
i-.,;_
,
....
, ...
, ...
111'
T;;t
"'
I o
~
I,-:
;;iJn,t;i
!...
, ....,,0,..,,..., ..... i ..,,
, '""'""''T.,.,
...
<o
'"
,...,....,.,
m
T.,.,
... ~
, ....,,,
1
, "
/
(r-lJli'
/::
'.,) ji.:'T"
~m
rd'
, ~~,
lii
i i i
i
2dT.1d
"'
i·.
I,-:
i
,,,
IO
, lri" ,.......
O}
1
d ~i ~;i
,...,...,...,...,....,...,...,
:,
I !""
Oss. 10 Se an ~ O=} 'ì!kSk ::; Sk+l cioè {Sk} è monotona non decrescente. In questo
caso la serie o converge o diverge.
IX Si osservi che Vj, Xj è una va di Bernoulli tale che, se 2 + 2 2 + 23 + · · · + 2n-l <j :CC::2 + 2 2 + 23 +
... + 2n-l + 2n la cui fd è data da:
px(l - p) 1 -x X= O 1 1
Px.(x·p)= { ' =pxql-xJ{ }(x) conp=-el-p=q.
J ' O altrove O,l ' 2n
È perciò evidente che _lim Px. (x; p)
J---tCX) J
= O quindi Xj converge in legge alla va degenere X= O
xliv
Criterio del confronto: Sia "in ~ n, O ::; an ::; bn. Allora I: an ::; I: bn e si dice che
Ì: an è minorante della serie Ì: bn o che Ì: bn è maggiorante di Ì: an.
a) se Ì: an diverge ::::}Ì: bn diverge;
b) se Ì: bn converge ::::}Ì: an converge.
Criterio del rapporto: Se "in ~ n, O ::; an lim an+i = À < l ::::}la serie converge.
n---+oo an
Criterio della radice: Se "in ~ n, O ::; an lim n y<I;; = À < l ::::}la serie converge.
n-oo
Ricordiamo il limite notevole: nfa --+ l; infatti: ln n 1 1n = lnn ----+ O. Questo
n-+oo n n-+oo
implica, per esempio, che il criterio della radice non funziona con la serie armonica.
Vnbn ~ O
La Ì:6 00
converge se: { 'vnn+lbn ~ bn+l
(-l)nbn
bn --+ O per n --+ +oo
Associando o commutando tra loro un numero .finito di addendi la sene non cambia
carattere e valore.
In generale associando o commutando un numero infinito di addendi di una serie questa
può cambiare valore e carattere. Per le serie a termini non negativi ciò non accade e
valgono le proprietà associativa e commutativa. Per le serie a termini di segno qualunque
ciò non è in generale vero. Per esempio questa serie:
f
n=O
(-l)nbn = { (l_- 1) + (1 - 1) + .. =O se ~~plico l_aproprietà associativa
mvece non converge perche 11termme generale non --+ O
Definizione 0.10.5 Si dice che una serie a termini di segno qualunque ì:=an converge
assolutamente se converge la serie a termini positivi Ì: lan I-
0.12 La funzione r
È una delle funzioni importanti della matematica ed è così definita:
E[X] = roo(1-
lo Fx(x))dx -
10
-oo Fx(x)dx (16)
lim J; xfx(x)dx
Integrando per parti si ha: =
b-+oo
= lim {bFx(b) - J; Fx(x)dx} = lim {-b(l - Fx(b)) + J;(l - Fx(x))dx}
b-+oo b-+oo
al!f!l-t
00 xfx (x)dx = al!f!l-{-aFx
00 (a) - J~ Fx (x)dx}
= J0+ 00
(1- Fx(x))dx - t 00 Fx(x)dx•
Oss. 11 La formula 16 esprime il fatto che la media di X è l'area della zona segnata in
figura.
d
-F(x) =
1b(x) f(x,y)dy
Ò
7., + b'(x)f(x, b(x)) - a'(x)f(x, a(x)) (17)
dx a(x) uX
z
_______ r( x,y)
d
F'(x) = -F(x)
dx
= Jd-;::;-f(x,y)dy
ux
e
8
Oss. 15 Per il calcolo delle derivate della funzione generatrice di momenti m(t) bisogna
applicare il teorema di derivazione sotto il segno di integrale, caso a(x) = c e b(x) = d,
dove però d = +oo e c = -oo. L'integrale è un integrale generalizzato, ma il teorema,
sotto opportune ipotesi, continua a valere.
T={ u=u(x,y)
v =v(x,y)
Teorema 0.16.1 Una trasformazione regolare T è localmente invertibile, cioe per ogni
punto (x 0 , y 0 ) in cui lo Jacobiano è diverso da O, esiste tutto un intorno di (x 0 , y 0 ) dove
la corrispondenza tra tale intorno e la sua immagine è biunivica e quindi invertibile.
Inoltre la trasformazione inversa
y-1 = { x =x(u,v)
y =y(u,v)
è anch'essa regolare e il determinante Jacobiano dell'inversa è
Vs: - l n
2 L1
Dn i=l {x:lx-µilè'.,Dn}
(x - µ;)2dFi(x)----+ O per n----+ oo (18)
Allora:
Oss. 2: È facile anche mostrare che se le Xi sono vengono da un numero finito, diciamo
s, di diverse aleatorietà la 18 è vera. Infatti in questo caso prese le prime n va Xi della
successione si ha:
Inoltre: {x: lx - µil ~ Wmaxfa} ç {x: lx - µil ~ sDn} ç {x: lx - µil ~ Wminfa} l
0 quando n --+ oo.
::; -;-
namin
{n1 I:':'~
t-
1 f{ X, ·IX _ µ1 I>
_E
Dn }(x - µ 1)2dF1(x) + ...
::;-2- n1 '-'n 1
1 { -L..i-1 J{·I_ I> . fa}(x-µ 1)2dF1(x)+ ...
an1in n - X. X µ1 _E<Tmm n
ns '-'ns
... +-L..i-1
n -
J{·I_
X.X µ8 I> . e} (x-µ
_EO"'mmVn 3
)2dF 8 (X )} •
n·
Poiché al più _: ----+ 1 se n ----+ oo e poiché ogni addendo tende a O segue la 18.
n
0.18 Correlazioni bizzarre
Il famoso caso delle cicogne di Oldenburg
Secondo Ornithologische Monatsberichte, 44 No 2, Jahrgang, 1936, Berlin; Ornithologi-
sche Monatsberichte, 48 No 1, Jahrgang, 1940, Berlin e Statistiches Jahrbuch Deutscher
Gemeinden, 27-33, Jahrgang, 1932-1938 - Gustav Fischer, Jena, la popolazione delle ci-
cogne nella piccola città tedesca di Oldenburg e la popolazione degli abitanti della stessa
città (espressa in migliaia), dal 1930 al 1936, hanno avuto l'andamento espresso dalla
seguente tabella.
80
70
•
60
popolazione di 50
Oldenburg
40
30
10
y = ax + h = 0.1947x + 26.042 R 2 = 0.90028
IO
o
130 140 150 160 170 180 190 100 210 210 230 240 250
cicogne
A lato:
la celebre Migrant Mother di Dorothea Lange,
una delle icone fotografiche più espressive
della Grande Depressione, ritrae Florence
Owens Thompson, 32 anni, madre di sette figli.
Nipomo, California, Marzo 1936.
È Literary Digest, un settimanale americano con milioni di lettori, a entrare nella storia
come autore di uno dei più clamorosi errori di previsione commessi in statistica. Prima
delle elezioni del 1936, la capacità previsionale del settimanale godeva di un'ottima fama.
Il Digest aveva infatti centrato i polls nelle elezioni del 1916, '20, '24, '28, e '32.
Siamo al mese di novembre 1936. Il settimanale spedisce 10 milioni di questionari (rice-
vendo 2.4 milioni di risposte, un numero enorme, considerato che oggi si fanno previsioni
accurate con campioni di dimensione 1500), in cui chiede ai cittadini di esprimere la
propria preferenza di voto. L'esito è 57% per Landon e 43% per FDR. L'esito finale fu
invece 62.5% per Roosevelt 37.5% per Landon.
Come è stato possibile un errore così clamoroso? È la scelta del campione a spiegarlo. I
questionari furono infatti inviati ai lettori del Digest, un elettorato storicamente favore-
vole ai Repubblicani, e a un elenco di altri nomi ricavati dal registro dei proprietari di
automobile e dall'elenco telefonico. Non si era tenuto conto del fatto che, sia l'automobi-
le, sia il telefono, appartenevano a un ceto ricco, sia per ragioni storico-economiche (non
si era ancora sviluppato un mercato di massa di questi due beni), sia a causa della crisi
del '29 che aveva costretto molti cittadini della Middle Class a rinunciarvi. Lo scandalo
provocato da questo errore portò alla chiusura del settimanale e all'assorbimento della
redazione in quella di un altro settimanale che esiste ancora oggi, Time.
Gallup, un altro pollster, aveva invece previsto 55.7% per Roosevelt intervistando "solo"
lii
50mila persone. Nella tabella qui sotto le performance di Gallup nelle elezioni americane
dal 1936 al 1996.
Come si vede le elezioni del '36 rappresentano uno degli scarti più grandi nelle previsioni
di questo famoso pollster. Seguono lo scarto delle elezioni del 1992 e, soprattutto, quello
delle elezioni del '48, che vedevano il governatore repubblicano di New York, Thomas
Dewey versus Harry Truman, diventato il candidato democratico dopo la morte di Roo-
sevelt. In questo caso Gallup sbagliò clamorosamente assegnando la vittoria a Dewey
55.5% contro 44.5%.
liii
La previsione di Gallup (e di altri pollster come Elmo Roper) portò alcuni quotidiani
americani ad annunciare la vittoria di Dewey nelle prime edizioni del mattino. Una delle
più famose fotografie della storia mostra il neo presidente Truman che esibisce il Chicago
Daily Tribune, con un titolo a 8 colonne "Dewey Defeats Truman."
In queste elezioni Gallup utilizzò il metodo di campionamento per quote, che con-
siste nel creare un campione dove gli intervistati non sono scelti "casualmente" ma ri-
spettando le proporzioni di certi gruppi sociali, individuati a priori nella popolazione.
Per esempio se interessano le donne e queste rappresentano l'x% della popolazione, nel
campione ci deve essere l'x% di donne; se interessano i neri e se c'è l'y% di neri nella po-
polazione, il campione deve prevedere l'y% di neri, se interessano coloro che guadagnano
più di 500mila dollari l'anno e se lo z% della popolazione guadagna più di 500mila dollari
l'anno, nel campione ci deve essre lo z% di individui che guadagna più di 500mila dollari
l'anno, eccetera.
hai scelto una busta I hai scelto una busta ha i scelto la busta
vuota j vuota con 100 euro
~~
~I
tieni la busta I camb i la busta
no n vinc i
da cui è facile capire che la strategia che maggiori probabilità di vittoria è quella di
cambiare sempre la scelta iniziale.
La legge di Bayes
La risposta esatta al problema del test clinico proposto alla fine del capitolo 3 è la c). Lo
si vede immediatamente dopo aver formalizzato il problema.
Siano: M={il paziente è malato}, S={il paziente è sano}, T p={il test è risultato positi-
vo}, Tn={il test è risultato negativo}. Sono dati:
liv
a) l'affidabilità del test cioè P[TplM] = 0.99;
b) La frequenza media della malattia, nella popolazione da cui proviene il paziente, cioè
P[M] = 0.01.
È richiesto di calcolare P[MITp]- Per il teorema di Bayes si ha:
P[MIT.] _ P[TplM]P[M]
P - P[TplM]P[M] + P[TplS]P[S]
Poiché P[S] = 1-P[M] si vede che per eseguire i conti manca P[TplS]. Questo mi induce
a pensare che tutti coloro che hanno dato una risposta errata al quesito in questione
siano stati fuorviati dal definire P[TplM] "affidabilità" del test. Infatti il test è affidabile
sia quando risulta positivo nel caso di malattia (caso questo quantificato da P[TplM])
sia quando risulta negativo in caso di assenza di malattia (caso questo quantificato da
P[TnlS] = 1 - P[TplS]) che è il dato che ci manca. La probabilità che un paziente
sia effettivamente malato se risulta positivo al test non è perciò influenzata solo dalle
volte che il test non sbaglia analizzando un malato, ma anche dalle volte che non sbaglia
analizzando una persona sana come mostra la seguente tabella:
I dati di questa tabella mostrano come il risultato del test su un paziente sia poco signi-
ficativo (solo 3,8% di probabilità che un paziente risultato positivo al test sia veramente
malato) nel caso che la malattia sia poco diffusa (1% della popolazione è malato) e che
il test sbagli spesso con i pazienti sani (test positivo con un paziente sano nel 20% dei
casi). Inoltre la riga (*) mostra che le volte che il test sbaglia è meno influente se la
popolazione è malata in percentuale significativa (10%).
I dati di riga (~) sono riportati in un articolo fondamentale di R.E.Snyder del 1966
riguardante l'effettivo potere diagnostico della mammografia nell'individuare un tumore
maligno.
lv
N(O; 1)
, - quantile q,- ('Y) Xn ('Y)
1000:-esimo punto percentile Xa n
Più precisamente, per quanto riguarda la normale N(O; 1) si ha:
normale
Cioè:
test bilatero
quanti li
q,- 1( 9): T = P[N(O ; 1) :e;q,- 1(9)] - 1 e-P):
<I> q.i = P [N(o; 1) :e;<1>
- 1 (q.i) J
- Zo.;2 : *
punti percenti li
= P [N(O; 1) :e;- Zo.;2] Zo.;2 : * = P[N(O ; 1)?: Za;2 ]
-1 1+, -1 1+,
-Za/2 = -4> (- 2 -); Za/2 = 4> (- 2 -)
mentre
test coda dx
quantili q,-'(,): 'Y= P[N(O; 1) :e;q,-'('Y)]
punti percentili Za : O:= P[N(O; 1)?: Za]
lvi
test coda sx
quantili <J?-1 (1 - 'Y)= -<J?- 1 (')') /\ 1- ')' = PlN(O; 1)::; -<J?- 1 (')')]
punti percentili -Za : O:=PlN(O; 1) ::; -ZaJ
cioè
t-student
1a.n- l
chi-quadrato
2 1-r 2 i+r
Xn-,(- 2- ) Xn-iC- 2- )
2 2
X1-a12.n- 1 Xa12,n-I
r--J<l>-'(y)
-
1
~e
-v2n
-x 2tcr2
dx a= J- --e-x
z. En
1 2
kT
2
dx
X .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0.1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753
0.2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0.3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0.4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
0.5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224
0.6 7257 7291 7324 7357 7389 7422 7454 7486 7517 7549
0.7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852
0.8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133
0.9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389
1.0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621
1.1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830
1.2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015
1.3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177
1.4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319
1.5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441
1.6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545
1.7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633
1.8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706
1.9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767
2.0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817
2.1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857
2.2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890
2.3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916
2.4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936
2.5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952
2.6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964
2.7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974
2.8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981
2.9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986
3.0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990
3.1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993
3.2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995
3.3 9995 9995 9995 9996 9996 9996 9996 9996 9996 9997
3.4 9997 9997 9997 9997 9997 9997 9997 9997 9997 9998
i 3.5 999865 i 4.o I 9999683 i 4.5 I 9999966 I 5.o I 99999971 I
X 1.282 1.645 1.960 2.326 2.576 3.090 3.291 3.891 4.417
<I>(
x) .9 .95 .975 .99 .995 .999 .9995 .99995 .999995
<1>(
-x) .1 .05 .025 .01 .005 .001 .0005 .00005 .000005
2<I>(x)- 1 .8 .9 .95 .98 .99 .998 .999 .9999 1
2-2if?(x) .2 .1 .05 .02 .01 .002 .001 .0001 o
lviii
Appendice 3 - t-Student
-Jx" 2(
r ____
) x<n-2)/2e-x/2
dx
r- - 2"12r(n / 2)
df x;,(·) x;,(-) x;,(-) x;,(·) x;,(-) x;,(·) x;,(·) x;,(-) x;,(·) x;,(·)
n 0.005 0 .01 0 .025 0.05 0.1 0.9 0.95 0.975 0.99 0.995
1 ,0 4 393 .0° 157 .0 ° 982 .0 "393 0.0158 2.71 3.84 5.02 6.63 7.88
2 0.01 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.2 1 10.6
3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.3 12.8
4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.l 13.3 14.9
5 0.412 0.554 .831 1.15 1.61 9.24 11.1 12.8 15.1 16.7
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.4 16.8 18.5
7 0.989 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.7 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 16.9 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.57 5.58 17.3 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.5 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.89 7.04 19.8 22 .4 24.7 27.7 29.8
14 4.07 4 .66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
df x;,(·) x;,(·) x;(-) x;,(·) x;,(-) x;,(·) x;,( ·) x;,(-) x1,(·) x;,(·)
n 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0 .99 0 .995
16 5.15 5.81 6.91 7.96 9.31 23.5 26.3 28.8 32 .0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 32.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34 .8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36 .2 38 .6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.4 34.2 37.6 40.0
21 8.03 8.89 10.3 11.6 13.2 29.6 32.67 35.5 38 .9 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40 .3 42.8
23 9.26 10.2 11.7 13.1 14.8 32 .0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.8 15.7 33.2 36.4 39.4 43 .0 45.6
25 10.5 11.5 13.1 14.6 16.5 34. 4 37.7 40.6 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45 .6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.6
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48 .3 51.0
29 13.1 14.3 16.0 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50 .9 53.7
lx
Appendice 5/1 - Poisson
....
Ffl~~: ; -1-~.......-..........---1--~.--,T---r-T---r-T---r-T•
--i-- .....
4 6 7 8 9
h"--_>. .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
o .9048 .8187 .7408 .6703 .6065 .5488 .4966 .4493 .4066 .3679
1 .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679
2 .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839
3 .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613
4 .0001 .0002 .0007 .0016 .0030 .0050 .0077 .0111 .0153
5 .0001 .0002 .0004 .0007 .0012 .0020 .0031
6 .0001 .0002 .0003 .0005
7 .0001
h"--_>. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
o .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353
1 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902
5 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361
6 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120
7 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034
8 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009
9 .0001 .0001 .0001 .0002
h"--_
>. 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
o .0821 .0498 .0302 .0183 .0111 .0067 .0041 .0025 .0015 .0009
1 .2025 .1494 .1057 .0733 .0500 .0337 .0225 .0149 .0098 .0064
2 .2565 .2240 .1850 .1465 .1125 .0842 .0618 .0446 .0318 .0223
3 .2138 .2240 .2158 .1954 .1687 .1404 .1133 .0892 .0688 .0521
4 .1336 .1680 .1888 .1954 .1898 .1755 .1558 .1339 .1118 .0912
5 .0668 .1008 .1322 .1563 .1708 .1755 .1714 .1606 .1454 .1277
6 .0278 .0504 .0771 .1042 .1281 .1462 .1571 .1606 .1575 .1490
7 .0099 .0216 .0385 .0595 .0824 .1044 .1234 .1377 .1462 .1490
8 .0031 .0081 .0169 .0298 .0463 .0653 .0849 .1033 .1188 .1304
9 .0009 .0027 .0066 .0132 .0232 .0363 .0519 .0688 .0858 .1014
10 .0002 .0008 .0023 .0053 .0104 .0181 .0285 .0413 .0558 .0710
lxi
Appendice 5/2 - Poisson
h"--._
).. 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
11 .0002 .0007 .0019 .0043 .0082 .0143 .0225 .0330 .0452
12 .0001 .0002 .0006 .0016 .0034 .0065 .0113 .0179 .0264
13 .0001 .0002 .0006 .0013 .0028 .0052 .0089 .0142
14 .0001 .0002 .0005 .001 1 .0022 .0041 .0071
15 .0001 .0002 .0004 .0009 .0018 .0033
16 .0001 .0003 .0007 .0014
17 .0001 .0003 .0006
18 .0001 .0002
19 .0001
lxii
Il Tavoledella FisherIl
ì O:
0.75 0.25
0.9 0.1
0.95 0.05
0.975 0.025
0.99 0.01
Come funzionano
Le righe verdi contengono i valori del primo pedice n (gradi di libertà del numeratore)
mentre quelle gialle i valori del secondo pedice m (gradi di libertà del denominatore).
Ragioniamo per esempio in base ai quantili. Prendiamo la pagina con ì = 0.95 (nella
quale ci sono anche i 100-a punti percentili per a = 1 - ì = 0.05). Il ì-quantile della
Fn,m si trova all'incrocio della riga per n con la riga per m. Se n = 10 e m = 15 si ha
F--y=0.95,10,15 = 2.54. Si noti che F--y=0.95,10,15 = 2.54 = Fa=0.05,10,15·
,.,_ >
-' " Il >e
1 2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 IE+lO >e
I 5.83 7.50 8.20 8.58 8.82 8.98 9.10 9.19 9.26 9.32 9.4 1 9.49 9.58 9.63 9.67 9.71 9.76 9.80 9.85 ~ (T)
.'.:l :::::
2 2.57 3.00 3.15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
wli ~
3 2.02 2.28 2.36 2.39 2.4 1 2.42 2.43 2.44 2 .44 2.44 2.45 2.46 2.46 2.46 2 .47 2.47 2.47 2.47 2.47 .,,. ....
4 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2 .08
n
(T)
5 1.69 1.85 1.88 J.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87 .'.:l
is
NIO ~
6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74 ;i 1 ---..._
wJ_,::S I-'
7 1.57 1.70 1.72 1.72 1.71 1.71 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65 '
~
8 1.54 1.66 1.67 J.66 1.66 1.65 1.64 1.64 1.63 1.63 J.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58 + ~
a ....
'è [/J
9 1.51 J.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 I .58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 I.SI 1.50 1.49 1.48
....
'"I
12 1.46 1.56 1.56 1.55 154 I .53 I .52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
....
O"
l i::
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.41 1.40 1.39 1.38 1.37 1.36
N
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29 ....
24 1.39 1.47 1.46 J.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
* o
:::::
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 126 1.24 1.23 (T)
40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.31 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19 ,rj
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 J.27 1.25 1.24 1.22 1.21 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 1.33 1.3 1 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 I.IO
lE+lO 1.32 1.39 1.37 1.35 1.33 1.3 1 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
~ [fliJfl
I 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE +lO
1 5.83 7.50 8.20 8.58 8.82 8.98 9 .10 9. 19 9.26 9.32 9.4 1 9.49 9.58 9.63 9.67 9.7 1 9.76 9 .80 9 .85
2 2.57 3.00 3. 15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
3 2.02 2.28 2.36 2.39 2.4 1 2.42 2.43 2.44 2.44 2.44 2.45 2.46 2.46 2.46 2 .47 2.47 2.47 2.47 2.47
4 1.81 2.00 2.05 2.06 2.07 2 .08 2.08 2.08 2 .08 2.08 2.08 2.08 2.08 2.08 2 .08 2.08 2.08 2.08 2.08
5 1.69 1.85 1.88 1.89 1.89 1.89 1.89 J.89 1.89 J.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87 Q
Il
6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74
f' T
7 1.57 1.70 1.72 1.72 1.7 1 1.7 1 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65
8 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.64 1.63 J.63 1.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58
-
9 1.51 1.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 1.51 1.50 1.49 1.48
12 1.46 1.56 1.56 1.55 1.54 I .53 I .52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.4 1 1.40 1.39 1.38 1.37 1.36
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29
24 1.39 1.47 1.46 1.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 1.26 1.24 1.23
40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.3 1 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 1.27 1.25 1.24 1.22 1.2 1 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 I .33 1.31 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 I .IO
IE+IO 1.32 1.39 1.37 1.35 I .33 1.3 1 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
I !.
I 2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 IE+IO
I 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.7 1 6 1.22 61.74 62.00 6226 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.4 1 9.42 9.44 9.45 9 .46 9.47 9 .47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5. 18 5.18 5 .17 5. 16 5.15 5.14 5.13
4 4.54 4.32 4.19 4 .11 4.05 4.0 1 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.2 1 3.19 3.17 3. 16 3.14 3. 12 3.IO
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2 .80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47
8 3.46 3. 11 2.92 2.8 1 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.8 1 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 225 2.23 2.21 2. 18 2.16
IO 3.29 2.92 2.73 2.6 1 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2 .16 2.13 2.11 2.08 2.06
12 3. 18 2.8 1 2.6 1 2.48 2.39 2.33 2.28 2.24 2.2 1 2 .19 2.15 2.IO 2.06 2.04 2.0 1 l.99 l.96 1.93 l. 90
15 3.07 2.70 2.49 2.36 2.27 2.2 1 2.16 2.12 2.09 2.06 2.02 l. 97 l.92 l. 90 1.87 1.85 1.82 l.79 l.76
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 l.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61
24 2.93 2.54 2.33 2. 19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46
40 2.84 2.44 2.23 2.09 2.00 l.93 l. 87 1.83 l.79 1.76 1.71 l. 66 l.6 1 1.57 1.54 l. 51 l. 47 l.42 l. 38
60 2.79 2.39 2.18 2.04 l.95 l.87 1.82 l.77 1.74 1.71 1.66 l.60 l.54 1.51 1.48 l.44 l.4 0 1.35 l.29
120 2.75 2.35 2.13 1.99 l.90 l.82 1.77 l.72 l.68 1.65 l.60 l.55 l.48 1.45 1.41 l. 37 l. 32 1.26 1.19
lE+lO 2.71 2.30 2.08 1.94 l.85 l.77 1.72 1.67 l.63 1.60 1.55 1.49 l.42 1.38 l.34 l.30 l.24 1.17 1.00
~ .,..,P,
2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE+IO
1 161.45 199.50 215.71 224.58 230. 16 233.99 236.77 238.88 240.54 24 1.88 243 .9 1 245 .95 248.0 1 249.05 250.10 251.14 252 .20 253.25 254.31
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.4 1 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.8 1 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6 .94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.% 5.9 1 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5. 19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5. 14 4.76 4.53 4.39 4.28 4.2 1 4 .15 4 .10 4 .06 4.00 3.94 3.87 3.84 3.8 1 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.5 1 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3 .44 3.39 3.35 3.28 3.22 3. 15 3. 12 3.08 3.04 3.0 1 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3 .23 3.18 3. 14 3.07 3.0 1 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.% 4.10 3.71 3 .48 3.33 3 .22 3 .14 3 .07 3 .02 2.98 2.9 1 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
12 4.75 3.89 3.49 3.26 3. 11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
15 4.54 3.68 3.29 3.06 2.90 2.79 2.7 1 2.64 2.59 2.54 2.48 2.40 2.3 3 2.29 2.25 2.20 2.16 2.11 2.07
20 4.35 3.49 3. 10 2.87 2 .7 1 2.60 2.5 1 2.45 2.39 2.35 2.28 2.20 2. 12 2.08 2.04 1.99 1.95 1.90 1.84
24 4.26 3.40 3.01 2.78 2.62 2.5 1 2.42 2.36 2.30 2.25 2. 18 2. 11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.2 1 2.16 2.09 2.0 1 1.93 1.89 1.84 1.79 1.74 l. 68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2 .18 2 .12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3. 15 2.76 2.5 3 2.37 2 .25 2 .17 2.10 2 .04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2 .18 2 .09 2 .02 1.% 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
lE+ l0 3.84 3.00 2.60 2.37 2.2 1 2. 10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 IE+ IO
1 647.79 799.50 864. 16 899.58 92 1.85 937. 11 948.22 956.66 %3.28 %8.63 976.71 984.87 993. 10 997.25 1001.41 1005.60 1009.80 1014.02 1018.23
2 38.51 39.00 39. 17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.5 1 8.46 8.4 1 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6 .68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6. 12 6.07 6 .02
6 8.81 7.26 6 .60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5 .37 5.27 5.17 5.12 5.07 5.0 1 4.% 4.90 4 .85
7 8.07 6.54 5 .89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.4 1 4.36 4.3 1 4.25 4.20 4. 14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.7 1 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.% 3.87 3.77 3.67 3.6 1 3.56 3.5 1 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.3 1 3.26 3.20 3. 14 3 .08
12 6.55 5. 10 4.47 4. 12 3.89 3.73 3.61 3.5 1 3.44 3.37 3.28 3.18 3.07 3.02 2.% 2.9 1 2.85 2.79 2.72
15 6.20 4.77 4 .15 3.80 3.58 3.4 1 3.29 3.20 3. 12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
20 5.87 4.46 3.86 3.5 1 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2 .46 2.41 2.35 2.29 2.22 2.16 2.09
24 5 .72 4.32 3.72 3.38 3. 15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2. 15 2.08 2.01 1.94
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.5 1 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.0 1 1.94 1.88 1.80 1.72 l. 64
60 5.29 3.93 3.34 3.0 1 2.79 2.63 2.51 2.4 1 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 5. 15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
IE+ I O 5.02 3.69 3. 12 2.79 2.57 2.4 1 2.29 2. 19 2. 11 2.05 l. 94 1.83 l. 71 1.64 1.57 1.48 1.39 1.27 1.00
~2 3 4 5 6 7 8 9 IO 12 15 20 24 30 40 60 120 lE+IO
1 647.79 799.50 864 .16 899.58 92 1.85 937 .11 948.22 956.66 %3.28 %8.63 976.71 984.87 993. 10 997.25 1001.41 1005.60 1009.80 1014.02 1018.23
2 38.51 39.00 39 .17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39 .45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.5 1 8.46 8.4 1 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7. 15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6 .23 6.18 6. 12 6.07 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5,07 5.0 1 4.% 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5. 12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.4 1 4.36 4.3 1 4.25 4.20 4. 14
8 7.57 6.06 5 .42 5 .05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4. 10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7 .21 5.7 1 5 .08 4.72 4.48 4.32 4.20 4.10 4.03 3.% 3.87 3.77 3.67 3.61 3.56 3.5 1 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3. 14 3.08
12 6.55 5. 10 4.47 4.12 3.89 3.73 3.61 3.5 1 3.44 3.37 3.28 3.18 3.07 3.02 2.% 2.9 1 2.85 2.79 2.72
15 6.20 4.77 4. 15 3.80 3.58 3.4 1 3.29 3.20 3. 12 3.06 2.% 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
20 5.87 4.46 3.86 3.5 1 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2 .46 2.4 1 2.35 2.29 2.22 2. 16 2 .09
24 5.72 4.32 3.72 3.38 3. 15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.2 1 2. 15 2 .08 2.0 1 l. 94
30 5.57 4. 18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.5 1 2 .4 1 2.3 1 2.20 2. 14 2.07 2.0 1 1.94 l. 87 1.79
40 5.42 4.05 3.46 3. 13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.0 1 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.0 1 2.79 2.63 2.51 2.4 1 2.33 2.27 2. 17 2.06 l. 94 l.88 1.82 1.74 1.67 1.58 1.48
120 5. 15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 l.76 1.69 1.61 1.53 1.43 1.3 1
lE+IO 5.02 3.69 3. 12 2.79 2.57 2.4 1 2.29 2.19 2. 11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
,u, ,. ......
I
-1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 lE+IO
1 4052.18 4999.50 5403.35 5624.58 5763.65 5858.99 5928.36 5981.07 6022.47 6055.85 6106.32 6157 .28 6208 .73 6234 .63 6260.65 6286 .78 6313.03 6339.39 6365.68
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30 .82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9. 11 9.02
6 13.75 10.92 9.78 9. 15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.3 1 7.23 7. 14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6 .72 6.62 6 .47 6 .3 1 6 .16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6 .37 6.18 6.03 S.91 5.8 1 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4 .86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5. 11 4.% 4.8 1 4.73 4.65 4.57 4 .48 4.40 4.31
lO 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.4 1 4.33 4.25 4.17 4.08 4.00 3.91
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4 .39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3. 13 3.05 2.% 2.87
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2 .94 2.86 2.78 2.69 2.6 1 2.52 2.42
24 7 .82 5.61 4.72 4 .22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.3 1 2.21
30 7.56 5.39 4.5 1 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2 .70 2.55 2 .47 2.39 2.30 2.2 1 2 .11 2 .01
40 7.31 5.18 4.3 1 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2 .66 2.52 2.37 2.29 2.20 2.1 1 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 l.73 l.60
120 6.85 4.79 3.95 3.48 3.17 2.% 2.79 2.66 2.56 2.47 2.34 2.19 2.03 l. 95 J.86 l.76 1.66 1.53 1.38
l E+ l0 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2. 18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
~l mllil 7
2 3 4 5 6 8 9 10 12 15 20 24 30 40 60 120 lE+l0
1 4052.18 4999.50 5403.35 5624.58 5763.65 5858.99 5928.36 5981.07 6022.47 6055.85 6106.32 6157.28 6208.73 6234.63 6260.65 6286.78 6313.03 6339.39 6365.68
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99 .40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.7 1 28.24 27.9 1 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9 .89 9 .72 9.55 9 .47 9.38 9 .29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8. 10 7 .98 7.87 7.72 7.56 7.40 7.3 1 7.23 7. 14 7 .06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.0 1 6.63 6 .37 6.18 6.03 5.9 1 5.8 1 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.6 1 5.47 5.35 5.26 5.11 4.% 4.8 1 4 .73 4.65 4.57 4.48 4.40 4.31
IO 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.7 1 4.56 4.4 1 4.33 4.25 4.17 4.08 4.00 3.9 1
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
15 8.68 6.36 5.42 4.89 4.56 4.32 4 .14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.% 2.87
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2 .52 2.42
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3 .17 3.03 2.89 2.74 2 .66 2.58 2.49 2 .40 2.3 1 2.2 1
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2 .98 2.84 2 .70 2.55 2.47 2.39 2.30 2.2 1 2. 11 2.01
40 7.31 5.18 4 .31 3.83 3.51 3.29 3 .12 2.99 2 .89 2.80 2.66 2.52 2.37 2 .29 2.20 2. 11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3. 12 2 .95 2.82 2.72 2.63 2.50 2.35 2 .20 2.12 2.03 1.94 1.84 1.73 1.60
120 6.85 4.79 3.95 3.48 3.17 2.% 2.79 2.66 2.56 2.47 2.34 2. 19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
IE+IO 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2. 18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
lxviii
Appendice 7 /1 - funzione di Kolmogorov
1 - 1'
n 0.20 0.15 0.10 0.05 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
6 0.410 0.436 0.470 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490
11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.282 0.304 0.338 0.404
16 0.258 0.274 0.295 0.328 0.392
17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356
25 0.210 0.220 0.240 0.270 0.320
30 0.190 0.200 0.220 0.240 0.290
35 0.180 0.190 0.210 0.230 0.270
Ln !_._;g,
n > 35 7n 7n 7n Tn 7n
Per un valore di n < 35 fissato e per un livello 1 - 1' del test, le celle all'incrocio n con
1 - )' contiene i valori ~ con cui i valori osservati d~ vanno confrontati: per esempio
n = 12, 1 - 1' = 0.15 d~ va confrontato con 0.313.
L'ultima riga si riferisce ai valori di n grandi: se n > 35 occorre confrontare d~ con il
valore che si ottiene dividendo i numeratori delle frazioni dell'ultima riga per fa.
La tavola è adattata da: F.J.Massey - The Kolmogorv-Smirnov test far goodness of lit -
J .Am.Stat.Assoc. 46:68- 78, 1951.
lxix
Appendice 7 /2 - quantili di Kolmogorov per normale, quando i parametri
sono ricavati dai dati
La tavola dei quantili 6/1, utilizzata per un test di normalità con il metodo di Kolmogorov-
Smirnov, quando media e varianza della popolazione ipotizzata sono ricavate dai dati,
rispettivamente:
1 - ì'
n 0.20 0.15 0.10 0.05 0.01
4 0.3027 0.32 16 0.3456 0.3754 0.4129
5 0.2893 0.3027 0.3188 0.3427 0.3959
6 0.2694 0.2816 0.2982 0.3245 0.3728
7 0.2521 0.2641 0.2802 0.3041 0.3504
8 0.2387 0.2502 0.2649 0.2875 0.3331
9 0.2273 0.2382 0.2522 0.2744 0.3162
10 0.2171 0.2273 0.2410 0.2616 0.3037
11 0.2080 0.2179 0.2306 0.2506 0.2905
12 0.2004 0.2101 0.2228 0.2426 0.2812
13 0.1932 0.2025 0.2147 0.2337 0.2714
14 0.1869 0.1959 0.2077 0.2257 0.2627
15 0.1811 0.1899 0.2016 0.2196 0.2545
16 0.1758 0.1843 0.1956 0.2128 0.2477
17 0.1711 0.1794 0.1902 0.2071 0.2408
18 0.1666 0.1747 0.1852 0.2018 0.2345
19 0.1624 0.1700 0.1803 0.1965 0.2285
20 0.1589 0.1666 0.1764 0.1920 0.2226
25 0.1429 0.1498 0.1589 0.1726 0.2010
30 0.1315 0.1378 0.1460 0.1590 0.1848
35 0.1220 0.1278 0.1356 0.1478 0.1720
40 0.1147 0.1204 0.1275 0.1386 0.1616
45 0.1083 0.1134 0.1204 0.1309 0.1525
50 0.1030 0.1079 0.1142 0.1246 0.1457
dove
fn = 0.83 +n _ 00
vn .1.
Da Abdi, H.; Molin, P.- Lilliefors test of normality, 2007, che si può scaricare al seguente
indirizzo web: www.utdallas.edu;-herve/ Abdi-Lillie2007-pretty.pdf
lxx
Appendice 7 /3 - quantili di Kolmogorov per esponenziale, quando il para-
metro è ricavati dai dati
La tavola dei quantili 6/1, utilizzata per un test di esponenzialità con il metodo di
Kolmogorov-Smirnov, quando la media della popolazione ipotizzata è ricavate dai dati:
- I:X;
Xn=--
n
deve essere sostituita dalla seguente tavola
1 - 'Y
n 0.20 0.15 0.10 0.05 0.01
3 0.451 0.479 0.511 0.551 0.600
4 0.396 0.422 0.449 0.487 0.548
5 0.359 0.382 0.406 0.442 0.504
6 0.331 0.351 0.375 0.408 0.470
7 0.309 0.327 0.350 0.382 0.442
8 0.291 0.308 0.329 0.360 0.419
9 0.277 0.291 0.311 0.341 0.399
10 0.263 0.277 0.295 0.325 0.380
11 0.251 0.264 0.283 0.311 0.365
12 0.241 0.254 0.271 0.298 0.351
13 0.232 0.245 0.261 0.287 0.338
14 0.224 0.237 0.252 0.277 0.326
15 0.217 0.229 0.244 0.269 0.315
16 0.211 0.222 0.236 0.261 0.306
17 0.204 0.215 0.229 0.253 0.297
18 0.199 0.210 0.223 0.246 0.289
19 0.193 0.204 0.218 0.239 0.283
20 0.188 0.199 0.212 0.234 0.278
25 0.170 0.180 0.191 0.210 0.247
30 0.155 0.164 0.174 0.192 0.226
Il OC curve, tavole Il
O::; À::; 5; (3 = O.l; 0.2; ... ; 0.9; l; n = l, 2, 3, 4, 5, 7, 10, 15, 20, 30, 40, 50, 75, 100
Una OCC si può usare in vari modi. Scelti À e (3 si può trovare n, oppure scelti À e n si
può trovare (3 o, infine scelti (3 e n si può trovare À.
lxxii
Appendice 8/1 - Test bilatero per media di una gaussiana nota la varianza
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
o 2 3 4 5
OCC di N(µ; a 2 ), a 2 nota, test bilatero e a= 0.01 e varie dimensioni n del campione. I
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.1
O.I
o 2 J 4 _;
OCC di N(µ; a 2 ), a 2 nota, test bilatero e a= 0.05 e varie dimensioni n del campione
lxxiii
Appendice 8/2 - Test unilatero per media di una gaussiana nota la varianza
-1 o 2 3 4 5
OCC di N(µ; <J2 ), <J2 nota, test unilatero e a= 0.01 e varie dimensioni n del campione
v.v
' '\\\\ \ \~
11\\\\\ \ \
V.J
-I o 2 3 4 5
OCC di N(µ; <J2 ), <J2 nota, test unilatero e a= 0.05 e varie dimensioni n del campione
lxxiv
Appendice 8/3 - Test bilatero per media di gaussiana ignota varianza
100 ~~~~~~CrT11-11T11-n
0.90t--tt'1~ct--"'<;:-f'~-P""'<;;:-t==""""":b--f--=J=-+,oc:::::::+-+-+--l-----l----+---I
O.BOt--;ll-*ttr\-+~-r~-+-___;~--1f--..=~--+-+--+---+-=::::::, ........,..4_
O.70t-----itt-ii\-t---\--\---\--~:--+--~:---l----i=~+--+---+--'-----l-----1----1
0.60,t--t+t-+"-+--\t++++___:~-l----1~---+--4--~...l.---1--.I---J~___J.--J
0.50t--t-+JH+-\---tr--tt---½--+-.l,c+ - -+--+:~-+--+--~-l------J~--1----I
o 40t--rt+-1H-+rt-+r-+-~+---f-l-..---+--+--+-:1...---1---1---1-~>1--
o.3ot---t---if"-t++--\+--\--l---\-+-*--1--4----+-~c:t--i--........J.---+----I
0.20
O. I O1-- ----,1--___.,+-
OCC di N(µ ; a-2 ), a-2 ignota, test bilatero e cx= 0.01 e vari e dimensioni n del campione
OCC di N(µ ;o-2 ), o-2 ignota, test bilatero e cx= 0.05 e varie dimensioni n del campione
lxxv
Appendice 8/ 4 - Test unilatero per media di gaussiana ignota varianza
, ----- ,..__
1.00
0.90
l ~ r--....---=
:::---.
~~ l'\
.......
"
i--..
0.80
'l'\\\\ \ \ "
0.70 \. Ì',"" ........
', --.......
0.60 i'\. i'... K~ J
\ Ì\.. " ~
""""r--..
0.50
0.40
\,\ \
\
--~\
--~
~""
\
I\
~---
~.
r~'*·~
~·
.- \\ \ ' "-..
0.30
\ \ "'., -
0.20
~~ Ì'-.~:,.
-~
r-- ..........
-
0.10 slj~~ ~ ~
~......,,..__r----..._
osi
Ì'
,._
I',..
i'-- r---
-
o
-0 .8 -0.6-0.4 -0 .2 O 0 .2 0.4 0.6 0.8 1.0
~\..
1.2 1.4
~
1.6 1.8 2.0 2.2 2.4 2.6 2.8
-
3.0 3.2
OCC di N(µ; CJ2 ), CJ2 ignota, test unilatero e a= 0.01 e varie dimensioni n del campione
1.00
--
0.90
o.so ~ ~
~\ ~ ~.......
Ì\\ ~ '
0.70
~1\\
0.60
0.50
""""
'
1\,\ Ì\' \'\.
\ ,\ \ \
0.40
0.30
;:s
Il \\~ \ \ \
"' " '
\
0.10
o
-0 .8-0.6-0 .4-0.2
,~~t
\\
~ "~-2'~~r---
~ "a
~S-~
"
-- -
........r---.....
r--
........
.....__
2.6 2.8 3.0 3.2
--
OCC di N(µ; CJ2 ), CJ2 ignota, test unilatero e a= 0.05 e varie dimensioni n del campione
lxxvi
Appendice 9
Specchio dei legami tra distribuzioni (rielaborazione da Leemis, L.M. (1986)
Relationships among common Univariate distributions. American Statistician 40, 143-
146). Le linee continue indicano uguaglianza, le linee tratteggiate indicano convergenza
in legge.
...
~
-
-e =
(,I
... .-..
::
o .-..
~
=
lo, Q.
._,
=
C)
~ .:i
~ ~
té,
-
lf
Q.
'' r-,
!Il
8
'4
+ -;
'
~
l/ì I
::i..
.....,
~i ·-
e c.
o
,-,
/\I
r-,
?
i::,_
I Il
'-"
~
....
~ ·-
==
~
._, (I)
-o t:
'-'
N
o
' ' s
i= l/ì
/\I
~
' o/) Il
t: ~ :::l.
\
I
\
l/ì
q
o
'
-~
\
VI
(I)
.:i..
-o
?
Il
soJJ o/\I
i=
(',i
~ t: ~
lxxvii
ci )
non un ica se log ') - p è intero
l - qe'
Jvl,n E N
k E N U {O}
ipergeometri ca ---
0:Sk:SM
l:S:n:S:M
~
:><
popolazione parametri fd f(x) E[·] var[·] > g:
>e
uniforme a+b (b-a) 2 >e
a,bE R (T)
b~a I[a,b] (X) -2- 12
continua :::::
~
....
µER - (x-µ) 2 n
(J2 (T)
N(µ, u 2 ) --e1
(J'v2-ir 20'2 µ
u E R+ I-'
I-'
,\ E R+ 1 1
Exp Àe-,\x Ira,+=) (X) >." ""i""2"
(T)
r E R+ À (,\ -ÀXJ ( ) T T
-
r(r, ,\) r(r) x t-1 e [O,+=) x p >e
....
,\ E R+ À .;:,
rAfm(1 n
X~ nEN 2x 2
)'.!!-1 e_1x 1[O,+cx,)(X) 2 n 2n o
t - Student I'[(n+l)/2J . 1 ---1!c_ • (
§
n E N,n > 1 ,hrnr( n/2) f( x2 In )+ll (n+l)/2 o n-2' n > 2) :::::
....
n,mEN r( T )n n/2m ,n/2 x<n-2)/2 m 2m 2(n+m-2) ~
....
[/J
Fnm, [nx+m]<n+1n)/2f[o,+=) (X) m-2 n(m-2) 2(m-4) ....
n 2 l;m 2 1 r(~)r(7~i) '"I
....
O"
popolazione parametri mediana fgm .::
N
....
o
uniforme etb_eta :::::
a,bE R ili ....
continua 2 t(b-a) n
o
µER éµ+½t20'2 a....
N(µ, u 2 ) µ
u E R+ §
ln:l (T)
Exp ,\ E R+ ~
). >.-t
rER+
r(r,À) non ha una forma chiusa semplice ().~tr
,\ E R+
nEN ~ n(l - ():,.)2 (1 - 2t)-n/ 2
X~
t - Student n E N,n >1 o non ::l
n , mEN m 3n-2
,....,----
Fn,m - 3m-2 n
n 2 l;m 2 l
parametro ipotesi pivot le bilatero di livello ry
a 2 nota
campione grande -
µ, via TCL Z- X- µ X± cp-1 (1+1) ...Q_
- <7/./n 2 ./n
campione piccolo
popolazione norma le
a'2 ignota [/J
·I ,,.2
,,.2
> 0-5
< 0-5
~o>
Xo < X1- nn
Ja,n
X5 < Xt - a/2,n- I
,,.2 # 0-5 oppure
,,. 2 = 0-5 µ ignota Xo =
2 (n-O'o
vs ,...,..Xn
22
-l
2 2
Xo2> Xop,n - 1
,,.2 > 0-5 ~O> ~a,n - 1
,,.2 < 0-5 Xo < X1- nn - l
_;
Ho statistica test Ha RC
~ s' aI =a~ Fa < Fa/2,m-1,n-1 V Fo > Fo:/2,n-1,m-l
o µ1 µ2 Fo=~
= O"~
<T!
=o
note o ignote Fo l'-..J Fn-1,m-1 ,,.r> ,,.~ Fa > Fa,n-1,m-l
1
'=
Una popolazione di Bernoulli X,.._, B(l,p)
~
-a·
o
Due popolazioni X _.._,
B (p1) /\ Y rv B (p2) ....
(T)
[/J
.... ....
=
o
....
~
Ho statistica test Ha RCa
~
P.
o1-, - -
P. Po= Xn -Ym ~ N(O, 1) P1-=/=-
P2 IPol> Za/2
o P1 =p2 P1 > P2 Po> Za
Jfi(l - p)(¼+ r!i)
o P1 < P2 Po< -Za
=
~
nXn+mYm
p=
=
ou n+m
[
~
:><
> 8:
>e
>e
(T)
:::::
~
....
n
(T)
I-'
01
.e
.::
~
~
'"I
Tempi d'attesa (TA) o
esponenzial e ~
geometrica binomiale negativa gamma (T)
....
TA del primo successo TA dell'r-esimo successo ....
(T)
in prove bernoulliane in prove bernoulliane 3
TA dell'r -esimo >e
....
ripetute infinite volte ripetute infinite volte in TA del primo
~
in termini di s insuccessi termini di r - 1 successi e evento di Poisson evento di Poisson ~~
[
lxxxiv
Appendice 16/2
Note alla tabella della pagina precedente
(l) Le probabilità e le vincite medie sono calcolate supponendo di giocare su una sola
delle dieci ruote puntando un solo numero per l'ambata, due per l'ambo, tre per la terna,
quattro per la quaterna e cinque per la cinquina (giocata secca). Probabilità e vincite
medie calcolate giocando sulle dieci ruote non subiscono variazioni sostanziali rispetto
alle cifre qui fornite.
( 2 ) Per le Lotterie i premi sono noti a priori ma non le probabilità di vincere, che
dipendono dal numero totale di biglietti venduti che si conosce solo a vendite ultimate.
Non è perciò possibile fare un calcolo della vincita media per lira giocata riferendosi a
un giocatore individuale per una singola lotteria. Il risultato che vi proponiamo è stato
ottenuto basandoci sui seguenti dati globali relativi al 1996: spesa totale dei giocatori
lire 297.007.525.000, montepremi vinti lire 114.829.500.000. Ipotizzando la spesa come
se fosse stata fatta da un "unico ipotetico giocatore globale" che ha vinto certamente il
montepremi totale si ottiene che, per tale giocatore, la vincita media unitaria è pari al
38%. Applicando lo stesso ragionamento al "Gratta e vinci" si ottiene una vincita media
unitaria pari al 43%.
( 3 )( 4 )( 5 )( 5 )( 7 )( 8 ) Nel Totocalcio, nel Totogol, nell'Enalotto, nel Super Enalotto e nella
Tris (come nel Totip) le vincite dipendono dal montepremi. Non è perciò possibile fare un
calcolo della vincita media per lira giocata riferendosi a un giocatore individuale. Per il
calcolo che vi proponiamo l'insieme di tutti giocatori è stato considerato come un "unico
ipotetico giocatore globale". Dal momento che solo lo x% del giocato va in montepremi e
che l' "unico ipotetico giocatore globale" vince certamente tutto il montepremi, la vincita
media unitaria è pari a x%. Il valore di x è il seguente:
Indice analitico
Indice analitico
Indice analitico
Indice analitico
Indice analitico