Sei sulla pagina 1di 259

Appunti di Probabilità e Statistica

a.a. 2014/2015

BOZZA
2
Riuscire a controllare l’incertezza può significare riuscire a ridurla
The things one feels absolutely certain about are never true (Oscar Wilde)
Copyright 2014
c Mirko D’Ovidio
Appunti rilasciati per il solo uso non commerciale.
1.5 (testing) 5 maggio 2015.

Gli Appunti:
i) sono stati scritti utilizzando LATEX su Linux - Debian (software free);
ii) sono una raccolta di materiale per i corsi di Probabilità e Statistica ancora in
versione preliminare, pertanto sarà cosa estremamente gradita la comunicazione di
chiunque volesse segnalare errori di stampa o di concetto (materiale gratuito).

Il materiale riportato in queste note è stato selezionato in modo da garantire una


trattazione (spero) ben organizzata di argomenti che comunque non si deve
considerare esaustiva ma dovrebbe avere lo scopo di aiutare e supportare nello studio
della probabilità e della statistica. Gli appunti vanno quindi intesi come una lettura da
affiancare ad un libro di testo, più completo e dettagliato, da concordare in maniera
diversa nei due corsi di ”Calcolo delle Probabilità” e ”Probabilità e Statistica”.

Alcuni concetti sono trattati in maniera più approfondita, possono risultare quindi
troppo avanzati. Lo scopo di queste note è quello di fornire un aiuto nella
comprensione della teoria di base ma anche quello di stimolare gli interessi di alcuni
verso teorie più avanzate.

- : il simbolo indica gli argomenti importanti. Il resto degli appunti è necessario per
la comprensione di tali argomenti (prerequisiti o applicazioni).
Indice

1 Osservazione e Probabilità 1
1.1 Statistica descrittiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Probabilità e Applicazioni . . . . . . . . . . . . . . . . . . . . . . . 17

2 Misura e Probabilità 19
2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Misure positive e di Lebesgue . . . . . . . . . . . . . . . . . . . . . 22
2.3 Funzioni misurabili e spazi di Lebesgue . . . . . . . . . . . . . . . . 27
2.4 Misure di Probabilità - . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5 Il concetto di Probabilità e le diverse impostazioni . . . . . . . . . . . 45
2.6 Spazi di Probabilità uniformi . . . . . . . . . . . . . . . . . . . . . . 46

3 Variabili Aleatorie 51
3.1 Definizione di variabile aleatoria - . . . . . . . . . . . . . . . . . . 51
3.2 Media e Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3 Relazioni tra variabili aleatorie - . . . . . . . . . . . . . . . . . . . 71
3.3.1 Eventi di misura nulla . . . . . . . . . . . . . . . . . . . . . 71
3.3.2 Probabilità congiunte e condizionate . . . . . . . . . . . . . . 72
3.3.3 Tabella di contingenza . . . . . . . . . . . . . . . . . . . . . 79
3.3.4 Trasformazioni di v.a. . . . . . . . . . . . . . . . . . . . . . 82
3.3.5 Somme di variabili aleatorie . . . . . . . . . . . . . . . . . . 88
3.3.6 Somme aleatorie di variabili aleatorie . . . . . . . . . . . . . 96
3.3.7 Variabili aleatorie ordinate . . . . . . . . . . . . . . . . . . . 96
3.3.8 Successioni monotone di variabili aleatorie . . . . . . . . . . 99
3.3.9 Simulazione, generatori di numeri casuali . . . . . . . . . . . 101
3.4 Serie numeriche e di funzioni . . . . . . . . . . . . . . . . . . . . . . 103
3.5 Trasformate di densità . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.6 Alcune disuguaglianze fondamentali . . . . . . . . . . . . . . . . . . 113

iii
iv

3.7 Convergenza di variabili aleatorie - . . . . . . . . . . . . . . . . . . 116


3.7.1 Convergenza, definizioni e discussione . . . . . . . . . . . . 116
3.7.2 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.7.3 Metodi Monte Carlo . . . . . . . . . . . . . . . . . . . . . . 128
3.8 Processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

4 Gli universi campionari 137


4.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5 Inferenza statistica 145


5.1 Stima parametrica - . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.1.1 Proprietà desiderabili di uno stimatore . . . . . . . . . . . . . 146
5.1.2 Metodi di stima . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.2 Verifica delle ipotesi statistiche - . . . . . . . . . . . . . . . . . . . 160
5.2.1 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.2.2 Test non parametrici . . . . . . . . . . . . . . . . . . . . . . 165
5.3 Stima in presenza di parametri di disturbo . . . . . . . . . . . . . . . 167
5.4 Inferenza su particolari parametri . . . . . . . . . . . . . . . . . . . . 169
5.5 Logiche inferenziali . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

6 I modelli lineari 175


6.1 Il modello lineare generale . . . . . . . . . . . . . . . . . . . . . . . 175
6.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.3 Il caso di una variabile esplicativa . . . . . . . . . . . . . . . . . . . 178
6.4 Modelli lineari generalizzati . . . . . . . . . . . . . . . . . . . . . . 180

7 Distribuzioni di probabilità elementari 183


7.1 Variabili discrete - . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2 Variabili continue - . . . . . . . . . . . . . . . . . . . . . . . . . . 191

A Esercizi 201

B Alcune somme notevoli 205

C Svolgimenti 209

Bibliografia 241
Introduzione

Nelle scienze applicate si procede sempre allo stesso modo, si osserva, si elabora, si
traggono conclusioni. Si raccolgono dati da un campione e si traggono conclusioni
per l’intera popolazione (sia essa di uomini, animali, batteri, titoli, etc.). Sembra un
procedimento elementare, ebbene lo scopo di questo corso è proprio quello di fornire
gli elementi per capire quanto, in effetti, non lo sia.
Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della Statistica
Descrittiva è quello di fornire ed estrapolare informazioni dai dati in nostro posses-
so. Utilizziamo a questo scopo delle funzioni dei dati campionari che sono chiamate
appunto, statistiche dei dati campionari.
Una volta ottenute le informazioni sul fenomeno oggetto di studio, ci si chiede
quanto queste informazioni siano attendibili (sembra inevitabile ricordare che l’affi-
dabilità di un dispositivo è la probabilità che funzioni!). Ci sono diverse questioni da
affrontare, ad esempio, si deve ricordare che tutte le informazioni ottenute sono il frut-
to di analisi fatte sullo stesso campione. Vogliamo quindi sapere se considerando un
campione diverso, oppure osservando un campione diverso, arriveremmo alle stesse
informazioni. Oppure, se il campione osservato rispecchia al meglio le caratteristiche
della popolazione, se cioè il campione osservato è quello più probabile. Questo è il
ruolo della Statistica Inferenziale.
Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle Probabi-
lità. Più avanti nel testo, si è accennato a problemi (semplificati) relativi ai seguenti
campi di applicazione della Probabilità:

• Matematica applicata: costruire modelli (governati da equazioni a derivate par-


ziali o no) che riducano l’incertezza in ambiti anche molto diversi, dalla Fisica
alle Scienze Sociali o dalla Biologia alla Medicina (processi aleatori);

• Teoria dei segnali: si studia la variazione nel tempo di una grandezza (o misura-
zione) cercando proprietà matematiche e statistiche (processi aleatori);

• Inferenza Statistica: problemi di stima per parametri di un modello (matematico)


che descrive un fenomeno oggetto di studio e che non può essere descritto da

v
vi

modelli puramente deterministici. si vogliono studiare alcune proprietà su pochi


unità e trarre conclusioni più generali;

• Teoria delle decisioni: metodologia che si applica quando un decisore può sce-
gliere tra varie azioni future il cui esito dipende da fattori esterni che non possono
essere previsti esattamente;

• Teoria del rischio: modelli matematici per descrivere la vulnerabilità di insol-


venza di un assicuratore (o altra compagnia). Si può associare allo studio del
problema classico della rovina del giocatore.

In particolare, possiamo elencare alcuni esempi:

• Astrofisica: studio della radiazione cosmica di fondo,...;

• Biologia: inferenza su culture....;

• Economia/Marketing: indagini sui nuovi prodotti, ...;

• Farmacia: testare un farmaco,...;

• Finanza/Assicurazione: problemi relativi ai titoli finanziari,...;

• Fisica: diffusione del calore, moti di particelle, ....

• Geologia: statistica spaziale, ...;

• Informatica: approssimazione di integrali, calcolatori quantistici, ...;

• Inquinamento: stima delle concentrazioni di inquinanti,...;

• Medicina: studiare gli effetti di malattie o cure su pazienti, ....;

Programma e registro delle lezioni. Tratteremo, nei due corsi AT e GEST, gli ar-
gomenti divisi come in Tabella 1. Il programma dettagliato va preso dal registro delle
lezioni, aggiornato in tempo reale e disponibile sulla pagina web del coso:

https://sites.google.com/site/mirkodovidio/didattica-mirko-d-ovidio

Gli esercizi di autovalutazione si possono reperire ovunque in rete, si consiglia co-


munque di consultare la pagina

https://sites.google.com/site/aristidesanmartini/
INDICE vii

AT AT e GEST GEST
Capitolo 1
Capitolo 2
Capitolo 3
Capitolo 4 Capitolo 3
Capitolo 5 (Somme di v.a. + Disuguaglianze)
Capitolo 6
Tabella 1: Programma (in generale).

In particolare sono consigliati gli ESERCIZI con RISPOSTE dal 1986 al 2001 op-
pure tutti i compiti dal 2003 con svolgimento.

Il lettore interessato può approfondire gli argomenti trattati nei seguenti testi di
riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica asintotica [11]; somme
notevoli ed integrali [5]; Probabilità [1, 2, 6, 7]; Probabilità e Statistica [8].

Obiettivi del corso. Acquisire competenza e abilità nel trattare:

• variabili aleatorie, relazioni, interpretazione e probabilità di eventi;

• trasformazioni di variabili aleatorie X 7→ g(X) dove X può essere un vettore,


somme di v.a. Sn = nk=1 g(Xk ), convergenza di n−1 Sn per n → ∞;
P

• inferenza statistica su X̄n = n−1 Sn , n ∈ N.


viii
Errata Corrige e Approfondimenti

In classe spesso affrontiamo esempi ed esercizi non presenti negli appunti.


Sono qui elencati gli approfondimenti, commenti, esercizi trattati in classe e non
presenti nelle precedenti versioni. Inoltre sono elencate le correzioni già fatte (in
questa versione) di errori presenti in versioni precedenti.
Quindi, nella presente versione potete trovare le seguenti differenze con le versioni
precedenti:

• pag. 7, Esempio 1

• pag. 12, Svolgimento Esercizio 7

• pag. 13, Esempio 2

• pag 14, Esercizio 9

• pag. 15, Esercizio 11

• Legge delle probabilità totali. ....e A, B, C sono eventi compatibili....

• pag. 38, Osservazione 11

• Eventi complementari

• pag. 39, Esempio 12

• pag. 39, Esempio 13

• pag. 40, Proposizione 6

• pag. 43, Esercizio 29 con Svolgimento

• pag. 44, Esercizio 30 con Svolgimento

• pag. 51, dopo Definizione 28: ....dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn )


se X ∈ Zn .

ix
x

• pag. 54, Figura 3.1

• pag. 65, Osservazione 19

• pag. 65, Osservazione 14

• Sezione 3.2, .... Osserviamo che per v.a. continue o discrete, data una funzione
continua g ∈ C(R), possiamo scrivere
Z
Eg(X) = g(x)f (x)µ(dx)
R

dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto


supp(X)) o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta
di X). Nelle formule sopra si è considerata la funzione continua g(x) = xr con
r > 0.

• pag. 67, ....La funzione g(x) = xr con r > 0 è continua ma non limitata: non
avrà senso per noi considerare EX r = ∞, infatti

g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞


|Eg(X)| < ∞ 6⇒ g ∈ Cb (R).

• proprietà della media, dimostrazione del punto v)

• pag. 69, Esercizio 44 con soluzione

• pag. 70, Osservazione 15

• pag. 70, Osservazione 16

• pag. 85, Esempio 18

• pag. 88, Sezione 3.3.5, la v.a X̄n

• pag. 88, formula (3.39) e discussione

• pag. 93, Osservazione 26

• pag. 94, Proposizione 10 con dimostrazione

• pag. 111, Esempio 84

• pag. 124, Esempio 28

• pag. 125, il Teorema 33 (legge debole dei grandi numeri) e discussione


INDICE xi

• Sezione 6.3, il modello lineare

• pag. 184, Osservazione 41.

• Capitolo 7, Geometrica

• Capitolo 7, Binomiale

• Capitolo 7, Ipergeometrica

• Capitolo 7, Poisson

• pag. 192, Osservazione 44

• Capitolo 7, funzione Gamma

• Soluzione Esercizio 50. .....


2
e−xj
fXj (xj ) = √ , j = 1, 2.
π

• Appendice A, Esercizi con svolgimenti (in progress)

• Bibliografia
xii
Capitolo 1

Osservazione e Probabilità

Si consiglia di leggere il Capitolo 1 prima dei capitoli che seguono e soprattutto dopo.

1.1 Statistica descrittiva


La statistica è una scienza, una disciplina che ha come scopo lo studio quantitativo
e qualitativo di fenomeni (non deterministici). La statistica descrittiva ha lo scopo di
fornire una fotografia di una situazione o di un particolare fenomeno osservato.

”Una statistica è una funzione dei dati campionari. ”

I dati campionari sono costituiti dalle misurazioni (o osservazioni) fatte sul campione
osservato. Il campione osservato è costituito da unità statistiche che sono state op-
portunamente selezionate da una popolazione. La popolazione rappresenta l’interesse
principale ed il motivo per il quale si vuole effettuare una analisi statistica. Si vuole
cioè studiare un particolare (o più di uno) fenomeno che coinvolge la popolazione di
interesse. La popolazione oggetto di studio può essere costituita da persone, animali,
batteri, titoli finanziari, insetti, etc., in ogni caso siamo interessati a studiarne le ca-
ratteristiche. Non ci preoccupiamo ora di questioni legate al campione (come viene
selezionato, come viene definita la numerosità ottima, etc.), tali argomenti rappresen-
tano parte dei problemi che risolveremo ricorrendo alla statistica inferenziale. Per ora,
diremo che il campione è casuale senza dire in che modo sia regolata tale casualità.
Una volta osservato il campione, avremo una serie di misurazioni (supponiamo che
la caratteristica di interesse ammetta valori numerici, sia quindi di tipo quantitativo1 ).
Indichiamo tali misurazioni con il vettore

x = (x1 , x2 , . . . , xn ) (1.1)
1
Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative ad esempio.

1
2

che è quindi un punto di Rn . Dalla definizione data sopra di statistica, sembra chiaro
che possiamo considerare tutte le funzione con supporto in Rn . Ovviamente, volendo
ricavare delle informazioni (riguardanti la popolazione) dal campione, sembra altret-
tanto chiaro che le funzioni deputate debbono prima di tutto essere informative. La
prima informazione utile che possiamo ottenere è la media campionaria
n
1X
x̄ = xi . (1.2)
n i=1

Vogliamo poi capire quanto i dati si discostano dalla media campionaria. Introduciamo
allora una distanza (Euclidea) dei dati campionari da tale valore che è la varianza
campionaria
n
2 1X
s = (xi − x̄)2 . (1.3)
n i=1
La varianza campionaria si può scrivere a partire dai momenti campionari di ordine
r>0 n
1X
mr = (xi )r (1.4)
n i=1
dove, per r = 1, si ottiene la media campionaria m1 = x̄. Infatti, s2 = m2 − (m1 )2
(a volte scriveremo mr = x̄r e quindi s2 = x̄2 − (x̄1 )2 ), il secondo momento meno il
quadrato del primo.
Supponiamo adesso che nel campione osservato x ci siano un certo numero di valo-
ri uguali, diciamo ad esempio che k valori su n siano esattamente uguali. In generale,
supponiamo che ki valori sugli n totali siano uguali al generico vi . Allora, si può iden-
tificare una distribuzione (successione) di frequenze relative fi = ki /n ricavata dalla
distribuzione di frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la
cui cardinalità |I| è la dimensione del nuovo vettore

v = (v1 , v2 , . . . , v|I| ).

In nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro pesi ki ,
i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci sono valori uguali.
Seguendo questa impostazione abbiamo
|I| |I|
X 1X
x̄ = vi fi = vi ki (1.5)
i=1
n i=1
e
|I| |I|
2
X
21X
s = (vi − x̄) fi = (vi − x̄)2 ki (1.6)
i=1
n i=1
Capitolo 1. Osservazione e Probabilità 3

dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notiamo che tali
frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn ) e k = (k1 , k2 , . . . , kn ).

Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato

x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1)

e calcolare media e varianza campionarie.

Data una successione finita di valori xk , k = 1, . . . , n si definiscono:


n
1X
xk media aritmetica,
n k=1
n
X
xk f k media ponderata,
k=1
n
Pn 1 media armonica,
k=1 xk
n
!1/n
Y
xk media geometrica,
k=1
n
!1/p
1X
(xk )p media di potenza.
n k=1

In base al fenomeno oggetto di studio può essere scelta una diversa statistica di
interesse, la media campionaria appena introdotta è solo un esempio. Possiamo essere
interessati a studiare il max{x1 , . . . , xn }, il min{x1 , . . . , xn } oppure altre funzioni dei
dati campionari.
Supponiamo ora che il Rettore della Sapienza ci chieda l’età media degli iscritti
al primo anno delle Facoltà di Ingegneria e supponiamo che tale informazione sia da
comunicare entro 10 ore. Sappiamo che gli iscritti sono circa 10000 e non abbiamo il
tempo di chiedere a tutti gli studenti di comunicare la loro età. La soluzione sembra
essere quella di selezionare un campione molto ridotto di studenti, chiedere l’età e
comunicare la media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la
cosa è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Immaginiamo per
comodità che ad ogni studente si possa far corrispondere un numero invece del nome,
ci sono 10000 studenti quindi se X è l’età dello studente, allora Xi è per noi l’età dello
studente i con i = 1, 2, . . . , 10000. All’ingresso della Facoltà di ingegneria trovo i 5
studenti corrispondenti ai numeri

(6, 60, 114, 1002, 8657)


4

registro le loro età e ottengo il campione

x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21).

La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro che è
1
x̄ = (19 + 20 + 26 + 18 + 21).
5
La seconda domanda che mi pongo riguarda la correttezza di tale informazione e mi
chiedo se veramente voglio assumermi la responsabilità di comunicare l’età media
appena trovata al Rettore. Le mie insicurezze riguardano due punti:

D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio considerare


n > 5? Quanti studenti dovrei considerare per ottenere un risultato attendibile,
n =?

D2 se avessi considerato studenti diversi, la media quanto sarebbe cambiata?

In effetti, avrei potuto trovare le età relative ai campioni

(X62 , X69 , X124 , X1402 , X9239 ),

(X632 , X1989 , X2014 , X4201 , X9719 )


oppure, in generale
(Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ). (1.7)
La scelta degli studenti da intervistare è del tutto casuale, dipende dagli studenti che
trovo in quel momento, in quel posto. In particolare

D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a dire, quante
medie diverse potevo calcolare?)

1.2 Probabilità
Per introdurre il concetto di probabilità cerchiamo di impostare il problema visto sopra
da un punto di vista più matematico.
Si capisce bene che l’età di una persona può essere considerata come una variabile
in un dato problema, in particolare è una variabile quantitativa discreta. Nel nostro
caso, dobbiamo aggiungere che si tratta di una variabile aleatoria, non sappiamo cioè
quanto vale fino a quando non osserviamo (fino a quando non si realizza la variabile
aleatoria). Dobbiamo quindi distinguere tra variabile deterministica e variabile aleato-
ria. Diciamo che una variabile è deterministica se ”possiamo prevedere il suo valore in
Capitolo 1. Osservazione e Probabilità 5

un certo momento” mentre una variabile è aleatoria se non abbiamo nessun controllo
sui valori che assume, se cioè ”siamo in grado di prevedere il suo valore in un certo
momento solo con una certa probabilità”.
Se lancio un dado, non possiamo semplicemente dire

”esce 4”

ma possiamo dire
1
P (”esce 4”) = 6

cioè la probabilità dell’evento ”lancio il dado ed esce 4” è pari a 1/6. Formalizzia-


mo dicendo che la variabile aleatoria X =”lancio il dado” ha un insieme limitato di
realizzazioni che sono ovviamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che
1
P (X = x) =
6
per ogni faccia x ∈ Ω. Si poteva quindi scrivere

P (X = 4) = P (”esce 4”) = P (”lancio il dado ed esce 4”).

Notiamo che

P (X ∈ Ω) = P (”lancio il dado ed esce una faccia”) = 1

e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente chiameremo


eventi impossibili quegli eventi con probabilità pari a 0. Ci riferiremo agli eventi rari
quando le loro probabilità sono prossime a 0.
In generale, ci possiamo riferire ad un fenomeno oggetto di studio come ad una
variabile aleatoria X, non conosciamo il valore di X fino a quando X non si realizza,
cioè fino a quando non osserviamo. Chiamiamo x la realizzazione della variabile alea-
toria X. Quindi x è la nostra osservazione, nel caso del lancio del dado, x è una faccia
di Ω = {1, 2, 3, 4, 5, 6}. Le probabilità che ci interessano saranno allora

P (X = x), P (X ≤ x), P (X < x), P (X ≥ x), P (X > x) (1.8)

oppure, se x1 ≤ x2 ,

P (x1 ≤ X ≤ x2 ).

Si noti che se x1 , x2 ∈ R, la (1.8) continua ad avere senso.


La variabile aleatoria sarà scelta in base al fenomeno che vogliamo studiare, alcuni
esempi possono essere puramente didattici:
6

i) X =”lancio il dado”;
ii) X =”estraggo una pallina da un urna”;
iii) X =”estraggo k palline con ripetizione”;
iv) X =”estraggo k palline in blocco”;
altri possono rappresentare delle semplificazioni di modelli molto più complicati e
utilizzati nella vita reale:
i) X =”altezza”;
ii) X =”pressione sistolica”;
iii) X =”livello di reddito”;
iv) X =”numero di sinistri”;
v) X =”misurazioni relative alla radiazione cosmica di fondo”;
vi) X =”precipitazioni in una regione”;
vii) X =”concentrazione di un inquinante"’.
Se Xi =”età della persona i” come nell’esempio sopra, allora possiamo formaliz-
zare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.7). Cioè, ogni elemento
di X è un numero naturale. La media campionaria è una quantità deterministica una
volta che X si è realizzato, prima che si realizzi X, anche la media aritmetica degli
elementi di X è aleatoria, cioè
5
1X 1X
X̄ = Xi j = Xj
5 j=1 5 j∈c
5

dove si è usato il fatto che c5 è un insieme di 5 etichette rappresentanti gli studenti


intervistati. Volendo generalizzare ad n qualunque, scriviamo la variabile aleatoria
media campionaria,
1X
X̄n = Xj (1.9)
n j∈c
n

e cn è un insieme di etichette che rappresenta un gruppo di n studenti. Quindi dicia-


mo che X̄n è la variabile aleatoria ”età media campionaria”. A questo punto potrei
chiedermi
D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti insiemi diversi cn
di etichette posso costruire?
Capitolo 1. Osservazione e Probabilità 7

Esempio 1. Supponiamo che Mario chieda al fratello Moreno di essere visitato senza
aggiungere altre informazioni. Moreno che è un medico esperto ma anche preoccu-
pato, si chiede come mai il fratello volesse essere visitato ed immagina la scoperta
improvvisa di qualche malattia, diciamo X. Allora Moreno si interroga sulla storia
passata dei sui pazienti, sulla base cioè delle sue informazioni. Le malattie per le quali
i suoi pazienti si sono presentati negli ultimi anni sono x1 , x2 , . . . e rovistando tra le
carte le associa alle frequenze fi , i = 1, 2, . . ., cioè

fi = f req{ pazienti con la malattia xi }, i = 1, 2, . . . .

Sulla base delle frequenze appena ricostruite, arriva a dire che

P (X = xi ) = fi i = 1, 2, . . .

e scartando le malattie con probabilità più basse, restringe la rosa di possibilità per
la malattia del fratello Mario.

Spazi di Probabilità uniformi (prime considerazioni)


Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che esso è caratte-
rizzato da due oggetti:

i) un insieme Ω detto insieme degli eventi (elementari);

ii) la probabilità P che possiamo immaginare come una funzione del tipo P : ω →
[0, 1] con ω ∈ Ω.

Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω sono equiproba-
bili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6} e P (ω) = 1/6 per ogni ω ∈ Ω.
Potremmo anche considerare un urna contenente n palline numerate da 1 a n. Allora,
Ω = {1, 2, . . . , n} e P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω
(cioè per ogni x = 1, 2, . . . . , n).
Notiamo subito che Ω è detto insieme degli eventi elementari perché non contiene
tutti gli eventi ai quali posso essere interessato. Continuiamo a riferirci al lancio del
dado, le probabilità degli eventi elementari come abbiamo già osservato sono costanti
e tutte uguali a 1/6. Potrei chiedermi allora con quale probabilità:

1. esce una faccia con un numero minore di 4 (esce un numero < 4);

2. esce una faccia con un numero minore o uguale a 4 (esce un numero ≤ 4);
8

cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si può uti-
lizzare l’impostazione classica delle probabilità secondo la quale, la probabilità di un
evento A si può trovare dal rapporto tra casi favorevoli e casi possibili,

numero di casi f avorevoli ad A


P (A) = . (1.10)
numero di casi possibili
Ad esempio, nel lancio di un dado:

• P (esce un numero pari) = 3/6;

• P (esce un numero < 3) = 2/6;

• P (esce un numero ≤ 4) = 4/6.

Esercizio 2. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono,


con reimbussolamento (o con ripetizione), due palline a caso. Calcolare le seguenti
probabilità:

1. P (estrarre una pallina rossa e una nera);

2. P (estrarre due palline rosse);

3. P (estrarre due palline nere);

4. P (avere estratto una pallina rossa se so che una è nera).

Esercizio 3. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggo-


no, senza reimbussolamento (o senza ripetizione), due palline a caso. Calcolare le
seguenti probabilità:

1. P (estrarre una pallina rossa e una nera);

2. P (estrarre due palline rosse);

3. P (estrarre due palline nere).

Esercizio 4. Da un urna contenente 4 palline rosse e 6 palline nere, si estraggono,


senza reimbussolamento, due palline a caso. Calcolare le seguenti probabilità:

1. P (estrarre una pallina rossa e una nera);

2. P (estrarre due palline rosse);

3. P (estrarre due palline nere).


Capitolo 1. Osservazione e Probabilità 9

Esercizio 5. Da un mazzo di carte da poker (52 carte) si distribuiscono 5 carte prese


a caso. Calcolare:

1. P (asso di picche tra le 5);

2. P (un asso tra le 5);

3. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori).

Esercizio 6. Un gruppo di n maschi e m femmine partono per le vacanze. Decidono di


trovarsi in stazione la mattina del giorno dopo alle 5:30 e attendere che la biglietteria
apra. Quando arrivano in stazione non c’è nessuno, si mettono in fila in ordine di
arrivo. Volendo parlare durante l’attesa, si chiedono con quale probabilità i maschi
saranno tutti vicini e di conseguenza anche le femmine?

Prima di rispondere agli esercizi proposti, introduciamo il calcolo combinatorio


che risulta essere un strumento molto potente nel calcolo di probabilità su spazi uni-
formi. In particolare, si considera l’impostazione classica della probabilità, bisogna
distinguere tra casi possibili (la totalità degli eventi che possiamo registrare) e casi fa-
vorevoli (i soli eventi relativi alla probabilità di interesse, i casi che contribuiscono al
verificarsi dell’evento per cui vogliamo calcolare la probabilità).
Nel calcolo combinatorio si studiano le diverse regole secondo le quali insiemi di
elementi sono considerati diversi. Tali regole definiscono delle famiglie di insiemi,
al loro interno tutti gli insiemi rispettano le stesse regole, su numerosità e ordine ad
esempio. Approfondiremo questi aspetti in seguito.

Definizione 1. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U

i) di cardinalità n,

ii) che differiscono per ordine (ordinati)

formano l’insieme P n delle permutazioni semplici degli n elementi di U . Inoltre,

|P n | = n!.

Definizione 2. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U

i) di cardinalità k ≤ n,

ii) che non differiscono per ordine (non ordinati)


10

formano l’insieme Cn,k delle combinazioni semplici degli n elementi di U in classi di k.


Inoltre,
 
n n!
|Cn,k | = = .
k (n − k)!k!
Sia U = {a, b, c}, allora

P 3 = {abc, acb, bac, bca, cab, cba},

C3,1 ={a, b, c},

C3,2 ={ab, ac, bc},

C3,3 ={abc}.

Cerchiamo ora di rispondere alla D4 e quindi anche alla D3. Nel calcolare la media
campionaria non importa in quale ordine osservo le stesse n persone, posso quindi
considerare cn una combinazione semplice di 10000 indici in classi di n e può essere
scelto in |C10000,n | modi diversi. Inoltre,
 −1
1 10000!
P (cn ) = 10000 = .
n
(10000 − n)! n!

Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media x̄ = 20.
Dobbiamo notare che

P (X̄n = 20) 6= P (cn )

infatti ci possono essere diversi campioni con la stessa media campionaria (la media
delle età di Maria e Alberto può essere uguale alla media delle età di Marta e Simone).
Il problema di determinare la legge distributiva di X̄n è quindi ancora aperto, non
sappiamo cioè scrivere

P (X̄n = x) per ogni x. (1.11)

Svolgimento Esercizio 2. Le palline estratte vengono inserite nuovamente nell’ur-


na e quindi ad ogni estrazione la situazione è esattamente la stessa. Indichiamo con
N =”estraggo pallina nera” e R =”estraggo pallina rossa”. Gli eventi di interesse
sono RN oppure N R (sono i casi favorevoli). I casi possibili sono

RR, RN, N R, N N.
Capitolo 1. Osservazione e Probabilità 11

La situazione iniziale prevede che (eventi di probabilità uniformi)

5 5
P (R) = e P (N ) = .
10 10
Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di nuovo la
pallina nell’urna. Si ottiene:

1. P (RN oppure N R) = 2/4;

2. P (RR) = 1/4;

3. P (N N ) = 1/4;

4. P (R|N ) =?.

Nei primi tre punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta
la probabilità condizionata solo per sottolineare l’esistenza di un problema diverso.
Affronteremo il condizionamento in seguito.

Svolgimento Esercizio 3. Dobbiamo considerare un urna con 10 palline dalla quale


si estrae una pallina alla volta, senza reimbussolamento. Dopo la prima estrazione
la situazione cambia e di conseguenza anche le probabilità di estrarre palline rosse o
nere. Alla seconda estrazione, P (R) e P (N ) dipenderanno da quale pallina ho estratto
la prima volta. Devo quindi introdurre gli eventi

Ri = ”R alla estrazione i-esima”

Ni = ”N alla estrazione i-esima”

e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inoltre, in questo caso P (R1 N2 ) = P (R2 N1 ),
perché? Daremo la soluzione di questo esercizio in seguito.

Svolgimento Esercizio 4. Anche questo esercizio ha il solo scopo di sottolineare al-


cuni aspetti importanti, daremo la soluzione in seguito. Siamo però in grado di fornire
una spiegazione del fatto che P (R1 N2 ) 6= P (R2 N1 ) contrariamente a quanto accadeva
nel precedente esercizio. Perché?

Svolgimento Esercizio 5.
12

Svolgimento Esercizio 6. Pensiamo ad una sequenza di numeri, da 1 a n + m. Ad


ogni amico associamo un numero. I casi favorevoli sono dati da tutti i modi in cui
posso ordinare i primi n numeri (i maschi) e tutti i modi in cui posso ordinare i numeri
da n+1 a m (le femmine), si ottiene rispettivamente P n e P m . Quindi i casi favorevoli
sono n!m! mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli n+m
numeri (amici). In definitiva, applicando l’impostazione classica della probabilità, la
P (i maschi saranno tutti vicini e di conseguenza anche le femmine)
si ottiene considerando l’ordine di arrivo e calcolando
n!m!
P (due gruppi distinti) = .
(n + m)!
Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 .
Esercizio 7. (Regola del ”ne fisso uno”) Si distribuiscono a caso 5 carte da un mazzo
di 52. Calcolare le probabilità relative agli eventi:
1. ottengo una coppia,
2. ottengo due coppie,
3. ottengo un poker,
4. ottengo un poker di assi,
5. ottengo colore.

Svolgimento Esercizio 7. Si può rispondere a tutti i punti considerando un solo caso


alla volta, vediamo come. Ricordiamo che le 52 carte sono divise in 13 carte per 4
semi. Consideriamo le 13 carte in corrispondenza con i primi 13 numeri (al numero 1
corrisponde un asso, etc.).
1. Per ottenere una coppia devo avere due carte dello stesso numero. Mi devo
chiedere quante coppie posso ottenere? Notiamo che l’evento di interesse non è
”ottengo almeno una coppia”. Fissiamo un numero, ad esempio uno (che equi-
vale a dire, asso). Quante coppie posso formare con 4 uno? Sono |C4,2 |. Quindi,
la probabilità di ottenere una coppia di uno (di assi) si ottiene considerando i
casi possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle possibili e le
restanti 3 carte prese a caso. In quanti modi posso scegliere le restanti 3 carte?
In |C50,3 | modi di cui solo |C48,3 | mi interessano? No! Se voglio una coppia, devo
considerare
13 4 12 4 4 4 13 4 12 48
         
1 2 3
52
1 1 1
6= 1 2
3
52
3

5 5
per via delle ripetizioni possibili nelle tre carte rimanenti
Capitolo 1. Osservazione e Probabilità 13

2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognuno considero


le coppie possibili, poi moltiplico per il numero di combinazioni di classe uno
possibili per le restanti carte,
13 4 4 44 13 4 4 11 4
        
2 2
2
52
1
o anche 2 2 2
52
 1 1

5 5

3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi moltiplico per
13 e per le combinazioni relative alla quinta carta,
13 4 48 13 4 12 4
      
1 4
52
 1 o anche 1 4
1
52
1

5 5

4. per fare un poker di assi, devo considerare solo gli assi, quindi
4 48 4 12 4
    
4
1
52 o anche 4 1
52
 1
5 5

5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un seme e ottengo
4 13
 
1
5
52
5

Esempio 2. Nel lancio di due dadi si deve considerare uno spazio degli eventi elemen-
tari dato da

Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6}

cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di ottenere una
sola coppia è costante (spazio uniforme) ed è pari a 1/36 e 36 sono gli elementi della
matrice. Si deve osservare che P (ottenere (1, 2)) = P (ottenere (2, 1)) = 1/36 mentre
2 1 1
P (ottenere entrambi i numeri 1 e 2) = = +
36 36 36
che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il fatto che
P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito che
1 1 1
P (ottenere (1, 2)) = = · = P (ottenere 1) · P (ottenere 2)
36 6 6
che introduce il concetto di indipendenza (eventi indipendenti e compatibili) ed il fatto
che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può essere visto come lanciare due
volte un solo dado.
14

Esercizio 8. (Regola del ”procedo per iterazioni successive”) Due amici arrivano al
cancello chiuso di un palazzo e solo Mario (il custode) conosce la chiave del mazzo
che apre il cancello. Appena arrivati Mario deve rispondere al telefono e lascia il
mazzo di n chiavi all’amico Matteo chiedendogli di aprire. Matteo non sapendo quale
sia la chiave giusta, le prova tutte una ad una togliendo ogni volta dal mazzo la chiave
che non apre. Con quale probabilità Matteo proverà k chiavi?

Svolgimento Esercizio 8. Si considerino gli eventi G =”chiave giusta” e S =”chiave


sbagliata”. Allora

1
P (G al tentativo numero 1) =P (G) =
n
n−1 1
P (G al tentativo numero 2) =P (S)P (G) =
n n−1
n−1n−2 1
P (G al tentativo numero 3) =P (S)P (S)P (G) =
n n−1n−2
....
..
1
P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) = per ogni k ≤ n.
n
Bisogna notare che si è usato il fatto che G ⊥ S (gli eventi G e S sono indipendenti).
Questo aspetto risulterà chiaro in seguito. Notiamo inoltre che S = Gc e quindi

P (G) + P (S) = P (Ω) = 1

Esercizio 9. Una segretaria riceve 4 buste dove scrive i rispettivi indirizzi e 4 lettere
da inserire nelle buste. Risponde al telefono e dimentica quale lettera va associata
a quale indirizzo, decide di provare a caso. Calcolare la probabilità che 3 lettere
vengano inserite nelle buste giuste e quindi spedite al giusto indirizzo.

Svolgimento Esercizio 9. Se 3 lettere sono messe nella busta corretta allora anche
la quarta verrà spedita al giusto indirizzo. Se chiamo le buste A, B, C, B e le lettere
a, b, c, d, per mettere le lettere nelle buste giuste devo aver ordinato le buste e le lettere
allo stesso modo. Quindi, la probabilità cercata è 1/4!.

Esercizio 10. Mario è addetto al controllo qualità in una azienda che produce lampa-
dine. Da precedenti controlli si sa che il 5% delle lampadine prodotte sono difettose.

1. Con quale probabilità Mario troverà una lampadina difettosa durante il con-
trollo?
Capitolo 1. Osservazione e Probabilità 15

2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lampadine prodotte


e poi vengono imballate e sistemate in bancali da 20 scatole. Con quale proba-
bilità Mario troverà una lampadina difettosa in una scatola da 5? Con quale
probabilità ne trova due difettose in una scatola da 5? Se controlla tutto il ban-
cale da 20 scatole, con quale probabilità troverà una scatola con almeno una
lampadina difettosa? Infine, con quale probabilità troverà più di 5 lampadine
difettose nelle 20 confezioni di un bancale?

3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle lampadine sono
difettose? Possiamo ancora considerarla un informazione attendibile?

Esercizio 11. Una ditta produce due componenti a e b che risultano difettosi rispetti-
vamente per il 3% e 4%. La produzione avviene in reparti diversi e quindi in maniere
indipendente. I due componenti vengono poi assemblati e si ottiene il prodotto finale.
Calcolare la probabilità che

1. il prodotto finale presenti entrambi i difetti,

2. il prodotto finale sia difettoso (almeno un componente difettoso),

3. sia difettoso a sapendo che il prodotto finale è difettoso,

4. sia difettoso b sapendo che il prodotto finale è difettoso.

1.3 Statistica inferenziale


Vogliamo inferire su un particolare parametro della popolazione. Nei problemi a cui
vogliamo trovare risposta disporremo di alcune informazioni, ad esempio un campio-
ne e vogliamo caratterizzare la popolazione, ad esempio trovando un valore che ben
rappresenta un parametro (o i parametri) di tale popolazione. Tale valore è proprio una
stima del parametro. Si deve però definire il concetto di stima, per ora diciamo che
possiamo disporre dei seguenti concetti legati alla stima, supponiamo che il parametro
di interesse sia unidimensionale:

• stima puntuale, vogliamo trovare un valore che rappresenti il valore vero (un
numero);

• stima intervallare, vogliamo trovare un insieme di valori che contenga con ele-
vata probabilità il valore vero (un intervallo),

• test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute (ad esempio
se possiamo considerarle attendibili/affidabili).
16

Tratteremo tecniche della statistica inferenziale mirate a risolvere problemi come


quelli di seguito elencati.

Esercizio 12. Per una particolare marca di abbigliamento, si poteva assumere che il
prezzo di vendita di un capo negli passati seguiva una legge normale di media µ =
66 euro (cioè il prezzo in Italia del capo variava attorno a 66 euro seguendo una
distribuzione normale). Vengono considerati 10 negozi (presi a caso in tutta Italia) tra
i 1000 che trattano il capo in questione e si rileva, per ognuno, il prezzo di vendita di
quest’anno. Il vettore delle osservazioni è dato da

x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62).

Si vuole capire se ci sono state variazioni in termini di prezzo medio.

1. Calcolare una stima del prezzo medio di quest’anno.

2. Calcolare un intervallo che con probabilità pari al 95% contenga il prezzo


medio italiano vero (cioè di tutti i 1000 negozi).

Dal campione emerge che il prezzo medio campionario è inferiore a quello degli anni
passati.

3. Stabilire se si può sostenere che il prezzo sia cambiato (test di ipotesi) e con
quale probabilità (fiducia).

Esercizio 13. Un pescatore vorrebbe sapere, in un particolare tratto di fiume, quanto


tempo deve aspettare in media l’arrivo di un pesce (che forse abboccherà). Sa che
un modello utile nello studio del numero di arrivi è basato sulla variabile di Poisson
di parametro λ e si chiede se è veramente così, cioè se i pesci arrivano veramente
seguendo una legge di Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ
in modo da capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60
minuti quanti pesce attraversano il tratto di fiume al minuto e registra le osservazioni
riportate nella Tabella 1.1.

1. Verificare se tale campione è rappresentativo e se i dubbi del pescatore sul


modello sono fondati (si può usare il modello di Poisson?).

2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un pesce) che


sia valido con una probabilità del 95% (che sia al 95% il tempo medio vero che
bisogna attendere per l’arrivo di un pesce).

Svolgimento Esercizio 13
Capitolo 1. Osservazione e Probabilità 17

numero di transiti in un minuto frequenza


0 14
1 21
2 12
3 4
4 5
5 3
12 1
Tabella 1.1: Transiti dei pesci in 60 minuti

1.4 Probabilità e Applicazioni


La statistica inferenziale è una delle molte applicazione della probabilità. Sono colle-
gate alla statistica inferenziale anche problemi di stima per processi aleatori che sono
oggetti più complessi e prevedono, tra le altre cose, una diversa struttura di dipenden-
za tra le osservazioni. I processi aleatori possono rappresentare fenomeni evolutivi e
quindi dipendono dal tempo. Tali processi rappresentano fenomeni fisici, biologici,
finanziari e si possono associare a moti aleatori (di particelle o titoli ad esempio) che
seguono delle leggi governate da equazioni differenziali.

Supponiamo che Google voglia estrapolare delle informazioni dalle sue ricche basi
di dati. Le informazioni vengono immagazzinate in matrici di dati (matrici di Rn×m )
e supponiamo che sia importante, per il caso di interesse, trovare i determinanti di
tali matrici. La potenza di calcolo delle macchine di Google consente di trovare il
determinante di una matrice in due giorni ma gli Ingegneri di Google conoscono un
metodo più veloce. Le matrici sono di dimensione n×m con n, m grandissimi, troppo.
Consideriamone una, ad esempio la matrice A. Allora, si scelgono due numeri n0 e
m0 molto minori di n e m rispettivamente e si decide di calcolare il determinante della
sotto-matrice di dimensioni n0 e m0 , ad esempio A0 . Il calcolo del determinate diventa
un operazione che impegna le macchine Google solo pochi minuti ma il problema
diventa:
”esiste una scelta ottima degli elementi di A in modo da costruire la sotto-matrice
A tale per cui P (det(A) = det(A0 )) = max?”.
0

Ovviamente se tale probabilità fosse sufficientemente alta, diciamo non minore del
95%, allora Google risparmierebbe molto tempo e denaro!

Sempre Google, come può minimizzare il tempo di ricerca? I vari server in cui
si può trovare ciò che si cerca sono collegati da una fitta rete (il web) che possiamo
immaginare come una vera e propria rete costituita da archi (collegamenti tra due ser-
18

Figura 1.1: ...provate con I’m feeling lucky.

ver). Consideriamo un grafo aleatorio (random graph), cioè una successione di archi (e
quindi una successione di server). Ho scelto a caso gli archi e ho stabilito un percorso
tra i server in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo
un algoritmo di scelta per gli archi tale per cui

P ( scelta giusta ) = max.


Capitolo 2

Misura e Probabilità
Z ?
Z Z
?
f (x)dx 6= f (x)dµ(x) = f (x)µ(dx)

2.1 Insiemi
Operazioni, funzioni, cardinalità
Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’insieme dei sot-
toinsiemi di A. P(A) può essere considerato come un insieme di famiglie di insiemi.
Possiamo cioè considerare famiglie di insiemi di P(A), ogni famiglia è costituita da
insiemi di P(A) che condividono una certa caratteristica, la caratteristica della fami-
glia1 . Sia Ē il complementare di un insieme E. Scriveremo anche E c per indicare il
complementare di E.

Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi A e B di P(A),


si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c .

Sia A un insieme di P(A). Si noti che

A = (A ∩ B) ∪ (A ∩ B̄)

per ogni scelta di B in P(A).

Definizione 3. Una successione Ek ⊆ P(A) si dice

• monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N,


1
Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di numeri pari, un
insieme di numeri inferiori ad N fissato etc.. Si possono costruire famiglie più o meno complesse, più
o meno grandi.

19
20

• monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N.

Definizione 4. Data una successione Ek ⊆ P(A):

• si dice limite superiore2 di Ek l’insieme


∞ [
\ ∞
lim sup Ek = lim Ek = Ek .
k i=1 k=i

• si dice limite inferiore3 di Ek l’insieme


∞ \
[ ∞
lim inf Ek = lim Ek = Ek .
k
i=1 k=i

Osservazione 1. Se Ek è una successione monotona di insiemi di P(A), allora


[
lim Ek = Ek se la successione è crescente,
k
k∈N
\
lim Ek = Ek se la successione è decrescente.
k
k∈N

Definizione 5. Sia E ⊆ A. La funzione 1E : A 7→ {0, 1} così definita



1 se x ∈ E
1E (x) = , x∈A (2.1)
0 altrimenti

è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta χE ). La


funzione caratteristica 1[0,∞) è detta funzione di Haeviside e viene denotata con il
simbolo H, cioè H(x) = 1[0,∞) (x).

Osservazione 2. La funzione caratteristica 1Q∩[0,1] è detta funzione di Dirichlet.


2
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore come segue

lim sup ak = inf sup ak .


k n∈N k≥n

3
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore come segue

lim inf ak = sup inf ak .


k n∈N k≥n

4
Con il temine caratteristica preferiamo indicare una trasformata di densità che verrà introdotta in
seguito. Chiameremo quindi 1 funzione indicatrice.
Capitolo 2. Misura e Probabilità 21

Definiamo la cardinalità di un insieme. Nel definire la cardinalità è importante


definire il concetto di insiemi equipotenti, due insiemi A e B sono detti equipotenti se
esiste una applicazione biunivoca f : A 7→ B, ad esempio i 7→ ki , che associa ad ogni
i ∈ I ⊂ N un elemento ki , definendo così l’insieme {ki }i∈I ∈ KI . Possiamo da I
risalire ad un elemento preciso di KI e viceversa. Diamo allora la seguente

Definizione 6. (Cardinalità) Si dice cardinalità dell’insieme A (denotata con |A|) la


famiglia degli insiemi equipotenti ad A:

|A| = {B|∃f : A 7→ B, f biunivoca}.

Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre se l’applicazione


f è del tipo f : I 7→ KI , biunivoca, segue spontaneamente l’idempotenza con un
insieme C ⊆ N, in particolare diciamo che un insieme A è numerabile se |A| ≤ |N|.
Diciamo che un insieme A è infinito se esiste un sottoinsieme proprio B ⊆ A, B 6= A
tale che |A| = |B| mentre è finito un insieme che non risulti infinito. Tutti gli insiemi
finiti sono numerabili, è facile pensare nel caso f : I 7→ KI che esista un unico n ∈ N
per cui |A| = |{1, 2, . . . , n}| e scriveremo |A| = n, abbiamo ottenuto quindi che un
insieme A è finito se e solo se vale |A| ≤ |N| quindi se è numerabile5 . Si dice invece
che un insieme ha la potenza del continuo se risulta |A| = |R|.

Definizione 7. (Insieme numerabile) Un insieme A è detto numerabile se esiste una


funzione iniettiva f : A 7→ N . Se f è anche una funzione suriettiva (quindi è
biunivoca), allora A è chiamato insieme infinito numerabile.

Si noti che |{a, b, f, 3, h}| = 5.

Famiglie
Sia A un insieme, P(A) la famiglia dei sottoinsiemi di A.

Definizione 8. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A se

1. {∅} ∈ A;

2. E ∈ A ⇒ Ē ∈ A;

3. E, F ∈ A ⇒ E ∪ F ∈ A
5
Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è numerabile mentre
non lo è l’insieme [0, 1]
22

Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile), nel senso
che l’operazione di unione su insiemi di A porta ad un insieme di A, inoltre è nume-
rabile visto che a due a due possono formarsi le unioni di tutti gli elementi di A. Ogni
famiglia non vuota A ⊆ P(A) stabile per il passaggio al complementare e per unione
finita contiene l’insieme vuoto {∅} e quindi è un’algebra.

Definizione 9. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su A se

1. {∅} ∈ A;

2. E ∈ A ⇒ Ē ∈ A;

3. per ogni successione {Ek } ⊆ A risulta



[
Ek ∈ A.
k=1

La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi misurabili.

Si noti che una σ-algebra è un’algebra stabile per unioni numerabili ed inoltre vale
la seguente relazione tra algebra e σ-algebra.

Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equivalenti:

1. A è una σ-algebra;

2. per ogni {En } ⊆ A risulta lim En ∈ A.

Definizione 10. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra AF =


A ∩ F è detta σ-algebra indotta da A su F .

2.2 Misure positive e di Lebesgue


Sia A un insieme, A0 ⊆ P(A) una famiglia tale che {∅} ∈ A0 .

Definizione 11. Una applicazione µ : A0 7→ R+ è detta misura positiva (o misura) su


A0 se

1. µ({∅}) = 0;
Capitolo 2. Misura e Probabilità 23

2. (σ-additività) per ogni successione {Ek ⊆ A0 } di insiemi disgiunti tali che



[
Ek ∈ A0
k=1

risulta

! ∞
[ X
µ Ek = µ(Ek ).
k=1 k=1

Osservazione 3. Osserviamo che se A ∈ A implica che Ā ∈ A, allora A0 = A è una


σ-algebra.
Definizione 12. Una misura µ si dice finita se prende valori in R+ . Si dice σ-finita se
esiste una successione {Ek } ⊆ A0 tale che

[
A= Ek , µ(Ek ) < ∞ ∀k ∈ N.
k=1

Osservazione 4. Supponiamo che µ(Ek ) = 1/2k . Allora (si veda sotto, la serie
geometrica)
∞ ∞ ∞
X X 1 X 1 1
µ(A) = µ(Ek ) = k
= k
− 1 = − 1 = 1.
k=1 k=1
2 k=0
2 1 − 1/2

Definizione 13. Sia A ⊆ P(A) una σ-algebra, µ : A 7→ R+ una misura.


• La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita) lo spazio di
misura è detto finito (σ-finito).

• Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la misura µ è


detta misura di probabilità.
Diamo ora alcune proprietà delle misure:
Proposizione 3. Sia (A, A, µ) uno spazio di misura. Allora:
1. monotonia: E ⊆ F ⇒ µ(E) ≤ µ(F );

2. additività: µ ( nk=1 Ek ) = nk=1 µ(Ek );


S P

3. subadditività: ∀ {Ek } ⊆ A ⇒ µ ( ∞
S P∞
k=1 Ek ) ≤ k=1 µ(Ek );

4. perSogni successione non decrescente {Ek } ⊆ A vale


µ( ∞ k=1 Ek ) = limk→∞ µ(Ek );
24

5. perTogni successione non crescente {Ek } ⊆ A tale che µ(E1 ) < ∞ vale
µ( ∞ k=1 Ek ) = limk→∞ µ(Ek )

Proposizione 4. (Misura di Lebesgue) Valgono le seguenti:

1. ogni intervallo limitato Ia,b = (a, b) è misurabile secondo Lebesgue e risulta

µ(Ia,b ) = b − a,

2. ogni intervallo non limitato I è misurabile secondo Lebesgue e risulta

µ(I) = ∞.

Osservazione 5. (Lunghezza di un intervallo) Si consideri la misura di Lebesgue µ,


allora dµ = µ(dx) = dx e
Z Z
µ(Ia,b ) = dµ = µ(dx) = b − a. (2.2)
Ia,b Ia,b

Esercizio 14. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare:

1. misura di Lebesgue µ(Q) di Q,

2. area di Q.

Definire un rettangolo R e calcolare:

1. misura di Lebesgue µ(R) di R,

2. area di R.

Osservazione 6. Notiamo che µ([a, b]) = µ({a} ∪ (a, b) ∪ {b}) = µ((a, b)) visto che
µ({a}) = µ({b}) = 0. Vale infatti quanto sotto riportato.

Proposizione 5. Ogni sottoinsieme numerabile di R è misurabile secondo Lebesgue e


ha misura nulla.

Definizione 14. (Insiemi di misura nulla) Un insieme N ⊆ A si dice di misura nulla


(e scriviamo N ∈ N , dove N è la famiglia degli insiemi di misura nulla) se N ∈ A e
µ(N ) = 0.

Inoltre un insieme E ∈ A si dice trascurabile se esiste un insieme N ∈ N tale che


E ⊆ N.
Capitolo 2. Misura e Probabilità 25

Osservazione 7. Se µ è ancora la misura di Lebesgue, sappiamo che µ(0, ∞) = ∞.


Se consideriamo una misura diversa, ad esempio dµ = µ(dx) = e−x dx (cioè la misura
esponenziale), si ottiene
Z Z ∞
µ(0, ∞) = dµ = e−x dx = 1.
(0,∞) 0

Esercizio 15. Calcolare µ(−1, ∞) se

1. µ(dx) = 1(−2,2) (x)dx,

2. µ(dx) = x−α−1 1[1,∞) (x)dx, α ∈ (0, 1),

3. µ(dx) = λe−λx 1(0,∞) (x)dx, con λ > 0,

4. µ(dx) = (1 + x2 )−1 1R (x)dx,


2 √
5. µ(dx) = e−x /2 / 2π1R (x)dx.

Definizione 15. (Misura che conta) Sia A un insieme. L’applicazione µ] : P(A) 7→


R+ definita come segue

] |E| = numero di elementi di E, se E è finito
µ (E) =
∞, altrimenti

è una misura di conteggio.

Definizione 16. (Misura di Dirac6 ) Sia A un insieme. L’applicazione µδ : R×P(A) 7→


{0, 1} relativa ad E ∈ P(A) definita come segue

δ 1, x ∈ E
µ (x) = , x∈R
0, altrimenti

è una misura di presenza/assenza.


6
Si noti che qui si sta parlando della misura di Dirac e non della delta di Dirac che è una funzione
generalizzata indicata con δy (x) = δ(x − y) indicando così che è una funzione di x centrata in y, spesso
y = 0 e si dice centrata
R in zero. La funzione di Dirac vale zero in tutti i punti x 6= y, vale ∞ in x = y
ed è tale per cui B δ(x − y)dx = 1 se y ∈ B con B ⊆ R. Inoltre, in generale
Z
δ(x − y)f (y)dy = f (x), (prima si è considerata f = 1B ).
R
26

Quindi fissato E ∈ P(A), si ha µδ : x ∈ R 7→ {0, 1}. Si poteva scrivere µδE (x)


oppure µδ (x, E), preferiamo non mantenere il riferimento ad E per non appesantire la
notazione, nel seguito sarà sempre chiaro a quale E ci riferiamo. Notiamo anche che
µδ (x, E) = 1E (x) e
X
dµδ = µδ (dx) = µδ (dx, E) = δy (x)dx.
y∈E

Si noti che
Z
]
µ (A) = dµδ , A⊂Z
A

se E = Z, cioè se dµδ = µδ (dx, Z).

Osservazione 8. Giusto per fissare bene le idee. Sia E = Z ed A = {−3, −1, 4}.
Allora,
Z XZ Z Z Z
δ
dµ = δk (x)dx = δ−3 (x)dx + δ−1 (x)dx + δ4 (x)dx = 3.
A k∈A R R R R

Definizione 17. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La restrizione di µ alla


σ-algebra indotta AF = A ∩ F è una misura denotata con µF è detta misura indotta
da µ su AF .

Consideriamo uno spazio di misura (A, A, µ) e diamo la seguente caratterizzazione


di ”affermazione valida quasi ovunque”. Notiamo che la famiglia N dipende dalla
misura µ, nel senso che un insieme può essere di misura nulla rispetto ad una misura
ma non rispetto ad un altra scelta opportunamente. Si può allora scrivere Nµ per
sottolineare questo fatto. Inoltre, tala famiglia è chiusa rispetto all’unione numerabile.
Diciamo inoltre che una certa affermazione A[f (x)] su una data funzione f : A 7→
R è vera quasi ovunque (o q.o.) rispetto alla misura µ se

{x ∈ A tali che A[f (x)] è falsa} ∈ Nµ .

Quindi, date due funzioni f : A 7→ [−∞, +∞] e g : A 7→ [−∞, +∞], diremo che

• f è finita q.o. se {x ∈ A : f (x) = ±∞)} ∈ N ,

• f = g q.o. se {x ∈ A : f (x) 6= g(x)} ∈ N ,

• f : D 7→ [−∞, +∞] è definita q.o. se A \ D ∈ N (dove A \ D = Dc è il


complementare di D).
Capitolo 2. Misura e Probabilità 27

Di esempi come quelli sopra riportati, come vedremo in seguito, se ne possono fare a
piacimento ed il concetto ”affermazione valida q.o.” gioca un ruolo chiave nella teoria
delle probabilità. Sostituiremo infatti la dicitura q.o. con q.c. (quasi certamente) se
µ = P è una misura di probabilità. In particolare, scriveremo
q.o.
f = g se e solo se µ({x ∈ A : f (x) 6= g(x)}) = 0 (2.3)

ed in maniera analoga negli altri casi (con riferimento alla misura µ, cioè µ-q.o. oppure
P -q.c.). Consideriamo le funzioni
 
0, x ≤ 0 1, x 6= 0
F (x) = e f (x) = .
1, x > 0 0, x = 0

La funzione F è continua q.o. in R rispetto alla misura di Lebesgue. La funzione f


ha un punto di discontinuità e possiamo dire che f = 1R q.o. rispetto alla misura di
Lebesgue dove la funzione indicatrice (o identità) è continua in R. Infatti, in entrambi
i casi µ({x}) = 07 .

2.3 Funzioni misurabili e spazi di Lebesgue


Gli spazi di Lebesgue possono intendersi come una classe di equivalenza per funzioni
misurabili. Indichiamo con M l’insieme delle funzioni misurabili. Ricordiamo che
uno spazio è misurabile se possiamo associare a tale spazio una σ-algebra, allora ogni
insieme di tale spazio è misurabile.

Definizione 18. Siano (X, A) e (X 0 , A0 ) due spazi misurabili. Una funzione f : X 7→


X 0 è detta misurabile se per ogni insieme E 0 ∈ A0 risulta f −1 (E 0 ) ∈ A. Se cioè
f −1 (E 0 ) è misurabile per ogni E 0 ∈ A0 .

Definendo allora X 0 = R ∪ {−∞, ∞} ed α ∈ R possiamo scrivere che se

{f > α} = {x ∈ X|f (x) > α} = f −1 ((α, ∞]) ∈ A

allora f ∈ M. Si potevano anche considerare gli insiemi

{f < α}, {f ≤ α}, {f ≥ α}

e loro intersezioni, unioni, complementari. Si noti il collegamento con (1.8), le varia-


bili aleatorie sono funzioni misurabili. Un esempio di funzione non misurabile rispetto
alla misura µ può essere dato dalla funzione indicatrice f (x) = 1E (x) se E (e quindi
7
Si noti che vale per ogni punto x, non solo in x = 0 come in questo caso.
28

E c ) non è misurabile rispetto a µ. Quindi insiemi non misurabili rispetto ad una certa
misura portano a funzioni non misurabili rispetto a quella misura8 .
Esercizio 16. Data f (x) = x2 , verificare se {f ≤ α} è misurabile rispetto alle misure
in Esercizio 15.
Definizione 19. (Spazi di Lebesgue) Sia (X, A, µ) uno spazio di misura. Sia M(X, A)
l’insieme delle funzioni misurabili in X. Per ogni p ∈ [1, ∞] sia

Lp (X, A, µ) = {f ∈ M(X, A) | kf kp < ∞},

lo spazio di Lebesgue di ordine p, dove


 Z 1/p
p

|f | dµ , p ∈ [1, ∞)


kf kp = X (2.4)
sup |f |, p = ∞.



X

Indicheremo tale classe di equivalenza semplicemente con Lp .


Introduciamo la funzione semplice f : A 7→ R definita da

X
f (x) = cn 1An (x) (2.5)
n=1

dove 1A (x) = 1(x∈A) . Se An = {n}, allora 1{n} (x) = 1(n=x) è la funzione indicatrice
dell’insieme {n} ed in questo caso, la funzione f (k) = ck è quindi una successione
in k ∈ N. Se inoltre consideriamo la misura di Dirac relativa ai naturali, dµδ =
µδ (dx, N), notiamo che
Z X Z X
δ
f (x)µ (dx) = cy δy (x)dx = cy .
R y∈N R y∈N

Inoltre, considerato un insieme B ⊂ R, scriviamo


Z X Z X
δ
f (x)µ (dx) = cy δy (x)dx = cy 1B (y)
B y∈N B y∈N

dove si è usato il fatto che


Z
δy (x)dx = 1B (y).
B
8
Esempi banali ma forse di aiuto: non posso certo misurare la temperatura di un corpo con il metro,
non posso neanche misurare le altezze con la bilancia. È importante considerare la dimensione degli
oggetti in questione!
Capitolo 2. Misura e Probabilità 29

Esercizio 17. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp per qualche
p ≥ 1.
Definizione 20. Sia (X, A, µ) = (N, P(N), µ] ) dove P(N) è l’insieme dei sottoinsiemi
di N, e µ] è la misura di conteggio. Lo spazio Lp (N, P(N), µ] ) viene indicato con lp e
per una successione {cn } ∈ lp vale
 !1/p
 Z 1/p X∞
|f |p dµ] |cn |p

= < ∞, p ∈ [1, ∞)


k{cn }kp = N n=1 (2.6)

sup |f (n)| = sup |cn | < ∞, p=∞



N N

dove si è posto

X
f= cn 1{n} .
n=1

Diamo il seguente teorema a scopo puramente illustrativo (ed introduttivo!!).


Teorema 1. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy. Allora esiste
f ∈ Lp tale che
kfn − f kp → 0.
Stiamo quindi dicendo in che senso fn → f se n → ∞9 . Sembra utile introdurre
alcune questioni legate alle convergenze di funzioni già accennate nel teorema prece-
dente. In particolare, facciamo notare quali tipi di convergenza si possono considerare.
Sia (A, A, µ) uno spazio di misura e f : A → B, fn : A → B con n ∈ N due funzioni
date, possiamo trovarci nelle seguenti situazioni:
♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in A se

∀x ∈ A ∀  > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| <  (2.7)

♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se

∀  > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| <  ∀ x ∈ A (2.8)

oppure, se
kfn − f k∞ = sup |fn (x) − f (x)| → 0. (2.9)
x∈A

9
Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta dalla norma k · kp .
Dato uno spazio di Banach (X, k · k), si dice base per tale spazio un insieme B ⊂ X, costituito da
elementi linearmente indipendenti e tali che lo spazio generato da B sia denso in X (o ogni elemento di
X possa scriversi come combinazione lineare di elementi di B). Si dice poi che X è separabile se esiste
una base costituita da un numero finito di vettori o al più da una infinità numerabile.
30

♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora fn → f in


µ
misura (e scriviamo fn → f ) se

µ({x ∈ A : |fn (x) − f (x)| ≥ }) → 0 per ogni  > 0 se n → ∞. (2.10)

♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se

{x ∈ A : lim fn (x) = g(x) e f (x) 6= g(x)} ∈ N (2.11)


n→∞

♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp , f ∈ Lp .


Allora fn → f in A se

∀  > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha kfn − f kp <  (2.12)

dove Z 1/p
p
kfn − f kp = |fn (x) − f (x)| µ(dx) . (2.13)
A

Ci sono interessanti collegamenti tra convergenze, noi affronteremo tali questioni


nel caso µ sia una misura di probabilità. Diciamo qualche parola sulla convergenza
puntuale (o pointwise), siano fn , f definite in D, se

∀ x ∈ D0 ⊆ D, ∀  > 0, ∃ n∗ = n∗ (x, ) : ∀n > n∗ si ha |fn − f | < 

diciamo che fn → f pointwise in D0 ed n∗ dipende da x e . Può accadere quindi


che per qualche x non posso trovare nessun n∗ che verifichi la condizione di conver-
genza. Se una successione converge uniformemente, n∗ non dipende dalla scelta di x,
fn converge infatti in maniera uniforme. Inoltre, se fn → f ∗ (puntualmente o unifor-
memente) e se f ∗ = f quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che
fn → f (puntualmente o uniformemente) µ-q.o..

Esercizio 18. Si calcoli


Z x
f (u)du, x∈R
−∞

nei due casi


 
1, x ∈ (0, 1) ∪ (1, 3) 1, x ∈ (0, 2) ∪ (2, 3)
f (x) = oppure f (x) = .
0, altrove 0, altrove
(2.14)
Capitolo 2. Misura e Probabilità 31

Esempio 3. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si vede che fn → 0


per ogni x ∈ R (convergenza puntuale), inoltre kfn − 0k∞ = n1 → 0 per ogni x ∈ R
(convergenza uniforme).

Esempio 4. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che fn →


0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈R |x| = ∞ (non converge
uniformemente).
√ √
Esempio 5. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato x, fn → 0
(convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈D |x| = √1n → 0 (converge
uniformemente).

Esempio 6. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0 (puntualmente) infatti


sin nx ∈ [−1, 1] è una funzione limitata. Inoltre, kfn − 0k∞ ≤ n1 → 0 (convergenza
uniforme).

Esercizio 19. Fornire una rappresentazione caratteristica (elementare) dell’insieme


{f > α} se:

1. f (x) = log x, α = 1,

2. f (x) = e−x , α = 0.

Esercizio 20. Fornire una rappresentazione caratteristica (elementare) dell’insieme


{f ∈ A} se:

1. f (x) = log x, A = (1, 2),

2. f (x) = e−x , A = (1, ∞).

Esercizio 21. Si dica se le seguenti funzioni sono continue o misurabili:

1. f (x) = 1(1,3] (x) + 1(4,5) (x);

2. h(x) = sin x;

3. g(x) = sin x + 2 cos x;

4. v(x) = c1 1(−1,0) (x) + c2 1(0,1) (x) con c1 , c2 > 0.

Esercizio 22. Studiare la continuità delle seguenti funzioni:


f (x) = 1(1,3] (x) + 1(3,5) (x);
h(x) = 1(1,3) (x) + 1(3,5) (x);
g(x) = 1(1,3) (x) + 1[3,5) (x).
32

Esercizio 23. Si dica se le seguenti successioni convergono pointwise. (Dove?)

1. fn (x) = xn , x ∈ [0, 1].

2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R.

3. fn (x) = n−2 (nx + x2 ), x ∈ R.

Esercizio 24. Studiare la convergenza in misura della successione fn (x) = xn con


x ∈ [0, 1].

Esempio 7. Sia fn (x) = nx(1−x2 )n , x ∈ [0, 1]. Si vede subito che fn (0) = fn (1) = 0
e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1, n/an → 0 per n → ∞). Inoltre,
 n
n 1
kfn − 0k∞ = √ 1−
2n + 1 2n + 1
n
 2n+1 ! 2n+1
n 1
=√ 1−
2n + 1 2n + 1

dove
n
 
   2n+1 ! 2n+1
n 1
lim kfn − 0k∞ = lim √  lim 1− 
n→∞ n→∞ 2n + 1 n→∞ 2n + 1
 
n  −1/2 
= lim √ e
n→∞ 2n + 1

e quindi kfn − 0k∞ → +∞ (non converge uniformemente). Vogliamo sottolineare che


Z 1 Z 1
lim fn (x)dx 6= lim fn (x)dx = 0.
n→∞ 0 0 n→∞

Infatti, per ogni n,


Z 1
1
fn (x)dx = .
0 2

Quindi la convergenza puntuale non è sufficiente per il passaggio al limite sotto il


segno di integrale.
q
Esercizio 25. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R converge pun-
tualmente e uniformemente. Studiare la convergenza di fn0 e confrontarla con f 0 .
Capitolo 2. Misura e Probabilità 33

sin nx
Esempio 8. Consideriamo ancora fn (x) = n
. Si vede subito che
 0
lim fn0 (x) 6= f 0 (x) = lim fn (x) .
n→∞ n→∞

Basta vedere che fn0 (0) = 1 per ogni n mentre f 0 (x) = 0 per ogni x. Quindi la
convergenza uniforme di fn non è sufficiente per il passaggio al limite sotto il segno di
derivata.

Osservazione 9. Consideriamo gli insiemi

A ={x ∈ R : f (x) = 0} ∈ Nµ
B ={x ∈ R : f (x) = ∞} ∈ Nµ

e l’integrale
Z
ID (f ) = f (x)µ(dx)
D

dove, solo per semplicità prendiamo µ(dx) = dx, la misura di Lebesgue. Si deve
notare che A e B sono insiemi di misura nulla ma

ID (f ) = ID\A (f ) < ∞ se A ⊆ D, B ∩ D = ∅,
ID (f ) = IB (f ) = ∞ se B ⊆ D.

Osservazione 10. Quanto abbiamo detto si può estendere a spazi Lp (X, A, m) dove

dm = ϕdµ (2.15)

e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A, scriveremo


Z Z
f (x)dm(x) = f (x)ϕ(x)dµ(x).
A A

Non tutte la misure ammettono densità.

Alcune disuguaglianze
Definizione 21. Una funzione reale, due volte differenziabile f è detta:

i) convessa se f 00 (x) ≥ 0 per ogni x,

ii) concava se f 00 (x) ≤ 0 per ogni x.


34

Teorema 2. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che µ(Ω) = 1. Sia
f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una funzione convessa. Allora10
Z  Z
ϕ f dµ ≤ (ϕ ◦ f )dµ. (2.16)
Ω Ω

Diamo inoltre la seguente definizione.

Definizione 22. (Esponenti coniugati) Se p e q sono numeri reali positivi tali che

1 1
p + q = pq oppure + = 1,
p q

allora chiamiamo p e q, coppia di esponenti coniugati.

Teorema 3. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤ p ≤ ∞. Se


f ∈ Lp (µ) e se g ∈ Lq (µ), allora

kf gk1 ≤ kf kp kgkq (quindi f g ∈ L1 (µ)). (2.17)

Teorema 4. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lp (µ), allora

kf + gkp ≤ kf kp + kgkp (quindi f + g ∈ Lp (µ)). (2.18)

Le disuguaglianze appena introdotte valgono anche negli spazi lp = Lp (µ] ) della


Definizione 20, non solo negli spazi Lp (µ) della Definizione 19. Valgono quindi anche
per successioni. Per p = 1 con µ misura di Lebesgue (solo per comodità) e g = 1
(identicamente uguale alla funzione unità), dalla dis. di Hölder si ottiene
Z Z

f (x)dx ≤ |f (x)|dx

mentre dalla dis. di Minkowski si ottiene


Z Z Z
|f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx.

10
Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)).
Capitolo 2. Misura e Probabilità 35

2.4 Misure di Probabilità -


Assiomi di base della probabilità (assiomi di Kolmogorov)
Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi attorno ai quali
estendere quanto si è visto sino ad ora. In particolare:
1. Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva A.
2. Ad ogni evento A ∈ A è associato un numero reale non negativo P (A) che viene
detto probabilità di A.
3. P (Ω) = 1.
4. A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B).
5. Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e limn→∞ An =
{∅}, si ha limn→∞ P (An ) = 0
Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La classe additiva o
σ-algebra A è una classe di insiemi non vuota e chiusa (stabile) rispetto alla negazione
e all’unione numerabile (la chiusura appena menzionata vuole intendere che tale clas-
se è costituita da elementi, gli insiemi, che possono essere uniti formando un nuovo
insieme appartenente alla classe e che preso il complementare di ognuno di essi, della
negazione o dell’unione appena ricordata, tale complementare appartiene ancora alla
classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e ∪n An ∈ A per ogni
successione {An } ∈ A.
La misura P è quindi una misura di probabilità, in particolare è una misura del tipo
(2.15). Diremo che Ω è l’insieme fondamentale o spazio fondamentale, spazio cam-
pionario, insieme degli eventi. In un esperimento o nel lancio di un dado si ottiene uno
degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere A =00 si ottiene 100 .
Lo spazio degli eventi A o anche algebra degli eventi è l’insieme di tutti gli eventi
casuali che si possono ottenere in un certo esperimento. Supponiamo che nel lancio di
un dado sia A =“si ottiene un numero pari”= {2, 4, 6} = {2}∪{4}∪{6}, la σ-algebra
A sarebbe allora A = {∅, A, Ā, Ω} dove
Ā ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5},
quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi di interesse re-
lativamente all’esperimento (sopra si è usata la legge di DE MORGAN o di BOOLE).
Sembra utile chiarire un formalismo che in realtà è anche una importante sfumatura
teorica, l’evento P ({1, 2, 3}) nel lancio di un dado può essere riscritto P ({1, 2, 3}) =
P ({1}∪{2}∪{3}) e rappresenta l’evento S P (esce 1 oP2 o 3) = P (esce 1)+P (esce 2)+
P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1 sotto le condizione
dell’assioma 4.
36

Eventi complementari Diciamo che B è il complementare di A e scriviamo B = Ā


oppure B = Ac se
A∪B =Ω e A ∩ B = ∅.

Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili se E ∩ F =


{∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo a Roma” si ottiene E ∩ F =
”mi trovo a Parigi e a Roma” = “evento impossibile”.
Definizione 23. Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompatibili,
la probabilità dell’unione di tutti gli eventi è uguale alla somma delle probabilità degli
eventi. In simboli
[n Xn
Ai ∩ Aj = {∅} per i 6= j ⇒ P ( Ar ) = P (Ar ). (2.19)
r=1 r=1

Esempio 9. Gli eventi E =”mi trovo a Pisa” e F =”vedo la torre Eiffel” sono eventi
incompatibili.
Esercizio 26. Consideriamo gli eventi E =“piove”, F =“cado scendendo le scale”.
Che tipo di eventi sono?

Intersezione con un evento certo. Un evento è certo se si verifica con probabilità


pari ad 1. Dato un evento certo che indichiamo con Ω (e quindi P (Ω) = 1) è sempre
possibile individuare un evento A tale che A∪Ac = Ω. Si vede subito che P (A∩Ac ) =
0, i due eventi sono incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato
un evento E ∈ Ω, è estremamente utile ricordare la seguente decomposizione
P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )).
Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.19) segue che
P (E) = P (E ∩ A) + P (E ∩ Ac ). (2.20)
Esercizio 27. Si rappresenti graficamente quanto appena detto mediante i digrammi
di Eulero-Venn.

Eventi compatibili. Diremo che due eventi sono compatibili se non sono incompa-
tibili. Se quindi non si escludono.

Prima di proseguire ricordiamo il principio di induzione già introdotto nei corsi


precedenti : Sia Ak dipendente da un indice k ∈ N una affermazione vera per k = 1 e
supponiamo che sia vera per un certo k = n. Se è vera anche per k = n + 1, allora
Ak è vera per ogni k ∈ N.
Diamo ora il seguente risultato.
Capitolo 2. Misura e Probabilità 37

Teorema 5. (Disuguaglianza di Boole) Per una successione finita o numerabile di


eventi {Ar }r=1,...,n si ha
n
[ X n
P ( Ar ) ≤ P (Ar )
r=1 r=1

Dimostrazione. Introduciamo una successione arbitraria di eventi


r−1
[
Fr = Ar \ Ak , r = 1, 2, . . . , n
k=1

e procediamo per induzione nel dimostrare che


n
[ n
[
Ar = Fr . (2.21)
r=1 r=1

Sarà utile ricordare la relazione

A \ B = A ∩ Bc (2.22)

dove B c = B̄ è il complementare di B (verificate utilizzando i diagrammi di Venn).


Se vede subito che A1 = F1 per costruzione. Supponiamo che (2.21) sia vera per n − 1
e verifichiamo per n. Si ottiene
n n−1
!
[ [
Fr = Fr ∪ Fn
r=1 r=1
n−1
!
[
= Ar ∪ Fn (assunzione)
r=1
n−1
! n−1
!
[ [
= Ar ∪ An \ Ak (definizione)
r=1 k=1
n−1
! n−1
!c !
[ [
= Ar ∪ An ∩ Ak (dalla (2.22))
r=1 k=1
n
!
[
= Ar ∩Ω
r=1
n
[
= Ar .
r=1

Quindi la (2.21) è dimostrata. La scelta della successione Fr non è stata arbitraria.


Infatti si può verificare facilmente che gli insieme di tale successione sono a due a due
38

disgiunti (la verifica è lasciata al lettore, si consideri ad esempio F2 ∩ F1 ). Possiamo


allora scrivere
n
[ n
[
P( Ar ) =P ( Fr ) (per quanto appena dimostrato)
r=1 r=1
n
X
= P (Fr ) (per il quarto assioma o per la additività di P )
r=1
Xn
≤ P (Ar )
r=1

dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo fatto segue
ancora dalla definizione della successione Fr . Infatti, si vede subito che P (F1 ) =
P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione è conclusa.
Osservazione 11. Se Ak ∩ As = ∅ per ogni s 6= k, allora Fk = Ak e P (Fk ) = P (Ak )
per ogni k. Vale il segno di uguale nella dis. di Boole.

La legge delle probabilità totali. Siano A e B due eventi compatibili. Allora,

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

(si dimostri graficamente). Inoltre, se A,B,C sono eventi compatibili,

P (A ∪ B ∪ C) =P (A) + P (B) + P (C)


−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)

Ovviamente si può procedere con più di tre eventi. Lasciamo questo esercizio al lettore
interessato, si noti che un modo di procedere è il metodo grafico (diagrammi di Venn).

La legge delle probabilità composte. Siano A e B due eventi. Allora,

P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A)

dalla quale si ricava anche


P (A ∩ B) P (A ∩ B)
P (A|B) = e P (B|A) = .
P (B) P (A)
L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una dipendenza di
A da B. Prima di andare a vedere in quanti modi può verificarsi A bisogna distinguere
tra i casi possibili di B e capire come il verificarsi di B modifica il verificarsi di A.
Capitolo 2. Misura e Probabilità 39

Esempio 10. Sia A ="mi rompo un braccio" un evento, non troppo felice! Sia
B ="piove" un secondo evento. Allora A|B può avere un senso, posso cioè rom-
permi il braccio cadendo e cado perché piove. Forse, col sole non sarei caduto! C’è
quindi una probabilità positiva (cioè diversa da zero) per l’evento A|B.

Esempio 11. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è nato il 4
luglio". Cosa posso dire?

Esempio 12. Dal lancio di due dadi regolari, diciamo D1 e D2 , voglio calcolare la
probabilità che sia uscita la faccia 1 sapendo che la somma dei numeri sulle facce è
3. Allora,

P ({1}|somma = 3) =P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3)


P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3))
=
P (D1 + D2 = 3)
P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)])
=
P (D1 + D2 = 3)
P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1))
=
P (D1 + D2 = 3)
=1.

Esempio 13. Seguendo il precedente esercizio, vediamo invece che

P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)])


P ({1}|somma = 4) =
P (D1 + D2 = 4)
P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1))
=
P (D1 + D2 = 4)
1 2
= ·
P (D1 + D2 = 4) 36

dove

3
P (D1 + D2 = 4) = .
36

Si ottiene quindi

2
P ({1}|somma = 4) = .
3
40

Eventi indipendenti. Se gli eventi A e B sono indipendenti, allora

P (A ∩ B) = P (A)P (B).

Se gli eventi sono indipendenti, come si è visto, A|B = A. Cioè il verificarsi di A


dipende solo da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono
indipendenti anche A e B̄, Ā e B, Ā e B̄.

Esercizio 28. Siano A e B eventi indipendenti. Si dimostri che

P (A ∩ B̄) = P (A)P (B̄).

La situazione si complica nel caso di più eventi. Vale il seguente risultato.

Proposizione 6. Se gli eventi {Ar }, in numero finito e infinito, sono indipendenti,


allora comunque si prendano k di essi Aj1 , Aj2 , . . . , Ajk con k > 1, si ha

P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ). (2.23)

Osservazione 12. Dobbiamo notare che se gli eventi sono incompatibili, non ha senso
il concetto di dipendenza.

Osservazione 13. Vogliamo sottolineare che se vale la (2.23), allora non necessaria-
mente gli eventi {Ar } sono indipendenti.
Consideriamo due eventi A =”indosso scarpe nere” e B =”cado sul bagnato”
nel caso in cui posseggo solo scarpe nere e rosse ma dello stesso modello. Allora,
B = B ∩ Ω implica che

P (A ∩ B) + P (Ā ∩ B) = P (B)

e indossare scarpe nere o rosse non modifica la probabilità di cadere perché sono dello
stesso modello. Quindi possiamo scrivere
1
P (A ∩ B) = P (Ā ∩ B) = P (B). (2.24)
2
Si vede subito che se possiedo metà scarpe nere e metà rosse, allora

P (A) = P (Ā) = 1/2

e vale la (2.24). Se inoltre le scarpe di colori diversi sono di modelli diversi è ragio-
nevole pensare che

P (A ∩ B) 6= P (Ā ∩ B)
Capitolo 2. Misura e Probabilità 41

cioè dovrebbero essere entrambe diverse da


1
P (A)P (B) = P (B) = P (Ā)P (B).
2
Quindi, il fatto che

P (A ∩ B) sia uguale a P (Ā ∩ B)

o equivalentemente

P (A ∩ B) P (Ā ∩ B)
P (B|A) = sia uguale a = P (B|Ā)
P (A) P (Ā)

non implica che cadere sia indipendente dal colore ovvero non implica che

P (A ∩ B) = P (A)P (B) e quindi P (Ā ∩ B) = P (Ā)P (B)

ma rappresenta solo una equivalenza analitica.


In definitiva, P (A ∩ B) = P (A)P (B) non implica che A e B sono indipendenti
(condizione necessaria ma non sufficiente) mentre è sempre vero il contrario.

Nel seguito useremo anche la seguente notazione

P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An ) (2.25)

ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si verifichino tutti.


Sembra utile leggere P (A ∩ B) come la probabilità che si verifichi A e B. Diremo
invece che P (A∪B) è la probabilità che si verifichino A, B o entrambi (diremo quindi
A o B). In generale P (∪r Ar ) sarà la probabilità che si verifichi almeno uno degli Ar
(non escludiamo quindi che se ne possono verificare più di uno).
Se gli eventi sono indipendenti, la formula (2.25) si scrive come il prodotto delle
singole probabilità altrimenti vale la regola del prodotto

P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ). (2.26)

Ovviamente, sotto l’ipotesi di indipendenza si ha che

P (An |An−1 , . . . , A2 , A1 ) = P (An ),


..
.
P (A2 |A1 ) = P (A1 )

e quindi la regola (2.26) vale per eventi qualunque.


42

Svolgimento Esercizio 11. Indichiamo con A ="a è difettoso" e B ="b è difettoso"


gli eventi di interesse. Ovviamente P (A) = 0.03 e P (B) = 0.04.

1. P (A ∩ B) = P (A)P (B),

2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B),

3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B) dove

P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A),

4. P (B)/P (A ∪ B).

La legge delle probabilità composte a più alternative (formula di Bayes). La for-


mula di Bayes svolge un ruolo molto interessante. Mette in relazione un evento E
(che possiamo identificare come un effetto) con altri eventi (che possiamo considerare
come le cause). Ci chiediamo quanto uno degli altri eventi intervenga nel determinare
E (quindi quale causa partecipa maggiormente nel determinare un effetto).

Teorema 6. Dati un evento E ed unSinsieme finito (o numerabile) di eventi incompa-


tibili {Ar }, r = 1, 2, . . . , n, se E ⊂ nr=1 Ar e P (E) 6= 0, si ha

P (Ar )P (E|Ar )
P (Ar |E) = Pn , r = 1, 2, . . . , n. (2.27)
i=1 P (Ai )P (E|Ai )

Dimostrazione. Per la legge delle probabilità composte possiamo scrivere

P (E ∩ Ar ) P (E|Ar )P (Ar )
P (Ar |E) = = .
P (E) P (E)

Inoltre, E ⊂ ∪r Ar e quindi
!
[ [
E=E∩ Ar = (E ∩ Ar ).
r r

Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono incompati-
bili. Per la legge delle probabilità totali, otteniamo
n
X n
X
P (E) = P (∪r (E ∩ Ar )) = P (E ∩ Ar ) = P (E|Ar )P (Ar ).
r=1 r=1

La dimostrazione è conclusa.
Capitolo 2. Misura e Probabilità 43

Svolgimento Esercizio 2 (continuazione). Diamo qui uno svolgimento diverso da


quello già visto alla luce delle nuove considerazioni. Se estraggo con reimbusso-
lamento le estrazioni sono indipendenti (le probabilità non cambiano in estrazioni
successive). In particolare, P (R) = 5/10 = P (N )
1. P (RN ∪ N R) = P ((R ∩ N ) ∪ (N ∩ R)) = P (R ∩ N ) + P (N ∩ R) − P (R ∩ N ∩
5 5 5
N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) = 2 10 10
= 10 ;
52
2. P (RR) = P (R ∩ R) = P (R)P (R) = 102
;
52
3. P (N N ) = P (N ∩ N ) = P (N )P (N ) = 102
;
P (R∩N ) 5
4. P (R|N ) = P (N )
= 10
.
Esercizio 29. Una compagnia di assicurazioni considera la popolazione composta da
PI ="persone propense agli incidenti" e PIc ="persone non propense agli incidenti".
Le statistiche della compagnia mostrano che tra le persone propense agli incidenti, il
40% ne ha entro il primo anno; tra le persone non propense agli incidenti, il 20% ne
ha uno entro un anno. Inoltre, dalle statistiche si evince che il 30% della popolazione
è propensa agli incidenti. Si vuole calcolare:
1. la probabilità che un nuovo assicurato abbia un incidente entro il primo anno
dalla stipula della polizza,
2. la probabilità che una persona che ha avuto un incidente sia propensa agli
incedenti.

Svolgimento Esercizio 29. Sia A = "un nuovo assicurato abbia un incidente entro il
primo anno dalla stipula della polizza" l’evento di interesse. Sappiamo che PI ∪ PIc =
Ω e P (PI ) = 0.3 quindi si ottiene P (PIc ) = 0.7 per passaggio al complementare.
1. Consideriamo l’intersezione con l’evento certo Ω,
P (A) =P (A ∩ [PI ∪ PIc ])
=P ([A ∩ PI ] ∪ [A ∩ PIc ])
=P ([A ∩ PI ]) + ([A ∩ PIc ])
=P (A|PI )P (PI ) + P (A|PIc )P (PIc )
4 3 2 7
= +
10 10 10 10
26
=
100
dove si è usata la legge delle probabilità totali prima e delle probabilità composte
dopo.
44

2. Si ha
P (A ∩ PI )
P (PI |A) =
P (A)
P (A|PI )P (PI )
=
P (A)
4 3 100
=
10 10 26
12
= .
26

Esercizio 30. In un laboratorio di analisi si effettua un esame per verificare la pre-


senza/assenza di una particolare malattia. La malattia è difficile da diagnosticare e
l’esame è efficace (positivo in presenza di malattia o negativo in assenza di malattia)
al 95% ma porta a falsi positivi (esame positivo quando la malattia non è presente) nel
1% delle persone sane. Se le persone malate sono il 6% della popolazione, calcolare:
la probabilità che una persona sia malata se risulta positiva all’esame; la probabilità
che una persona risultata negativa sia malata.

Svolgimento Esercizio 30. Indichiamo con M ="persona malata" e E ="persona


con esame positivo" gli eventi di interesse. I casi possibili sono:

Veri Positivi, Veri Negativi, Falsi Positivi, Falsi Negativi

(eventi incompatibili) corrispondenti agli eventi

(E ∩ M ) ∪ (E c ∩ M c ) ∪ (E ∩ M c ) ∪ (E c ∩ M ) = Ω

infatti

(E c ∩ M c ) ∪ (E ∩ M c ) = M c e (E ∩ M ) ∪ (E c ∩ M ) = M

con P (M ∪ M c ) = 1 oppure

(E ∩ M ) ∪ (E ∩ M c ) = E e (E c ∩ M ) ∪ (E c ∩ M c ) = E c

con P (E) + P (E c ) = 1. Inoltre P (M c ) = 1 − P (M ) = 0.94. La probabilità di


ottenere un vero positivo è P (E ∩ M ), cioè una persona verifica entrambi gli eventi E
e M . Dai dati del problema

P (E|M c ) = 0.01 e P (E ∩ M ) + P (E c ∩ M c ) = 0.95


Capitolo 2. Misura e Probabilità 45

si ricava

P (E ∩ M c ) = 0.01 · P (M c ) = 0.0094

0.94 = P (M c ) = P (E ∩ M c ) + P (E c ∩ M c )

da cui P (E c ∩ M c ) = 0.94 − 0.0094 = 0.9306, P (E ∩ M ) = 0.95 − 0.9306 = 0.0194.


Si vede subito che
0.0194 0.0094
P (E|M ) = , P (E|M c ) =
0.06 0.94
e la probabilità cercata è

P (E|M )P (M )
P (M |E) =
P (E)

dove P (E) = P (E|M )P (M ) + P (E|M c )P (M c ) = 0.0288. Otteniamo

P (M |E) ≈ 67%

e quindi con esame positivo nel 67% dei casi circa la persona è effettivamente malata.
Rispondiamo al secondo problema osservando che P (M ∩E c ) = 0.0406 e P (E c ) =
0.9712 quindi
0.0406
P (M |E c ) = ≈ 0.042
0.9712
che sembra essere confortante per il paziente.

2.5 Il concetto di Probabilità e le diverse impostazioni


Abbiamo introdotto gli assiomi della probabilità e ci siamo quindi preoccupati di
introdurre una impostazione rigorosa.

”La Probabilità è una misura.”

Dobbiamo ricordare che si possono dare diverse definizioni di probabilità spesso legate
anche a diverse scuole e linee di pensiero.

• Impostazione soggettiva. La probabilità di un evento è il prezzo che siamo


disposti a pagare in una scommessa per ricevere 1 al verificarsi dell’evento.
46

• Impostazione Bayesiana. La probabilità di un evento dipende da una legge a po-


steriori ottenuta scegliendo (anche soggettivamente) una legge a priori. È forte
quindi il condizionamento a ciò che conosciamo sul fenomeno che ci interessa.
Si può definire in questo ambito uno schema che prevede aggiornamenti suc-
cessivi della priori con la posteriori fino ad uno step definito ottimo in qualche
senso.

• Impostazione frequentista. Si associa la probabilità di un evento alla frequenza


di tale evento, si considera cioè che un evento si possa verificare in relazione ai
casi favorevoli a tale evento. Se i casi in questione sono equiprobabili, allora la
probabilità si può ottenere dal rapporto tra casi favorevoli e casi possibili.

• Impostazione classica. Semplicemente il rapporto tra casi favorevoli e casi


possibili (se gli eventi sono equiprobabili).

• Impostazione assiomatica. Si basa sugli assiomi di Kolmogorov.

2.6 Spazi di Probabilità uniformi


Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a spazi unifor-
mi11 e impostazione classica della Probabilità. Uno spazio di probabilità è detto uni-
forme se gli eventi possibili sono equiprobabili, cioè tutti di probabilità data e uguale
a p. Si pensi al lancio di un dado o di una moneta non truccati. Come si vedrà,
1
p = P (ω) = , ω∈Ω
µ] (casi possibili)
dove Ω è lo spazio degli eventi (elementari) possibili e
X
P (A) = P (ωk ) =p · µ] (casi favorevoli all’evento A)
k:ωk ∈A

µ] (casi favorevoli all’evento A)


=
µ] (casi possibili)
dove A è un elemento della σ−algebra generata da Ω.
Il nostro lavoro in questa direzione è quindi solo quello di identificare il numero di
casi possibili e favorevoli. A tale scopo abbiamo già introdotto
- le combinazioni semplici,

- le permutazioni semplici,
11
Ricordiamo che sono spazi finiti.
Capitolo 2. Misura e Probabilità 47

che non ci garantiscono una trattazione completa dei casi di interesse (per questo
corso!).
PN
Definizione 24. Dato un insieme U = ∪N j=1 Uj di cardinalità |U | = j=1 nj = n
dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da nj ripetizioni dello stesso
elemento, tutti i sottoinsiemi di U
i) di cardinalità n,

ii) che differiscono per ordinamento (ordinati),

iii) che non differiscono per numero di elementi uguali (con ripetizione)
formano l’insieme Pnn1 ,...,nN delle permutazioni con ripetizione. Inoltre,

n!
|Pnn1 ,...,nN | = .
n1 ! n2 ! · · · nN !

Definizione 25. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U


i) di cardinalità k ≤ n,

ii) che differiscono per ordinamento (ordinati),

iii) in cui ogni elemento di U può essere preso una sola volta (senza ripetizione)
formano l’insieme Dn,k delle disposizioni semplici di n elementi in classe di k. Inol-
tre,
n!
|Dn,k | = n · (n − 1) · · · (n − k + 1) = .
(n − k)!

Definizione 26. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U


i) di cardinalità k ≤ n,

ii) che differiscono per ordinamento (ordinati),

iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
formano l’insieme Dn,k delle disposizioni con ripetizione di n elementi in classe di k.
Inoltre,
0
|Dn,k | = nk .
48

Definizione 27. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U

i) di cardinalità k ≤ n,

ii) che non differiscono per ordinamento (non ordinati),

iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
formano l’insieme Cn,k delle combinazioni con ripetizione di n elementi in classe di k.
Inoltre,
 
0 n+k−1
|Cn,k | = .
k

Sia U = {a, a, b}, allora


3
P2,1 ={aab, aba, baa}.

Sia U = {a, b}, allora

D2,2 = {ab, ba},

0
D2,2 = {aa, ab, ba, bb},

0
C2,2 = {aa, ab, bb} = {aa, ba, bb}

Svolgimento Esercizio 3 (continuazione). Possiamo considerare le estrazioni in


blocco e quindi otteniamo

1. P (RN ∪ N R) = 51 51 / 10
   5
2
= 9;

2. P (RR) = 52 50 / 10
  
2
;

3. P (N N ) = 50 52 / 10
  
2
;

oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità cambiano


ad estrazioni successive. Infatti,
5 5
P (RN ) = P (R alla prima estrazione)P (N alla seconda estrazione) = .
10 9
Si ottiene allora
5 5
1. P (RN ∪ N R) = 2 10 9
;
Capitolo 2. Misura e Probabilità 49

5 4
2. P (RR) = 10 9
;
5 4
3. P (N N ) = 10 9
.

Esercizio 31. Da un mazzo di 52 carte Mariello prende tutte le 13 carte di un solo


seme scelto a caso e le passa a Mario. Mario distribuisce a Maria le prime n carte
del mazzo. Calcolare le seguenti probabilità:

a) tutte le carte di Maria sono minori o uguali ad n.

b) tutte le carte di Maria sono maggiori di n.

c) tutte le carte di Maria sono di cuori.

Esercizio 32. Mario e Piero (in questo ordine) estraggono una pallina numerata a
testa con reimbussolamento da una scatola contenete i numeri da 1 a 9. Guardano
i numeri sulle due palline estratte, chi ha un numero pari vince 5 euro e se si sono
estratte due palline con un numero pari non vince nessuno. Si ripete questa operazione
due volte. Calcolare le probabilità dei seguenti eventi:

1. nessuno vince;

2. Piero vince 10 euro;

3. entrambi vincono 10 euro;

4. uno dei due vince 10 euro;

5. entrambi vincono 5 euro.


50
Capitolo 3

Variabili Aleatorie

3.1 Definizione di variabile aleatoria -


Diamo una definizione formale e introduciamo le variabili aleatorie con un esempio.
Sia B lo spazio dei reali B = Rn o degli interi B = Zn e Ω ⊆ A.
Definizione 28. Sia X = X(ω) una funzione X : Ω 7→ B, diremo che X è una varia-
bile aleatoria (v.a) definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se
cioè

(X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A.

Possiamo quindi parlare di una v.a. misurabile X(ω) : A 7→ Bn e risulta

P (B) = P (X(ω) ∈ B ⊆ B n ) = P (X −1 (B) ∈ Ω0 ⊆ A) = P (Ω0 )

dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn ) se X ∈ Zn . Dobbiamo specificare


rispetto a quale misura si sta calcolando la probabilità P quando si considera un Bo-
reliano B della σ-algebra B n di Rn (oppure un boreliano B della σ-algebra ”discreta”
B n di Zn ) o un insieme Ω0 della σ-algebra A di Ω. Infatti,
Z Z
P (Ω0 ) = dP = P (dω), Ω0 ∈ A, (3.1)
Ω0 Ω0

o equivalentemente
Z Z
P (B) = dFX = fX (x)µ(dx), B ∈ Bn . (3.2)
B B

Diremo che FX è associata a P . Si vede subito che FX : B 7→ [0, 1] mentre P : Ω 7→


[0, 1]. Il nostro scopo, in questo capitolo, è quello di caratterizzare la misura µ nel caso

51
52

in cui X assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω) assume
valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci interessano tutti gli
ω ∈ Ω0 tali che X(ω) ∈ B ⊂ B n , cioè Ω0 ∈ A). Ci troviamo a dover trattare due
spazi, (Ω, A, P ) e (Rn , B n , µ). La v.a. X(ω) rappresenta il collegamento tra di loro.
Se (il Boreliano B) l’insieme B fosse rappresentato dalle persone alte 1.70 metri
(B = {1.70}) ed X fosse la v.a. altezza delle persone di Ω diciamo che la probabilità
che una persona sia alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈
Ω0 ) = P (Ω0 ) e quindi dalla µ] (Ω0 )/µ] (Ω) = nX=1.70 /npersone di Ω . In questo caso Ω0
è l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70 metri,
Ω0 = {ω ∈ Ω | X(ω) = 1.70} e µ] (Ω0 ) restituisce il numero di tali persone. Si
osservi che

Ω0 = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70)


Ω0 = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞)
Ω0 = {ω ∈ Ω | 1.20 < X(ω) ≤ 180]} ⇔ B = (1.20, 1.80].

Diremo quindi che X(ω) =” altezza di ω” se X =”altezza” e ad ω può essere associata


una misura di probabilità P (ω).

Osservazione 14. Notiamo che

P (X ∈ B) = P (ω : X(ω) ∈ B) = P (Ω0 ) Ω0 ⊂ Ω

nello spazio (Ω, A, P ) e quindi

P (X ∈ B) = FX (B : X −1 (B) ∈ Ω0 ) B ∈ Bn

nello spazio (Rn , B n , FX ). Rimane da definire µ introdotta in (3.2).

Oggetto chiave del corso sarà la funzione di ripartizione della v.a. X a valori in Rn

FX (x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )

dove

X = (X1 , X2 , . . . , Xn )

è un vettore aleatorio e

x = (x1 , x2 , . . . , xn ) ∈ Rn .

Diamo la seguente definizione generale.


Capitolo 3. Variabili Aleatorie 53

Definizione 29. Una variabile aleatoria (v.a.) reale X è una funzione dallo spazio di
probabilità (Ω, A, P ) allo spazio misurabile (Rn , B n , FX ), con la classe B n misurabi-
le, nel senso che le immagini inverse degli insiemi di B n di B appartengono ad A di
Ω.
Notiamo che N ⊂ Z ⊂ R. Nella definizione precedente si sono introdotte le varia-
bili reali, come vedremo più avanti noi saremo interessati a caratterizzare le variabili
continue e discrete.
Useremo anche la notazione (ΩX , AX , PX ) per indicare che lo spazio di probabi-
lità (Ω, A, P ) si riferisce alla v.a. X.

Vediamo il caso in cui X ha valori in R ed FX (x) = P (X ≤ x) con x ∈ R ovvero


X è reale 1-dimensionale.

Proprietà della funzione di ripartizione. Risulta utile ricordare le proprietà fonda-


mentali della funzione FX : R 7→ [0, 1],
1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x), x ∈ R;

2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ), x1 < x2 ;

3. P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 );

4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0;

5. limx→x+0 FX (x) = FX (x0 ) (continuità a destra) cioè

xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x)

xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−).

Se xn → ∞ (o xn ↑ ∞) allora FX (xn ) → P (X < ∞) = 1. Notiamo che

P (X = x) = FX (x) − FX (x−) (3.3)

è uguale a zero per tutti i punti x di continuità1 per FX .


Nel caso di una v.a. multidimensionale si ottiene

lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ), lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ), (3.4)
x1 →+∞ x2 →+∞

1
Se la v.a. è continua si ha FX (x−) = FX (x) mentre nel caso di v.a. discrete, i salti della f.r.
determinano P (X = x) > 0.
54

1.0


0.8


0.6


0.4


0.2


0.0

0 1 2 3 4 5 6 7

Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia nel lancio


di un dado". La funzione è continua a destra.

lim F(X1 ,X2 ) (x1 , x2 ) = 0 = lim F(X1 ,X2 ) (x1 , x2 ), (3.5)


x1 →−∞ x2 →−∞

lim F(X1 ,X2 ) (x1 , x2 ) = 1. (3.6)


x1 ,x2 →∞

La probabilità è una misura positiva di massa finita (P (Ω) = 1). La funzione di


ripartizione è quindi una probabilità (misura di probabilità) e diciamo che
Z
dP = f · dµ e P = dP (3.7)

dove f è la densità di P rispetto alla misura µ. Per ora vogliamo solo sottolineare (in
maniera ingenua) che:
• f è una densità continua e µ è la misura di Lebesgue, quindi
Z Z Z
P (B) = f dµ = fX (x)dx = fX (x)1B (x)dx = P (X ∈ B).
B B
Capitolo 3. Variabili Aleatorie 55

Notiamo che B ∈ P(R) (o B ∈ P(Rn )) e se B = {x} è un punto,

P (B) = 0.

• f è una densità discreta e µ è una misura di Dirac, quindi


Z X X
P (B) = f dµδ = pk 1(x=xk ) = pk 1B (xk ) = P (X ∈ B)
B x∈B k

e pk = P (X = xk ) è a sua volta una probabilità per ogni k, diremo che la


successione {pk }k è una distribuzione di probabilità. Notiamo che B ∈ P(Z) (o
B ∈ P(Zn )) se B = {x} è un punto,

P (B) = pk se x = xk per un k da definire.

Dobbiamo quindi distinguere tra v.a. continue e discrete. In entrambi i casi vale il
seguente risultato di continuità.
Teorema 7. (Continuità di P ) Sia P una misura di probabilità. Sia {Ak }k∈N ∈ A una
successione monotona di eventi, allora
 
lim P (Ak ) = P lim Ak . (3.8)
k→∞ k→∞

Inoltre,

!
[
lim P (Ak ) = P Ak , (se la successione è crescente)
k→∞
k=1


!
\
lim P (Ak ) = P Ak , (se la successione è decrescente).
k→∞
k=1

Variabili aleatorie continue


Diamo innanzitutto le seguenti definizioni.
Definizione 30. Una v.a. si dice continua se assume valori continui2 .
Definizione 31. Se X è una v.a. continua, definiamo supp(X) il supporto della v.a.
X, cioè l’insieme dei valori che può assumere X.
2
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato supporto o
spettro continuo, ha la potenza del continuo.
56

Introduciamo le funzioni continue e vediamo come si legano alle v.a. continue.


Definizione 32. Sia f : D 7→ R. Se per ogni successione xn a valori in D per cui

lim xn = x
n→∞

si ha
lim f (xn ) = f (x) (3.9)
n→∞

diciamo che f è continua in x. Se la (3.9) vale per ogni x ∈ D, scriviamo f ∈ C, dove


C = C(D) è l’insieme delle funzioni continue con supporto in D ⊆ R.

Osservazione 15. Se una funzione è continua in un punto, allora è continua da destra


e da sinistra in quel punto.
Teorema 8. (Teorema fondamentale del calcolo integrale) Sia f una funzione continua
nell’intervallo [a, b]. La funzione integrale
Z x
F (x) = f (u)du (3.10)
a

è derivabile e vale
F 0 (x) = f (x) ∀ x ∈ [a, b]. (3.11)
Dimostrazione. Consideriamo la proprietà di additività dell’integrale
Z x+h Z x Z x+h
F (x + h) − F (x) = f (u)du − f (u)du = f (u)du
a a x

ed il rapporto incrementale
x+h
F (x + h) − F (x)
Z
1
= f (u)du.
h h x

Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un ponto xh ∈ [x, x + h]


tale che (teorema della media)
F (x + h) − F (x)
= f (xh )
h
e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x) ed
ovviamente si ha che
F (x + h) − F (x)
→ F 0 (x).
h
Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è conclusa.
Capitolo 3. Variabili Aleatorie 57

Una funzione derivabile in un punto è continua in quel punto. Non è sempre vero
il contrario, si pensi alla funzione modulo f (x) = |x|.
Teorema 9. (Formula fondamentale del calcolo integrale) Sia f una funzione che
ammette una primitiva F , cioè F 0 (x) = f (x) per ogni x ∈ [a, b]. Se f è integrabile, si
ha Z b
f (x)dx = F (b) − F (a). (3.12)
a

La funzione integrale (3.10) vale per f ∈ C nota dalla quale ricaviamo F . In


questo caso, in cui f è integrabile (e non nota mentre lo è la F ) possiamo scegliere
f = F 0 se l’uguaglianza vale quasi ovunque. Possiamo quindi calcolare la probabilità
Z
P (X ∈ B) = fX (x)dx
B

per un Boreliano B se fX è integrabile3 . Si pensi ad esempio alla funzione indicatrice


f (x) = 1E (x) o alla funzione di Heaviside H(x) = 1[0,∞) (x) continue nel loro sup-
porto o alle loro combinazioni lineari.

Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni assolutamente


continue ed è costituito dalle funzioni per cui vale la formula fondamentale del calcolo
integrale. Quindi, se F ∈ AC, allora F ∈ C e F 0 = f è integrabile. Notiamo però che
se f ∈ C, vale il Teorema fondamentale. Quindi, possiamo definire una f.r. se fX è
integrabile ma occorre che sia continua affinché FX sia differenziabile in tutti i punti in
cui f è continua4 . Diremo quindi che X è una v.a. continua (o assolutamente continua)
se FX è continua (o assolutamente continua). Scriveremo inoltre ”c.” o "a.c." invece
di "continua" o ”assolutamente continua” se dal contesto sarà chiaro il riferimento alle
v.a..
Proposizione 7. Sia X una v.a. c. o a.c. con FX (x) = P (X ≤ x). Allora,

d in tutti i punti in cui è continua, se X è c.,
fX (x) = FX (x) (3.13)
dx in tutti i punti in cui esiste, se X è a.c..

La v.a. X è c. oppure a.c. nel suo supporto. Se f = fX è continua (f ∈ C([a, b])),


abbiamo quindi detto che y = FX risolve y 0 = f (dove y ∈ C 1 ([a, b])). Bisogna
sottolineare che le soluzioni fornite dal Teorema fondamentale del calcolo integrale
sono relative alla teoria dell’integrazione secondo Riemann e quindi al caso in cui
3
Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è integrabile. Dobbia-
R che fX > 0 è una condizione necessaria affinché fX sia una legge di densità. Quindi deve
mo notare
essere B fX (x)dx < ∞.
4
Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10, pag. 311].
58

f ∈ C. Noi ci occupiamo anche di funzioni f ∈ L1 per cui y 0 = f quasi ovunque


(rispetto alla misura µ che per noi sarà la misura di Lebesgue). Si parla in questo caso
di teoria dell’integrazione secondo Lebesgue5 .
Una v.a. con valori continui possiede quindi una f.r. che è una funzione integrale,
si può rappresentare come integrale di una funzione fX detta (funzione di) densità
Z Z
P (X ∈ B) = FX (B) = dFX = fX (x)dx
B B

(dove B è un Boreliano). Affinché una funzione fX sia una densità, sono condizioni
necessarie e sufficienti:

1. fX (x) > 0,
R∞
2. −∞ fX (x)dx = 1.

Se X è assolutamente continua, a volte diremo semplicemente che X è continua


nel senso della Definizione 30. Inoltre, se X è una v.a. c. o a.c. scriveremo

X ∼ fX (3.14)

e per ogni Boreliano B ∈ P(R),


Z
P (X ∈ B) = fX (x)1B (x)dx.
supp(X)

Se supp(X) ⊆ Rd , cioè se X è un vettore aleatorio di dimensione d ≥ 1, allora per


ogni Boreliano B ∈ P(Rd ),
Z
P (X ∈ B) = fX (x)1B (x)dx.
Rd

Infatti, la funzione fX è nulla fuori supp(X).


2
Esercizio 33. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una densità.

Esercizio 34. Verificare se f (x) = e−3x , x ≥ 0 è una densità.

Esercizio 35. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia una densità.

Esercizio 36. Dire se le densità considerate negli esercizi precedenti sono continue o
assolutamente continue.
5
R
Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale (3.2) o f dFX
per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-Stieltjes.
Capitolo 3. Variabili Aleatorie 59

Il concetto di funzione di distribuzione può essere esteso al caso delle v.a. multidi-
mensionali (o vettori di v.a.). Nel caso di un vettore 2-dimensionale scriveremo
Z Z
P (X1 ∈ B1 , X2 ∈ B2 ) = F(X1 ,X2 ) (x1 , x2 ) = fX1 ,X2 (x1 , x2 )dx1 dx2
B1 B2

In generale, X è un vettore di variabili aleatorie di dimensione n se

X = (X1 , X2 , . . . , Xn )

dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle formule


in (3.4) si ottengono le marginali. Diciamo che, data la f.r.

ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )

si ottiene

lim
xn →∞
ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xn−2 )
xn−1 →∞

dove

ϕ(x1 , . . . , xn−2 ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−2 ≤ xn−2 )

è la marginale di ordine n − 2. In generale, è anche vero che

lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ).


xj →∞

Si possono definire marginali di ogni ordine k ≤ n partendo da una funzione di ri-


partizione di ordine n. Infatti anche per k = n si può pensare di avere una marginale
rispetto a qualche funzione di ripartizione di ordine m > n. Le densità marginali si
ottengono derivando le corrispondenti funzioni di ripartizione che equivale e scrivere,
ad esempio nel caso unidimensionale
Z
fX1 (x1 ) = fX1 ,X2 (x1 , x2 )dx2
supp(X2 )

oppure, se
∂ nϕ
φ(x) = (x) = fX1 ,...,Xn (x1 , . . . , xn ),
∂x1 · · · ∂xn
allora
Z
fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj , xj+1 , . . . , xn ) = φ(x)dxj .
supp(Xj )
60

Vale la pena di notare che

P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 )

dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè P (X2 ≤ ∞) = 1
o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il Boreliano B = (−∞, x], si ricava
che Z x Z x
FX ((−∞, x]) = FX (x) = dFX = fX (u)du.
−∞ −∞
Inoltre il concetto di densità può essere espresso in termini di probabilità dalla seguente
relazione
Z x+Mx
fX (x)4x ' fX (u)du = P (x < X ≤ x+ M x) = FX (x + 4x) − FX (x)
x

con
P (x < X ≤ x+ M x)
lim = FX0 (x).
4x→0 4x
Osservazione 16. Osserviamo che per una v.a. assolutamente continua si ha P (X =
x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti gli x ∈
/ supp(X), per
+
definizione). Basta considerare 4x → 0 e la continuità di FX .
Diamo la seguente definizione.
Definizione 33. Sia f ∈ C.
• Se g ∈ L1 e |f (x)| ≤ g(x) per ogni x, diciamo che f è dominata da g.

• Se per M > 0, si ha |f (x)| ≤ M per ogni x, diciamo che f ∈ Cb dove Cb indica


l’insieme delle funzioni continue e limitate (o uniformemente limitate).
Abbiamo preferito mantenere il simbolo Cb che sta per continuous and bounded.
Possiamo dire che una funzione è limitata se la sua immagine è un insieme limitato.

Introduciamo ora la condizione di Lipschitz, per una funzione f ,

|f (x) − f (y)| ≤ M |x − y|

dove M è detta costante di Lipschitz. Una funzione Lipschitziana è una funzione di


una variabile reale che ha una crescita limitata, nel senso che il grafico della funzione
f è contenuto nella regione delimitata dalle rette di coefficiente angolare +M e −M
passanti per un punto opportunamente scelto del grafico della f . La Lipshitzianetà6 è
6
Una funzione è detta di Lipschitz se esiste una costante M tale che, per ogni x, y, vale la condizione
di Lipschitz.
Capitolo 3. Variabili Aleatorie 61

una condizione più forte della continuità7 o della uniforme continuità8 . Indichiamo con
Lip l’insieme delle funzioni Lipschitziane. Una funzione derivabile e Lipschitziana ha
derivata limitata. Infatti, se f è derivabile nel punto x, allora
f (x) − f (y)
lim = f 0 (x).
y→x x−y
Quindi, se f ∈ Lip,
|f (x) − f (y)|
|f 0 (x)| = lim ≤M
y→x |x − y|
e quindi la derivata è limitata. In particolare, le seguenti affermazioni sono dunque
equivalenti:
i) f è derivabile e |f 0 | ≤ M , allora f ∈ Lip,
ii) f ∈ C 1 , allora f è localmente Lipischitziana.
Osserviamo che la ii) significa che f è uniformemente continua in un intervallo, basta
considerare δ = /M .
2
Osservazione 17. Sono esempi di funzioni continue in R le funzioni √ f (x) = x e
g(x) = sin x. Si noti che f ∈/ Lip mentre g ∈ Lip. Inoltre, f (x) = x è continua in
[0, ∞) ma f ∈/ Lip.
Osserviamo infine che non vale la doppia implicazione. Infatti, f (x) = |x| è
Lipshitziana ma f ∈/ C 1 in R, essendo continua ovunque ma derivabile per x 6= 0.
Ricordiamo un risultato utile nei conti.
Proposizione 8. Siano ϕ e ψ derivabili, f integrabile. Allora, la funzione integrale
Z ϕ(x)
F (x) = f (u)du (3.15)
ψ(x)

ha derivata
F 0 (x) = ϕ0 (x) f (ϕ(x)) − ψ 0 (x) f (ψ(x)). (3.16)
7
Una funzione è detta continua in x se

∀  > 0 ∃ δ = δ(y, ) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .

Questa definizione è ovviamente analoga a quella già data, viene riportata solo per evidenziare il
collegamento con le funzioni Lipschitziane.
8
Una funzione f è uniformemente continua se δ dipende solo da , cioè se per ogni x, y si ha

∀  > 0 ∃ δ = δ() > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .


62

Una funzione (di una variabile) continua può non essere derivabile mentre una fun-
zione derivabile è continua. Per funzioni di più variabili bisogna introdurre la nozione
di funzione differenziabile. Se f è differenziabile, allora ha derivata in ogni direzione.
Inoltre, ogni funzione differenziabile in x è continua in x.

Teorema 10. Se f ha derivate parziali in un intorno di x e sono continue in x, allora


f è differenziabile in x.

Segue dalla Definizione 31 che P (X ∈ A) > 0 per ogni insieme A ⊂ supp(X).


Si vede subito che per ogni densità fX (e quindi per ogni v.a. X) si ha che supp(X) =
supp(fX ) e quindi fX (x) = 0 per ogni x ∈ / supp(X). Infatti, sia X una v.a. d-
dimensionale e A = R \ supp(X), allora possiamo scrivere,
Z Z
fX (x)dx = fX (x)dx = P (X ∈ Ω) = 1
Rd supp(X)

e
Z
fX (x)dx = P (X ∈ A) = 0.
Rd \supp(X)

Esercizio 37. Dire se


( 1
x2 sin , x 6= 0
F (x) = x2
0, x=0

è differenziabile e verificare che F 0 = f ∈


/ L1 (f non è integrabile).

Esercizio 38. Si è introdotta la funzione di Heaviside H(x) = 1[0,∞) (x) con x ∈ R.


Dire se H è continua a destra o a sinistra. Dire se H è continua in A = (1, 3),
B = [1, 3), C = (−1, 0), Ac , B c , C c \ [0, ∞).

Esercizio 39. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0. Dire se X è
c. oppure a.c. in R. Quanto vale κ? Chi è X?

Esercizio 40. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri che FX (x) =
P (X ≤ x).]9

9
Si veda la Definizione 43.
Capitolo 3. Variabili Aleatorie 63

Variabili aleatorie discrete


Un esempio di v.a. discreta può essere la variabile che restituisce i numeri da 1 a 6 nel
lancio di un dado oppure una variabile che può assumere solo i valori 1 e −1.
Definizione 34. Una v.a. si dice discreta se assume valori discreti10 .
Definizione 35. Se X è una v.a. discreta, definiamo spet(X) lo spettro della v.a. X,
cioè l’insieme dei valori che può assumere X.
Una v.a. si dice discreta se lo spettro è un insieme numerabile11 .

La funzione di ripartizione è scritta a partire dalla seguente probabilità (come


vedremo questa non è la scrittura definitiva)
X
P (X ≤ x) = pk , x ∈ spet(X)
k:xk ≤x

dove

P (X = xk ), xk ∈ spet(X)
pk = (3.17)
0, altrimenti
e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può assumere. La
successione è dunque numerabile (cioè può essere messa in corrispondenza biunivoca
con l’insieme dei numeri naturali) e può essere scritta come {xk }k∈IX dove IX ⊆ N
è un insieme di indici per la v.a. X. In generale, diremo che una v.a. discreta X può
essere caratterizzata dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo
X ∼ (xk , pk ), k ∈ IX . (3.18)
Quindi la funzione di ripartizione si potrebbe riscrivere considerando
X
P (X ≤ x) = pk , x ∈ spet(X).
k∈IX :xk ≤x

Consideriamo la funzione semplice (2.5) e la misura di Dirac associate alla v.a discreta
X. Diremo che:
• la funzione semplice fX è associata alla v.a. discreta X se
X
fX (x) = pk 1{xk } (x),
k∈Z

10
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato spettro o
spettro discreto, è un insieme finito o infinito numerabile.
11
Se ad esempio spet(X) = {−π, +π}, allora diciamo che X è una variabile discreta anche se ±π
non sono interi.
64

• la misura di Dirac µδ è associata alla v.a. discreta X se

µδ = µδ (x, E) con E = spet(X).

Allora, Z X
P (X ∈ B) = f dµδ = pk µδ (xk , B). (3.19)
B k∈IX

La successione pk , k ∈ IX (e quindi la funzione f ) è detta densità discreta di X e per


ogni B ∈ P(Z),
X
P (X ∈ B) = pk 1B (xk )
k∈IX

dove 1B (xk ) = 0 per ogni k se e solo se B ∩ spet(X) = ∅. Condizioni necessarie e


sufficienti affinché pk sia una densità discreta sono:

1. pk ≥ 0,
P
2. k∈IX pk = 1.

Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1] sono pro-
babilità. Si noti anche che la definizione (3.17) è stata data per chiarezza ma risulta
ridondante. Infatti P (X = xk ) = 0 se xk ∈
/ spet(X), si pensi al lancio di un dado,

P (esce la faccia con il numero 21) = 0.

La seconda condizione (necessaria e sufficiente) dice in sostanza chi è l’evento certo


per una v.a. X, cioè
[
(X = xk ) = Ω
k∈IX

dove gli eventi (X = xk ) sono mutualmente esclusivi (la v.a. si realizza una sola volta,
gli eventi sono incompatibili) e quindi
!
[ X
P (X = xk ) = P (X = xk ).
k∈IX k∈IX

Osservazione 18. Notiamo che si sta usando un insieme diverso dal supporto di una
v.a., lo spettro. Si vuole infatti sottolineare che nel caso delle v.a. discrete si ha a che
fare con un insieme, lo spettro, per cui si ha P (X = x) 6= 0 per ogni x ∈ spet(X).
Capitolo 3. Variabili Aleatorie 65

Osservazione 19. Se pk = 1/|Ω| è costante, la (3.19) diventa

1 X δ 1 ] µ] (B)
P (X ∈ B) = µ (xk , B) = µ (B) = ] .
|Ω| k∈I |Ω| µ (Ω)
X

Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un evento si


calcola usando il metodo classico (si veda la Sezione 2.6).
Esercizio 41. Sia {pk }k∈I una densità discreta (I è un insieme di indici e potrà essere
I = IX per qualche X). Studiare la convergenza di
n
X
fn (x) = pk 1{xk } (x), x ∈ D, n ∈ N.
k=−n

Abbiamo accennato al fatto che useremo una scrittura definitiva per la f.r. che
completa quella appena data (si veda il Capitolo 7). Come vedremo sotto, se x ∈ /
supp(X) (o x ∈ / spet(X)) la f.r. FX (x) può assumere solo il valore 0 oppure 1.
Introduciamo le seguente notazione per indicare la probabilità relativa ad un vettore
di v.a. discrete,

pr,s = P (X1 = xr , X2 = xs ), r ∈ IX1 , s ∈ IX2 (3.20)

oppure

pr1 ,r2 = P (X1 = xr1 , X2 = xr2 ), r1 ∈ IX1 , r2 ∈ IX2

Segue immediatamente la notazione relativa a vettori di dimensione d > 2.


Esercizio 42. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼ P ois(λ), λ > 0
e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .} caratterizza una v.a. Y .
Osservazione 20. Spesso il supporto di una v.a. (continua) viene chiamato spettro
continuo mentre lo spettro di una v.a. (discreta) viene chiamato spettro discreto. Noi
chiameremo supporto e spettro gli insieme in questione per sottolineare i collegamenti
con la densità f della misura P ed il fatto che il supp(f ) è costituito dai punti x per
cui f (x) 6= 0. In particolare il supporto di una funzione f è dato dalla chiusura di
{x ∈ A : f (x) 6= 0}.
Esempio 14. (Modello deterministico v.s. Modello aleatorio) Un modello matematico
deve descrivere un fenomeno reale a partire dalla conoscenza di alcune informazioni,
le informazioni sono i dati del modello e rappresentano valori (o variabili) in input.
Il valore in output deve descrivere il fenomeno sulle base delle variabili considerate.
Consideriamo un modello semplice che descrive il fenomeno y, tale fenomeno dipende
66

dalle variabili x1 , x2 , . . . , xn , allora se la relazione di dipendenza è espressa dalla


funzione g, scriveremo

y = g(x1 , x2 , . . . , xn )

per indicare un modello deterministico: le variabili sono fisse. Pensiamo ad un fe-


nomeno fisico, se conosco tutte le variabili che entrano in gioco, posso determinare
esattamente il valore della risposta y. Se non conosco tutte le variabili, il model-
lo non potrà restituire una risposta esatta (o fedele alle leggi fisiche del fenomeno)
e si introduce inevitabilmente una condizione di incertezza. Il modello matematico
diventerebbe allora

Y = g(x1 , x2 , . . . , xn , X)

dove X è una variabile aleatoria che deve giustificare la mia ignoranza sul fenomeno
o l’impossibilità di reperire tutte le informazioni necessarie. La risposta diventa a sua
volta una variabile aleatoria e la sua legge di densità è legata alla densità di X per
il tramite della funzione g. Il modello così formulato si chiamo modello aleatorio : le
variabili non sono fisse ma sono legate ad una legge di probabilità, esiste ad esempio,
un valore modale.

3.2 Media e Momenti


Si consideri una v.a. continua X con legge di densità fX ed una v.a. discreta Y
caratterizzata dalla successione (yk , pk ), k ∈ IY . Definiamo le seguenti medie
Z X
EX = x fX (x)dx, EY = yk pk
supp(X) k∈IY

ed in generale i momenti di ordine r > 0


Z X
r
EX = xr fX (x)dx, EY r = (yk )r pk .
supp(X) k∈IY

Osserviamo che per v.a. continue o discrete, data una funzione continua g ∈ C(R),
possiamo scrivere
Z
Eg(X) = g(x)f (x)µ(dx)
R

dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto supp(X))


o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta di X). Nelle
Capitolo 3. Variabili Aleatorie 67

formule sopra si è considerata la funzione continua g(x) = xr con r > 0. Per r = 0 si


ottiene banalmente E1 = 1.
Le medie campionarie introdotte a pagina 3 sono dunque collegate alle medie ap-
pena introdotte. In particolare, la media aritmetica è un caso particolare di media
ponderata ed entrambe si possono vedere come il valore medio di una variabile aleato-
ria. Dobbiamo osservare che le medie campionarie di pagina 3 sono medie aritmetiche
mentre le medie di cui si parla in questa sezione sono dette teoriche, sono cioè calco-
late relativamente alla densità f (che sia continua o discreta). Inoltre, siamo in grado
di passare a nuove v.a. per il tramite di una funzione g ben definita.

Proposizione 9. Sia g ∈ Cb e non negativa, allora


Z X
Eg(X) = g(x) fX (x)dx, Eg(Y ) = g(yk ) pk . (3.21)
supp(X) k∈IY

Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare! Si consideri la dis.


di Hölder.). Inoltre, se g ∈ Cb allora g ∗ = −g ∈ Cb . La funzione g(x) = xr con r > 0
è continua ma non limitata: non avrà senso per noi considerare EX r = ∞, infatti

g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞


|Eg(X)| < ∞ 6⇒ g ∈ Cb (R).

Siano adesso X ed Y due v.a. (continue o discrete). Sono quantità di interesse:


la varianza
V ar(X) = E(X − µ)2 = M2 − (M1 )2 , (3.22)
la covarianza

Cov(X, Y ) = E[(X − µX )(Y − µY )] = EXY − EXEY (3.23)

ed i momenti
Mr = EX r . (3.24)
Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il numero µ
(non deve creare confusione il fatto che si stia usando lo stesso simbolo µ utilizzato per
indicare una misura, infatti dal contesto sarà sempre chiaro a quale oggetto ci stiamo
2
riferendo). Scriveremo anche σX = V ar(X) per indicare la varianza di X o semplice-
2
mente σ se non ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X)
2
o Mr (Y ). Notiamo inoltre che σX = Cov(X, X).

Diamo alcune proprietà della media:


68

i) E1A (X) = P (X ∈ A)
ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n,
" n # n
X X
E aj X j = aj EXj (linearità della media)
j=1 j=1

iii) se X ≥ 0, si ha
Z ∞ X
EX = P (X > x)dx e EX = P (X > xk )
0 k∈IX

iv) se X ≥ 0 e p > 0, si ha
Z ∞ X
p
EX = pxp−1 P (X > x)dx e EX = p(xk )p−1 P (X > xk )
0 k∈IX

v) se X ≥ 0 e EX = 0, allora P (X = 0) = 1
vi) se X ⊥ Y , allora
EXY = EX EY

vii) se p e q sono esponenti coniugati, allora


1 1
E|XY | ≤ (E|X|p ) p (E|Y |q ) q

Proviamo che vale la relazione (3.22) scritta sopra tra varianza e momenti. Otte-
niamo
2
σX =E(X − µ)2 (per definizione)
=E(X 2 − 2µX + µ2 ) (sviluppando il quadrato)
=M2 − 2µM1 + µ2 (per la linearità della media)
=M2 − (M1 )2 (per la definizione di momento)
Per la varianza vale inoltre la relazione
V ar(aX) = a2 V ar(X) (3.25)
per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX − E(aX)]2 ).
Osserviamo inoltre che (indipendenza lineare)
X ⊥ Y ⇒ Cov(X, Y ) = 0. (3.26)
Non è vero il contrario (perché?).
Capitolo 3. Variabili Aleatorie 69

Dimostrazione del punto i). Se X ∼ fX ,


Z Z
E1A (X) = 1A (x)fX (x)dx = fX (x)dx = P (X ∈ A).
A

Se invece X ∼ (xk , pk ), k ∈ IX ,
Z X
E1A (X) = 1A (x)f (x)µδ (dx) = 1A (xk ) pk = P (X ∈ A).
k∈IX

Esercizio 43. Si dimostri il punto ii).

Esercizio 44. Si dimostri il punto iii) per v.a. continue e discrete.

Dimostrazione alternativa del punto iii). Integriamo per parti ed otteniamo


Z ∞ ∞ Z ∞
d
P (X > x)dx =xP (X > x) − x [1 − FX (x)]dx
0 dx
0
∞ 0Z ∞

=x(1 − FX (x)) + xfX (x)dx
0 0
Z ∞
= xfX (x)dx
0

dove si è usata la regola di de l’Hopital ed il fatto che

FX (0) = 0, FX (+∞) = 1, fX (±∞) = 0 (integrabilità della fX ).

Esercizio 45. Si dimostri il punto iv).

Dimostrazione del punto v). Dal punto precedente si vede che


Z ∞
EX = P (X > x)dx = 0 implica P (X > x) = 0 per ogni x. (3.27)
0

Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) per ogni x e quindi (essendo


FX (x) non decrescente) tutta la probabilità è concentrata solo nel punto x = 0 (essendo
X ≥ 0, una v.a. non negativa).
Dimostrazione del punto vi). Segue dal fatto che f(X,Y ) (x, y) = fX (x) fY (y) per le
v.a. continue e analogamente pr,s = pr ps per le v.a. discrete.
70

Dimostrazione del punto vii). Consideriamo prima il caso in cui le variabili siano con-
tinue. Osserviamo che
Z Z Z
E|XY | = |xy|f(X,Y ) (x, y) dxdy = |xy|dµ = kxyk1
supp(X) supp(Y )

che equivale a kf gk1 in L2 (µ) per le funzioni f (x, y) = x e g(x, y) = y. Inoltre,


Z Z Z
p
E|X| = |x| f(X,Y ) (x, y) dxdy = |x|p dµ = (kf kp )p
p
supp(X) supp(Y )

e E|Y |q = (kgkq )q . Si sta quindi considerando una misura µ con densità continua
f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato.
Se le variabili sono discrete, la disuguaglianza di Hölder continua a valere in lp
rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla v.a. discreta (X, Y ).

Esempio 15. (Il modello lineare) Consideriamo la funzione y = ax dove a ∈ R, il


grafico è una retta passante per l’origine degli assi. La funzione y descrive un fenome-
no lineare deterministico, si ha cioè una perfetta relazione (lineare) tra le variazioni
di x e y. Nella realtà è assai difficile però trovare un fenomeno così regolare e quindi il
modello lineare deterministico non è molto adatto a descrivere alcun fenomeno. Con-
sideriamo una v.a. E che rappresenti l’errore che si commette passando dal modello
deterministico y = ax ad uno più adatto Z = y + E e sia EE = 0. Si vede subito che
EZ = ax ed ax diventa un trend lineare, cioè il fenomeno oggetto di studio non deve
essere lineare ma deve avere un andamento medio lineare (che è una richiesta meno
artificiale).

Esempio 16. (Modello deterministico v.s. Modello aleatorio) Supponiamo di essere


interessati al seguente esperimento: in un aula ci sono tre finestre aperte e n studenti
che vogliono lanciare un gessetto con direzione fissata, angolazione fissata, forza fissa-
ta e vedere dove cade il gessetto nei diversi lanci. Per mantenere uno scopo illustrativo
consideriamo quantità adimensionali. Siamo interessati a studiare (semplificando)

y = posizione = g(peso, f orza, vento ) = f (x1 , x2 , x3 )

dove il peso del gessetto varierà ad ogni lancio per via dell’urto, la forza che ogni stu-
dente dovrà utilizzare nel lancio è stata fissata ma ognuno avrà una diversa sensibilità
e pur volendo non riuscirà a lanciare con forza costante, il vento disturberà i lanci
con una forza variabile e che non possiamo controllare. Vista la quantità di incertezza
che si introduce il modello giusto sembra essere un modello aleatorio del tipo

Y = g(X1 , X2 , X3 )
Capitolo 3. Variabili Aleatorie 71

dove X1 ="peso del gessetto" avrà una sua distribuzione con un peso medio e varianza
prossima a zero, X2 ="forza nel lancio" avrà media uguale alla forza stabilita nella
fase iniziale dell’esperimento e varianza che dipenderà dalla sensibilità generale dei
lanciatori, X3 ="forza del vento" avrà un valore medio prossimo a zero (nel senso
che mediamente non ci sarà vento) ma la varianza può essere elevata (per via delle
folate di vento). Il modello aleatorio consentirà di individuare una distribuzione di
probabilità per il punto di contatto del gessetto. Inoltre data una regione di piano,
diciamo R, attraverso tale distribuzione di probabilità diremo che il gessetto (in un
lancio effettuato da uno studente) cadrà in un punto di R con una certa probabilità.
Se Rρ è un disco di raggio ρ > 0, possiamo trovare quel valore di ρ per cui
P (Y ∈ Rρ ) = α
con α = 0.95 o α = 0.99 ad esempio. Se ρ è molto grande, P (Y ∈ Rρ ) = 1 ma questo
rappresenta il caso banale. La giusta scelta di ρ ∈ (0, ∞) va fatta massimizzando la
probabilità α ∈ (0, 1) ma in relazione alla regione Rρ più piccola possibile.

3.3 Relazioni tra variabili aleatorie -


3.3.1 Eventi di misura nulla
Se vale µ(A) = 0 diciamo che A ha misura µ nulla, cioè A è un insieme trascurabile
rispetto alla misura µ. Se P ha densità f rispetto a µ, cioè dP = f · dµ ed A è
trascurabile rispetto a µ allora sarà anche di misura nulla rispetto a P , cioè P (A) = 012 .
Si consideri una v.a. X ∼ U nif (−c, c) con c > 0, la cui densità è quindi fX (x) =
1
1
2c [−c,c]
(x) (si veda sotto per la v.a. Uniforme). Vediamo che P (X ∈ A) è la misura
di Lebesgue dell’insieme A, infatti se A ⊂ [−c, c],
Z
1 1
P (X ∈ A) = 1[−c,c] (x)dx = µ(A). (3.28)
2c A 2c
Sia adesso Y ∼ fY una v.a. continua con supp(Y ) ⊂ supp(X). Notiamo che Y è
assolutamente continua rispetto ad X, o meglio
Z
P (Y ∈ A) = fY (y)dy
A

è assolutamente continua rispetto alla misura di Lebesgue. In particolare, dato un


insieme A ∈ supp(Y ) ⊆ supp(X), allora P (X ∈ A) = 0 implica P (Y ∈ A) = 0.
Si può sempre definire una v.a. Uniforme con supporto contenente un intorno di x
di probabilità nulla, quindi tale intorno sarà di probabilità nulla per ogni ogni v.a.
continua.
12
Si dice che P è assolutamente continua rispetto a µ e si scrive P  µ.
72

3.3.2 Probabilità congiunte e condizionate


Variabili identicamente distribuite. Diciamo che due o più variabili sono identi-
camente distribuite e scriveremo ”i.d.” se hanno la stessa legge di densità13 (discreta
o continua). Inoltre se due o più variabili i.d. sono anche indipendenti scriveremo
”i.i.d.”.

Indipendenza. È importante sottolineare un aspetto fondamentale nel calcolo delle


Probabilità al quale si è appena accennato. Diamo la seguente definizione.
Definizione 36. Siano X e Y due v.a. definite sullo stesso spazio di probabilità.
Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y se
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B n . (3.29)
Due eventi A1 , A2 relativi alla v.a. X sono indipendenti se (X ∈ A1 ) ⊥ (X ∈ A2 ).
Si noti che si sta parlando della stessa v.a. X. Studiare il verificarsi di A1 significa
quindi studiare (X ∈ A1 ) e così anche per A2 .
Si deve notare che ci sono diverse misure di dipendenza. Osserviamo i grafici in
Figura 3.2, si vede che i punti in (a) sono distribuiti in maniera casuale; i punti in (b)
sono distribuiti in maniera casuale intorno ad una retta (detta trend); i punti in (c) sono
distribuiti in maniera casuale attorno ad una parabola (un trend diverso dal precedente);
i punti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una normale.
Le realizzazioni sono quindi indipendenti ma essendo legate da un trend sottostante,
tranne nel caso (a), si possono identificare diverse strutture di dipendenza dei dati. I
grafici si sono ottenuti utilizzando R ed eseguendo il codice:
>e=rnorm(500)
>x=seq(0.01, 5, 0.01)
>par(mfrow=c(2,2))
>plot(e, pch=16, axes=F, xlab="(a)", ylab=" ")
>plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ")
>plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ")
>plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ")
Si noti che rnorm() restituisce un vettore (di dimensione 500) di numeri con distri-
buzione N (0, 1). Tale funzione è un esempio di generatore di numeri casuali.
Esercizio 46. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si noti che tali
punti rappresentano un errore Gaussiano e corrisponde alla nuvola di punti 0+e.
Perché tale osservazione non è banale? (Si faccia il confronto con il grafico (b)!!).
13
Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere sempre la misura di
Lebesgue per le v.a. continue (o assolutamente continue) e la misura di Dirac per le v.a. discrete.
Capitolo 3. Variabili Aleatorie 73

● ●

● ● ● ●
● ● ● ● ●● ●●
● ●
● ● ● ● ●● ●● ●●
● ● ● ● ● ●
● ● ● ●
●●● ● ● ● ●●●● ●●●●
● ● ●● ●
● ● ●● ●●● ● ● ● ● ●●
●●● ● ●● ●●● ●●●
●●
● ●● ● ●● ●●
●● ●● ● ● ●●● ● ● ● ● ● ● ●● ● ●●●●●●●
● ●●●●●
●●●●●

● ●●●●●●● ● ● ● ●● ●● ●●
●● ●● ● ● ● ● ● ● ● ●
●●●●●
● ●
● ●
●● ● ● ● ● ● ● ●
● ● ●
● ●● ● ●●


● ●● ●
● ●
●●

●●●
●●
●●


●● ● ● ● ●
● ● ●
●● ●●● ●● ● ● ● ●● ● ●●●●
●●●● ●●●●● ● ● ● ●
● ●● ● ●●●●● ●●●●●● ●●
●●●


●●
● ●●
●● ● ● ● ●
●● ●● ● ●●●●●●●●
● ● ● ●● ● ●●●● ●●● ●
●●● ● ● ● ● ● ● ●●●●
●● ● ● ● ●● ●●
● ●●● ●●

●● ● ● ●●
●● ●● ● ●●●●●●●●
● ●● ● ●●
● ● ●

●● ●● ● ●●●●

● ●●● ●●● ●● ●●●
●●● ●●●● ● ● ●●●● ● ●● ●
● ●●●●● ●● ●●● ●●
● ● ●● ● ●●●
● ●● ● ● ●● ●
● ●● ● ●●● ● ●● ●● ●● ●●●
●●●● ●●● ●
● ●●● ●
●●●● ●● ● ● ● ● ● ●
● ●● ● ● ● ●● ● ●● ●● ● ●●
●●● ●●● ● ● ●
●●●

● ●
●●●●
● ● ●
● ● ● ● ●●● ● ●● ●● ● ● ●●●● ●● ●●●● ●●● ●
●●●
●●●●● ●


●●●●●● ● ●● ● ●
●●●●●
● ●● ● ● ●●● ● ● ●● ● ● ●
●●●● ● ●● ●
●●
●●●●●●●● ● ●● ●●
● ●
●●●● ● ●● ● ● ●● ●● ● ● ●
●●●● ●
●●

●●
● ●●●
●● ●●● ●● ●● ●
●●
●●● ● ●● ●● ●● ● ●●
● ●●
● ●●●●
●●●
● ●● ●
● ●
●●● ● ● ●●●


●●
●●●●● ●


●● ● ●●●
●● ● ●● ● ●

●● ● ● ● ●
●●●●● ●●●● ● ● ● ●
● ●
● ● ●
● ●
●● ●
●● ●●● ●● ●●● ● ●
●● ●●●●● ●●●
● ● ● ●●● ● ● ● ●
● ●●● ● ●●● ●●●●●●●● ● ● ●●
●● ● ●
● ● ● ●●

● ●
●●● ● ●● ●● ● ● ●● ●●● ●
●●
●● ●

●● ●●

● ●
●●●● ● ● ●
● ● ● ●●
● ●● ●● ●● ● ●● ●● ● ● ●●●●●●●

●● ● ● ● ● ● ●●●●● ● ●●
● ● ●●●● ●
●●
●●●
● ● ● ●
● ● ●
● ● ●●●●
● ●

● ●●●●●●● ●
● ● ●●
●● ●●

● ●●●● ● ●
● ● ●
●● ●●● ●● ● ●● ●
● ●● ●
●● ●
● ● ●
● ●●

(a) (b)

●●● ●
●●●
●●
●●
● ●
●●●

●●●
●●
●● ●
●●●●●

●●


●●
● ●● ●
●● ●
●●
●●
●● ●
● ● ●










●●●

●●●

●●
● ●
●●
●●●●
●●




●●
●●
●●



●●

●●
●●●
●●●● ●
●●●●●
●●● ●

●●●●●●●●● ●

●●

●●●● ●

● ● ●
●●
●●



●●●
●●
● ● ● ●●
●●●
●●
●●

●●●●●● ●

●● ●

●●●●●

●●●●

● ● ●

●● ●● ●
●●

●●●
●●

●● ● ●

●●
●●
● ● ●
● ● ● ●
●●

●●● ●
●●





●●●
● ●● ● ●●● ● ●
● ● ●● ●● ●

●●
●●
●●


●●●
●●●●●● ●●● ● ●● ● ● ● ●●
● ● ●●● ●

● ● ●● ●
●●
● ●●
●●
●●●



●●
●●
● ●●●●● ● ● ● ●●● ● ●● ● ●● ●● ●●●
●●

● ●
● ●●


●●


●●●


● ●
● ● ●● ● ● ● ●● ● ● ●

● ●
●● ● ● ●●●●●
● ●●● ●
● ●
● ●● ● ●●
● ●


●●




●●

●●
● ●
●●● ● ● ● ●
● ●● ● ● ●●●●
● ● ●● ●● ●
●●●●
● ● ● ●●
●●● ● ● ● ●● ● ●● ●● ● ●●
● ● ●●● ●●●
●●●●●●●●●●●●●●●●
●●


●●●●●●●●

● ● ●● ●●●● ●●●●●●● ● ● ●● ● ● ●
● ●


●●

●●●
●●●
● ●
●●
●●
●●



●●










● ●
●●● ●
● ●●● ● ●● ●● ●●●
●● ● ●●● ● ●●●●● ●● ●●●●● ●●● ●●●● ●● ●●●
● ●●
●●
●●● ●
●●

●●
●●

●●

●●


●●●●●

●●●
●●
●●●●
● ● ●● ●●●●

● ●
●●● ●●●● ●● ●●
● ● ●
● ●● ●
●●●●●●●●
● ●●●
●●●●
●●●●●●
● ●

●●● ●●● ●●●●●
●●
●●

● ● ● ● ● ● ● ●●
● ●●● ● ●● ●● ●●●
● ●
● ●●
●●
● ●●
● ● ● ●
●●

● ● ●●●
●●

●●

●●●

●●●

●●●●
● ●●

●●
● ●●

●●●●


●●
●●


●●●
● ●
●●

●●●
● ●
●●


●●
●●
●●
●●
●●●

●●●
● ●
● ●
●●●
●●
● ●
●●
●● ●●
● ●●
● ●●●

●●●

●●
●●●●●
●●●
●●●
●●
●●
●●●●

(c) (d)

Figura 3.2: Diverse strutture di dipendenza.


74

Densità e funzioni di ripartizione. Dalla Proposizione 6, scriviamo


n
Y
P (A1 , A2 , . . . , An ) = P (Aj )
j=1

se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj ) per ogni
j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la f.r.

FX (x) =FX (x1 , . . . , xn )


=P (X1 ≤ x1 , . . . , Xn ≤ xn )
n
Y
= P (Xj ≤ xj )
j=1
Yn
= FXj (xj ).
j=1

Dalla relazione precedente si ricava che, se X ∼ fX ,


∂n
fX (x1 , . . . , xn ) = FX (x1 , . . . , xn )
∂x1 · · · ∂xn
Yn
= fXj (xj ).
j=1

Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente distribuite14 ),


allora
n
Y
pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) = prj .
j=1

Si vede subito, dalla legge delle probabilità composte che


pr,s
P (X = xr |X = xs ) = pr|s = . (3.30)
ps
Consideriamo ancora v.a. continue (e quindi integrali). La probabilità condiziona-
ta può essere riscritta come segue, sfruttando formalmente la legge delle probabilità
composte,
Z Z
P (Y ∈ A|X ∈ B) = P (Y ∈ dy|X ∈ dx)
A B
14
Si considera il caso in cui sono identicamente distribuite solo per semplicità di notazione ma si
potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj .
Capitolo 3. Variabili Aleatorie 75

P (Y ∈ dy, X ∈ dx)
Z Z
=
P (X ∈ dx)
ZA ZB
= dFY |X (x, y)
ZA ZB
= fY |X (x, y)dxdy.
A B

In particolare, si ottiene che

fX,Y (x, y)
fY |X (x, y) = (3.31)
fX (x)

è la densità doppia della v.a. Y |X. Si poteva considerare subito la legge delle proba-
bilità totali ed ottenere
P (Y ∈ A, X ∈ B)
P (Y ∈ A|X ∈ B) =
P (X ∈ B)
P (Y ∈ dy, X ∈ B)
Z
=
P (X ∈ B)
ZA
P (Y ∈ dy, X ∈ B) dy
=
A P (X ∈ B) dy

dove
P (Y ∈ dy, X ∈ B) 1 ∂
= FY |X (y, B)
dy P (X ∈ B) ∂y
∂2
Z
= FY |X (y, x)dx.
B ∂y∂x

Si ottiene ancora che


∂2 fX,Y (x, y)
FY |X (y, x) = = fY |X (x, y).
∂y∂x fX (x)

Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y) è una
densità (doppia) condizionata. Nel caso di dimensioni n > 2 parleremo di densità
n-dimensionale (congiunta o condizionata).
Per semplicità continuiamo a riferirci alle densità 2-dimensionali fX,Y (x, y). Biso-
gna notare che la continuità di una funzione di due variabili, diciamo f (x, y), non deve
essere confusa con la continuità separata . Una funzione f (x, y) si dice separatamente
continua se per ogni y fissato, la funzione φ : x 7→ f (x, y) è continua solo in x e se
per ogni x fissato, la funzione ψ : y 7→ f (x, y) è continua solo in y. Se f è continua
76

in un punto allora anche φ,ψ sono separatamente continue in quel punto. Non è vero il
contrario come si può vedere dalla funzione
( xy
, (x, y) 6= (0, 0)
f (x, y) = x2 + y2
0, (x, y) = (0, 0).

Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 ) e quindi
sulle rette x = t e y = t. La verifica della continuità separata è lasciata al lettore.
Inoltre, verificare che f è derivabile. Se una funzione è derivabile e le derivate so-
no continue in un punto, allora tale funzione è differenziabile in quel punto; se una
funzione è differenziabile in un punto, allora è continua in quel punto.

Esercizio 47. Sia



 p x y , (x, y) 6= (0, 0)

f (x, y) = x2 + y 2
0, (x, y) = (0, 0).

Provare che f non è differenziabile. Dire se è continua.

Esercizio 48. Calcolare:


x 3x2 + 2y 2 x−y
1. lim ; 2. lim ; 3. lim .
(x,y)→(∞,∞) x + y 2
2 (x,y)→(0,0) (x2 + y 2 )2 (x,y)→(0,0) log(x2+ y 2 + 1)
ν−1
Esercizio 49. Sia fX (x1 , x2 ) = λ xΓ(ν) e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0, λ > 0 la legge
di densità del vettore X = (X1 , X2 ).

1. Dire se X1 ⊥ X2 .

2. Scrivere la marginale fX1 .

3. Scrivere la marginale fX2 .

4. Scrivere la f.r. FX2 .


2 2
Esercizio 50. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con x1 , x2 ∈ R del
vettore X = (X1 , X2 ):

1. determinare κ,

2. scrivere le marginali fXj (xj ), j = 1, 2.


Capitolo 3. Variabili Aleatorie 77

Mancanza di memoria. Diciamo che una v.a. non ha memoria se vale la relazione
di indipendenza

P (X > a + b|X > a) = P (X > b) (3.32)

per a, b > 0. Per la legge delle probabilità composte si vede subito che deve verificarsi
P (X > a + b, X > a) P (X > a + b)
= = P (X > b)
P (X > a) P (X > a)
dove la prima uguaglianza è sempre soddisfatta essendo vero che (X > a + b) implica
(X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂ {ω : X(ω) > a+b}. La mancanza
di memoria è una proprietà molto importante, implica che il comportamento di un certo
fenomeno (e quindi della v.a. che lo rappresenta) non dipende dal comportamento
passato. Il condizionamento non aggiunge e non toglie informazione.
Esercizio 51. Verificare la proprietà (3.32) per le seguenti v.a. :
1. X ∼ Exp(λ) con λ > 4,

2. X ∼ Gamma(λ, 1) con λ > 0,

3. X ∼ N (0, σ 2 ).

Correlazione. La correlazione è una dipendenza lineare misurata dalla covarianza.


Se due v.a. X e Y hanno covarianza nulla diciamo che sono incorrelate (o non sono
correlate). Stiamo dicendo che non è possibile identificare una relazione lineare tra
le due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b (o
X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere nulla per una
pura combinazione numerica (come ad esempio 12 = 3 · 4 o 12 = 2 · 6) e quindi non
implica che le v.a. siano indipendenti, possiamo solo dire che tra le due v.a. non c’è
dipendenza lineare. Quindi, riassumiamo dicendo che

X ⊥ Y ⇒ Cov(X, Y ) = 0,
Cov(X, Y ) = 0 6⇒ X ⊥ Y.

Si utilizza spesso un indice di correlazione detto di Bravais-Pearson dato da


Cov(X, Y ) σX,Y
ρ(X, Y ) = p = .
V ar(X) V ar(Y ) σX σY

Dalla dis. di Hölder si vede che


 21  21
|E[(X − µX )(Y − µY )]| ≤ E(X − µX )2 E(Y − µY )2
78

e quindi
p
|Cov(X, Y )| ≤ V ar(X) V ar(Y ) ⇒ −1 ≤ ρ(X, Y ) ≤ 1.

Se esiste una dipendenza lineare tra le v.a. X e Y allora Y = g(X) (o viceversa) e

g(x) = ax + b con a 6= 0.

Consideriamo un campione di n soggetti ai quali viene somministrato un farmaco per


valutarne gli effetti. Ogni soggetto (diciamo il paziente i-esimo) viene sottoposto a
visita medica e vengono misurati i valori relativi alla pressione arteriosa (variabile Xi
per il paziente i-esimo) e livelli di colesterolo nel sangue (variabile Yi ). Quindi dal
campione di n soggetti si ottengono le osservazioni

x = (x1 , x2 , . . . , xn ), y = (y1 , y2 , . . . , yn )

che possiamo vedere come realizzazioni dei vettori

X = (X1 , X2 , . . . , Xn ), Y = (Y1 , Y2 , . . . , Yn ).

Supponendo che esista la relazione lineare di cui sopra, sarà possibile approssimare
le yi osservate con i valori g(xi ) ottenute dalle osservazioni xi . Inoltre, la relazione
lineare sarà tanto più plausibile quanto più l’errore ei = yi − g(xi ) sarà minimo.
Vogliamo allora trovare gli a e b tali per cui

n
X
e2i = min.
i=1

Seguendo la soluzione dell’Esercizio 118 con a = β̂1 e b = β̂0 si vede che il coefficien-
te angolare (e quindi il coefficiente che determina la relazione lineare) è ρ = ρ(x, y),
il coefficiente di correlazione campionario15 .
15
Ricordiamo che il coefficiente di correlazione campionario è una statistica, cioè una funzione dei
dati campionari (in questo caso i vettori x = (x1 , x2 , . . . , xn ) e y = (y1 , y2 , . . . , yn )). In particolare,
1
Pn
n i=1 xi yi − x̄ȳ
ρ(x, y) = q P
1 n  1 Pn 
n i=1 xi − x̄ n i=1 yi − ȳ

dove x̄ e ȳ sono medie campionarie. In questo contesto dovremmo parlare di stima del coefficiente di
correlazione e scrivere ρ̂ = ρ(x, y).
Capitolo 3. Variabili Aleatorie 79

Matrice delle covarianze. Consideriamo il vettore aleatorio

X = (X1 , X2 , . . . , Xn )

e le covarianze

σi,j = Cov(Xi , Xj ) = EXi Xj − EXi EXj con 1 ≤ i, j ≤ n.

Si vede subito che σi,j = σj,i , le covarianze sono simmetriche. Inoltre, scriveremo
σi2 = σi,i per indicare che

Cov(Xi , Xi ) = V ar(Xi ), i = 1, 2, . . . , n.

Si definisce matrice delle covarianze quella matrice n × n i cui elementi sono proprio
le covarianze,

σ = {σi,j }1≤i,j≤n .

La matrice Σ è simmetrica e quindi

Σt = Σ,

inoltre se le componenti del vettore X sono indipendenti, allora

Σ = diag{σi2 }1≤i≤n

è una matrice diagonale. Infatti, Cov(Xi , Xj ) = 0 per ogni i 6= j.

3.3.3 Tabella di contingenza


Siano X e Y due v.a. discrete. In generale è sempre possibile associare alla v.a. doppia
(X, Y ) una distribuzione doppia (la congiunta) pr,s definita sopra.
Scriviamo X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due
distribuzioni di probabilità. Per distinguere quindi le marginali della v.a. doppia. Sup-
poniamo inoltre che entrambe le v.a. possano assumere solo tre valori per semplicità.
La corrispondente tabella di contingenza (tabella a doppia entrata) è data da

y1 y2 y3
x1 p1,1 p1,2 p1,3 p1,· = p1
x2 p2,1 p2,2 p2,3 p2,· = p2
x3 p3,1 p3,2 p3,3 p3,· = p3
p·,1 = q1 p·,2 = q2 p·,3 = q3 1
80

dove le marginali si possono ottenere sommando sulle colonne o sulle righe


3
X 3
X
pk,· = pk,s e p·,s = pk,s .
s=1 k=1

Siano ora X e Y due v.a. indipendenti. Allora la tabella di contingenza nel caso di
indipendenza prende la forma
y1 y2 y3
x1 p1 q 1 p1 q2 p1 q3 p1,· = p1
x2 p2 q 1 p2 q2 p2 q3 p2,· = p2
x3 p3 q 1 p3 q2 p3 q3 p3,· = p3
p·,1 = q1 p·,2 = q2 p·,3 = q3 1
Si capisce subito che entrambe le tabelle possono essere scritte in termini matriciali,
in particolare possiamo associare una matrice n × m (o quadrata) alla prima tabella,
ad esempio A ed una matrice delle stesse dimensioni alla seconda tabella, ad esempio
B. La dimensione delle matrici dipende ovviamente dalle v.a. X e Y e quindi dai loro
insiemi di indici IX e IY . Avremo le marginali
m
X n
X
pk,· = pk,s e p·,s = pk,s
s=1 k=1

e le matrici

A = {pk,s } 1≤k≤n e B = {pk qs } 1≤k≤n .


1≤s≤m 1≤s≤m

Supponiamo ora di volere una ricostruzione della matrice A a partire da una matrice
osservata che possiamo chiamare F. Vogliamo quindi che F rappresenti una situazione
osservata. Si sono osservate le realizzazioni della v.a. doppia (X, Y ) su un campio-
ne (di persone, animali, batteri, alberi, etc.) di numerosità N e si sono registrate le
osservazioni dalle quali si sono ricavate le frequenze fk,s , quindi

F = {fk,s } 1≤k≤n .
1≤s≤m

Notiamo che le frequenze (relative) fk,s si sono ottenute considerando le frequenze


assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s = Nk,s /N ed Nk,s rappresenta
il numero di elementi del campione (numero di persone, animali, batteri, alberi, etc.)
per le quali si è osservata la realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo
anche scrivere
1
F= N dove N = {Nk,s } 1≤k≤n .
N 1≤s≤m
Capitolo 3. Variabili Aleatorie 81

Seguendo un approccio frequentista potremmo dire che al crescere di N (numerosità


del campione) si arriverebbe a scrivere
1
N→A
N
cioè le frequenze diventano probabilità. Diciamo infatti che A e B sono matrici teori-
che (o che rappresentano situazioni teoriche) mentre F è una matrice osservata. Sem-
bra ovvio che quanto più F è ”simile” alla matrice B, tanto più le v.a. osservate si
possono considerare indipendenti. Introduciamo allora un indice di dipendenza,
n X
X m
d(F, B) = (fk,s − pk qs )2 (3.33)
k=1 s=1

che restituisce una misura quadratica della distanza tra le matrici F e B. Come si vede
subito,

0 ≤ d(F, B) ≤ nm

e quanto più si avvicina a 0 tanto più possiamo dire che la situazione osservata rap-
presenta meglio un ipotesi di indipendenza tra le variabili X e Y della popolazione (di
persone, animali, batteri, alberi, etc.).
Esempio 17. Nel lancio di due dadi, diciamo D1 e D2 , la tabella di contingenza è
scritta come segue
D2 = 1 D2 = 2 D2 = 3 D2 = 4 D2 = 5 D2 = 6
D1 =1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 =2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 =3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 =4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 =5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 =6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
1/6 1/6 1/6 1/6 1/6 1/6 1
dove la distribuzione in blu corrisponde al dado D1 e la distribuzione in magenta
corrisponde al dado D2 . Inoltre, si vede subito che dalle
1
pk,s = P (D1 = k, D2 = s) = ∀ k, s
6
si ottiene
6
X
P (D1 = k) = pk,s
s=1
82

6
X
= P (D1 = k, D2 = s)
s=1
6
!
[
=P D1 = k, (D2 = s)
s=1
=P (D1 = k, D2 ∈ spet(D2 )) .

per ogni k ∈ {1, 2, 3, 4, 5, 6}. Vale ovviamente il risultato analogo per P (D2 = s).

Esercizio 52. Data la matrice


3
 
8
1
A= 1 1
2 4

calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 . Cosa


possiamo dire?

Il χ-quadrato. Una v.a. molto importante in statistica è data dalla somma parziale
n
X
χ2 (n) = Xk2
k=1

dove Xk ∼ N (µ, σ 2 ) e n assume qui il significato di gradi di libertà. La somma (v.a.


varianza campionaria corretta)
n
2 1 X
S = (Xk − X̄)2
n − 1 k=1

si distribuisce in accordo con una χ-quadrato, in particolare

σ2 2
S2 ∼ χ (n − 1).
n−1
I gradi di libertà sono n − 1 perché si può identificare una combinazione lineare nella
somma Xk − X̄ per cui una v.a. può essere scritta in funzione delle n − 1 rimanenti.

3.3.4 Trasformazioni di v.a.


Diamo prima i seguenti risultati senza dimostrarli.

Teorema 11. Sia X una v.a. 1-dimensionale e g : R 7→ R una funzione misurabile,


allora Y = g(X) è una variabile aleatoria.
Capitolo 3. Variabili Aleatorie 83

Teorema 12. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 7→ R misurabile,


continua e derivabile. Allora g(X1 , X2 ) = Z è una variabile aleatoria.
Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo identificare le
loro funzioni di ripartizione FY e FZ .
Osservazione 21. Sia Z = g(X1 , X2 ) come nel Teorema 12. Notiamo che il valore
medio può essere scritto a partire dalla FZ o dalla FX , cioè

EZ = Eg(X1 , X2 ).

Se le v.a. sono continue posso considerare


Z
EZ = z dFZ (z)
supp(Z)

oppure
Z Z
Eg(X1 , X2 ) = g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ).
supp(X1 ) supp(X2 )

Analogamente nel caso discreto.


Ricordiamo anche che le derivate della funzione g e della sua inversa h = g −1 sono
legate dalla seguente formula
1
h0 (g) = 0 (3.34)
g (h)
(verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi x = h(y))
1 1
h0 (g(x)) = e h0 (y) = .
g 0 (x) g 0 (h(y))
Teorema 13. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con legge di densità fX nota. La densità della v.a. Y = g(X) è
data da
fY (y) = |h0 (y)| fX (h(y)), y ∈ supp(g(X)) (3.35)
Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 11, quindi possiamo
calcolare la f.r. FY . Inoltre,
Z Z
fY (y)dy = |h0 (y)| fX (h(y))dy
supp(Y ) g(supp(X))
Z
= fX (z)dz = 1 ponendo y = g(z).
supp(X)
84

Se X ∼ fX allora la composizione di funzioni continue da una funzione continua ed


Y = g(X) è una v.a. continua. Per trovare la fY si deve quindi derivare la f.r. FY . Se
g è crescente, allora h = g −1 è crescente e h0 > 0. Otteniamo,

FY (y) =P (g(X) < y)


=P (X < h(y))
Z h(y)
= fX (x)dx ⇒ fY (y) = h0 (y)fX (h(y)) ≥ 0.
−∞

Se g è decrescente, allora la sua inversa è decrescente. In particolare, h0 < 0 e quindi

FY (y) =P (g(X) < y)


=P (X > h(y))
Z ∞
= fX (x)dx ⇒ fY (y) = −h0 (y)fX (h(y)) ≥ 0.
h(y)

Per quanto sopra, la dimostrazione è conclusa.


Teorema 14. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con distribuzione di probabilità (xk , pk ), k ∈ IX nota. La
distribuzione di probabilità della v.a. Y = g(X) è data da

P (Y = y) = P (X = h(y)), y ∈ spet(g(X)). (3.36)

Inoltre,

Y ∼ (yk = g(xk ), pk ), k ∈ IY = IX .

Esercizio 53. Dimostrare la (3.36).


Osservazione 22. Supponiamo che in uno studio medico sia importante misurare il
livello Y di una certa sostanza e che tale misurazione sia estremamente complessa. Si
sa però che Y = g(X) dove X è il peso ed è quindi facilmente reperibile, cioè tra Y
e X esiste la relazione (di dipendenza) g. Il medico aspetta che arrivi un paziente e
subito misura il peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casual-
mente, quindi per il medico il peso di ogni paziente è aleatorio fino alla misurazione.
Di conseguenza, è aleatorio il livello Y .
Alcuni esempi:
• modello lineare, g(X) = aX + b con a, b ∈ R

• potenza di v.a., g(X) = X α con α ∈ R


Capitolo 3. Variabili Aleatorie 85

• somma di v.a., g(X1 , X2 ) = X1 + X2

• rapporto di v.a., g(X1 , X2 ) = X1 /X2

• funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 )

• etc.
Si osservi che la funzione g esprime quindi una relazione di dipendenza tra le variabili
input e la variabile output (o risposta del modello).
Esempio 18. Si vuole caratterizzare la v.a. Y = g(X) conoscendo X e la funzione g.
Dobbiamo quindi calcolare la densità di Y e riconoscere Y tra le v.a. elementari se la
sua densità è notevole. Si deve partire dalla f.r. di Y

FY (y) =P (Y ≤ y) definizione
=P (g(X) ≤ y) dato del problema.

Volendo procedere graficamente, si deve considerare il grafico della funzione g, cioè


Y = g(X) nel piano (X, Y ) e la regione ammissibile per la coppia (X, Y ), cioè
D = supp(X) × supp(Y ) (o analogamente16 D = spet(X) × spet(Y )). Nel calcolare
la f.r. si deve considerare l’evento Ay ∩ D dove

Ay = {(x, y) ∈ R2 : g(x) ≤ y}

oppure, se ad esempio g è monotona crescente con inversa h = g −1 ,

{(x, y) ∈ R2 : g(x) ≤ y} = {(x, y) ∈ R2 : x ≤ h(y)}.

Nel passare alla funzione inversa h bisogna considerare il giusto verso della disugua-
glianza. A questo punto

FY (y) = P (Ay ∩ D), y ∈ supp(Y )

e va calcolata per tutte le figure geometriche diverse che si possono identificare da


Ay ∩ D al variare di y ∈ supp(Y ). (Si veda anche l’Esempio 19).
Esercizio 54. Sia X ∼ fX una v.a., scrivere la legge di densità di Y = X 2 .
Esercizio 55. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X + 1.
Esercizio 56. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a. indipendenti,
scrivere la legge di densità di Z = X/Y .
16
Nel caso in cui le v.a. sono discrete si può considerare la densità discreta pk = P (g(X) = yk ) e
non la f.r. P (g(X) ≤ yk ) come nel caso di v.a. continue.
86

Esercizio 57. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 .

Esercizio 58. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia


( x
, x, y ∈ R \ {0}
g(x, y) = x+y
0, (x, y) = (0, 0)
e

Z = g(X1 , X2 ).

Determinare:

1. supp(Z).

2. fZ (z), z ∈ supp(Z).

3. supp(fZ ).

Esercizio 59. Sia


( xy
, x, y ∈ R \ {0}
g(x, y) = x2 + y2 .
0, (x, y) = (0, 0)

Determinare il supporto della v.a.

Z = g(X, Y )

se X ⊥ Y e

1. X, Y ∼ Exp(λ), λ > 2;

2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0;

3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1);

4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0;

5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1.

Esercizio 60. Determinare gli insiemi di definizione delle funzioni:

1. f (x, y) = x(x2 − y 2 )−1 ,

2. f (x, y) = (y log x)y−x ,


Capitolo 3. Variabili Aleatorie 87


3. f (x, y) = (|x| − x − y)y ,

4. f (x, y) = e1/y (x2 − y 2 )−1/2 ,



5. f (x, y) = y − log x.

Esercizio 61. Siano X e Y due v.a. indipendenti con densità


2 2
fX (x) = 2xλe−λx 1(0,∞) (x), fY (y) = 2yλe−λy 1(0,∞) (y), λ > 0.

Sia

Z = g(X, Y )

dove
( x
, x, y ∈ R \ {0}
g(x, y) = x2 − y 2 .
0, (x, y) = (0, 0)

1. Determinare Eg(X, Y ).

2. Determinare fZ .

3. Determinare EZ.

Esercizio 62. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due v.a. indipendenti. Determi-
nare:

1. la legge di densità della v.a.


p
Z= Y − log X,

2. supp(Z).

Esercizio 63. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a), a > 0.

1. determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità.

Si consideri la v.a. X con legge fX = f appena trovata.



2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X);

3. Scrivere la legge di densità della v.a. Z = (a − X)−1 .


88

3.3.5 Somme di variabili aleatorie


È utile nelle applicazioni saper trattare la somma di v.a. o somme parziali del tipo
n
X
Sn = Xk , n ∈ N. (3.37)
k=1

Come vedremo, il modo migliore per trattare tali oggetti prevede un utilizzo abbastanza
elementare delle funzioni caratteristiche associate alle v.a. coinvolte nella somma. Un
modello poco più complicato si ottiene considerando la combinazione lineare
n
X
Zn = ak X k , n∈N (3.38)
k=1

dove compaiono i coefficienti ak che possono essere scelti anche senza restrizioni.
Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1 con α ∈ R.
Come vedremo, sarà interessante capire a quale v.a. tende Zn se n → ∞. Nelle
applicazioni, n → ∞ significa n molto grande e corrisponde all’aumento di numerosi-
tà campionaria o di informazioni disponibili. Inoltre, molto spesso n grande si traduce
in n > 1000, n > 100 o n > 30 nel senso che raggiunti tali valori si ottiene una buona
approssimazione del problema oggetto di studio. Le informazioni disponibili sono già
sufficienti ad ottenere una analisi accurata.
Osserviamo che per la linearità del valore medio si ha
n
X
EZn = ak EXk
k=1

e (dalla proprietà (3.25)) supponendo che le Xk siano indipendenti


n
X n
X
V ar(Zn ) = V ar(ak Xk ) = a2k V ar(Xk ). (3.39)
k=1 k=1

Si veda lo svolgimento dell’Esercizio 105. Se le v.a. Xk , k ∈ N non sono indipendenti,


dalla relazione V ar(Zn ) = M2 (Zn ) − M12 (Zn ) ricaviamo
n X
X n
V ar(Zn ) = ak as Cov(Xk , Xs ).
k=1 s=1

Infatti
n
!2 n
! n
!
X X X
ak X k = ak X k · ak X k
k=1 k=1 k=1
Capitolo 3. Variabili Aleatorie 89

n
! n
!
X X
= ak X k · as X s
k=1 s=1
n X
X n
= ak X k as X s
k=1 s=1

dalla quale scriviamo M2 (Zn ) mentre per il primo momento si ha che


! !
X X
M12 (Zn ) = ak E[Xk ] as E[Xs ]
k=1 s=1
XX
= as ak E[Xk ] E[Xs ].
k=1 s=1

Quindi, si ottiene
n X
X n
M2 (Zn ) − M12 (Zn ) = ak as (E[Xk Xs ] − E[Xk ] E[Xs ]) .
k=1 s=1

La v.a. media campionaria. È definita dalla media aritmetica di v.a. indipendenti


Xk , k ∈ N ed è indicata con X̄ o X̄n per sottolineare la dipendenza da n (numerosità
campionaria),
n
1X
X̄n = Xk
n k=1

ed è quindi riconducibile alle v.a. viste sopra (n−1 Sn o Zn con ak = 1/n per ogni k).
Bisogna subito notare che se Xk ∼ N (µk , σk2 ) sono indipendenti, allora
n n
! n n
!
1 X X 1 X 1 X
X̄n ∼ N µk , σk2 = N µk , 2 σk2 .
n k=1 k=1
n k=1
n k=1

Se le Xk ∼ N (µ, σ 2 ) sono i.i.d., allora


σ2
 
1
X̄n ∼ N (nµ, nσ 2 ) = N µ, .
n n
Oltre alla variabile Normale, possiamo ovviamente considerare altre v.a. e quindi
altre densità chiuse rispetto alla somma oppure no, si avrà sempre comunque (se le v.a
Xk sono i.i.d.)
V ar(X1 )
E X̄n = EX1 , e V ar(X̄n ) = .
n
90

Somme di due v.a. indipendenti. Consideriamo la somma di due v.a. indipendenti


X,Y . Vogliamo trovare la legge di densità (continua, discreta o mista) della v.a. Z =
X +Y.

Esempio 19. Siano X ∼ fX , Y ∼ fY due v.a unidimensionali tali che X ⊥ Y .


Studiare la v.a. Z = X + Y . Lo studio di Z passa per tre punti essenziali, si deve
caratterizzare

1. il supporto supp(Z) (visto che X e Y sono c., ci aspettiamo che Z sia c.),

2. la f.r. FZ (z), z ∈ supp(Z) (e quindi resta definita la densità fZ ),

3. la densità fZ = FZ0 ; riconoscere Z se fZ è notevole.

Il primo punto sembra facile, bisogna ovviamente considerare supp(X) e supp(Y ) e


vedere la somma dei minimi e dei massimi valori per entrambe le v.a. X e Y . Vediamo
il secondo punto, per ogni z ∈ supp(X + Y ), si deve considerare la probabilità

P (Z ≤ z) =P (X + Y ≤ z) = P (X ≤ z − Y ) = P (Y ≤ z − X),

ricordando che si hanno informazioni su X e Y (o sulla v.a. doppia (X, Y )) e non


su Z. Chiamiamo D = supp(X) × supp(Y ) il supporto della v.a. doppia (X, Y ), se
X ≥ 0 e Y ≥ 0 ovviamente D è il primo quadrante nel piano cartesiano. Scegliamo di
considerare, tanto non cambia il risultato, P (Y ≤ z − X), allora nel piano cartesiano
dobbiamo disegnare la retta Y = z − X dove X e Y variano nel loro supporto e
z ∈ supp(X + Y ) deve essere fissato. Al crescere di z la retta Y = z − X (o
X + Y = z) si allontana dall’origine degli assi. Noi siamo interessati a tutti quei
punti che si trovano sotto la retta, cioè alla porzione di piano

Az = {(x, y) ∈ R2 : x + y ≤ z} = {(x, y) ∈ R2 : y ≤ z − x}.

Infatti stiamo cercando P (X+Y ≤ z) = P (Y ≤ z−X). L’insieme Az deve dipendere


da z, perché si è detto che preventivamente bisogna fissare z, in realtà z va fissato in
base alle diverse figure che si possono ottenere da D ∩ Az al variare di z ∈ supp(Z).
Sia D = ∪N i=1 Di dove gli insiemi Di sono scelti in modo che Di ∩ Az per i = 1, . . . , N
siano figure geometriche (piane, in questo caso) diverse. Allora,


 0, z∈/ supp(X + Y ), (X, Y ) ∈ D0
P (D ∩ A ), z ∈ supp(X + Y ), (X, Y ) ∈ D1



 1 z
 P (D2 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D2

FZ (z) = P (Z ≤ z) = ..


 .



 P (DN ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ DN
 1, z∈/ supp(X + Y ), (X, Y ) ∈ DN +1
Capitolo 3. Variabili Aleatorie 91

dove P (Di ∩ Az ) = P ((X, Y ) ∈ Di ∩ Az ) per ogni i = 1, 2, . . . , N e D0 , DN +1


sono rispettivamente, l’evento impossibile e l’evento certo per la v.a. doppia (X, Y ).
Il terzo punto è lasciato al lettore e dipenderà dal caso oggetto di studio.

Osservazione 23. Per v.a. discrete e miste si procede esattamente allo stesso modo.

Esercizio 64. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che X ⊥ Y . Studiare


la v.a. Z = X + Y .

Esercizio 65. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso µ = λ.

Teorema 15. (Convoluzione per densità discrete) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼


(ys , ps ), s ∈ IY due v.a. note. Allora,

X + Y = Z ∼ (zk , pk ), k ∈ IZ

con
X X
pk = P (Z = zk ) = P (Y = zk − xi ) pi = P (X = zk − ys ) ps (3.40)
i∈If
X s∈If
Y

e X X
P (Z ≤ zk ) = P (Y ≤ zk − xi ) pi = P (X ≤ zk − ys ) ps (3.41)
i∈If
X s∈If
Y

dove

X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)}
If

Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}.
If

Osservazione 24. Consideriamo due v.a. indipendenti

X ∼ (xi , pi ), i ∈ IX , Y ∼ (ys , ps ), s ∈ IY

e la somma Z = X + Y . Allora, per ogni z ∈ supp(X + Y ),

P (Z = z) =P (Y = z − X) = P (Y = z − X, X ∈ spet(X))
= [(considero l’intersezione con un evento certo)]
!
[
=P Y = z − X, (X = xi ) (unione di eventi incompatibili)
k∈IX
92

!
[
=P [(Y = z − X) ∩ (X = xi )]
k∈IX
X 
= P (Y = z − X) ∩ (X = xi ) (legge delle prob. totali)
k∈IX
X
= P (Y = z − X|X = xi )P (X = xi ) (legge delle prob. composte)
k∈IX
X
= P (Y = z − xi )P (X = xi )
k∈IX

dove, nell’ultimo passaggio, si è usato il condizionamento, si è usata cioè l’informa-


zione disponibile X = xi .
Teorema 16. (Convoluzione per densità miste) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ fY
due v.a. note. Allora,

X + Y = Z ∼ fZ

con X
FZ (z) = FY (z − xi ) pi (3.42)
i∈If
X

e X
fZ (z) = fY (z − xi ) pi (3.43)
i∈If
X

dove

X = {i ∈ IX : z − xi ∈ spet(Y ), z ∈ supp(Z)}.
If

Osservazione 25. Seguendo quanto abbiamo visto nella precedente osservazione, nel
caso delle v.a. miste si deve considerare
X 
FZ (z) = P (Y ≤ z − X) ∩ (X = xi ) (legge delle prob. totali)
k∈IX
X
= P (Y ≤ z − X|X = xi )P (X = xi ) (legge delle prob. composte)
k∈IX
X
= P (Y ≤ z − xi )P (X = xi ).
k∈IX

Teorema 17. (Convoluzione per densità continue) Siano X ∼ fX e Y ∼ fY due v.a.


note. Allora,

X + Y = Z ∼ fZ
Capitolo 3. Variabili Aleatorie 93

con densità
Z Z
fZ (z) = fY (z − x)fX (x)dx = fX (z − y)fY (y)dy, z ∈ supp(Z) (3.44)
SX SY

dove

SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)}

SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)}

Osservazione 26. Valgono le seguenti uguaglianze


Z Z
fY (z − x)fX (x)dx = fY (z − x)fX (x)dx
SX R

(perché fY è nulla fuori il suo supporto) e


Z Z
fX (z − y)fY (y)dy = fX (z − y)fY (y)dy
SY R

(perché fX è nulla fuori il suo supporto).

Definizione 37. Si dice famiglia di densità di probabilità F = F(θ) di parametro


θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆ Rd .

Per indicare che non ci interessa la dipendenza dalla variabile x, scriveremo f (·; θ).
La funzione f ci interessa nell’argomento θ (il parametro) e non nell’argomento x (la
variabile).
λk −λ
Esempio 20. La densità discreta pk = k!
e = f (k; λ) al variare di λ definisce la
famiglia di densità

F(λ) = {f (·; λ), λ ∈ (0, ∞)} .


2 2

Esempio 21. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈ R × (0, ∞)
definisce la famiglia

F(µ, σ 2 ) = f (·; µ, σ 2 ), µ ∈ R, σ 2 > 0 .




Definizione 38. Una famiglia F di densità di probabilità è chiusa rispetto alla somma
se prese due densità in quella famiglia, la loro convoluzione appartiene ancora ad F.
94

Esercizio 66. Dimostrare che la famiglia di densità di Poisson è chiusa rispetto alla
somma.

Esercizio 67. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili indipen-
denti:

a) calcolare la legge di densità della somma Z = X + Y ,

b) calcolare la funzione di ripartizione della variabile W = λZ,

c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0.

Esercizio 68. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due v.a.


indipendenti. Studiare la v.a. Z = X + Y .
2
Esercizio 69. Si consideri la funzione f (x) = κ e−θx con x ∈ R.

1. Determinare gli insiemi di definizione per κ e θ tali che f sia una legge di
densità.

Si consideri la v.a. X con legge di densità fX = f appena trovata.

2. Chi è X?

3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di densità della


v.a. Y = |X|2 .

4. Si consideri
Pn la successione di v.a. i.i.d. Yj ∼ Y . Scrivere la legge di densità di
Z = j=1 Yj .

Proposizione 10. Sia pk , k ∈ N ∪ {0} la densità discreta di una v.a. Bin(n, p). Allora
pk è prima monotona crescente e poi monotona decrescente attorno al valore massimo
(n + 1)p.

Dimostrazione. Basta considerare il rapporto

pk (n − k + 1)p
=
pk−1 k(1 − p)

che è maggiore di uno se pk ≥ pk−1 , cioè se e solo se

(n − k + 1)p > k(1 − p) ovvero k < (n + 1)p.


Capitolo 3. Variabili Aleatorie 95

Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazione del vettore


X le cui componenti sono Bernoulliane indipendenti. Sappiamo che sommando tali
componenti otteniamo una Binomiale, siamo quindi interessati alla v.a.
n
X
Sn = Xi ∼ Bin(n, p) n ∈ N, p ∈ [0, 1]. (3.45)
i=1

Osserviamo che

• Se n è grande e p è molto piccola possiamo approssimare la binomiale Bin(n, p)


con la legge degli eventi rari o di Poisson di parametro λ = np. Quando p è
molto grande vale la stessa approssimazione se consideriamo che 1 − p = q è
molto piccola. Infatti, se Xn ∼ Bin(n, p) con p = λ/n, allora
n−k
λk

n! λ
P (Xn = k) = 1−
k!(n − k)! nk n
n −k
λk
  
λ λ n(n − 1)(n − 2) · · · (n − k + 1)
= 1− 1− .
k! n n nk

Per n → ∞,
 n  −k
λ −λ λ
1− → e , 1− → 1
n n
n(n − 1)(n − 2) · · · (n − k + 1)
→ 1
nk

e quindi si ottiene

λk −λ
lim P (Xn = k) = e , k = 0, 1, 2, . . . .
n→∞ k!

Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una N (λ, λ).

• Se n è grande e p ' q ' 0.5, approssimiamo la binomiale Bin(n, p) con la normale


N (np, npq).

In ultima analisi quindi la Bin(n, p) può essere approssimata al crescere di n da


una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np oppure σ 2 = npq se p è
molto piccola oppure se p ' q rispettivamente.
96

Passeggiate aleatorie (random walk). Consideriamo una successione Xk di v.a.


Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) = {−1, 1} per ogni k ∈ N. In
particolare, si ha che

p, xk = +1
P (Xk = xk ) = ∀ k.
q, xk = −1
La somma parziale Sn può essere vista come una passeggiata aleatoria, cioè come un
movimento aleatorio (di una particella, di un animale, di una persona) che dipende
da spostamenti in avanti (+1) e spostamenti in dietro (−1). La posizione raggiunta
ad un certo istante dipende dal numero di spostamenti in avanti e in dietro. Provate
a disegnare i punti (n, Sn ) per qualche n partendo da una realizzazione del vettore
X = (X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo che il
salto |Xk | = 1 può non essere unitario, si consideri ad esempio una successione di v.a.
con spet(Xk ) = {−c, +c} e c > 0.

3.3.6 Somme aleatorie di variabili aleatorie


Consideriamo la somma parziale
N
X
SN = Xk , n∈N (3.46)
k=1

dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk possono essere
discrete o continue mentre supporremo sempre che N sia una v.a. discreta. Inoltre,
considereremo sempre N ⊥ Xk per ogni k. Se le Xk sono i.i.d, notiamo che
d
X1 + X 2 + . . . + XN = X
| +X +
{z. . . + X}
N volte

dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità delle Xk


(per ogni k). Da questa uguaglianza in legge ricaviamo l’identità di Wald

ESN = EN X = EN EX.

3.3.7 Variabili aleatorie ordinate


Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da

X = (X1 , X2 , . . . , Xn ), x = (x1 , x2 , . . . , xn ).

In generale possiamo ottenere una realizzazione in n! modi diversi, cioè possiamo or-
dinare le n realizzazione in n! modi diversi. Possiamo poi considerare le realizzazioni
Capitolo 3. Variabili Aleatorie 97

uguali e quindi i modi diversi in cui ordinare le n realizzazioni sono dati dalle per-
mutazioni con ripetizioni, ad esempio se x1 si ripete k1 volte e k2 osservazioni sono
uguali ad x2 , allora si possono considerare k1n!
!k2 !
modi diversi di ordinare il vettore
delle realizzazioni. Qui siamo interessati ad un solo ordinamento, dalla realizzazione
minima a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate ed
il vettore diventa
(X(1) , X(2) , . . . , X(n) )
dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto i-esimo del cam-
pione x una volta ordinato dalla realizzazione minima alla massima. Quindi X(1) =
min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }. Cerchiamo la densità del massimo.
Proposizione 11. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identica-
mente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la v.a. ordinata di posto n.
Allora,
FY (y) = [FX (y)]n , y ∈ supp(X). (3.47)
Dimostrazione.
Y = max {Xj }
1≤j≤n

quindi supp(Y ) = supp(X).


P (Y ≤ y) =P ( max {Xj } ≤ y)
1≤j≤n

ma se il massimo non supera il livello y, allora nessuna v.a. lo supera


n
Y
P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) = P (Xj ≤ y)
j=1

dove si è usato il fatto che le v.a. sono indipendenti. Considerando che Xj ∼ X, cioè
sono identicamente distribuite, si ottiene
n
Y
P (Y ≤ y) = P (X ≤ y) = [P (X ≤ y)]n
j=1

ed otteniamo il risultato cercato.


Cerchiamo ora la densità del minimo di n v.a. i.i.d..
Proposizione 12. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identica-
mente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la v.a. ordinata di posto 1. Allora

FY (y) = 1 − [1 − FX (y)]n , y ∈ supp(X). (3.48)


98

Dimostrazione. Notiamo che


FY (y) = P ( min {Xj } ≤ y)
1≤j≤n

non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo allora sulla


probabilità
P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y) (tutte sono maggiori se lo è il minimo)
1≤j≤n
n
Y
= P (Xj > y) (sono indipendenti)
j=1
Yn
= P (X > y) (sono identicamente distribuite)
j=1

=[1 − FX (y)]n (per la definizione di FX ).


Quindi si ottiene l’enunciato.
In generale, diamo il seguente risultato senza dimostrazione.
Proposizione 13. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identica-
mente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la v.a. ordinata di posto j.
Allora
n  
X n
FY (y) = [FX (y)]k [1 − FX (y)]n−k . (3.49)
k=j
k

Esercizio 70. Da precedenti studi, una società associa la legge distributiva dei tempi
medi di utilizzo di suoi alcuni macchinari alla legge esponenziale, Exp(λ) con λ ∈
(2, 3). Inoltre, misurando gli utilizzi di tali macchinari in unità di tempo, si chiede:
1. con quale probabilità la durata minima sia maggiore di 8 unità di tempo,
2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una stima per
λ?
Esercizio 71. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la v.a.
min1≤k≤n {Xk }
Zn = , n ∈ N.
max1≤k≤n {Xk }
Esercizio 72. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e Exp(λ), λ > 0.
Studiare la v.a.
Zn = max {Xk } − min {Xk }, n ∈ N.
1≤k≤n 1≤k≤n

Esercizio 73. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z2 .


Capitolo 3. Variabili Aleatorie 99

3.3.8 Successioni monotone di variabili aleatorie


Consideriamo una successione di v.a. in cui l’ordinamento è dato, cioè la successione
{Xk }k∈I con I ⊆ N, può essere:

• monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . .,

• monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . ..

Sia K` con ` ∈ R la v.a. per cui è vera la relazione

P (K` ≤ k) =P (Xk ≥ `) (se {Xk } è non-decrescente),


P (K` ≤ k) =P (Xk ≤ `) (se {Xk } è non-crescente).

Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la variabile allo studio.


Allora, la v.a. K` può essere vista come un tempo ovvero come il tempo di attesa per
il raggiungimento del livello ` della successione Xk . Ad esempio, se la successione è
non-crescente, l’evento (K` ≥ k) indica che la successione Xk raggiunge il livello `
ad un istante successivo (non precisato) a k. Aspettare k realizzazioni non bastano per
raggiungere (dal basso) il livello `. Analogamente, se la successione è non-crescente,
(K` ≥ k) indica che k realizzazioni non sono sufficienti per raggiungere (dall’alto) il
livello `. Inoltre, se le v.a. Xk sono continue allora ` ∈ supp(Xk ); se le v.a. sono
discrete, allora ` ∈ spet(Xk ).

Esempio 22. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista come la somma
di k v.a. di Poisson indipendenti di parametro λ > 0 (chiusura rispetto alla somma).
Ovviamente Xk è non-decrescente, allora vogliamo trovare la distribuzione K` del
numero di addendi necessari per superare il livello `. Si ha che

P (K` ≤ k) =P (Xk ≥ `)

X
= P (Xk = x)
x=`

−λk
X (λk)x
=e
x=`
x!

` −λk
X (λk)x
=(λk) e .
x=0
(x + `)!

La densità discreta di una Poisson somma ad uno su N e allora


∞ ∞
−λk
X (λk)x −λk
X (λk)x
P (K` ≤ k) =e −e +1
x=`
x! x=0
x!
100

`−1
−λk
X (λk)x
=1 − e
x=0
x!

(che è 1 − P (Xk < `)). Notiamo che


 
1 ` − 1 (` − x − 1)!
=
x! x (` − 1)!
dove (si veda la funzione Gamma)
Z ∞
(` − x − 1)! = Γ(` − x) = u`−x−1 e−u du, x ≥ 0.
0

Allora, possiamo scrivere


`−1 `−1 
(λk)x

X 1 X `−1
= Γ(` − x) (λk)x
x=0
x! Γ(`) x=0 x
=[ per la linearità e la positività degli addendi17 ]
Z ∞ `−1 
!
x

1 X ` − 1 (λk)
= u`−1 e−u du
Γ(`) 0 x=0
x ux
=[ per il binomio di Newton ]
Z ∞  `−1
1 `−1 −u λk
= u e 1+ du
Γ(`) 0 u
Z ∞
1
= e−u (u + λk)`−1 du
Γ(`) 0
=[ pongo y = u + λk ]
Z ∞
eλk
= y `−1 e−y dy.
Γ(`) λk
Riorganizzando i conti, si ottiene
Z ∞ Z λk
1 `−1 −y 1
P (K` ≤ k) = 1 − y e dy = y `−1 e−y dy, k ∈ N.
Γ(`) λk Γ(`) 0
Esercizio 74. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo), allora K`
è una v.a. continua. In maniera alternativa si dimostri che K` ∼ Gamma(1, `).
[Suggerimento: si consideri FK0 ` (t) dove

−λt
X (λt)x
FK` (t) = e
x=`
x!

ed il fatto che si ottiene una serie telescopica].


Capitolo 3. Variabili Aleatorie 101

Osservazione 27. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt) definisce il


processo (aleatorio) di Poisson.
Osservazione 28. Le somme parziali Sn con n ∈ N di v.a. non-negative sono succes-
sioni non-decrescenti.
Esercizio 75. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione di v.a. i.i.d.
e sia Sk = kj=1 Xj con k ∈ N la loro somma parziale. Trovare la f.r. della v.a. K` ,
P
cioè del minimo numero k di v.a. Bernoulliane necessarie per raggiungere il livello
`. [Suggerimento: si ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente
per cui P (Sk ≥ `) = P (K` ≤ k)].
Esercizio 76. Nel precedente Esercizio 75, si scriva P (Sk = k).
Esempio 23. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0. Si vuole studiare la
v.a. K` . Subito possiamo dire che ` ∈ supp(Sk ), infatti la somma di v.a. continue è
una v.a. continua, in questo caso in particolare ` ∈ (0, ∞). Allora,
P (K` ≤ k) =P (Sk ≥ `)
=P (Gamma(λ, k) ≥ `)
Z ∞
λk
= uk−1 e−λu du.
Γ(k) `
Esercizio 77. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk con k ∈ N la
corrispondente successione delle somme parziali. Studiare la v.a. (tempo di attesa)
K` nei seguenti casi:
1. Xj = |Y | dove Y ∼ N (0, 1),
2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0,
3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2),
4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3),
per ogni j ∈ N.

3.3.9 Simulazione, generatori di numeri casuali


Nelle tecniche di generazione (di numeri casuali) supporremo sempre di poter gene-
rare un vettore uniforme (cioè un vettore di realizzazioni indipendenti di una variabile
aleatoria Uniforme in un certo intervallo, possiamo scegliere un intervallo che più si
adatta alla nostre esigenze). È possibile generare numeri aleatori uniformi seguendo
ben noti algoritmi oppure si possono utilizzare delle funzioni implementate in tutti i
software esistenti. Dalla generazioni di numeri casuali uniformi si possono ottenere
numeri casuali che seguono altre distribuzioni di frequenza (o di probabilità).
102

Proposizione 14. Sia g una funzione continua e differenziabile (monotona non decre-
scente) ed U ∼ U nif (a, b). Allora, la v.a.

X = g −1 (U ) (3.50)

ha legge di densità

g 0 (x), g −1 (a) ≤ x ≤ g −1 (b)



fX (x) = (3.51)
0, altrimenti.

Dimostrazione. Per il Teorema 13, si ha che


1 0
fX (x) = |g 0 (x)|fU (g(x)) = g (x)1(a,b) (g(x)), x∈R (3.52)
b−a
con g non decrescente, quindi g 0 ≥ 0. Segue l’enunciato.

La generazione di numeri casuali equivale ad estrarre palline numerate da una sca-


tola in cui le palline sono state inserite seguendo una certa distribuzione. Se prendia-
mo una scatola vuota e inseriamo 90 palline numerate da 1 a 90, allora estraendo una
pallina a caso,
1
P (estrarre la pallina con il numero x) = , ∀ x ∈ {1, 2, . . . , 90}.
90
Si sta estraendo da una distribuzione U nif {1, 2, . . . , 90}. Estraendo con ripetizione n
volte, ottengo un vettore proveniente da una U nif {1, 2, . . . , 90}. Se avessi scelto di
riempire la scatola con palline numerate ma facendo attenzione ad inserire più volte
solo certi numeri, avrei ottenuto una distribuzione diversa da quella Uniforme. Di
conseguenza, estraendo con ripetizione n palline, avrei ottenuto un vettore proveniente
da una distribuzione diversa.

Esercizio 78. Con quale trasformazione posso simulare una variabile aleatoria X con
f.r. FX ?

Svolgimento Esercizio 78. Sia U ∼ U nif (0, 1) e g = FX . Allora,

P (g −1 (U ) ≤ x) = P (U ≤ g(x)) = g(x)

implica che X = FX−1 (U ).

Esercizio 79. Se il vettore X è stato ottenuto generando n valori U nif (0, 1), come
ottengo il vettore Y con distribuzione U nif (0, a), a > 0?
Capitolo 3. Variabili Aleatorie 103

Esercizio 80. Se g(x) = 1 − e−λx con x ≥ 0, determinare la distribuzione di X =


g −1 (U ) e dire quali numeri aleatori posso generare.
Esercizio 81. Scrivere un algoritmo che restituisca un vettore di realizzazioni N (0, 1).
Esempio 24. Per generare una numero aleatorio in C si possono usare le chiamate
void srand(unsigned seed);
int rand(void);
di stdlib.h e quindi il codice seguente:
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

double simul(int a)
{
double x;
int n;
srand(time(0));
n = rand();
x = a*((double)n)/RAND_MAX;
/* printf("Il numero estratto è %lf\n", x); */
return x;
}
La funzione restituisce (stampa a video) un numero aleatorio in (0, a) proveniente da
una legge Uniforme. Ogni numero ha uguale probabilità di "essere estratto" dalla
funzione rand.

3.4 Serie numeriche e di funzioni


Si è accennato sopra alle somme parziali di v.a., come vedremo tali somme sono le-
gate alle somme parziali di elementi di una successione numerica. Sembra quindi
opportuno ricordare alcuni concetti base riguardanti le serie numeriche.

Serie numeriche
Sia {ak }k∈Z una successione (numerica) di valori in A. Si definisce serie numerica la
somma X
ak per qualche insieme di indici IK . (3.53)
k∈IK
104

Serie armonica. Sia ak = k α . Per α < −1 si ha



X
kα < ∞ (3.54)
k=1

mentre per α > −1 la serie non converge.

Serie telescopica. Un esempio classico è dato dalla serie di Mengoli



X 1
.
k=1
k(k + 1)

Una serie di addendo generico ak è detta telescopica se ak = ±(bk − bk+1 ), se cioè ci


si può ricondurre a due somme in cui gli addendi si elidono a k successivi. Nel caso
della serie di Mengoli si ha che
∞ ∞  
X 1 X 1 1 1 1 1
= − =1− + − + . . . = 1.
k=1
k(k + 1) k=1 k k+1 2 2 3

Serie di funzioni
Sia {fk }k∈Z una successione di funzioni. Definiamo la somma parziale
X
fk (x).
k∈IK

Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso |IK | = n). In particolare,


affrontiamo i problemi già accennati in Esempio 7 ed Esempio 8.

Proposizione 15. Valgono le seguenti:

i) (passaggio al limite sotto il segno di integrale) se fk è continua in [a, b] e

fk (x) → f (x) uniformemente,

allora
Z b Z b
fk (x)dx → f (x)dx (3.55)
a a
Capitolo 3. Variabili Aleatorie 105

ii) (integrazione per serie) se fk è continua in [a, b] e


n
X
fk (x) → f (x) uniformemente,
k=1

allora
Z b ∞ Z
X b
f (x)dx = fk (x)dx (3.56)
a k=1 a

iii) (derivazione per serie) se fk è derivabile in [a, b] e se


n
X n
X
fk (x) → f (x) e fk0 (x) → g(x) uniformemente
k=1 k=1

allora,
f 0 (x) = g(x) in [a, b]. (3.57)

Ricordiamo i seguenti sviluppi in serie


n
X xk d k f
f (x + z) = (z) + Rn (x + z) (serie di Taylor in z)
k=0
k! dxk

oppure scriviamo
n
X (x − z)k dk f
f (x) = (z) + Rn (x) (serie di Taylor in z)
k=0
k! dxk

dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al caso in cui
Rn (x)
lim =0 (cioè Rn (x) = o((x − z)n ) per x → z). (3.58)
x→z (x − z)n
Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente buona,
ricordiamo anche il seguente sviluppo

X xk dk f
f (x) = (0) (serie di Maclaurin - di Taylor in 0).
k=0
k! dxk

Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine superiore a


(x − z)n (resto di Peano), vale quindi (3.58). Se f è derivabile n + 1 volte in [a, b] con
derivata f (n+1) continua, allora possiamo scrivere il resto come segue
Z x
(x − y)n (n+1)
Rn (x) = f (y) dy, ∀ x ∈ [a, b]. (3.59)
z n!
106

Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]),


|x − z|n+1
|Rn (x)| ≤ γn+1 , γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}. (3.60)
(n + 1)!
Esercizio 82. Ricavare la formula del binomio di Newton espandendo in serie di
Maclaurin la funzione f (x) = (1 + x)n .

Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione numerica. Si ottiene


la serie di potenze X
ak x k (3.61)
k∈IK

per la quale è utile ricordare che



X ∞
X ∞
X
k k
ak x + bk x = ck x k dove c k = ak + b k (banale!)
k=0 k=0 k=0

e

! ∞
! ∞ k
X X X X
k k k
ak x bk x = ck x dove ck = as bk−s (moltiplicazione).
k=0 k=0 k=0 s=0

Osservazione 29. Si noti che tali risultati valgono per serie numeriche, basta porre
x = 1.
Inoltre, ricordiamo che
n
X 1 − xn+1
xk = per |x| < 1 (serie geometrica). (3.62)
k=0
1−x

Alcuni limiti notevoli:

 x k
fk (x) = 1 + → ex per x ∈ R se k → ∞
k

n
X xk
→ ex se n → ∞.
k=0
k!

n ∞
X d X k
k
kx → x per |x| < 1 se n → ∞
k=1
dx k=1
Capitolo 3. Variabili Aleatorie 107

n
X x
xk → per |x| < 1 se n → ∞ (verificare!!)
k=1
1−x

Esercizio 83. Calcolare  


1
E
1−X
nei seguenti casi

1. X è una v.a. con momenti Mr (X) = r−α e α > 1,

2. X è una v.a. con momenti Mr (X) = 1/4r ,

3. X è una v.a. con momenti Mr (X) = r−1/3 .

3.5 Trasformate di densità


Funzione caratteristica
Sappiamo trovare la soluzione per una equazione del tipo x2 + 1 = 0?
Introduciamo a tale scopo il numero complesso z = a + ib ed il suo coniugato

z = a − ib dove a = <(z) è la parte reale di z e b = =(z) è la parte immaginaria di
z, i è il numero immaginario per cui i2 = −1. Parte reale e parte immaginaria di un
numero complesso variano in R. Il valore assoluto o modulo di un numero complesso
|z| è dato dalla seguente relazione

|z|2 = z z ∗ = a2 + b2 . (3.63)

Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale complesso

z = eix = cos x+i sin x, z ∗ = e−ix = cos x−i sin x (formule di Eulero). (3.64)

Si vede subito che |e±ix | = 1 (verificate!).

Sia X una v.a. con legge di densità fX e


Z
iξX
φX (ξ) = Ee = eiξx fX (x)dx = F[fX ](ξ). (3.65)
supp(X)

Definizione 39. La funzione a valori complessi φX : R 7→ C è la funzione caratteri-


stica della variabile aleatoria X (o associata alla v.a. X).
108

Definizione 40. La funzione F[fX ](ξ) : R 7→ C è la trasformata di Fourier della


funzione fX (o associata alla funzione fX ).
Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo
X
φX (ξ) = EeiξX = eiξxk pk = F[{pk }](ξ)
k∈IX

che è in linea con le (3.21) ed è la funzione caratteristica per v.a. discrete.

In generale, la trasformata di Fourier di una funzione f : A → R è definita da


Z
F[f ](ξ) = eiξx f (x)dx
A

mentre F[{pk }](ξ) è una trasformata di Fourier discreta.

Proposizione 16. Valgono le seguenti proprietà :


1. φX (0) = 1,
2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata),
3. φX è uniformemente continua,
4. se Y = nj=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipendenti e aj ∈ R
P
per ogni j, allora
Yn
φY (ξ) = φXj (aj ξ).
j=1

Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.65) si vede su-


bito che:
1. segue immediatamente considerando P (X ∈ supp(X)) = 1,
2. dalle proprietà del modulo, si ottiene
Z

|φX (ξ)| =
e fX (x)dx = EeiξX
iξx

Z supp(X)
≤ |eiξx fX (x)|dx
Zsupp(X)

= |eiξx |fX (x)dx = E eiξX
supp(X)

=1
infatti fX ≥ 0 è una legge di densità e |eiξx | = (cos2 ξx + sin2 ξx)1/2 = 1.
Capitolo 3. Variabili Aleatorie 109

3. si deve considerare

|φX (ξ + h) − φX (ξ)| = EeiξX+ihX − EeiξX

= E eiξX+ihX − eiξX linearità della media

≤E eiξX+ihX − eiξX dis. di Hölder

=E eiξX · eihX − 1


=E eihX − 1 si è usato cos2 ξX + sin2 ξX = 1
=Mh

che non dipende da ξ e quindi

|φX (ξ + h) − φX (ξ)| ≤ Mh .

Si deve notare che qui con il simbolo Mh si sta indicando una costante18 . Volen-
do fornire una rappresentazione esplicita, si ha
q
Mh =E (cos hX − 1)2 + sin2 hX


=E 2 − 2 cos hX
=2E| sin(hX/2)| ≤ 2

dove si sono usate formule ben note di trigonometria ed il fatto che sin x è una
funzione limitata. Potevamo anche considerare la dis. di Minkowski, |eihX −
1| ≤ |eihX | + |1| ≤ 1 + 1.

4. in questo caso dobbiamo considerare


n
Pn Y
iξ aj Xj
Ee j=1 =E eiξaj Xj
j=1
n
Y
= Eeiξaj Xj per l’indipendenza delle v.a. eiξaj Xj
j=1
n
Y
= φXj (aj ξ) per definizione.
j=1

18
Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento di ordine r
indicato con il simbolo Mr .
110

Proposizione 17. Se X ha momento di ordine n+1 finito, cioè Mn+1 (X) < ∞, allora
n
(iξ)r n+1

≤ |ξ|
X
φX (ξ) − M (X)
r!
r (n + 1)! Mn+1 (|X|) (3.66)
r=0

Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla (3.60) che


γn+1 = 1 e
|x|n+1
|Rn (ix)| = |Rn (x)| ≤ .
(n + 1)!
Quindi si ha che
n n
!
r r


φX (ξ) −
X (iξ)
= E eiξX −
X (iξ) r

Mr (X) X

r=0
r!
r=0
r!
n r

iξX X (iξ) r

≤E e − X
r=0
r!
=E|Rn (X)|

e la dimostrazione è conclusa.
Da quanto visto possiamo enunciare i seguenti risultati.
Teorema 18. Se per ogni ξ,
|ξ|r
lim Mr (|X|) = 0, (3.67)
r→∞ r!

allora

X (iξ)r
φX (ξ) = Mr (X). (3.68)
r=0
r!

Lemma 1. Se X ha momento assoluto di ordine n finito, cioè Mn (|X|) < ∞, allora


(n)
φX (0)
= Mn (X). (3.69)
in
Diamo inoltre il seguente risultato senza dimostrarlo.
Teorema 19. Se φX ∈ L1 (R), allora X ∼ fX e
1. fX è uniformemente continua,

2. vale (3.13) per ogni x,


Capitolo 3. Variabili Aleatorie 111

3. fX (x) = F −1 [φX ](x) dove


Z
−1 1
F [φX ](x) = e−iξx φX (ξ)dξ
2π R

è la trasformata inversa di Fourier.


Dal teorema precedente arriviamo alla proposizione che segue (si veda anche la
formula (3.3)).
Proposizione 18. Se φX ∈ L1 (R), allora non ci sono punti di massa positiva (di
probabilità positiva). Vale a dire P (X = x) = 0 per ogni x.
Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha kfX k∞ ≤ kφX k1 ).
Si possono ottenere molte informazioni interessanti dallo studio della funzione carat-
teristica che non intendiamo approfondire ora. Ricordiamo però che le code della fun-
zione caratteristica danno informazioni sulla regolarità della densità (sulla continuità)
mentre le code della densità danno informazioni sulla regolarità (continuità) della fun-
zione caratteristica. In particolare, code che decadono esponenzialmente determinano
derivabilità di ogni ordine.
Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni ordine uguali
ma non necessariamente condividono la stessa legge di densità. Infatti stessa densità
significa stessa funzione caratteristica (perché la trasformata di Fourier è un isomorfi-
smo) ma queste possono non esistere in termini di momenti, deve essere verificata per
φX e φY la condizione (3.67). Quindi le v.a. hanno momenti uguali di ogni ordine ma
la funzione caratteristica non può essere scritta come in (3.68).
Ricordiamo anche che due v.a. possono avere la stessa densità ma essere diverse.
Cioè possono avere marginali di ordine k diverse, nel senso che per x ∈ D,
Z Z
f (x) = w1 (x, y)dy = w2 (x, u)du = g(x)
A B

dove w1 e w2 sono due densità congiunte tali che w1 = 6 w2 mentre f e g sono due
marginali (univariate, k = 1 in questo caso!) tali che f = g.
Esercizio 84. Sia X una v.a. tale che
r! r Γ(r + 1) r
EX r = a 1(r pari) = r a 1(r pari) , a > 0, r > 0.
(r/2)! Γ( 2 + 1)
Scrivere la funzione caratteristica di X.
Esempio 25. Sia
n
X
Zn = Xk , n ∈ N.
k=1
Scrivere la funzione caratteristica φZn nei seguenti casi:
112

1. Xk ∼ N (0, 2−k ),

2. Xk ∼ N (2−k , σk2 ),

3. Xk ∼ N (n−1 , 3−k ).

Si scrive subito
n
Pn Y
iξ Xk
φZn (ξ) = Ee k=1 = φXk (ξ)
k=1

che diventa nei diversi casi


1 1 2 1 1
1. φZn (ξ) = nk=1 e− 2 2k ξ = e− 2 (1− 2n )ξ , ξ ∈ R
Q 2

1 1 2 2 1 1
ei 2k ξ− 2 σk ξ = ei(1− 2n )ξ− 2 σn ξ , ξ ∈ R dove σn2 =
Qn 2 2 Pn
2. φZn (ξ) = k=1 k=1 σk2
1 1 1 2 1 1 1
ei n ξ− 2 3k ξ = eiξ− 2 2 (1− 3n )ξ , ξ ∈ R
Qn 2
3. φZn (ξ) = k=1

e allora

1. Zn ∼ N (0, σn2 ) dove σn2 = (1 − 2−n )


Pn
2. Zn ∼ N (µn , σn2 ) dove µn = (1 − 2−n ), σn2 = k=1 σk2

3. Zn ∼ N (1, σn2 ) dove σn2 = (1 − 3−n ).

Funzione generatrice dei momenti


La funzione generatrice dei momenti è definita dalla media EeξX con ξ ∈ R. Se-
guendo argomenti analoghi a quanto detto sopra per la funzione caratteristica si arri-
vano a determinare interessanti proprietà se tale media esiste. Il problema principale
è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti ma definiremo la
funzione generatrice dei momenti, per ξ ≥ 0, come segue
Z
−ξX
ψX (ξ) = Ee = e−ξx fX (x)dx = L[fX ](ξ). (3.70)
supp(X)

dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se X ≥ 0, ψX


esiste sempre. In particolare, si ottiene:

1. ψX (0) = 1,
(n)
2. (−1)n ψX (0) = Mn (X),
Capitolo 3. Variabili Aleatorie 113

3. se per ogni ξ,

ξk
limMk (X) = 0
k→∞ k!

allora
" ∞
# ∞
−ξX
X (−ξX)k X (−ξ)k
ψX (ξ) = Ee =E = Mk (X). (3.71)
k=0
k! k=0
k!

Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo


X
Ee−ξX = e−ξxk pk
k∈IX

che è ancora in linea con le (3.21).

Funzione dei momenti generalizzati


Sia X ≥ 0 con densità fX . Definiamo la trasformata
Z ∞
η−1
ϕX (η) = EX = xη−1 fX (x)dx = M[fX ](η)
0

dove M[fX ](η) è la trasformata di Mellin di fX .

Funzione generatrice delle probabilità


Sia X una v.a., allora

GX (u) = EuX , |u| < 1

è detta funzione generatrice delle probabilità di X.

Osservazione 30. Ogni variabile è identificata in maniera univoca dalla sua trasfor-
mata.

3.6 Alcune disuguaglianze fondamentali


Teorema 20. (Dis. di Jensen) Sia g una funzione convessa e X una v.a. con valore
atteso finito, allora
Eg(X) ≥ g(EX).
114

Dimostrazione. Si deve applicare il Teorema 2.

Dalla disuguaglianza appena introdotta e dalla Proposizione 9 si vede che, g ∈ Cb


funzione convessa,

g(EX) ≤ Eg(X) ≤ M.

Teorema 21. (Dis. di Markov) Sia X una v.a. non negativa, allora

EX
∀  > 0 P (X > ) ≤


Dimostrazione. Si utilizza la proprietà i) della media. Per ogni  > 0


   
X X
P (X > ) = E1(,∞) (X) = E 1(,∞) (X) ≤ E .
X 

La dimostrazione è conclusa.

Se X ∼ fX è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disuguaglian-


za di Markov come segue.

Dimostrazione alternativa. Dalla definizione di media per v.a. continue, scriviamo


Z
EX = xfX (x)dx
supp(X)
Z
≥ xfX (x)dx (X è positiva e l’integrale è non decrescente)
{x∈supp(X) : x>}
Z
x
= fX (x)dx (moltiplico e divido per )
{x∈supp(X) : x>} 
Z
x
≥ fX (x)dx = P (X > ).
{x∈supp(X) : x>} 

Notiamo che {x ∈ supp(X) : x > } = supp(X) ∩ (, ∞)

Teorema 22. (Dis. di Chebyshev) Sia X una v.a.,

E|X|r
∀  > 0 P (|X| > ) ≤ , r > 0.
r
Capitolo 3. Variabili Aleatorie 115

Dimostrazione. Per ogni  > 0,


P (Y > ) = E1(,∞) (Y )
dove Y = |X| è una v.a. non negativa. Si applica allora la disuguaglianza di Markov
moltiplicando e dividendo per Y r . Otteniamo
 r   r
Y Y
E r
1(,∞) (Y ) ≤ E r .
Y 
La dimostrazione è conclusa.
Dimostrazione alternativa. Consideriamo X ∼ fX . Otteniamo
Z
r
E|X| = |x|r fX (x)dx (definizione)
Zsupp(X) Z
r
= |x| fX (x)dx + |x|r fX (x)dx
Z{x∈supp(X):|x|≤} {x∈supp(X):|x|>}

≥ |x|r fX (x)dx (somma di quantità positive)


{x∈supp(X):|x|>}
|x|r
Z
r
= r
fX (x)dx
{x∈supp(X):|x|>} 

≥ P (|X| > ) (sto integrando sulle x : |x| >  ⇒ |x|/ > 1).
Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora,
X X
E|X|r = |xk |r pk ≥ |xk |r pk .
k∈IX k∈IX : |xk |>

Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la dimo-
strazione.
Ricordiamo alcuni risultati sulle somme di v.a. (si veda la Sezione 3.3.5) senza
dare le dimostrazioni.
Teorema 23. (Dis. di Lévy)
 
P max Sk ≥ β ≤ 2P (Sn ≥ β).
1≤k≤n

Teorema 24. (Dis. di Doob)


EXn+
 
P max Xk ≥ β ≤
1≤k≤n β
dove Xn+ = max{0, Xn } e β > 0.
116

Teorema 25. (Prima dis. di Kolmogorov)


 
V ar Sn
P max |Sk | ≥ β ≤ .
1≤k≤n β2

Teorema 26. (Seconda dis. di Kolmogorov)


(β + 2a)2
 
P max |Sk − ESk | ≥ β ≥ 1 − .
1≤k≤n V ar Sn
Teorema 27. (Dis. di Marshall)
 
V ar Sn
P max Sk ≥ β ≤ .
1≤k≤n β2 + V ar Sn

3.7 Convergenza di variabili aleatorie -


3.7.1 Convergenza, definizioni e discussione
Sia Xn , n = 1, 2, . . . una successione di v.a. e sia fXn la successione delle leggi di
densità delle Xn . Sia X una v.a. tale che Xn → X quando n → ∞. Dobbiamo
caratterizzare il senso della convergenza. Si deve quindi dire in che senso Xn → X.
Definizione 41. Xn → X in distribuzione e scriviamo
d
Xn → X (3.72)

se
P (Xn ≤ x) → P (X ≤ x) per n → ∞ (3.73)
per ogni punto x in cui la funzione limite x 7→ P (X ≤ x) è continua.
Se vale la (3.73) possiamo dire che Xn converge ad X in distribuzione (in distribu-
tion), in legge (in law), debolmente (weakly). Notiamo che la definizione appena data
è in realtà il teorema di Helly-Bray e che la convergenza in distribuzione non riguarda
direttamente la v.a. X ma la sua distribuzione di probabilità o appunto, la funzione
di ripartizione (si veda ad esempio l’Esercizio 18). La convergenza in distribuzione
non implica quindi la convergenza della funzione di densità! Si consideri anche la
successione Xn con
1, x = 2 + n1

P (Xn = x) =
0, altrimenti.
Il lemma che segue ci fornisce definizioni equivalenti di convergenza debole.
Capitolo 3. Variabili Aleatorie 117

Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono affermazioni equivalen-


ti:
d
i) Xn → X,

ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb ,

iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈ Lipb ,

iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che P (X ∈ ∂B) =


0 dove ∂B è la frontiera di B.

Osservazione 31. Consideriamo un intervallo della retta dei reali. La frontiera di


[a, b] è costituita dall’insieme {a, b}. Sia X ∼ fX , allora sappiamo che P è as-
solutamente continua rispetto alla misura di Lebesgue e la misura di Lebesgue di
∂[a, b] = {a, b} = {a} ∪ {b} è zero.

Dire che una v.a. converge in legge equivale a dire che la sua densità (funzione di ri-
partizione) converge debolmente, cioè se Xn → X in distribuzione, alloraR Eg(Xn ) →
Eg(X) dove g = 1B è la funzione indicatrice (infatti Eg(Xn ) = g dFXn ). Se g
è una funzione semplice, per la linearità dell’integrale, continua a valere la conver-
genza debole. Se g è una funzione misurabile non negativa, continua a valere per la
convergenza monotona19 e per linearità, continua a valere per una arbitraria funzione
misurabile.
d
Osservazione 32. Se Xn → X non è detto che EXn → EX. Infatti la funzione
g(x) = x non è limitata. In realtà, g(x) = xr con r > 0 non è limitata e allora
d
Xn → X 6⇒ Mr (Xn ) → Mr (X).

Indichiamo con |Xn | ≤ M il fatto che, data una costante M > 0, P (|Xn | ≤ M ) =
1 e diciamo che Xn è uniformemente limitata (cioè, per ogni n).

Teorema 28. Se la successione Xn è uniformemente limitata, allora


d
Xn → X ⇒ Mr (Xn ) → Mr (X) < ∞.
19
Sia {fn }n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ). Se fn → f
puntualmente, allora f è misurabile (f ∈ L1 ) e
Z Z
lim fn (x)dµ(x) = f (x)dµ(x).
n→∞ Ω Ω
118

Dimostrazione. Consideriamo r = 1 e assumiamo che Xn ≥ 0, inoltre ricordiamo che


P (Xn > M ) = P (X > M ) = 0, allora
Z ∞

|M1 (Xn ) − M1 (X)| = [P (Xn > x) − P (X > x)] dx
Z0 M

= [P (Xn > x) − P (X > x)] dx
0
Z M

≤ P (Xn > x) − P (X > x) dx → 0, n → ∞
0

dove il limite si ottiene dalla convergenza in distribuzione. Infatti, P (Xn > x) →


P (X > x) per ogni punto di continuità di P (X > x) e l’integrale è finito per ogni
n. Considerando la parte positiva e negativa di Xn si ottiene il risultato generale per
r = 1. Dalle proprietà del valore medio si ottiene il risultato per r > 1 seguendo la
stessa linea indicata sopra.
Definizione 42. Xn → X in probabilità e scriviamo
P
Xn → X (3.74)
se
∀ > 0 lim P (|Xn − X| > ) = lim P (ω : |Xn (ω) − X(ω)| > ) = 0
n→∞ n→∞
oppure
∀ > 0 lim P (|Xn − X| ≤ ) = lim P (ω : |Xn (ω) − X(ω)| ≤ ) = 1.
n→∞ n→∞

La convergenza in probabilità richiede che asintoticamente l’insieme {ω : |Xn (ω)−


X(ω)| > } diventi un insieme trascurabile, cioè di misura P nulla (si considera una
distanza). La convergenza in probabilità implica la convergenza in distribuzione, non
è sempre vero il contrario. In particolare, la convergenza in distribuzione implica la
convergenza in probabilità solo se il limite X è una v.a. degenere.
Definizione 43. Una v.a. X si dice degenere se è identicamente uguale ad una costante
quasi certamente (q.c.), cioè se P (X = costante) = 1.
La convergenza in probabilità non implica la convergenza dei momenti
P
Xn → X 6⇒ Mr (Xn ) → Mr (X).
d
Basta considerare la successione Xn per cui Xn = n × Ber(1/n) per ogni n,
1 1
P (Xn = 0) = 1 − → 1 e P (Xn = n) = → 0
n n
quindi Xn → 0 in probabilità ma Mr (Xn ) = nr−1 e Mr (X) = 0.
Capitolo 3. Variabili Aleatorie 119

Definizione 44. Xn → X in media r-esima e scriviamo


M
Xn →r X (3.75)

se

E|Xn − X|r → 0, r > 0, per n → ∞.

Dalla disuguaglianza di Chebyshev

E|Xn − X|r
P (|Xn − X| > ) ≤
r
si vede subito che la convergenza in media r-esima implica la convergenza in probabi-
lità. Osserviamo inoltre che, per r pari (si veda la formula del binomio di Newton),
r   r  
r
X r k r−k
X r
|Xn − X| = ak [Xn ] [X] = ak [X]k [Xn ]r−k
k=0
k k=0
k

dove ak = (−1)k (per r dispari basta considerare il corrispondente ak che tenga conto
del modulo). Quindi si ottiene convergenza in media r-esima se esistono i momenti
1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo semplicemente di convergenza in media.
Se cioè E|Xn | < ∞, si deve verificare

lim E|Xn − X| = 0.
n→∞

Se ogni elemento della successione Xn ha momento secondo finito, allora Xn converge


M
in media quadratica a X, cioè Xn →2 X se

lim E|Xn − X|2 = 0.


n→∞

Le convergenze in media r-esima appena viste implicano la convergenza del corri-


spondente momento r-esimo, cioè se r = 1, 2
M
Xn →r X ⇒ Mr (Xn ) → Mr (X)

inoltre, la convergenza in media quadratica implica la convergenza in media,

M2 (Xn − X) → 0 ⇒ M1 (Xn − X) → 0.
120

Basta considerare la disuguaglianza di Hölder (per p = 2, cioè la disuguaglianza di


Cauchy-Schwarz)
p
E|Yn 1| ≤ E|Yn |2 · E|1|2 = (M2 (Yn ))1/2

per Yn = Xn − X.
La convergenza in media r-esima implica la convergenza in probabilità,
M P
Xn →r X ⇒ Xn → X

infatti, dalla disuguaglianza di Chebyshev, per r ≥ 1

Mr (Xn − X) → 0 ⇒ P (|Xn − X| > ) → 0 ∀  > 0.

Osservazione 33. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una successione. Notia-
mo che
Z b
r 1
E|fn (X) − f (X)| = |fn (x) − f (x)|r dx → 0 se n → ∞ (3.76)
b−a a
collega la convergenza in media r-sima con la convergenza nello spazio di Lebesgue
Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza in Lp si può formalizzare
come segue, se Yn ∈ Lr per ogni n, Y ∈ Lr e r ≥ 1, diciamo che
Lr
Yn → Y

se

lim E|Yn − Y |r = 0
n→∞

Definizione 45. Xn → X con probabilità 1 (o quasi certamente) e scriviamo


q.c.
Xn → X (3.77)

se

P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1.


n→∞ n→∞

q.c.
Notiamo che Xn → X significa

P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0


n→∞ n→∞

oppure

P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1.


n→∞ n→∞
Capitolo 3. Variabili Aleatorie 121

Si vede subito che la convergenza quasi certa è più forte della convergenza in proba-
bilità. La convergenza q.c. implica quindi una convergenza puntuale (pointwise) in ω,
cioè per ogni ω ∈ Ω \ N , Xn (ω) → X(ω), cioè a meno di un insieme N ⊂ Ω di mi-
sura nulla e quindi trascurabile per cui P (N ) = 0. Inoltre la convergenza q.c. implica
la convergenza in probabilità (Lemma di Fatou). La convergenza quasi certa (almost
sure) è anche detta convergenza quasi ovunque (almost everywhere), con probabilità
uno (with probability one), in senso forte (strongly). Raramente ci si riferisce alla
convergenza certa (o ovunque) in cui si ha convergenza quasi certa (quasi ovunque) a
meno di insiemi di misura nulla.
Esempio 26. La funzione fn (x) = xn converge punto per punto a 0 in [0, 1) ma non
uniformemente. La convergenza non è puntuale in [0, 1]. Inoltre, converge q.o. in
[0, 1] a 0 rispetto alla misura di Lebesgue, visto che µ({1}) = 0 se µ è la misura di
Lebesgue.
Esempio 27. Il limite puntuale di una successione di funzioni continue può essere una
funzione discontinua solo se la convergenza non è uniforme. Si consideri
fn (x) = (cos πx)2n .
Esercizio 85. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la convergenza della successione di v.a.
Zn = max {Xk }, n ∈ N.
1≤k≤n

Esercizio 86. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = X n , n ∈ N.
Esercizio 87. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = (−X)n , n ∈ N.
Esercizio 88. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza della successio-
ne di v.a.
1
Zn = X + Y, n ∈ N.
n
P q.c.
Proposizione 19. Se Xn → X, allora esiste una sotto-successione tale che Xnk → X.

Definizione 46. (Convergenza quasi completa) Diciamo che Xn → X quasi comple-


tamente se
X
∀  > 0, P (ω : |Xn (ω) − X(ω)| > ) < ∞, k > 0. (3.78)
n>k
122

Si ha quindi convergenza quasi completa se fissato  (piccolo a piacere), la som-


ma (3.78) è finita indipendentemente da quale k scelgo (grande a piacere). Se Xn
converge quasi completamente allora converge quasi certamente, cioè converge così
velocemente da assicurare la convergenza q.c. (Lemma di Borel-Cantelli).
Definizione 47. (Convergenza stabile) Sia Xn una successione di v.a. definite in
d
(Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in G (G-stably in di-
stribution) se

E[Zf (Xn )] → E[Zf (X)]

per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata e G-


misurabile.
Osservazione 34. Per la convergenza in media o in probabilità dobbiamo conoscere
le congiunte delle v.a. interessate mentre per la convergenza in distribuzione basta
conoscere la marginale di ordine k se si studia la convergenza di una successione
Xn ∈ R k .
Teorema 29. Sia g : Rn 7→ Rm una funzione continua in ogni punto x ∈ D per cui si
ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)). Valgono le seguenti :
d d
i) Xn → X, implica g(Xn ) → g(X),
P P
ii) Xn → X, implica g(Xn ) → g(X),
q.c. q.c.
iii) Xn → X, implica g(Xn ) → g(X).
Osservazione 35. Notiamo che per una funzione g di Lipschitz, g ∈ Lip, vale la
seguente
P P
• Xn → X, implica g(Xn ) → g(X).
Si vede che g ∈ Lip implica che Ag ⊂ A, dove

Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < }



A ={ω ∈ Ω : |Xn (ω) − X(ω)| < }
M
e quindi

P (|g(Xn ) − g(X)| < ) ≤ P (|Xn − X| < ) → 1 se n → ∞
M
P
perché vale Xn → X.
Capitolo 3. Variabili Aleatorie 123

Teorema 30. Siano {Xn }n , X e {Yn }n v.a., allora


q.c. P
i) Xn → X implica Xn → X,
P d
ii) Xn → X implica Xn → X,
P d
iii) Xn → c se e solo se Xn → c dove c è una costante,
d P d
iv) Xn → X e |Xn − Yn | → 0 implica Yn → X.
Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una costante. Se
d d
Xn → X e Yn → c,

allora
d
i) Xn + Yn → X + c;
d
ii) Yn Xn → cX;
d
iii) Yn−1 Xn → c−1 X se c 6= 0.
Teorema 31. (Teorema di continuità di Lévy) Siano {Xn }n e X v.a. in Rd . Allora
d
i) Xn → X se e solo se
TX TX
φXn (ξ) = Eeiξ n
→ Eeiξ = φX (ξ), ∀ ξ ∈ Rd se n → ∞ (3.79)

ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e φ(ξ) è continua


d
in zero, allora φ = φX è la funzione caratteristica di X e Xn → X.
Teorema 32. (Scheffé)20 Se {fn }n∈N è una successione di densità di probabilità con
supporto in D ⊂ Rd tale per cui

lim fn (x) = f (x) q.o. in D,


n→∞

allora una condizione sufficiente affinché


Z Z
lim fn (x)dx = f (x)dx
n→∞ B B

per ogni Boreliano B è che f sia una densità di probabilità.


20
Attribuiamo il risultato a Sheffé perché è una sua formulazione ma ricordiamo, come anche lui ha
fatto, che si poteva ottenere come caso particolare di risultati noti più generali.
124

Il teorema autorizza il passaggio al limite sotto il segno di integrale.

Proposizione 20. Sono equivalenti i seguenti limiti:

i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E),

ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E),

iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 31.

Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). Infatti, se vale


i), dalla 3.13 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema 32. Le implicazioni con la
iii) sono ovvie.

Esempio 28. Riprendiamo l’Esempio 25 e studiamo la convergenza in distribuzione


della variabile Zn . Si devono considerare nei diversi casi

lim µn = µ e lim σn2 = σ 2


n→∞ n→∞

e allora

1. Zn → Z ∼ N (0, 1)
P∞
2. Zn ∼ N (1, σ 2 ) dove σ 2 = k=1 σk2 (se finita!)

3. Zn ∼ N (1, 1).

I seguenti esercizi sono estremamente istruttivi.

Esercizio 89. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N.

Una v.a. univariata U nif ([0, `]) avrà densità 1/` dove ` è la lunghezza del sup-
porto. Sembra ovvio che se ` → ∞ la densità tende a zero, tutti i punti hanno eguale
probabilità di essere considerati ed è nulla. Allo stesso tempo però la f.r. può non
essere nulla come nel precedente esercizio. Quindi l’operazione di passaggio al limite
sotto il segno di integrale può condurre a situazioni da analizzare con cura.

Esercizio 90. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove fXn (x) =


2n2 x1(0,1/n) (x), x ∈ R.
Capitolo 3. Variabili Aleatorie 125

Divergenza di variabili aleatorie. Ci siamo sempre interessati alla convergenza


in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N , diamo una definizione di
divergenza.

Definizione 48. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞] diverge q.c. se

∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1.

Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗ in poi se e


solo se Xn → ±∞ quasi certamente.

Esercizio 91. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che

1
E[Xj ]k = 1(k=2) , k ≥ 1,
n
1. determinare la funzione caratteristica di Xj ,
Pn
2. determinare la funzione caratteristica di Zn = j=1 Xj ,

3. determinare la legge di densità della v.a. Z∞ e dire che tipo di convergenza si


ottiene.

3.7.2 Teoremi limite


Studiamo il limite della v.a. somma parziale
n
X
Sn = Xj (3.80)
j=1

e della v.a. media campionaria


n
1X 1
X̄n = Xj = S n . (3.81)
n j=1 n

dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportunamente.

Teorema 33. (Legge debole dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione
di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) =
σ 2 < ∞ per ogni j. Allora
P
X̄n → µ se n → ∞. (3.82)
126

Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di Chebyshev,

E|X̄n − µ|2 V ar(X̄n )


P (|X̄n − µ| > ) ≤ 2
=
 2

dato che E X̄n = µ. La varianza di X̄n si calcola come segue


n
1 X 1
V ar(X̄n ) = 2
V ar(Xj ) = σ 2
n j=1 n

dato che le Xj sono i.i.d., segue dunque che

σ2
P (|X̄n − µ| > ) ≤ →0 se n → ∞.
n 2
Dalla definizione di convergenza in probabilità segue l’enunciato.

Osserviamo che non è importante conoscere σ 2 . Infatti basta sapere che V ar(Xj ) <
∞ per ogni j. Dire che la varianza e finita vale a dire che esiste una costante M > 0
tale per cui V ar(Xj ) ≤ M per ogni j e quindi
n
1 X nM
V ar(X̄n ) = 2 V ar(Xj ) ≤ 2 .
n j=1 n

Si ottiene
M
P (|X̄n − µ| > ) ≤ →0 se n → ∞
n 2
e allora possiamo riformulare la legge debole dei grandi numeri come segue:

Sia {Xj }j∈N una successione di v.a. indipendenti con EXj = µ e varianza finita
P
per ogni j. Allora X̄n → µ.

Diamo ora una formulazione forte senza dimostrarla.

Teorema 34. (Legge forte dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di
v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) = σ 2 <
∞ per ogni j. Allora
q.c.
X̄n → µ se n → ∞. (3.83)
Capitolo 3. Variabili Aleatorie 127

Teorema 35. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di v.a. i.i.d. con
EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora,

Sn − nµ d
√ → N (0, 1) se n → ∞ (3.84)
σ n
e
X̄ − E X̄n d
pn → N (0, 1) se n → ∞ (3.85)
V ar(X̄n )
dove E X̄n = µ e V ar(X̄n ) = σ 2 /n.

Esercizio 92. Sia X ∼ U nif (0, 1) ed α > 1. Studiare la convergenza della v.a.
Yn = (n(1 − X 1/n ))1/α con α > 0.

Esercizio 93. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n). Studiare la
convergenza della v.a. Yn = max0≤k≤n {Xk }.

Esercizio 94. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ e varianza σ 2
per ogni k. Studiare la convergenza della successione
n
X (Xk − µ)
Yn = , n ∈ N.
k=1
σ

Esercizio 95. Siano Xk ∼ U nif {−1, 1} v.a. indipendenti. Determinare il limite in


distribuzione della v.a.
n
X
−1/2
Zn = n Xk .
k=1

Esercizio 96. Siano Xk ∼ P ois(λ), λ > 0 v.a. indipendenti e Yk = Xk −λ per k ∈ N.


Si vuole studiare la distribuzione limite della v.a.
n
X
−1/2
Zn = (nλ) Yk .
k=1

Esercizio 97. Siano Xk ∼ Exp(λ), λ > 0 v.a. indipendenti e Yk = Xk − 1/λ per


k ∈ N. Si vuole studiare la distribuzione limite della v.a.
n
X
−1/2
Zn = n Yk .
k=1

Osservazione 36. Si veda il test di Kolmogorov-Smirnov a pag. 166.


128

3.7.3 Metodi Monte Carlo


Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j = 1, 2, . . ., sotto le
condizioni della legge dei grandi numeri sappiamo che
n Z
1X P
Xj → µ = EX = xfX (x)dx se n → ∞.
n j=1 supp(X)

Inoltre, se Xn → X in probabilità, vale


P
g(Xn ) → g(X) per ogni funzione continua e limitata g.

Otteniamo allora
n Z
1X P
g(Xj ) → Eg(X) = g(x)fX (x)dx.
n j=1 supp(X)

Se X ∼ U nif (a, b), allora


n Z b
1X P 1
g(Xj ) → g(x)dx.
n j=1 b−a a

Possiamo quindi considerare una successione {Xj }j∈N con componenti i.i.d e ognuna
convergente ad una v.a. Uniforme; di questa prendere solo una realizzazione finita,
data del vettore

X = (X1 , X2 , . . . , Xn )

per n sufficientemente grande; passare quindi alla v.a. media campionaria Ȳn relativa
al vettore

Y = (g(X1 ), g(X2 ), . . . , g(Xn )).

La v.a. Ȳn torna utile nel calcolare un integrale di g numericamente complicato (di
elevata complessità computazionale ad esempio). Le convergenze di cui si sta parlan-
do si ottengono per n → ∞ ma in realtà si ottengono buone approssimazioni per n
sufficientemente grande (a volte può essere sufficiente n = 30, 100, 1000.).

La funzione somma in C:
#include <stdio.h>
#include <stdlib.h>
Capitolo 3. Variabili Aleatorie 129

double sum(double v[])


{
int i;
int s;
s=0;
for(i=1; i<length(v)+1; i++)
{
s=s+v[i];
}
return s;
}
Definiamo inoltre la seguente funzione
#include <stdio.h>
/* altre librerie se necessario */
#include <stdlib.h>

double dist(double v)
{
double val;
...... /* il codice */
return val;
}
che restituisce un valore secondo la trasformazione della Proposizione 14. Il Metodo
Monte Carlo (MMC in breve) in C:
#include <stdio.h>
#include <stdlib.h>

void MMC(void)
{
double v[500];
double V[500];
int i;
for(i=1; i<=500; i++)
{
v[i]=simul(1);
v[i]=dist(v[i]);
/* qui cambiamo distribuzione
al vettore v che era uniforme */
130

}
/* supponiamo di inserire qui il codice
che restitutisce il vettore V=g(v) */
printf("il valore dell’integrale è %lf\n", sum(V)/500);
}
dove sum(V)/500 restituisce la media campionaria (avendo simulato V che può
essere visto come una realizzazione di un vettore aleatorio).
Esercizio 98. Si verifichi che il codice non restituisce errori.
Esempio 29. Si vuole trovare la successione di v.a. {Xj }j∈N tale da approssimare con
il MMC l’integrale
Z
2
g(x)e−x dx. (3.86)
R

Si vede subito che



Z
2
g(x)e−x dx = πE[g(X)] dove X ∼ N (0, 1/2)
R

e allora
√ X n
π
g(Xj ) dove Xj ∼ N (0, 1/2) (3.87)
n j=1

è la v.a. media campionaria cercata.


Ci riferiremo al problema appena affrontato come al problema MC. Quindi, se-
guendo il precedente Esempio 29 diremo che la caratterizzazione (3.87) di una v.a.
media campionaria è soluzione MC per l’integrale (3.86), cioè (3.87) è soluzione del
problema MC per l’integrale (3.86). Se la funzione g non è specificata, allora la solu-
zione del problema MC sarà data dalla caratterizzazione del tipo (3.87) ed una forma
esplicita per la funzione g.
Esempio 30. Trovare una soluzione MC per l’integrale
Z ∞
β xα e−x dx, α, β > 0.
0

Si ottiene
n
βX α
X Xj ∼ Exp(1)
n j=1 j

e quindi g(x) = βxα .


Capitolo 3. Variabili Aleatorie 131

Esercizio 99. Trovare una soluzione MC per i seguenti integrali:


2
1. R x3 e−x dx,
R

R∞ 2
2. 0 x3 e−x dx,

3. R (1 + x2 )−1/2 dx
R

Stima per intervalli. Dal teorema del limite centrale sappiamo che, per n → ∞,
1
Pn
n j=1 g(Xj ) − Eg(X) √ d
Zn = p n → N (0, 1)
V ar(g(X))

ed è quindi possibile identificare un intervallo di confidenza21 del tipo


 
σ σ
Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √
n n

dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale


   
P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α.
n→∞ n→∞

Il percentile zα∗ può essere individuato dalla tavola dei percentili in Tabella 7.1.

3.8 Processi aleatori


I processi aleatori si possono classificare per spazio e tempo. Una realizzazione del
processo Xt rappresenta un osservazione al tempo t di un fenomeno che può essere
continuo o discreto, in relazione a questo diciamo che il processo a valori in uno spazio
continuo o discreto (o semplicemente Xt è a spazio continuo o discreto). Il tempo t
può essere continuo ma se pensiamo che le osservazioni siano possibili solo a tempi
discreti, allora possiamo caratterizzare Xt dicendo che può essere a tempo continuo o
discreto.

Spazio continuo e tempo continuo


La soluzione del problema di Cauchy

∂u ∂ 2u
(x, t) = (x, t), x ∈ R, t > 0 (3.88)
∂t ∂x2
21
Si veda il Capitolo 5.
132

u(x, 0) = g(x)

si può scrivere come (supponiamo g ∈ Cb )


w2 (w−x)2
e− 4t e−
Z Z
4t
u(x, t) = Eg(x + Bt ) = g(x + w) √ dw = g(w) √ dw
R 4πt R 4πt
dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità
w2
e− 4t
Z
P (Bt ∈ A) = √ dw. (3.89)
A 4πt
Il moto Browniano è un processo aleatorio ”elementare” (volendo semplificare) nel
senso che rappresenta la base di partenza nello studio di processi aleatori molto più
generali e guidati dalle Stochastic differential equations o dalle più complicate Sto-
chastic partial differential equations (il lettore interessato è invitato a fare una ricerca
in rete, ad esempio utilizzando Google!). Il moto Browniano rappresenta il movimento
di una particella, la diffusione del calore, l’andamento di un oggetto finanziario e mol-
to altro ed è associato alla equazione (3.88). È quindi di interesse in Fisica, Economia,
Finanza e tutte le scienze applicate. Al variare del tempo, rappresenta un fenomeno
di evoluzione governato dalla equazione del calore. La (3.89) può quindi essere letta
come la probabilità che al tempo t una particella (o altro) si trovi in A (o occupi una
delle posizioni contenute nell’insieme A, un punto di A).
La soluzione del problema di Cauchy

∂u ∂ 2u
(x, t) = (x, t), x ∈ D, t > 0 (3.90)
∂t ∂x2
u(x, 0) = g(x)

si può scrivere come

u(x, t) = E[g(x + Bt ), t < τD ], x ∈ D, t > 0 (3.91)

dove τD = inf{s ≥ 0 : Bs ∈ / D} è il primo istante in cui il moto Browniano Bs esce


da D.
Si noti come oggetti aleatori possano essere utilizzati per fornire interessanti spunti
nello studio delle equazioni a derivate parziali e quindi nei vari modelli (o fenomeni)
collegati.

Esercizio 100. Sia u(x, t) la soluzione di (3.88). Scrivere il problema associato a


v(x, t) = u(x, 2t).
Capitolo 3. Variabili Aleatorie 133

Esempio 31. La Figura 3.4 da un idea di traiettoria del moto Browniano, mentre nella
Figura 3.3 si è rappresentata una realizzazione di un vettore (sempre di dimensione
300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300. È stata ottenuta considerando
>rnorm(n, media, varianza)
di R che genera un vettore con componenti
Xi ∼ N (0, ti ), i = 1, 2, . . . , 300.
Il moto Browniano Bi è stato ottenuto dalle v.a.
i
X
Xj ∼ N (0, 1) dove Bi = Xj , i = 1, 2. . . . , 300.
j=1

Si è considerata la funzione di R
>cumsum(vector)
che restituisce un vettore la cui componente i-esima è data dalla somma delle prime i
componenti.
Esercizio 101. Scrivere una soluzione MC per l’integrale
Z
2
f (y)e−ay dy, f ∈ Cb (R), a > 0.
R

Spazio continuo e tempo discreto


Si supponga di dover analizzare delle osservazioni che dipendono dal tempo, che sono
state osservate non allo stesso istante ma in un arco di tempo. Supponiamo che tali
osservazioni siano state effettuate nei tempi
t = (t1 , t2 , . . . tn )
dove ovviamente 0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate,
nel senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo. Noi
però conosciamo di tale fenomeno solo quello che abbiamo osservato. Possiamo allora
pensare che le osservazioni fatte siano realizzazioni di uno stesso oggetto aleatorio ad
istanti dati dal vettore t. In particolare tale oggetto è un processo aleatorio, diciamo
Xt indicizzato da t ∈ t e la collezione di dati
{Xt , t ∈ t}
è una serie storica. Il processo è a tempo discreto e le equazioni governanti sono
discrete.
134

600
400
rnorm(300, 0, c(1:300))

200
0
−200
−400

0 50 100 150 200 250 300

Index

Figura 3.3: Collezione di Xi ∼ N (0, ti ).


0
cumsum(rnorm(300, 0, 1))

−5
−10
−15

0 50 100 150 200 250 300

Index

Figura 3.4: Esempio di traiettoria di un moto Browniano.


Capitolo 3. Variabili Aleatorie 135

Processi multi-parametro
Sia

{Xz , z ∈ Rn }

con n > 1 un processo a valori reali. Il processo è indicizzato dalla variabile z ∈ Rn


che gioca il ruolo di multi-parametro. La realizzazione di X può dipendere dai parame-
tri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio. Se z ∈ R2 , possiamo
considerare il processo come un campo aleatorio sul piano, se z ∈ R3 pensiamo ad un
campo nello spazio etc., in ogni caso rappresenta un oggetto molto utile nello studio
di fenomeni ambientali (statistica ambientale/statistica spaziale).
136
Capitolo 4

Gli universi campionari

4.1 Popolazioni finite


Supponiamo d’ora in avanti che la popolazione allo studio sia in corrispondenza biu-
nivoca con un insieme delle etichette

P = {1, 2, . . . , i, . . . , N }

e che possiamo dunque riferirci alla unità i − esima della popolazione considerando
la etichetta i − esima di tale insieme, diremo anche che l’insieme P rappresenta la
popolazione allo studio. Ogni campione c di dimensione n sarà allora esprimibile con

cs = {ki1 , ki2 , . . . , kij , . . . , kin }

ed
s = {i1 , i2 , . . . , ij , . . . , in }
dove si è osservata la caratteristica k per ognuna delle n unità i di P appartenen-
te al sottoinsieme s ∈ Sn e Sn rappresenta l’insieme dei campioni di dimensione
n che è possibile costruire a partire dalle unità (etichette) di P, Sn è detto universo
campionario. Introduciamo la notazione seguente

P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi
P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j

dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le probabilità


del primo e secondo ordine rispettivamente, cioè le probabilità che in s sia compresa
l’etichetta i o siano comprese entrambe le etichette i, j. Inoltre,
X
P (cs ) = 1.
s∈Sn

137
138

Introduciamo anche la variabile indicatrice



1, i ∈ s
δ(i, s) = 1(i∈s) =
0, altrimenti
e la media E A [g], che è la media di g(x) per tutti i valori x ∈ A (data una opportuna
funzione g del campione). è il caso di notare che (media sullo spazio campionario)
X X
E Sn [δ(i, s)] = δ(i, s)P (cs ) = δ(i, s)P (i ∈ s) = P (δ(i, s) = 1) = πi
s∈Sn s∈Sn

che è la probabilità di considerare proprio l’unità i-esima e


E Sn [δ 2 (i, s)] = E Sn [δ(i, s)].
Se invece si considera (media sulle etichette o sulla popolazione)
N
1 X ν(s) ν(cs ) n
E P [δ(i, s)] = δ(i, s) = = =
N i=1 N N N

dove ν(·) è l’ampiezza effettiva di s o di cs . Le probabilità di inclusione del secondo


ordine sono date da
E Sn [δ(i, s)δ(j, s)] = πi,j .
Definiamo disegno campionario la coppia (Sn , P (·)) ed introduciamo la funzio-
ne di riduzione r(s) del campione s, in particolare s? = r(s) è il campione otte-
nuto da s privandolo della ripetizione e dell’ordine sulle unità campionarie. Per un
campionamento non ordinato senza ripetizione sarà allora s? = s ed in generale
δ(i, s) = δ(i, r(s))
quindi presi s ∈ S e s? ∈ S ? si ha
P (δ(i, s) = 1) = P (δ(i, s? ) = 1).

Universi dei campioni con ripetizione


Universo Bernoulliano
È l’universo dei campioni ordinati, con ripetizione e a probabilità costanti caratteriz-
zato da:
1
P (cs ) = n ,
N
1
πi =1 − (1 − )n ,
N
1 2
πi,j =1 − 2(1 − )n + (1 − )n .
N N
Capitolo 4. Gli universi campionari 139

Distribuzione della n-upla (x1 , x2 , . . . , xn ):


n
Y
f (x1 , x2 , . . . , xn ) = fi (xi )
i=1
e
2
2 σX
µ̂X = x̄ σX̄ =
n
P
Distribuzione della variabile xi :La legge distributiva è
 
N k n−k
f (k) = p q
n
e quindi la legge binomiale, si ha
E[K] = np σk2 = npq,
pq
E[P ] = p σp2 =
n
dove P = K/n.

Distribuzione della r-upla (n1 , n2 , . . . , nr ):


r
n! Y
f (n1 , n2 , . . . , nr ) = Qr pni i
i=1 ni ! i=1

Osserviamo che considerata la variabile


n n
2
X (nfi − npi )2 X (fi − pi )2
χ = =n
i=1
npi i=1
pi

(dove fi sono frequenze) possiamo scrivere


 
1
f (n1 , n2 , . . . , nr ) ∝ exp − χ2 .
2
Osservazione 37. Introduciamo una variante dell’universo Bernoulliano. Prescin-
dendo dalla permutazione sulle etichette si ottiene:
1
P (cs ) = N +n−1
,
n
n
πi = ,
N +n−1
N −1 (N − 2)(N − 1)
πi,j =1 − 2 + .
N + n − 1 (N + n − 2)(N + n − 1)
140

Universi dei campioni senza ripetizione


Si considerano qui gli universi campionari che differiscono solo per l’ordine delle
unità, in sostanza quindi dalle permutazioni n! delle unità campionarie.

Universo esaustivo
È l’universo dei campioni ordinati, senza ripetizione e a probabilità costanti caratteriz-
zato da:
1
P (cs ) =  ,
N
n
n!
n
πi = ,
N
n(n − 1)
πi,j = .
N (N − 1)

Universo in blocco
È l’universo dei campioni non ordinati, senza ripetizione e a probabilità costanti carat-
terizzato da:
1
P (cs ) = N
,
n
n
πi = ,
N
n(n − 1)
πi,j = .
N (N − 1)

Osserviamo che
N −1 N −2
 
X n−1
X n−2
πi = P (s) = N
 e πi,j = P (s) = N
 .
s∈S n s∈S n
s3i s3i,j

Distribuzione della n-upla (x1 , x2 , . . . , xn ). Le stime valgono per entrambi gli uni-
versi campionari visto che si distinguono solo per l’ordine. Otteniamo

µ̂X = x̄ ⇒ E[X̄] = µX
2
2 σX N −n
σ̂X̄ =
n N −1
Capitolo 4. Gli universi campionari 141

n
2 1X N n−1
s = (xi − x̄)2 ⇒ E[S 2 ] = σX
2
n i=1 N −1 n
n
N −1 1 X
2
s = (xi − x̄)2 ⇒ E[S 2 ] = σX
2
N n − 1 i=1
n
1X r
x̄r = x ⇒ E[X̄r ] = µX r
n i=1 i

2 N −n1
σX̄ = (µX 2r − µ2X r ).
r
N −1n
r
Si sta usando la notazione Y = X e quindi µY = EY .

P
Distribuzione della variabile xi . Dobbiamo distinguere tra i due casi in cui X
è una variabile quantitativa oppure dicotomica, nel primo caso parliamo quindi della
distribuzione dei totali T , mentre nel secondo della distribuzione della variabile k. Ini-
ziamo dalla descrizione della variabile k.
La v.a. X può assumere solo i valori 0 oppure 1, i campioni sono senza ripetizio-
ne e possiamo prescindere dall’ordine visto che dipende solo dalla permutazione n!,
otteniamo quindi la legge ipergeometrica a due modalità
N1
 N2 
k n−k
f (k) = N

n

dove, al denominatore, abbiamo le combinazioni di N = N1 + N2 elementi in classi


di n in cui k sono presi tra N1 di essi e n − k tra N2 , ad esempio N1 sono gli X = 1
ed N2 sono gli X = 0. Allora

2 N −n
E[K] = np σK = npq
N −1
ed ovviamente per P = K/n

N − n pq
E[P ] = p σP2 = .
N −1 n
Si poteva scrivere
f (k) = f (k, n − k) = f (n1 , n0 )
e
k n1
p1 = = .
n n
142

Distribuzione della r-upla (n1 , n2 , . . . , nr ). La legge ipergeometrica ad r modalità


diventa Qr N i 
i=1 ni
f (n1 , n2 , . . . , nr ) = N

n
con Pi = Ni /n, allora

2 N −n
E[Ni ] = npi σN = npi qi
i
N −1
e
N − n p i qi
E[Pi ] = pi σP2 i = .
N −1 n
Osserviamo che
1 χ2
 
f (n1 , n2 , . . . , nr ) ∝ exp − .
2 (1 − Nn )

4.2 Popolazioni virtuali


Semplificando molto, diremo solo che ad una popolazione potrà sempre essere asso-
ciata una legge di probabilità. Tale legge sarà una legge di densità. Diremo quindi che
una popolazione P è rappresentata dalla v.a. X, alternativamente diremo che X è la
popolazione oggetto di studio. Se X è la popolazione oggetto di studio, allora ogni
realizzazione delle v.a. X è legata alla f.r. FX e quindi alla sua legge di densità fX . In
questo caso, cioè quando X è continua, parleremo di popolazione continua.
Scriveremo
P∼X
dove P è la popolazione oggetto di studio.
Noi ci occuperemo solo di popolazioni virtuali per pura comodità di trattazione,
nelle applicazioni invece si è condotti a considerare tale popolazioni perché non sempre
si è in grado di identificare tutti gli elementi di una popolazione oggetto di studio.

Funzione di verosimiglianza
Sia X la popolazione oggetto di studio ed x un campione osservato. Si definisce
funzione di verosimiglianza la funzione
n
Y
L(θ; x) = L(θ; x1 , . . . , xn ) = fX (xi ; θ). (4.1)
i=1

Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione di x (di pa-
rametro θ) mentre nel definire la funzione di verosimiglianza si definisce una funzione
Capitolo 4. Gli universi campionari 143

di θ in cui i dati campionari svolgono il ruolo di parametri (infatti sono dati, una volta
osservato il campione). A questo punto la variabile di interesse è θ. Dobbiamo inoltre
osservare che si è introdotta implicitamente la condizione di indipendenza nelle realiz-
zazioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può fattorizzare
come segue
n
Y
fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi )
i=1

solo se le componenti di X sono indipendenti a due a due. Si assume quindi che le


osservazioni fatte siano realizzazioni indipendenti della stessa variabile. Si noti inoltre
che nella formula (4.1) si è assunto anche che la v.a. fossero identicamente distribuite,
cioè Xi ∼ X per ogni i = 1, 2, . . . , n.

Vogliamo introdurre una notazione compatibile con una trattazione unificata di fun-
zione di verosimiglianza e quindi trattare allo stesso modo variabili continue e discrete.
Si è già introdotta la scrittura
dP = f · dµ (4.2)
dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo
Z Z
P (X ∈ B) = f · dµ = 1B f · dµ = per il Boreliano B ∈ B
B

dove f è detta densità di P e µ è la misura rispetto alla quale si sta calcolando la


probabilità P (quindi f è la densità di P rispetto alla misura µ). Caratterizzare X,
significa anche caratterizzare µ e di conseguenza f . Se X è una variabile continua,
allora µ è la misura di Lebesgue e f = fX è una densità continua o integrabile. Se
invece X è una v.a. discreta, allora f sarà una densità discreta e µ dovrà essere tale da
associare massa di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X)
che si trovano anche in B. Scriveremo, come già introdotto nei capitoli precedenti,

Lebesgue, se X ∼ fX e quindi è continua
dµ =
Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX e quindi è discreta

e di conseguenza
 Z


 1B (x) fX (x)dx, se X è continua,
supp(X)
P (X ∈ B) = X .


 1B (xk ) pk , se X è discreta.
k∈IK
144

La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) = P (X =


xk ) = pk se X è continua o discreta. Se le pk dipendono da un parametro θ, scriviamo
f (xk ; θ) = pk . Si consideri ad esempio X ∼ P ois(λ), allora

λk
f (xk ; θ) = f (k; λ) = e−λ .
k!
Se la v.a. allo studio è una Gaussiana, allora
x2
k
e− 2σ2
f (xk , θ) = f (xk ; µ, σ 2 ) = √
2πσ 2
dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media teorica della
variabile X (non la misura di cui sopra).
Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo studio ed un
campione x di dimensione n, che
 n
 Y
n



 fXj (xj ) se X è continua,
Y
j=1
L(θ; x) = f (xi ; θ) = Yn

i=1 
 pk se X è discreta.


k=1

Osservazione 38. Indipendentemente dal fatto che X sia continua o discreta (e quindi
che la densità sia continua, integrabile o discreta) si deve notare che L(θ; x) è una
funzione continua e derivabile in θ.
Capitolo 5

Inferenza statistica

5.1 Stima parametrica -


Il problema di stima parametrica puntuale è quello di stimare un parametro incognito
θ ∈ Rm della legge distributiva di una popolazione X legata al campione, potremmo
anche essere interessati non alla stima di θ ma di una sua funzione τ (θ) oppure ad una
stima intervallare di θ o τ (θ).
Diciamo statistica una funzione g dei dati campionari come ad esempio
n
X n
X
g(x) = xi g(x) = x2i ,
i=1 i=1

dato il campione empirico x. Il campione x è una realizzazione del vettore aleatorio


X ∈ Rn che rappresenta la popolazione oggetto di studio. La legge di X, diciamo
fX (x; θ), dipende da un parametro θ. Si chiama stimatore di un parametro θ ∈ Rm una
statistica θ̂ opportunamente individuata e funzione dei dati campionari

θ̂ = g(x1 , x2 , . . . , xn )

dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’universo campio-


nario, al variare di x in U resta definito Ucθ ∈ Rm costituito dai valori dello stimatore θ̂
ottenuti per i diversi campioni x ∈ U . In particolare, sia g : Rn 7→ Rm , allora
cθ ={θ̂; θ̂ = g(x), x ∈ U ⊆ Rn }
U

con m ≥ 1. Dato lo stimatore θ̂ = g(x) dove x è una realizzazione del vettore aleatorio
X, allora sembra immediata la definizione di v.a. stimatore Θ̂ = g(X)1 . Nel seguito
Pn
1
Se g(x) = n1 i=1 xi allora Θ̂ = X n è la v.a. media campionaria. Così per altre g corrispondenti
ad altre v.a. definite nei capitoli precedenti.

145
146

scriveremo anche
Z
X
E [g] = g(x) dFX (x) = E[g(X)] (5.1)
supp(X)

(come già definito, si è solo introdotto il simbolo E X ) e


X
E U [g] = g(x) f req{x ∈ U } (5.2)
x∈U

che equivale a scrivere


Z
U
E [g] = θ̂ dFΘ̂ (θ̂) = E[Θ̂]. (5.3)

U

Quindi se A ∈ U cθ , allora E A [g] sarà la media di tutti i valori che θ̂ = g(x) assume al
variare di θ̂ ∈ A o equivalentemente al variare di x ∈ g −1 (A). Si noti che

(X = x) ≡ (Θ̂ = θ̂)

(i due eventi sono equivalenti) e allora

E[Θ̂] = E[g(X)].

5.1.1 Proprietà desiderabili di uno stimatore


Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima e che sia
nota la forma distributiva di X nella popolazione2 . Dato che θ̂ è scritto in funzione di
g, la (5.3) si può anche scrivere come E Uθ [θ̂] ed ovviamente intendiamo la media di
c

tutti i valori θ̂ di U
cθ .

Correttezza. Uno stimatore Θ̂ si dice corretto se vale

E Uθ [θ̂] = θ o equivalentemente E[Θ̂] = θ


c

mentre si dice distorto nel caso

Dn = E[Θ̂] − θ 6= 0
2
Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche sulle quali os-
servare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci si poteva anche riferire alla
popolazione X visto che esiste un isomorfismo che collega ogni sottoclasse delle unità statistiche aventi
stessa caratteristica Xi ad una densità di tale sottoclasse.
Capitolo 5. Inferenza statistica 147

dove Dn è detta distorsione dello stimatore Θ̂ ed n in pedice indica la numerosità


campionaria di x. La distorsione Dn può essere tale per cui

lim Dn = 0
n→∞

e allora diciamo che Θ̂ è asintoticamente corretto.

Esercizio 102. Verificare se la v.a. varianza campionaria


n
1X
Sn2 = (Xk − X̄)2
n k=1

è uno stimatore corretto.

Esercizio 103. Si consideri


n
2 1 X
Sn−1 = (Xk − X̄)2 .
n − 1 k=1

Verificare se è uno stimatore corretto.

Esercizio 104. Verificare che lo stimatore (v.a.) media campionaria è uno stimatore
corretto.

Indicheremo in generale la v.a. varianza campionaria con S 2 e con s2 la sua rea-


lizzazione (o varianza campionaria osservata). Più in dettaglio indicheremo con Sn2
la v.a. varianza campionaria scritta sopra (e con s2 o s2n la sua realizzazione) mentre
indicheremo con
2 n
Sn−1 = S2
n−1 n
la v.a. varianza campionaria corretta (e con s2 o s2n−1 la sua realizzazione).

Consistenza. Ipotizziamo ora che alla simulazione i-esima si sia osservato un cam-
pione xi ∈ Rn di dimensione campionaria n e si abbia la stima θ̂i di θ ∈ R inoltre
supponiamo di aver effettuato un numero I di simulazioni ovviamente rispettando la
natura campionaria di xi . Considerando cioè che l’universo campionario U 3 sia lo
3
In realtà in situazioni come questa l’universo campionario è effettivamente lo stesso mentre ogni
simulazione va pensata come una estrazione di un diverso campione da uno stesso contenitore U . In
linea teorica quindi simulando campioni all’infinito si potrebbe ricreare lo stesso U e di fatto procedendo
ad un numero opportunamente grande di simulazioni possiamo costruire un ottimo banco di prova per
le proprietà desiderabili di uno stimatore.
148

stesso in ognuna delle I simulazioni e sia quindi la stessa anche la legge fX (x; θ) della
popolazione X oggetto di studio (pensiamo ad esempio alle simulazioni fatte partendo
dalla stessa legge distributiva in cui θ = µ, media della popolazione). Otteniamo così
un insieme
cθ (I, n) = {θ̂i ; θ̂i = g(xi ), xi ∈ U, i = 1, 2, . . . , I}
U
indicizzato rispetto ad n per via della numerosità campionaria di xi . Sia Θ̂ uno stima-
tore corretto, diciamo che è consistente se per  piccolo a piacere si ha

lim f req{θ̂i ∈ U
cθ (I, n) : |θ̂i − θ| < } = 1
n→∞

postulando in questo modo la convergenza in probabilità dello stimatore Θ̂ al valore


vero θ e affermando che uno stimatore consistente aumenta in stabilità all’aumentare
della numerosità campionaria.
Teorema 36. Sia Θ̂ uno stimatore corretto o asintoticamente corretto, allora condi-
zione sufficiente affinché Θ̂ sia consistente4 è che
2
lim σΘ̂ = 0.
n→∞

Esercizio 105. Dimostrare che lo stimatore media campionaria è consistente.

Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa ed efficienza as-


soluta. Dati due stimatori corretti si dice efficiente (in senso relativo) quello dei due
con varianza minima. Siano allora Θ̂1 e Θ̂2 corretti, se vale
2 2
σΘ̂ 1
≤ σΘ̂ 2

diciamo che Θ̂1 è efficiente rispetto a Θ̂2 . Dato uno stimatore corretto Θ̂e si dice
efficiente (in senso assoluto) se è lo stimatore di varianza minima nella classe degli
stimatori corretti del parametro θ. Siano Θ̂e , Θ̂ ∈ Cθ e sia Cθ la classe degli stimatori
corretti di θ, allora
2 2
σΘ̂e ≤ σΘ̂ ∀ Θ̂ ∈ Cθ .
Teorema 37. (Disuguaglianza di Cramer-Rao) Considerato un campione x ∈ Rn
estratto da una popolazione con funzione di densità fX (x; θ) e θ ∈ Θ, se valgono:
i) il campo di definizione5 della v.a. X non dipende da θ,
ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e seconda rispet-
to a θ,
4
Considerato θ0 il valore vero ( da stimare ) e E[Θ̂] = θ, otteniamo E[Θ̂ − θ0 + θ0 − θ]2 = σΘ̂
2
+ Dn2 .
5
Si intende lo spettro o il supporto a seconda della natura della v.a. X.
Capitolo 5. Inferenza statistica 149

iii) Θ̂ è uno stimatore corretto di θ ( cioè Θ̂ ∈ Cθ ),


allora si ha
1
E[Θ̂ − θ]2 = σΘ̂
2
≥  d log L 2 .
E dθ

Esercizio 106. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipendenti. Si


vogliono trovare le stime λ̂ e â di λ e di a. Scrivere il campo di definizione di entrambe
le v.a. e dire se vale il punto i) del teorema precedente.
Il teorema ci consente quindi di individuare l’estremo inferiore della varianza di
2
uno stimatore appartenente alla classe Cθ e se tale estremo coincide con σΘ̂ ? allora
?
Θ̂ è più efficiente (in senso assoluto) se esiste, può capitare cioè che non esista uno
stimatore con varianza uguale all’estremo indicato dalla disuguaglianza di Cramer-Rao
mentre se esiste è unico. Sembra utile ricordare inoltre che dalla relazione
n
Y
L(θ; x1 , . . . , xn ) = fX (xi ; θ)
i=1

e dalla v.a. n
Y
L(θ; X) = fX (Xi ; θ)
i=1
(dove le Xi sono i.i.d.) seguono le quantità
 2  2
U d log L U d log fX
E = nE
dθ dθ
che è detta informazione di Fisher espressa dal campione mentre
 2
U d log fX
E

è detta informazione di Fisher espressa da X (quindi dalla popolazione). Inoltre,
" #2
d log f X (θ̂; θ)
E Uθ
c

è l’informazione di Fisher espressa dallo stimatore. Vale la seguente rappresentazione
che lega momenti e derivate
 2  2 
d log L(θ; X) d log L(θ; X)
I(θ) = E = −E
dθ dθ2
e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta informazione
di Fisher (attesa).
150

Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ ed una


statistica g ? : Rn 7→ Rm . Si vuole stimare il parametro θ, può essere anche m ≥ 1
ma non m > n. Supponiamo che al fine di ottenere una stima di θ costituisca la
stessa informazione considerare il campione x o il valore assunto da g ? (x), allora
g ? è detta statistica sufficiente per θ. Quanto abbiamo appena detto ci consente di
passare da Rn ad Rm trattando quindi con dimensioni minori o addirittura scalari (cioè
m = 1) rappresentando così una prima utilità espressa da tali statistiche. Un ulteriore
definizione di statistica sufficiente è dovuta al seguente teorema di fattorizzazione di
Neyman.
Teorema 38. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con densità fX (x; θ),
θ ∈ Θ, date due funzioni non negative γ : U 7→ R e ϕ : Θ × G? 7→ R, una statistica
sufficiente g ? : Rn 7→ G∗ ⊆ Rm , allora la verosimiglianza può scriversi
L(θ; x) = γ(x) · ϕ(θ, g ? (x)).
La funzione di verosimiglianza può essere quindi ricostruita a meno di un fattore
inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·) e che a parità del valore
g0? = g ? (x0 ) per qualche x0 ∈ U della statistica sufficiente si ottiene equivalenza in
verosimiglianza. Quindi, diversi campioni x0 producono lo stesso g0∗ .

Di fatto vale il ragionamento inverso, se la verosimiglianza può decomporsi come


sopra allora resta definita una statistica sufficiente g ? .

Come tutte le statistiche campionarie le statistiche sufficienti effettuano una classi-


ficazione per livelli dei campioni di U a partire da tutti i campioni x ∈ Ugi? tali per cui
g ? (x) = gi∗ e i = 1, 2, . . . , I ( può essere anche I = 1 ), individuando così I insiemi
di livello in ognuno dei quali si può avere o meno equivalenza in verosimiglianza ( ve-
rosimiglianza proporzionale per i campioni appartenenti allo stesso insieme di livello
e per livello si intende appunto il livello della verosimiglianza ). La sufficienza com-
porta che dato gi? (e quindi tutto un insieme di livello Ugi? ) la distribuzione delle n-ple
x ∈ Ugi? è indipendente da θ e si ottiene
fX (x; θ|gi? ) = γ(x), ∀ x ∈ Ugi?
che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}. Sem-
bra logico pensare quindi che il passaggio da Ugi? ad U sia definito in termini di
verosimiglianza dalla fattorizzazione di Neyman-Pearson. Basta ricordare che
fX (x; θ) = L(θ; x).
Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che
γ(xa ) ϕ(θ, g ? (xa ))

L(θ; xa ) γ(xa )/γ(xb ), g ? (xa ) = g ? (xb )
= = (5.4)
L(θ; xb ) γ(xb ) ϕ(θ, g ? (xb )) c(xa , xb ), g ? (xa ) 6= g ? (xb )
Capitolo 5. Inferenza statistica 151

dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la partizione su U


indotta da una statistica sufficiente g ? è tale per cui campioni appartenenti allo stesso
insieme di livello (xa , xb ∈ Ugi? ) sono equivalenti in verosimiglianza. Non è in generale
vero il contrario visto che può verificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g ? non
sia minimale, come vedremo!
Osserviamo che
log L(θ; x) = log γ(x) + log ϕ(θ; g ? (x))
per cui si ottiene
d log L(θ; x) d log ϕ(θ; g ? (x))
=
dθ dθ
e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica g ? sufficiente
per θ è equivalente a quella espressa dal campione x.
Teorema 39. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ) con θ ∈ Θ
la densità per X. Se g ? : U ⊆ Rn 7→ G? è una statistica sufficiente per θ e g uno
stimatore corretto di θ, che non dipende da θ, allora per
?
g ?? (g0? ) = E U |g0 [g|g ? = g0? ]
valgono le seguenti :
?
i) E G [g ?? (g0? )] = θ , (sempre ricordando che g0? è funzione di (x1 , . . . , xn ) )
?
ii) V arG [g ?? (g0? )] ≤ V arUθ [g]
c

?
e possiamo riferirci a g ?? (g0? ) = E U |g0 [g|g ? = g0? ] come allo stimatore migliorato.
Per ricollegarci al formalismo già usato consideriamo il caso in cui lo stimatore Θ̂
sia una statistica sufficiente per θ, quindi se Θ̂ = g ? (x1 , x2 , . . . , xn ), si ha U
cθ = G? .
Indichiamo con
Ug0? = U |g0? = {x ∈ Rn t.c. g ? (x) = g0? }
un insieme di livello per la statistica sufficiente g ? . Vediamo allora che le proprietà
dello stimatore migliorato sono ottenute come media su tutti gli insiemi di livello delle
medie in ogni insieme di livello6 . Sembra utile chiarire quanto esposto per le applica-
zioni pratiche, osservato il campione x0 ∈ Rn e considerato uno stimatore migliorato
g ? ? di θ otteniamo
θ̂ = g ?? (g0? )
6
Si effettua la media tra i campioni di U che determinano un certo valore g0? della statistica suffi-
ciente g ? (per i campioni che appartengono quindi a quell’insieme di livello) ed otteniamo lo stimatore
migliorato, il condizionamento rappresenta qui una regola di inclusione per i campioni di U , inclusione
in U |g0? . Le proprietà vanno verificate per ogni insieme di livello (quindi possiamo condizionare per
ogni g0? ∈ G? al fine di individuare tutte le partizioni U |g0? e quindi tutti i valori per g ?? ) o meglio per
tutti i campioni di U .
152

che è funzione dei dati campionari attraverso g0? = g ? (x0 ).

Esempio 32. Quanto visto vale anche per le popolazioni (virtuali) discrete. Dato un
campione x ∈ Rn estratto da una popolazione Bernoulliana X con densità (discreta)

fX (xi ; θ) = θxi (1 − θ)1−xi , xi ∈ {0, 1}, θ ∈ (0, 1)

e lo stimatore non distorto g(x) = xP 1 (o g(x) = xi per qualche i = 1, 2, . . . che è lo


stesso) di θ con la statistica g (x) = ni=1 xi sufficiente per θ, lo stimatore migliorato
?

è " n #
X
g ?? (x) = E ?? [g|g ? (x)] = E {0,1} g| xi = k .
i=1

Si ottiene
n
!
P (x1 = 0, ni=1 xi = k)
P
X n−k
P x1 = 0| xi = k = Pn = ,
i=1
P ( i=1 xi = k) n
n
!
P (x1 = 1, ni=1 xi = k)
P
X k
P x1 = 1| xi = k = Pn = ,
i=1
P ( i=1 xi = k) n
" n #
X k
g ?? (x) = E ?? g| xi = k = ,
i=1
n

e
θ(1 − θ)
σg2 = θ(1 − θ), σg2?? =
n
quindi g ?? è uno stimatore corretto di varianza minima rispetto a g.

Statistiche sufficienti minimali. Si dice minimale la statistica sufficiente che pro-


duce la partizione con il minor numero di insiemi rispetto a tutte le altre statistiche
sufficienti per lo stesso parametro.
Per tali statistiche si possono osservare alcune particolarità di natura funzionale:

1. una statistica sufficiente h? è minimale se dati due campioni questi sono equi-
valenti in verosimiglianza se e solo se presentano lo stesso valore, in altri ter-
mini se si considera una statistica sufficiente minimale insiemi di livello diver-
si producono funzioni di verosimiglianza sostanzialmente diverse e dalla 5.4
scriviamo
c(xa , xb ) 6= γ(xa )/γ(xb ),
Capitolo 5. Inferenza statistica 153

2. la caratteristica di dar luogo ad una partizione perfettamente coincidente con


quella dei campioni equivalenti in verosimiglianza, ci dice che ciascun insieme
della partizione associata ad una statistica sufficiente è necessariamente compre-
sa interamente in un insieme della partizione indotta da una statistica sufficiente
minimale. In sostanza allora possiamo dire che la statistica sufficiente minimale
è funzione di quella statistica sufficiente,

3. se esistono due statistiche sufficienti minimali queste condurrebbero alla stessa


partizione di U quindi si potrebbe individuare una relazione biunivoca tra le due
statistiche. Diciamo allora che a meno di una relazione biunivoca la statistica
sufficiente minimale è unica.

Completezza. Teorema di Lehmann-Scheffé. Una statistica (o stimatore) θ̂ = h(·)


è completa se è completa la legge distributiva f (θ̂, θ) e cioè se è tale per cui data una
qualsiasi funzione reale g(θ̂) di θ̂, indipendente da θ, l’uguaglianza
Z
E[g(Θ̂)] = g(θ̂)f (θ̂; θ)dθ̂ = 0
U

implica necessariamente che sia sempre g(θ̂) = 0 per ogni θ̂, quindi se g(·) è una
funzione nulla ovunque. Possiamo allora ricondurci anche allo studio della legge f (·)
ed in realtà ci potremmo riferire anche a particolari famiglie di distribuzioni complete,
ad esempio se f (·) è normale, sapendo che qualunque sia g(·) si avrà

E[g] = 0 ⇔ g = 0 ovunque.

Teorema 40. Sia x un campione estratto da una popolazione con densità f (X; θ)
e come al solito θ ∈ Θ, se h?,c è una statistica sufficiente e completa per θ e se
h = g(h?,c ) è uno stimatore corretto di θ, allora h è unico ed ha varianza non superiore
a quella di ogni altro stimatore.

Ancillarità. Teorema di Basu. Una statistica la cui distribuzione non dipende dal
parametro θ di interesse è chiamata statistica ancillare. In sostanza quindi tale stati-
stica non fornisce informazioni su θ, resta comunque interessante il loro utilizzo nella
pratica, considerando ad esempio il condizionamento parziale.
Teorema 41. Se hm,c è una statistica completa e sufficiente minimale, allora hm,c è
indipendente da ogni statistica ancillare.
Si può così provare l’indipendenza di due statistiche senza dover passare per le
rispettive distribuzioni e quindi quella congiunta, resta però impegnativo (almeno a
volte) dover dimostrare la completezza.
154

In Breve. Possiamo sintetizzare quanto appena detto come segue:

i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della varianza di uno


stimatore corretto che non necessariamente esiste, se non esiste tale estremo non
può essere raggiunto e lo stimatore corretto di varianza minima per il parametro
di interesse ha varianza maggiore dell’estremo trovato,

ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimatore funzione di


una statistica sufficiente che è corretto e di varianza minima. In particolare, preso
uno stimatore Θ̂ ed una statistica sufficiente g ∗ , allora lo stimatore Θ̂∗ = Θ̂|g ∗
è detto stimatore migliorato ed ha varianza minore o uguale della varianza dello
stimatore Θ̂ (detto originale o di partenza).

iii) Inoltre, ricordiamo che

θ : il parametro da stimare,
θb : lo stimatore per θ,
Θ
b : la v.a. stimatore per θ,

x : campione osservato (denotato anche xoss ), realizzazione di X,


X : v.a. (in particolare, un vettore di n v.a.),

dove

x = (x1 , x2 , . . . , xn ) e X = (X1 , X2 , . . . , Xn ),

θb = g(x) e Θ
b = g(X),

g è una statistica.

Esempio 33. Consideriamo media e varianza:

θ = µ, µ̂ = x̄ e la v.a. è X̄;

θ = σ 2 , σ̂ 2 = s2 e la v.a. è S 2 .
Capitolo 5. Inferenza statistica 155

5.1.2 Metodi di stima


Stima di massima verosimiglianza. Lo stimatore di massima verosimiglianza θ̂M V
è tale per cui
L(θ̂M V ) = max.
Deve quindi soddisfare le condizioni

d L(θ; x)
=0
dθ θ=θ̂M V
d2 L(θ; x)

<0
dθ2 θ=θ̂M V

dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere massimizzata


rispetto a θ e dato il campione osservato. Risulta:
1. (invarianza degli stimatori MV) Sia θ̂M V lo stimatore di massima verosimiglian-
za di θ, se ψ è una funzione che ammette la funzione inversa lo stimatore di
massima verosimiglianza di λ = ψ(θ) è dato da λ̂ = ψ(θ̂M V ),

2. Se esiste per θ una statistica sufficiente h? , allora uno stimatore di massima


verosimiglianza di θ se esiste, è funzione di h? e θ̂M V = g(h? ),

3. Se esiste per θ uno stimatore corretto ed efficiente θ̂, allora è anche stimatore di
massima verosimiglianza, θ̂ = θ̂M V ,

4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per ogni x e


θ ∈ Ω esiste ed è continua e limitata la derivata terza di fX (x; θ), lo stima-
tore di massima verosimiglianza è asintoticamente corretto e consistente e ha
distribuzione asintotica di tipo normale

Θ̂ ∼ N (θ, 1/I(θ)).

Inoltre
L(Θ; x) ∼ N (θ̂, 1/I(θ̂; x))
dove I(θ̂; x) è l’informazione di Fisher osservata. All’aumentare della numero-
sità campionaria Θ̂M V ha varianza sempre più vicina al limite di Cramèr-Rao ed
è corretto.
Esercizio 107. Sia P ∼ N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione osservato.
Determinare lo stimatore MV per la media della popolazione.
Esercizio 108. Sia P ∼ N (µ, σ 2 ) la popolazione allo studio e sia x = (x1 , . . . , xn ) il
campione osservato. Determinare lo stimatore MV per la varianza della popolazione.
156

Esercizio 109. Dire se la v.a. varianza campionaria trovata nel precedente esercizio
è uno stimatore corretto per la varianza della popolazione.

Esercizio 110. Sia P una popolazione in cui il fenomeno oggetto di studio X segue
una legge distributive uniforme, X ∼ U nif (0, θ) con θ > 0. Scrivere la funzione di
log-verosimiglianza.

Stima per intervalli. Supponiamo che si voglia ottenere la stima θ̂ di un parametro θ


da una osservazione campionaria, diciamo dal campione x ∈ Rn . Si possono costruire
degli intervalli per θ̂ se si conosce la legge distributiva fΘ̂ (·) di tale stimatore. Dalla
relazione Z θ1
P (θ0 ≤ Θ̂ ≤ θ1 ) = fΘ̂ (u)du = 1 − α
θ0

standardizzando secondo una trasformazione G(·), si ricava


 
P G(θ0 ) ≤ G(Θ̂) ≤ G(θ1 ) = 1 − α

dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ̂) (·) che una volta
calcolati o individuati (ad esempio attraverso le tavole dei percentili) consentono di
scrivere  
−1 −1
P G (gα/2 ) ≤ Θ̂ ≤ G (g1−α/2 ) = 1 − α.

Se ad esempio Θ̂ = X̄n è la v.a. media campionaria ed X ∼ N (µ, σ 2 ) con varianza σ 2


nota, allora
X̄n − µ √
G(X̄n ) = n ∼ N (0, 1)
σ
e dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili della
normale) scriveremo
   
P G−1 (g1−α/2 ) ≤ Θ̂ ≤ G−1 (gα/2 ) = P G−1 (−1.96) ≤ Θ̂ ≤ G−1 (1.96) = 0, 95.

Se invece θ̂ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene

(n − 1)S 2
G(S 2 ) = ∼ χ2(n)
σ2
dove S 2 è la v.a. varianza campionaria corretta
n
2 1 X
S = (Xi − µ)2 .
n − 1 i=1
Capitolo 5. Inferenza statistica 157

Inoltre
G(S 2 ) ∼ χ2(n−1)
se µ non è nota e la v.a. varianza campionaria diventa
n
2 1 X
S = (Xi − X̄n )2 .
n − 1 i=1

Numerosità ottima del campione. Ricorriamo ancora alla trasformazione G vista


sopra e supponiamo che sia G(·; n), sottolineando cioè la dipendenza da n. Una simile
trasformata non è certo difficile da trovare poiché standardizzando è facile ricorrere a
grandezze che dipendono dalla numerosità campionaria n. Possiamo scegliere un θ0
per cui G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto ad n
troveremo
n = f −1 (g1−α/2 ; θ0 , . . .).
Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , supponiamo σ 2 nota,
standardizziamo ed otteniamo
x̄ − µ √
G(x̄; n, σ) = n ∼ N (0, 1)
σ
per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un certo livello
1 − α ed un errore e = x̄ − µ che G(e; n, σ) = f (n) = z1−α/2 ed ancora, calcolando
la funzione inversa
2
z1−α/2 σ
n= (dove considererò la parte intera se voglio che n ∈ N)
e2
si è ottenuta la numerosità ottima per cui al livello 1 − α possiamo ottenere un interval-
lo di stima per µ di ampiezza 2e. Osserviamo che e = x̄−µ può essere scelto piccolo a
piacere, tale valore dipenderà dal grado di accostamento che vogliamo ottenere essen-
do incognita la media µ della popolazione. Come si è già osservato, il valore n trovato
non è intero, infatti si deve considerare il più piccolo n tra quelli che soddisfano alla
condizione richiesta. In altre parole, cerchiamo il più piccolo n per il quale
2
z1−α/2 σ
n≥
e2
che corrisponde alla parte intera superiore
2
z1−α/2 σ
 
n= .
e2
158

Esercizio 111. Sia P la popolazione oggetto di studio, il fenomeno oggetto di studio è


ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo stimare la media µ del fenome-
no X della popolazione. In particolare, si vuole trovare la numerosità campionaria n
del campione x ∈ Rn tale per cui, con probabilità pari al 95%, si commette un errore
minore di una quantità  nella stima di µ. Trovare il minimo n.

Osservazione 39. Trovare il minimo n nel precedente esercizio significa anche trovare
il più piccolo n per cui |X̄n − µ| <  nel 95% dei casi, cioè pensando di considerare
100 campioni, 95 di questi restituiscono una stima che non si discosta più di  dal
µ − µ| < ) = 95%).
valore vero µ (P (|b

Stima dei minimi quadrati. Supponiamo di osservare la variabile dipendente Y e


le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popolazione ed otteniamo un cam-
pione di numerosità n (ossia n unità statistiche) della forma {(yi , xi ); yi ∈ R, xi ∈
Rk , i = 1, 2, . . . , n}. Ipotizzando una relazione lineare tra le variabili potremmo
scrivere
X k
yi = aj xi,j
j=1

ed in termini matriciali
Y = Xa
dove X è una matrice n × k ed ovviamente Y ∈ Rn (si veda il Capitolo 6).
Se in generale esiste tra la variabile dipendente e le variabili esplicative una rela-
zione del tipo
Y = f (X; a) + 
dato il campione (y, x) troviamo i valori ŷ = f (x; â) in modo che
n
X
(yi − ŷi )2 = min,
i=0

in particolare cerchiamo il vettore â ∈ Rk tale che per ei = yi − ŷi si possa scrivere


n
X
e2i = min
i=1

ed ei rappresenta l’errore che si commette approssimando gli yi con la relazione f (x; â),
diverso quindi dal significato di  che rappresenta una v.a. qualunque (di media nulla)
e quindi il grado di incertezza o di imprecisione inevitabile nella realtà fattuale ( è inte-
ressante per il confronto con la verosimiglianza il caso in cui  ∼ N (µ, σ 2 ) ). è il caso
di notare che il metodo dei MQ prescinde dalla conoscenza delle forme distributive
Capitolo 5. Inferenza statistica 159

mentre si dovrà conoscere o identificare la relazione f (·; a) o meglio la dipendenza


funzionale tra i dati. Il metodo dei MQ trova la sua piú naturale applicazione nelle
relazioni f (·; a) che siano lineari o linearizzabili quindi nei modelli lineari.

Stima dei momenti. Il metodo dei momenti conduce a stimatori consistenti ed è il


piú semplice metodo di stima, consiste nello stimare caratteristiche della popolazio-
ne a partire dalle relazioni teoriche tra i momenti e supponendole valide anche per i
momenti campionari. Indichiamo un momento di ordine r con
Z
Mr = xr fX (x; θ)dx,
U

2
è di immediata comprensione il fatto che la relazione teorica σX = M2 − M12 porti,
n
dato un campione x ∈ R , a stimare la quantità
n n
!2
2 1X 2 1X
σ̂X = m2 − m21 = x − xi
n i=1 i n i=1

oppure µ̂X = m1 = n1 ni=1 xi ottenute appunto dai momenti campionari m1 e m2


P
in questo caso del primo e del secondo ordine rispettivamente. In generale quindi si
dovranno conoscere le relazioni teoriche tra i momenti che non prescindono sempre
dalla legge distributiva come invece accade nel caso sopra illustrato. Se si devono
stimare k parametri della popolazione, diciamo θ ∈ Rk sarà possibile impostare un
sistema di k equazioni del tipo

Mr = mr , r = 1, 2, . . . , k

dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si trova θ̂ ∈ Rk .


Indichiamo lo stimatore dei momenti con il simbolo θbM .

Osservazione 40. Si osservi che si sta impostando un sistema di k equazioni in k


incognite.

Esercizio 112. Determinare lo stimatore dei momenti per il parametro θ = (µ, σ 2 )t


da una popolazione X ∼ N (µ, σ 2 ).

Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una legge di pro-
babilità iniziali π(θ) per il parametro θ ∈ Uθ ed osservato il campione x ∈ Rn ,
possiamo calcolare la legge delle probabilità a posteriori

π(θ|x) = c L(θ; x) π(θ)


160

dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e


Z
−1
c = L(θ; x) π(θ)dθ.

Sembra allora ovvio, dato x ottenere una stima θ̂ di θ dalla


Z

θ̂ = h(x) = E [θ|x] = θ π(θ|x) dθ.

Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le π(θ|·) per suc-
cessivi campioni x) un certo numero di volte e giungere a nuove stime Bayesiane di
θ.

5.2 Verifica delle ipotesi statistiche -


5.2.1 Test parametrici
Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore incognito θ men-
tre chiameremo ipotesi funzionali quelle relative ad una forma f (x; θ), θ ∈ Θ, ci
occuperemo delle ipotesi funzionali nel paragrafo che segue. Un ipotesi si dice sem-
plice se specifica completamente la f (x; θ) altrimenti si dice composta. Un ipotesi che
consideri un solo parametro θ può essere semplice se è della forma θ = θ0 , può essere
unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤, può essere
bilaterale se è del tipo θ 6= θ0 . Possiamo dire formalizzando il problema che un test di
ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un insieme che può essere costituito da
un solo elemento, caso in cui l’ipotesi si dice semplice oppure può essere costituito da
più elementi, il caso delle ipotesi composte. Il test di ipotesi è strutturato in modo da
testare una certa congettura, solitamente l’ipotesi detta alternativa ed indicata con H1
mentre si descrive la situazione di base con l’ipotesi detta appunto di base o nulla H0 .
In linea di principio quindi si avrà a che fare con un test del tipo

H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 ,

un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popolazione X con


densità fX (x; θ), verrà scelta una opportuna funzione dei dati campionari che potrà
essere una funzione test o uno stimatore, indichiamo tale funzione con g(x) e si potrà
individuare una distribuzione per g(X) a partire dalla densità fX (·|H0 ) e quindi valida
se θ ∈ Θ0 (o equivalentemente se è vera l’ipotesi di base) ed una distribuzione per
g(X) a partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa).
Si devono introdurre gli errori
Capitolo 5. Inferenza statistica 161

di prima specie: la decisione di rifiutare l’ipotesi nulla quando questa è vera,


di seconda specie: la decisione di rifiutare l’ipotesi alternativa quando questa è vera.
Si deve notare che si stanno considerando gli oggetti Y = g(X) e y = g(x).
Indichiamo rispettivamente con
Z
α= fg(X) (g(x)|H0 )dg, θ̂ = g(x)
R|H0
e Z
β= fg(X) (g(x)|H1 )dg, θ̂ = g(x)
A|H1
le probabilità di commettere un errore di prima specie e di seconda specie rispettiva-
mente. Risulta anche
P (g(X) ∈ R|H0 ) = P (R|H0 ) = α
e
P (g(X) ∈ A|H1 ) = P (A|H1 ) = β
dove R|H0 è la regione di rifiuto sotto l’ipotesi di base ed A|H1 è la regione di accet-
tazione sotto l’ipotesi alternativa. La funzione h(x) è qui presentata nella notazione
piú usuale per uno stimatore del parametro θ piuttosto che per una funzione test, ov-
viamente sempre funzione dei dati campionari, θ̂ = h(x), il valore θ? in questo caso
delinea le regioni di accettazione e di rifiuto sotto entrambe le ipotesi.
Sono importanti anche le probabilità
P (A|H0 ) = 1 − α
detta livello di fiducia, mentre α è detta livello di significatività e la probabilità
P (R|H1 ) = 1 − β
detta potenza del test.
Il test migliore si ottiene rendendo piccole le probabilità di ottenere un errore (quindi
α e β), di norma si fissa α essendo strutturato il test in modo da rendere preferibile
mantenere l’ipotesi di base7 e si cerca di massimizzare la potenza del test ovvero la
probabilità di non commettere errori di seconda specie (la situazione ottimale può
essere ottenuta fissando entrambe le probabilità degli errori piccole a piacere o secondo
le necessità del caso). Se le ipotesi sono composte si avranno diversi valori di tali
probabilità e fissata α avremo una funzione di potenza da massimizzare.
7
Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso appunto dall’i-
potesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come è proposto risulta il piú
affidabile, sarà certamente meno auspicabile commettere un errore di seconda specie perché eviden-
temente comporterebbe ammodernamenti nel meccanismo di produzione e quindi delle spese che non
rappresenterebbero un buon investimento.
162

Ipotesi di base semplici


Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma

H0 : θ = θ0
H1 : θ = θ1 , θ0 < θ1

se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo voler


verificare due stime campionarie, la media θ = µ oppure la varianza θ = σ 2 .

Ipotesi sulla media, θ = µ. Il test assume la forma



H0 : µ = µ0
H1 : µ = µ1 , µ0 < µ1
2
sappiamo che µ̂ = x̄, quindi h(x) = n1 ni=1 xi ed inoltre X̄ ∼ N (µ, σn ), quindi x̄ è
P
una realizzazione della v.a. media campionaria X̄ = h(X). Conosciamo la fX̄ (·) ed
in particolare le distribuzioni

X̄|H0 ∼ N (µ0 , σ 2 /n), X̄|H1 ∼ N (µ1 , σ 2 /n)


2
condizionate alle ipotesi da verificare. Si è comunque supposto che σP fosse noto,
altrimenti bisogna ricorrere ad una stima campionaria corretta, s = n−1 ni=1 (xi −x̄)2
2 1

e si ottiene
X̄|H0 ∼ N (µ0 , s2 /n), X̄|H1 ∼ N (µ1 , s2 /n).
Note le distribuzioni diciamo che x̄oss è la stima ottenuta (osservata) dal campione,
x̄oss = h(x), dobbiamo verificare se tale valore cade nella regione di accettazione o
di rifiuto dell’ipotesi di base. Al fine di individuare tali regioni fissiamo il livello di
significatività α (ad esempio α = 0.05) e standardizziamo le distribuzioni viste sopra
relativamente alla sola ipotesi nulla e al caso in sui σ 2 sia noto oppure no, si ottiene
rispettivamente
X̄ − µ0 X̄ − µ0
√ ∼ N (0, 1), √ ∼ t(n−1)
σ/ n s/ n
ed ancora, preso α ed x̄oss
σ s
x̄? = µ0 + z1−α √ oppure x̄? = µ0 + t(n−1), 1−α √
n n
ed A = (−∞, x̄? ), R = (x̄? , ∞) quindi

x̄oss < x̄? ⇒ acettiamo H0

x̄oss > x̄? ⇒ rifiutiamo H0 .


Capitolo 5. Inferenza statistica 163

Conclusioni simili si otterrebbero calcolando i percentili osservati


x̄oss − µ0 x̄oss − µ0
√ = zoss , √ = t(n−1),oss
σ/ n s/ n
e successivamente le probabilità osservate
αoss = 1 − FN (zoss ) oppure αoss = 1 − FT (t(n−1),oss )
ovviamente
αoss < α ⇒ al 1 − αoss % rifiutiamo H0
αoss > α ⇒ accettiamo H0 .
Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si sarebbe ovvia-
mente giunti a regioni differenti ponendo H1 : θ < θ0 o H1 : θ > θ0 o ancora
H1 : θ 6= θ0 ma sempre seguendo la stessa procedura infatti questo è un test uni-
formemente più potente8 . La funzione di potenza nel caso H1 : θ > θ0 è data
da
P (X̄ > x̄oss |H1 )
mentre se H1 : θ < θ0 è data da
P (X̄ < x̄oss |H1 ).
Verifica P (X̄ ∈ W |H1 ).

Ipotesi sulla varianza, θ = σ 2 . Supponendo µ nota il test assume la forma



H0 : σ 2 = σ02
H1 : σ 2 = σ12
sappiamo che la varianza campionaria e la varianza campionaria corretta9 sono rispet-
tivamente date da
n n
2 1X 2 2 1 X
S = (xi − x̄) e s = (xi − x̄)2
n i=1 n − 1 i=1
8
Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a. X è completamente
specificata da un solo parametro, l’ipotesi alternativa H1 è invece composta e sia individuata da ogni
ipotesi semplice H1 ∈ H1 , si dice uniformemente più potente se per ogni ipotesi H1 ∈ H1 non variano
le regioni di accettazione e di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test
non sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi alternativa è
parametrica bilaterale.
Pn  2 Pn
9
L’espressione i=1 xiσ−ξ ∼ χ2(v) è giustificata dal fatto che i=1 Ui2 ∼ χ2(n) dove le Ui
sono normali standardizzate,
Pn dobbiamo però precisare che v = n nel caso ξ = µ ovvero è nota, se
invece ξ = x̄ = n1 i=1 xi , funzione dei dati campionari, allora v = n − 1 perché non si ha più una
combinazione lineare dei dati indipendente.
164

mentre una stima corretta di σ 2 è σ̂ 2 = s2 , inoltre sotto l’ipotesi nulla si ha

nS 2 (n − 1)s2
2
= 2
∼ χ2(n−1)
σ0 σ0

quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile χ2oss , dalle


tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come sopra, fissato il livello di
significatività
αoss > α oppure χ2oss < χ2α ⇒ accetto H0 .
Si sono introdotti i valori osservati x̄oss e s2oss , in realtà entrambi sono delle stime
campionarie quindi usando una notazione più coerente si sarebbe scritto x̄ˆ e ŝ2 .

Il test ottimo. La procedura di Neyman-Pearson. La procedura di N-P consente


di individuare, fissato α, quel test per cui è massima la potenza 1 − β, quindi individua
le regioni di accettazione e di rifiuto di quei test detti piú potenti.
In termini più o meno pratici il problema può essere cosí rappresentato, sia U =
{xi }i=1,...,N l’universo campionario di interesse, il test sia del tipo

H0 : θ = θ0
H1 : θ = θ1

ovviamente θ̂ = h(xi ) e vogliamo costruire un test più potente di dimensione α (o


fissato α). Le probabilità dei campioni siano espresse da P (xi |H0 ) e P (xi |H1 ) rispet-
(xi |H1 )
tivamente in H0 o H1 e si definisca il rapporto Λ(xi ) = PP (x i |H0 )
, allora la regione
di rifiuto sotto l’ipotesi nulla sarà costruita prendendo quei campioni di rapporto Λ(·)
massimo e via via inferiore fino ad ottenete un insieme Iα di campioni per cui si abbia
X X
P (xi |H0 ) ' α ed ovviamente P (xi |H1 ) = 1 − β
xi ∈Iα xi ∈Iα

quindi fissato α inseriamo campioni in Iα fino ad ottenere un valore prossimo o uguale


ad α e troviamo la potenza 1 − β, vale α ≤ 1 − β , inoltre il test è coerente nel senso
che la potenza del test relativa ad un campione di n unità è non superiore, fissato α, a
quella di un campione di n + 1 unità . La procedura operativa si basa sul fatto che il
lemma di N-P (in letteratura indicato anche come tale oltre che come procedura) dice
che il test piú potente è quello che si basa sulla regione di rifiuto W = Iα nella quale
per ogni n-upla campionaria è massimo il rapporto delle verosimiglianze

L(θ1 ; xi )
Λ(xi ) = ≥ Cα
L(θ0 ; xi )
Capitolo 5. Inferenza statistica 165

dove ovviamente, per il test dato sopra, P (xi |Hj ) = L(θj ; xi ) e

Cα = max Λ(xi ).
xi ∈U \Iα

Bisogna fare delle precisazioni, la procedura garantisce l’esistenza del test ottimo ma
può capitare che la regione W non sia unica inoltre Λ(·) è un rapporto di verosimiglian-
ze e se esiste una statistica sufficiente per θ, tale rapporto può scriversi come funzione
della statistica sufficiente evitando di considerare ulteriormente le n-ple campionarie.

Nota Bene. In linea di principio si tende sempre a considerare vera l’ipotesi di base
ma ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito che spinge
quindi al test, in sostanza, è quello di poter considerare un’alternativa all’ipotesi di
base essendo però quest’ultima sempre preferita. Seguendo queste considerazioni si
sceglie α sempre più piccolo se si vuole rendere difficile commettere un errore di prima
specie, in questo modo se le risultanze campionarie conducessero al rifiuto dell’ipotesi
nulla, ”nulla” si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve
necessariamente essere rifiutata. Sullo stesso principio ci si basa quando si sceglie la
regione di potenza minima tra quelle ottime (o con massima potenza), si vuole rendere
meno agevole il rifiuto dell’ipotesi di base.

Ipotesi di base composte


Lo scenario è rappresentato, nel semplice caso discreto, da una collezione di ipotesi
semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 , sembra quindi difficile
dover mantenere la porzione α per ognuna delle H0 ∈ H0 , si ricerca allora per ogni
H1 ∈ H1 l’insieme delle regioni ottime (di potenza massima) per ogni H0 ∈ H0 e tra
le |H0 | × |H1 | regioni (con |A| si è indicata la cardinalità dell’insieme A) si sceglie la
regione di rifiuto W 10 di potenza minima.

5.2.2 Test non parametrici


Tratteremo test su P o sulla sua densità f . In particolare, vogliamo confrontare la di-
stribuzione di probabilità teorica di una certa variabile con la distribuzione di frequenze
(e quindi osservate).

Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX una successione


di frequenze osservate per il fenomeno oggetto di studio. Vogliamo vedere quanto X
10
Nel caso di ipotesi composte se tale regione non cambia al variare di H1 ∈ H1 si tratta di una
regione W che determina un test uniformemente piú potente.
166

descriva bene tale fenomeno. Una misura della distanza tra le distribuzioni è data da
X (fk − pk )2
χ2oss =
k∈I
pk
X

che può essere vista come una realizzazione della v.a. χ2 (|IX |−1), cioè una χ-quadrato
con |IX | − 1 gradi di libertà. Il test ci permette di individuare un p-value e quindi una
regione di rifiuto/accettazione per l’ipotesi nulla
H0 : χ2 = 0 (stesse distribuzioni) (5.5)
che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di studio. Se
χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo individuare una soglia
(il p-value) al di sotto della quale si possa ancora accettare (con un certo livello di
significatività) l’ipotesi H0 .
È stata già introdotta la tabella di contingenza, in quel caso si voleva studiare la
dipendenza di due variabili osservate. Se si considera
X (fk,s − pk,s )2
χ2oss =
pk,s
(k,s)∈I

con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi


H0 : χ2 = 0 (variabili indipendenti). (5.6)
Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui X e Y (e
quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈ I = IX × IY ) rappre-
sentano due caratteristiche di tale fenomeno. Allora l’ipotesi nulla da verificare è se le
due caratteristiche sono indipendenti o meno.

Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con i = 1, 2, . . . , n.


Definiamo la funzione di ripartizione empirica
n
1X
Fn (x) = 1(−∞,x] (Xi ).
n k=1

Il test prevede l’utilizzo della distanza


Dn = kFn − FX k∞ = sup |Fn (x) − FX (x)|.
x
q.c.
Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte dei grandi
numeri. In maniera analoga a quanto accade per la v.a. media campionaria, si ha che
q.c.
Fn (x) → E1(−∞,x] (X) = FX (x), x ∈ R.
Capitolo 5. Inferenza statistica 167

Inoltre, fissato x, notiamo che

1
EFn (x) = FX (x), e V ar(Fn (x)) = FX (x) (1 − FX (x))
n
ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale si ottiene
che
√ d
 
Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) .

5.3 Stima in presenza di parametri di disturbo


Ci troviamo nel caso in cui oggetto di stima è il parametro λ = g(θ) e g(·) non ammette
la funzione inversa oppure nel caso in cui θ = (λ, µ) e µ è un parametro di disturbo
per l’inferenza su λ. Il problema quindi nasce quando si ha un esperimento del tipo

e = {X , Pθ , θ ∈ Θ}

in cui, poniamoci nel caso piú comune, θ = (λ, µ) ed oggetto di interesse è il parametro
( di interesse ) λ, allora se possiamo individuare una funzione h(·) per cui µ = h(λ)
allora possiamo anche scrivere θ = (λ, h(λ)) ed ottenere nella formalizzazione quello
che si dice ”eliminazione del parametro di disturbo”, altrimenti possiamo comunque
scegliere h(·) liberamente e con lo stesso obbiettivo, quello dell’eliminazione di µ, nel
seguito consideriamo due varianti di h, h1 ed h2 allo stesso scopo. Diamo allora la
seguente

Definizione 49. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono


parametri complementari se si ha una corrispondenza biunivoca tra gli insiemi Θ
e Θ0 = {(λ, µ) : λ = h1 (θ), µ = h2 (θ), θ ∈ Θ}.

Potremmo anche scrivere Θ0 = Λθ × Mθ , θ ∈ Θ in cui ovviamente Λθ = {λ :


λ = h1 (θ)} e Mθ = {µ : µ = h2 (θ)}. Inoltre

Definizione 50. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono para-
metri a variazione indipendente se si ha una corrispondenza biunivoca tra gli insiemi
Θ e Θ0 = Λ × M dove Λ = {λ : λ = h1 (θ), θ ∈ Θ} e M = {µ : µ = h2 (θ), θ ∈ Θ}.

L-indipendenza
Diamo la seguente
168

Definizione 51. Dato l’esperimento e, i parametri complementari λ e µ si dicono


L-indipendenti se esistono due funzioni l1 ed l2 tali che, per ogni x ∈ X sia

l(λ, µ; x) = l1 (λ; x)l2 (µ; x).

Si presenta quindi come una caratteristica strettamente legata alla verosimiglianza


( Lik-indipendenza ) ed è piuttosto estrema, si può verificare sostanzialmente nel caso
si considerino due esperimenti distinti o nel caso i parametri si riferiscano ad aspetti
essenzialmente differenti.

Profilo della verosimiglianza


Dato l’esperimento e, tale procedura consiste essenzialmente nel calcolare, fissato x ∈
X , la verosimiglianza lmax per ogni λ ∈ Λ massimizzando ogni volta rispetto a µ ∈ M ,
la soluzione sarà ovviamente data da λ per cui lmax è massima. Scriviamo

l(λ̂; x) = sup{lmax (λ)}


λ∈Λ

dove
lmax (λ) = max{l(λ, µ; x)}, λ ∈ Λ.
µ∈M

Esperimenti marginali
Abbiamo un esperimento marginale quando si considera come risultato dell’esperi-
mento non x0 ∈ X ma h0 = h(x0 ) ∈ H.

Definizione 52. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→


H ⊆ Rm con 1 ≤ m ≤ n, allora si chiama esperimento marginale basato su h
l’esperimento
eh = {H, Pθh , θ ∈ Θ}
dove Pθh è la legge di probabilità indotta su H da Pθ e la funzione di verosimiglianza
associata a (eh , h0 ) è detta verosimiglianza marginale.

La verosimiglianza e la verosimiglianza marginale sono in generale diverse a meno


che h non sia sufficiente per θ, la marginalizzazione allora comporta in generale una
perdita di informazione. La statistica h ha qui il compito di generare una verosimi-
glianza ( quella marginale ) che dipende dal solo parametro di interesse, caso in cui si
dice che h è orientata a λ ( λ = g(θ) ad esempio ).
Capitolo 5. Inferenza statistica 169

Esperimenti condizionati
Definizione 53. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆
Rm , si chiama esperimento condizionato ad h l’esperimento aleatorio

eh = {X , Pθ,h , θ ∈ Θ}

dove Pθ,h è la legge di probabilità su X calcolata per θ fissato e condizionatamen-


te al valore h0 = h(x0 ). La funzione di verosimiglianza sarà detta verosimiglianza
condizionata.

5.4 Inferenza su particolari parametri


Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di stima, si adotterà
sempre la regola αoss ≷ α dove αoss come sappiamo è dato dal percentile calcolato
in base ai risultati campionari ed α è il livello di significatività dato al test di ipotesi,
considereremo qui solo la individuazione dell’ αoss e della distribuzione della v.a. in
questione quindi si parlerà della sola ipotesi di base lasciando al lettore la costruzione
vera e propria del test anche in relazione alla ipotesi alternativa. Dove non specificato
si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo:

1. H0 : µ = µ0 e σ 2 nota

µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
X̄−µ0 √
σ
n ∼ N (0, 1) sotto H0
x̄oss −µ0 √
σ
n = zαoss

2. H0 : µ = µ0 e σ 2 non è nota

µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
σ̂ 2 = s2 , varianza campionaria corretta
(n−1)s2
σ2
∼ χ2(n−1)
X̄−µ0 √
s
n ∼ t(n−1)
x̄oss −µ0 √
s
n = t(n−1), oss
170

●●●
●●●
●●●
●●●
●●● ●●●
●● ●●

● ●

●● ●●
●● ●●

● ●

●● ●●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●

0.3
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●

0.2
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●

0.1
● ●
● ●
● ●
● ●
● ●
● ●
● ●
●● ●●

● ●

●● ●●
●● ●●

● ●

●● ●●
●● ●●

● ●

●● ●●
●● ●●

● ●

●● ●●
●● ●●

● ●

●● ●●
●● ●●

● ●


●● ●●


●● ●●


●● ●●


●● ●●


●● ●●


●● ●●

●●
●● ●●
●●
●●●
● ●
●●●
●●
●●● ●●●
●●
●●
●●●
● ●
●●●
●●
●●●
●●●
● ●
●●●
●●●
●●
●●●
●●● ●●●
●●●
●●
●●●
●●●
● ●
●●●
●●●

●●●
●●● ●●●
●●●


●● ●●

0.0


●●●
●● ●●
●●●

●●
●●●
●● ●●
●●●
●●

●●●
●●●
● ●
●●●
●●●


●●●
●●●
●●●
●●●
●● ●●
●●●
●●●
●●●
●●●


●●●
●●●
●●●
●●●
●● ●●

−3 −2 −1 0 1 2 3

Figura 5.1: La densità in grassetto è di Student mentre l’altra è normale.

Per entrambe le situazioni viste sopra possiamo generalizzare alla normale se la


numerosità del campione e grande, otteniamo che zα < t(n),α e per n sempre
maggiore t(n),α → zα (o meglio t(n) → N (0, 1) per n → ∞) quindi passare
alla normale equivale a restringere la regione di accettazione del test se n non è
sufficientemente grande.
3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 , entrambe
supposte normali e due campioni x1 e x2 osservati per cui
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )
µ̂1 = x̄1 e µ̂2 = x̄2
X̄1 −µ1 √ X̄2 −µ2 √
σ1
n1 ∼ N (0, 1) e σ2
n2 ∼ N (0, 1)
√ X̄1 −X̄2
∼ N (0, 1) sotto H0
σ12 /n1 +σ22 /n2
x̄1, oss −x̄2, oss
√ 2 2
= zoss
σ1 /n1 +σ2 /n2

4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le due varianze


possono considerarsi uguali oppure no. Supponiamo che σ12 = σ22 = σ 2 allora
(n1 − 1)s21 + (n2 − 1)s22
σ̂ 2 =
n1 + n2 − 2
e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando
(n1 − 1)s21 (n2 − 1)σ 2 s21
F(n1 −1), (n2 −1) = =
(n1 − 1)σ 2 (n2 − 1)s22 s22
che è una Fisher-Snedecor. Supposte allora uguali otteniamo
Capitolo 5. Inferenza statistica 171

√X̄1 −X̄2 ∼ t(n1 +n2 −2)


σ̂ 1/n1 +1/n2
x̄1, oss −x̄2, oss
√ = t(n1 +n2 −2), oss
σ̂ 1/n1 +1/n2

Se invece le varianza delle due popolazioni non possono considerarsi uguali


sorgono non pochi problemi, la distribuzione della variabile che si verrebbe a
considerare è
X̄ − X̄2
q 12
s1 s22
n1
+ n2

che è detta di Behrens-Fisher.

Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta di un ipo-
tesi alternativa composta comporta le valutazioni operative che ora andiamo a vedere.
Si è sempre arrivati a considerare una v.a. standardizzata, diciamo Q con una sua
distribuzione, si è inoltre individuato un percentile in base al quale discriminare in re-
lazione all ’ipotesi nulla, diciamo qα al livello di significatività α. Essendo l’ipotesi
nulla semplice e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simme-
trica la distribuzione in esame (o a valori tutti positivi dei percentili) ci avvaliamo di
un percentile di riferimento, quello modale che indichiamo con qM (ovviamente se la
distribuzione fosse discreta si avrebbe Q(qM ) = max). Diciamo che in generale si
avranno le seguenti situazioni

a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per cui 1 −


Q(qα ) = α,

b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui Q(qα ) = α,

c) H1 : θ 6= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e q2, α/2 > qM tale
che Q(q1, α/2 ) = α/2 e 1 − Q(q2, α/2 ) = α/2 quindi, ovviamente, Q(q2, α/2 ) −
Q(q1, α/2 ) = 1 − α e rappresenta l’area sottesa alla curva di probabilità relativa
alla regione di accettazione.

Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo Q|H0 , il caso
in cui Q|H1 dovrà essere considerato al fine di investigare sulla potenza del test.

Esercizio 113. Dato il campione x ∈ Rn con x̄ = 4/5 e n = 30, verificare l’ipotesi


che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.

Esercizio 114. Dato il campione x ∈ Rn con x̄ = 3/5 e n = 30, verificare l’ipotesi


che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.
172

5.5 Logiche inferenziali


Il principio della verosimiglianza
La funzione di verosimiglianza nasce dal presupposto che un evento verificatosi può
considerarsi l’evento con la probabilità maggiore di verificarsi ed infatti massimizzia-
mo tale funzione. Il principio di base quindi è sviluppato attorno alla realizzazione o
all’evento realizzato, al risultato della prova o come diremo nel capitolo che segue al
risultato dell’esperimento

Definizione 54. Principio della verosimiglianza. Siano dati due esperimenti e0 ed e00
in cui l’ipotesi vera sia la stessa. Se per due risultati x0 e x00 le corrispondenti funzioni
di verosimiglianza l0 e l00 soddisfano la condizione di equivalenza

l0 (θ) = c · l00 (θ) θ∈Θ

dove c può dipendere dai risultati campionari ma non da θ, allora gli esperimenti
(e0 , x0 ) ed (e00 , x00 ) forniscono la stessa informazione riguardo alle ipotesi. In altre
parole le due funzioni di verosimiglianza sono equivalenti (equivalenza in verosimi-
glianza) per il parametro θ.

Il principio del campionamento ripetuto


Il principio del campionamento ripetuto si pone in modo diverso da quello della ve-
rosimiglianza in quanto il risultato ottenuto assume qui importanza solo dopo che si
siano considerati tutti i risultati possibili o meglio la procedura statistica che meglio si
adatta a tali risultati. Per procedura intendiamo ad esempio una statistica e per miglior
adattamento ai dati intendiamo, ad esempio, miglior prestazioni della statistica:

Definizione 55. Principio del campionamento ripetuto. Le procedure statistiche de-


vono essere valutate per il loro comportamento in ripetizioni ipotetiche dell’esperi-
mento che si suppongono eseguite sempre nelle stesse condizioni.

Nei problemi di stima parametrica diciamo quindi che il risultato campionario


si rende utile non appena si sappia individuare nello scenario d’analisi una statisti-
ca che sia non distorta e di varianza minima, potremmo poi desiderare ancora delle
altre proprietà.

Esercizio 115. 1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione proveniente da una


popolazione P (supposta) Esponenziale di parametro λ. Determinare lo stima-
tore λ̂M con il metodo dei momenti e λ̂M V di massima verosimiglianza.
Capitolo 5. Inferenza statistica 173

2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. Determinare


la numerosità campionaria n per cui stimando la media si commette un errore
minore  con probabilità P (|X̄ − µ| < ) > 86%.

Esercizio 116. Sia P una popolazione in cui il fenomeno oggetto di studio X ha den-
sità normale di media µX e varianza σ 2 = 1. Si supponga inoltre di conoscere la
relazione Y = aX in cui a > 0 ed Y è una seconda variabile di interesse. Dato il
campione

x = (x1 , . . . , xn )

a) si trovi una stima di massima verosimiglianza per la media µY di Y

b) si trovi una stima della media µY di Y con il metodo dei momenti

c) si trovi il minimo n tale per cui con probabilità maggiore del 95% si commette
un errore minore di  nella stima della media di Y (si consideri |Ȳ − µY | < ).

Esercizio 117. 1. Sia x = (1, 4, −1, 5, 2, −2, −3, 9) un campione proveniente da


una popolazione P (supposta) di Poisson di parametro λ. Determinare lo stima-
tore λ̂M con il metodo dei momenti.

2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge

f (xi ; θ, λ) = κ θxi e−λxi 1(0,∞) (xi ), 0 < θ < eλ , λ > 0, i = 1, 2, . . .

– determinare κ,

– determinare lo stimatore θ̂M V di MV per θ se λ = log θ.
174
Capitolo 6

I modelli lineari

6.1 Il modello lineare generale


Il modello lineare o qualunque modello linearizzabile assume la forma matriciale
Y = Xβ + 
dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i vettori Y,  ∈ Rn
e il secondo è costituito da componenti aleatorie, β ∈ Rk+1 è il vettore dei coefficienti
da stimare, le assunzioni di base che si fanno sono
1. E[] = 0,
2. Σ = E[t ] = σ2 In
dette anche ipotesi interne e determinano appunto il modello lineare generale (MLG).
Tale modello prende il nome di modello lineare normale se in aggiunta a tali ipotesi si
assume
 ∼ M N (0, Σ ).
Bisogna notare che in generale tra le Y e le X (qui intendiamo X = {X1 , X2 , . . .}
variabili osservate) si ipotizza una relazione del tipo
Y = f (X) + 
in cui  è comunque un termine residuale aleatorio mentre la forma della f (·) dipenderà
dalla natura delle X, sia per quanto riguarda la linearizzabilità che la trasformazione
necessaria nel caso si passi da variabili a mutabili (vedi modelli anova ad esempio). In
breve si otterrà
E[Y|X] = f (X) = Aβ
dove A è una matrice strutturale del modello e β è ancora un vettore dei coefficienti,
entrambi saranno individuati diversamente nei tre casi in cui

175
176

• le X sono tutte quantitative ⇒ si ha un modello di regressione,

• le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza,

• le X sono in parte quantitative ed in parte qualitative ⇒ si ha un modello di analisi


della covarianza

e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’analisi è quello


di studiare la dipendenza tra la variabile dipendente Y e le variabili esplicative X.

6.2 Stima dei parametri


Stima dei minimi quadrati
Il modello da identificare è il MLG (a rango pieno, detto così per questioni chiarite
sotto) quindi senza assunzioni sulla forma distributiva di , le stime sono date da

Ŷ = Xβ̂

e l’idea è quella di minimizzare la forma quadratica

M Q(β̂) = (Y − Xβ̂)t (Y − Xβ̂) = et e.

La soluzione è data dal vettore

β̂ = (Xt X)−1 Xt Y.

Teorema 42. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra specificate per 


v.a. qualunque si ha che β̂ è l’unica stima lineare non distorta di β di varianza minima
nella classe degli stimatori lineari non distorti.

Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere det(Xt X) 6= 0, de-
ve essere cioè rango(Xt X) = k + 1 (rango pieno). Una tale condizione è verificata se
non ci sono colonne di X correlate tra loro (per cui quindi ρ2 ' 1, massima correlazio-
ne) cosa che risulta anche scomoda sul piano logico visto che una forte correlazione
tra due variabili indurrebbe ad escludere dal modello una di esse (essendo di pari in-
formazione) stando però di fatto molto attenti agli effetti finali. La stima della varianza
di  è data dalla formula
1 et e
σ̂2 = (Y − Xβ̂)t (Y − Xβ̂) = .
n−k−1 n−k−1
Elenchiamo alcune proprietà:
Capitolo 6. I modelli lineari 177

1. gli stimatori dei MQ β̂ e σ̂2 sono corretti,

2. lo stimatore dei MQ β̂ ha varianza uniformemente minima nella classe degli


stimatori lineari di β,

3. la varianza dello stimatore è σβ̂2 = σ 2 (Xt X)−1 ,

4. si ha il vettore dei residui e = [In − X(Xt X)−1 Xt ]  ed inoltre

- E[e] = 0
- E[et e] = σ 2 (n − k − 1)

5. si ha σ 2 = σY2 = σ2 .

Riguardo alle proprietà appena elencate osserviamo soltato che

E β̂ =E[(Xt X)−1 Xt Y]
=E[(Xt X)−1 Xt (Xβ + )]
=E[(Xt X)−1 Xt Xβ] + E[(Xt X)−1 Xt ]
=E[β] + (Xt X)−1 Xt E[]
=β,

σβ̂2 =E[(β̂ − β)(β̂ − β)t ]


h i
t −1 t t −1 t t

=E (X X) X  (X X) X 
= (Xt X)−1 Xt E[t ] X(Xt X)−1
 

=σ 2 (Xt X)−1

dove si è usato il fatto che E[t ] = σ 2 In .


Notiamo che e rappresenta l’errore osservato mentre  è una v.a. che rappresenta
il modello non deterministico (possiamo dire che e è una possibile realizzazione del
vettore aleatorio ).

Stima di massima verosimiglianza


Sappiamo che gli stimatori di massima verosimiglianza possono non essere corretti o
unici comunque risultano legati attraverso la sufficienza a molte proprietà importanti
tanto da poter dire che se esiste uno stimatore corretto ed efficiente, allora è di massima
verosimiglianza. Resta poi aperta la questione riguardante la forma distributiva dei
dati (o meglio degli errori) dalla quale non si può prescindere nella verosimiglianza
178

come invece avviene nei minimi quadrati, in generale le due stime coincidono ma
assumendo che gli errori  si distribuiscano normalmente otteniamo che le stime dei
minimi quadrati non saranno piú non distorti di varianza minima (corretti ed efficienti)
nella classe degli stimatori (corretti) lineari ma nella classe di tutte le stime possibili.
Notiamo che lo stimatore di massima verosimiglianza
1
σ̃2 = (Y − Xβ̂)t (Y − Xβ̂)
n

non è corretto mentre lo è β̃ che coincide con lo stimatore dei MQ ( β̃ = β̂ ), scriviamo


allora
n
σ̂2 = σ̃ 2
n−k−1 
e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i seguenti fatti:

1. β̂ e σ̂2 sono corretti,

2. β̂ e σ̂2 sono congiuntamente sufficienti per β e σ2 quindi sono di varianza


uniformemente minima nella classe degli stimatori di β e σ2 ,

3. β̂ ∼ M N (β, σ2 (Xt X)−1 ),


(n−k−1)σ̂2
4. σ2
∼ χ2(n−k−1) ,

5. β̂ e σ̂2 sono stocasticamente indipendenti.

Ricordiamo che parleremo di modello lineare normale nel caso la forma distributiva
di  sia nota e Normale mentre parleremo di modello lineare generale quando non
si fanno assunzioni sulla forma distributiva della  tranne quelle fatte nel teorema di
Gauss-Markov.

6.3 Il caso di una variabile esplicativa


Sia osservato un campione del tipo (y, x) con y, x ∈ Rn , il modello lineare (detto
modello lineare semplice) sia

yi = β0 + β1 xi + i

con i ∼ N (0, σ2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono date da

σ
bXY
β̂0 = ȳ − β̂1 x̄, β̂1 = 2
,
σ
bX
Capitolo 6. I modelli lineari 179

e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono corretti. Si
ottiene poi
P 2
2 2 xi
σβ0 = σ P
n (xi − x̄)2
σ2
σβ21 = P 
n (xi − x̄)2
dalla matrice della varianza (o delle covarianze)
 
2 t −1 E β̂02 E β̂0 β̂1
σ (X X) = .
E β̂1 β̂0 E β̂12
Esercizio 118. Dimostrare che βb = (βb0 , βb1 ) è uno stimatore MQ .
Uno stimatore corretto della varianza σ2 è dato da
(yi − ŷi )2
P
2
σ̂ =
n−2
2
ed infine, ricordando che i ∼ N (0, σ ), si ha
β̂0 ∼ N (β0 , σβ20 )
β̂1 ∼ N (β1 , σβ21 )
(n − 2)σ̂2
∼ χ2(n−2)
σ2
se σ2 è nota quindi possiamo dire che la standardizzazione dei coefficienti porta alla
distribuzione N (0, 1) altrimenti si ha
β̂0 − β0
∼ t(n−2)
σ̂β0
β̂1 − β0
∼ t(n−2) .
σ̂β0
Tornando alla formulazione matriciale scriviamo
σβ̂2 = σ2 (Xt X)−1
β̂j ∼ N (βj , σ2 [(Xt X−1 )]j+1,j+1 )
La devianza totale campionaria (DT) può essere così decomposta
n
X n
X n
X
2 2
(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2
i=1 i=1 i=1

i cui addendi a secondo membro corrispondono rispettivamente alla DR (devianza di


regressione) e alla DE (devianza dell’errore), quindi
180

DT = DR + DE

ed è possibile esplicitare una misura della bontà di adattamento del modello attraverso
il coefficiente di determinazione così definito
DR DE
R2 = =1− .
DT DT
Si vede subito che:

1. 0 ≤ R2 ≤ 1,

2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione,

3. R2 = 0: non vi è relazione lineare tra x e y,

4. tanto più R2 → 1, tanto più l’accostamento è migliore,

5. R2 è il quadrato del coefficiente di Bravais-Pearson.

6.4 Modelli lineari generalizzati


Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈ Rn , allora il
modello postula l’uguaglianza
E[Yi |Xi ] = µi
ed in generale µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione
lineare interveniamo su µi attraverso la riparametrizzazione indotta da una funzione
link g(·) che ammette la funzione inversa

g(µi ) = xti β e µi = g −1 (xti β),

al variare di tale funzione otterremo modelli diversi, lineari generalizzati. Alcuni


esempi sono dati dalle seguenti funzioni:

1. funzione identità: g(µi ) = µi ,

E[Yi |Xi ] = xti β

ed è il caso del modello lineare generale,

2. funzione logit: g(µi ) = logit(µi ),

exp{xti β}
E[Yi |Xi ] =
1 + exp{xti β}
Capitolo 6. I modelli lineari 181

dove la funzione link è data da


 
µi
logit(µi ) = ln
1 − µi

ed è il caso del modello logistico lineare,

3. funzione logaritmo: g(µi ) = ln(µi ),

E[Yi |Xi ] = exp{xti β}

ed otteniamo un modello loglineare.

Il modello logistico lineare


A differenza del modello lineare classico nel quale si studia la dipendenza di una va-
riabile quantitativa da un insieme di variabili quantitative e/o qualitative, il modello
logistico lineare costituisce uno strumento utile per lo studio della dipendenza tra una
variabile qualitativa e un insieme di variabili quantitative e/o qualitative. La variabile
dipendente non è più quantitativa ma qualitativa, può essere dicotomica o no.
Assumiamo che la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed
in particolare dato il campione x di dimensione n si ha

P (Y = 1|X = x) = π(x)

mentre il rapporto odds è dato da

P (Y = 1|X = x) π(x)
odds(x) = = .
P (Y = 0|X = x)) 1 − π(x)

Considerata la probabilità

exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
π(x) =
1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )

si ottiene
odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ),
il modello logit, ossia il logaritmo dell’odds, diventa allora una funzione lineare

logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk

e possiamo dire che βj rappresenta l’influenza della variabile Xj finalizzato ad ottenere


Y = 1.
182

è evidente ora che se P (Y = y) = θy (1 − θ)1−y ( quindi se Y è Bernoulliana ) si ha


E[Y ] = θ e se Y = {Y1 , . . . , Yn } e θ = {θ1 , . . . , θn } si ha
n
Y
P (Y|θ) = θiYi (1 − θi )1−Yi
i=1

e molto importante
V ar(Yi ) = θi (1 − θi )
quindi non si possono fare le assunzioni di omoschedasticità. La riparametrizzazione
che adottiamo è la seguente

E[Yi ] = θi = π(xi ), i = 1, . . . , n

e
 
θi
logit(θi ) = ln
1 − θi
= logit(xi )
 
π(xi )
= ln
1 − π(xi )
= β0 + β1 xi1 + β2 xi2 + . . . + βk xik
= xti β
Capitolo 7

Distribuzioni di probabilità elementari

7.1 Variabili discrete -


Ricordiamo che una v.a. discreta X è caratterizzata dalla coppia

(xk , pk ), k ∈ IX

dove, per comodità, spesso potremo scrivere xk = k per ogni k in un opportuno


insieme di indici ottenuto da IX .

Uniforme. Sia X ∼ U nif ({1, 2, . . . , n}) con n ∈ N. La distribuzione di probabilità


della v.a. X è
1
pk = P (X = k) = , k ∈ IX = {1, 2, . . . , n}. (7.1)
n
Si vede subito che
1. pk ≥ 0,
Pn 1 n
2. k=1 n = n .

La funzione di ripartizione è data da



0, x < 1
x

 X

FX (x) = pk = , x ∈ [1, n]
n
 {k≥1 : k≤x}


1, x ≥ n

Esercizio 119. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥ Y .


Calcolare la f.r. FZ della v.a. Z = X + Y .

183
184

Esercizio 120. Calcolare la funzione caratteristica di X.


Osservazione 41. Sia X ∼ U nif (0, n). Osserviamo che
µ] ({1, 2, n − 1}) |{1, 2, n − 1}|
P (X ∈ {1, 2, n − 1}) = =
n n
cioè numero di casi favorevoli su numero di casi possibili.

Zeta o Zipf. Se X ∼ Zipf , si definisce la successione


C
pk = P (X = k) = , k≥1
k α+1
detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente legata alla
funzione Zeta di Riemann.
Esercizio 121. Determinare C.
Esercizio 122. Determinare P (X > 4).
Esercizio 123. Calcolare la funzione caratteristica di X.

Geometrica. Sia X ∼ Geo(p) con p ∈ [0, 1]. La distribuzione delle probabilità di


X è data da
pk = P (X = k) = (1 − p)k−1 p, k ∈ IX = {1, 2, . . .} = N.
La v.a. X rappresenta la probabilità di avere il primo successo esattamente alla k-
esima prova, cioè dopo k − 1 insuccessi (con prove indipendenti). Ogni insuccesso
ha probabilità (1 − p) di verificarsi. Se indichiamo con S il successo, P (S) = p e
ovviamente P (S̄) = 1 − p. Allora,

| ∩ S̄ ∩
(X = k) ="primo successo alla k-esima prova" = S̄ {z· · · ∩ S̄} ∩S
k−1 volte

ed essendo le prove indipendenti,


k−1
· P (S) = (1 − p)k−1 p.

P (X = k) = P (S̄) · · · P (S̄) ·P (S) = P (S̄)
| {z }
k−1 volte

Possiamo quindi associare alla distribuzione di probabilità Geometrica la v.a.


X = "istante di primo successo" se P (S) = p
oppure la v.a.
X = "istante di primo insuccesso" se P (S̄) = p.
Verifichiamo che pk sia effettivamente una distribuzione di probabilità. Dobbiamo
verificare
Capitolo 7. Distribuzioni di probabilità elementari 185

1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1,

2.

X ∞
X
pk =p (1 − p)k−1
k≥1 k=1

X
=p (1 − p)s (si è posto s = k − 1)
s=0
1
=p =1 (somma notevole di una serie geometrica).
1 − (1 − p)

Si vede che

X
EX =p kq k−1
k=1

X d k
=p q (q = 1 − p)
k=1
dq

d X k
=p q (derivazione per serie)
dq k=1

!
d X
=p qk − 1
dq
 k=0 
d 1 1
=p −1 = .
dq 1 − q p

Esercizio 124. Calcolare V ar(X) se X ∼ Geo(p) definita sopra.

La funzione di ripartizione è data da



 X 0, x < 1
FX (x) = pk , x ≥ 1

{k≥1 : k≤x}

Esercizio 125. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipendenti. Caratte-


rizzare Z = X1 + X2 .

Esercizio 126. Calcolare la funzione caratteristica di X.


186

Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ ∈ [0, 1] una v.a. di


Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli è data da

P (X = x) = θx (1 − θ)1−x , x ∈ {0, 1}.

Notiamo che X è dicotomica, può assumere solo due valori con probabilità P (X =
1) = θ e P (X = 0) = 1 − θ. Quindi, se scegliamo IX = {1, 2} potremmo scrivere
x1 = 0 e x2 = 1 con le rispettive probabilità. Otteniamo
2
EX = θ, σX = M2 − M12 = θ(1 − θ).

Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernulliane indipendenti,


diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza delle v.a.)
Pn Pn
xi
P (X1 = x1 , . . . , Xn = xn ) = θ i=1 (1 − θ)n− i=1 xi

e se volessimo che esattamente k tra di loro rappresentino un successo (Xi = 1)


Xn  n
P Xi = k = P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n
i=1
k

ovvero, per le probabilità totali, basta che si osservi uno degli


 
n n!
=
k k!(n − k)!

campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente con proba-
bilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a.
n
X
K= Xi ∼ Bin(n, θ)
i=1

che è una Binomiale di parametri n e θ dove le Xi ∼ Ber(θ) sono indipendenti (le Xi


sono i.i.d.). Otteniamo
n
X n
X
2
EK = E[Xi ] = nθ, V ar(K) = σX i
= nθ(1 − θ)
i=1 i=1

ed ovviamente per ogni Xi vale Xi ∼ Bin(1, θ).


K
Si può considerare una v.a. Q costruita a partire da Q = n
e per cui

EK 1 2 θ(1 − θ) q(1 − q)
EQ = = θ = q, V ar(Q) = σ k = = .
n n2 n n
Capitolo 7. Distribuzioni di probabilità elementari 187

Se K rappresenta il numero di successi in n prove indipendenti, allora Q rappresenta


la frequenza dei successi (ed è una v.a.).
Concludiamo ricordando che se X ∼ Bin(n, p) con p ∈ [0, 1] e n ∈ N, allora
 
n k
pk = P (X = k) = p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n} (7.2)
k
e la distribuzione Binomiale può essere associata alla v.a.
X = "numero di successi in n prove " se P (Successo) = p.
Si vede subito che
1. pk ≥ 0,
Pn
2. k=0 pk = 1.

Per verificare la somma ad uno si è usata una somma notevole, la formula del binomio
di Newton
n  
X n k n−k
a b = (a + b)n .
k=0
k
La funzione di ripartizione è data da


 X 0, x < 0

FX (x) = pk , 0 ≤ x ≤ n

 0≤k≤n : k≤x
1, x ≥ n

Osservazione 42. Lo schema detto Bernoulliano è uno schema in cui si prevedono


prove (esperimenti, lanci, estrazioni, selezioni o campionamenti) indipendenti.
Esempio 34. Se un determinato pezzo prodotto da un macchinario è difettoso con
probabilità p = 0.03, come possiamo determinare la probabilità che una scatola di 10
pezzi ne contenga esattamente k difettosi con k ∈ N ∪ {0}.
Si deve considerare
" numero di pezzi difettosi in una scatola" = X ∼ Bin(10, 0.03)
quindi, segue che
  
 10
(0.03)k (0.97)n−k , k ∈ IX = {0, 1, 2, . . . , 10}
P (X = k) = k
0, k∈/ IX .

Esercizio 127. Dimostrare che la Binomiale è chiusa rispetto alla somma. Cioè, se
X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼ Bin(n + m, p).
Esercizio 128. Calcolare la funzione caratteristica di X.
188

Multinomiale. Sia X ∼ M N om({pi }) dove le pi , i = 1, 2, . . . , n sono probabilità.


Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni i =
1, 2, . . . , n, si ha


 0, xi < 0 per qualche i
 N! x1 Pn
FX (x) = p1 · · · pxnn , i=1 xi = N
x ! · · · xn !
 1


1, x ≥ N per ogni i
i

La Multinomiale generalizza la Binomiale (potremmo dire che una Binomiale a


più alternative) e l’evento che si vuole considerare prevede la realizzazione di xi volte
la caratteristica i-esima per ottenere N caratteristiche totali su n prove totali. Nello
schema Binomiale si avevano k e n − k realizzazioni delle caratteristiche "successo"
ed "insuccesso" su un totale di n prove. Si pensi ad un vettore
V = (](X1 ), ](X2 ), . . . , ](Xn ))
in cui le variabili Xi sono i.i.d. dove ](Xi ) ="il numero di volte che si è verificato Xi "
e la v.a Xi si verifica con probabilità pi . L’evento (](Xi ) = xi ) = "Xi si verifica xi
volte" ha probabilità pxi i di verificarsi (oppure P (](Xi ) = k) = pki ). La probabilità di
ottenere la n-upla x = (x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto
n
Y
P (V = x) = pxi i .
i=1
Pn
Di tutte le n-upla che si possono ottenere, vogliamo tenere solo quelle per cui i=1 xi =
N . Allora la v.a. X si può ottenere considerando
P (X = x) = P (V = x, |V | = N )
Pn Pn
dove |V | = i=1 ](Xi ) = i=1 xi . In quanti modi si può ottenere |V | = N ? In
N!
= |PxN1 ,...,xn |
x1 ! · · · xn !
modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi mantenendo però lo
stesso numero di ripetizioni per ogni caratteristica xi . Ogni permutazione ha la stessa
probabilità di realizzarsi e quindi
n
N! Y
P (X = x) = P (V = (x1 , . . . , xn ), |V | = N ) = pxi = FX (x).
x1 ! · · · xn ! i=1 i
Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi
 
N ! x1 x2 N x1
P (X = x) = p1 p2 = p (1 − p1 )N −x1 = P (V1 = x1 , V2 = N − x1 )
x1 !x2 ! x1 1
con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ).
Capitolo 7. Distribuzioni di probabilità elementari 189

Ipergeometrica. Sia X ∼ Iperg(M1 , M2 )


M1 M2
 
m1 m2
pm1 ,m2 = M1 +M2

m1 +m2

cioè la probabilità di estrarre (ad esempio da una scatola) un gruppo di m1 +m2 oggetti
prendendone m1 dal gruppo di M1 ed m2 dal gruppo di M2 . Possiamo semplificare
scrivendo X ∼ Iperg(K, N − K) e
K N −K
 
k n−k
pk,n−k = N
 = pk .
n

Esercizio 129. Si consideri X ∼ Iperg(K, N − K). Determinare spet(X).

La v.a. Ipergeometrica viene utilizzata negli schemi di campionamento (o scelta)


in blocco, dove cioè non è previsto il reimbussolamento (schema senza ripetizione).
Inoltre, rappresenta la probabilità di estrarre da un urna in cui sono inseriti oggetti
divisi in gruppi (due in questo caso, n nel caso delle Ipergeometrica a n alternative).
Se in un scatola ci sono K palline rosse e N −K palline nere per un totale di N palline,
allora estraendo n palline a caso,

P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk .

Osservazione 43. Lo schema detto in blocco è uno schema in cui le prove (esperimenti,
lanci, estrazioni, selezioni o campionamenti) sono dipendenti.

Nella Ipergeometrica a più alternative si considerano n gruppi di numerosità M =


M1 +M2 +. . .+Mn , di ogni gruppo si vogliono estrarre mi oggetti (con i = 1, 2, . . . , n)
per un totale di m = m1 + m2 + . . . + mn oggetti (la cardinalità degli oggetti estratti,
ad esempio da una scatola). La probabilità di effettuare una simile estrazione è data da
Q n Mi 
i=1 mi
M

m

che è la densità discreta di una Ipergeometrica a n alternative. Per n = 2 si ottiene


pm1 ,m2 introdotta sopra.

Poisson. Sia X ∼ P ois(λ) con λ > 0. Allora

λk −λ
pk = P (X = k) = e , k ∈ IX = N ∪ {0}.
k!
190

Notiamo che si sta usando la scrittura xk = k con k ∈ IX = N∪{0} per pura comodità,
in generale avremmo scritto
λxk −λ
pk = P (X = xk ) = e , k ∈ IX = N ∪ {0}.
xk !
Verifichiamo che sia una distribuzione di probabilità:
1. pk ≥ 0,

2.

X
−λ
X λk
pk =e =1 (espansione di Maclaurin)
k≥0 k=0
k!

Si ottiene
X
EX = xk p k
k≥0

−λ
X λk
=e (per k = 0 il primo addendo è nullo)
k=1
(k − 1)!

−λ
X λk−1
=λe
k=1
(k − 1)!

X λs
=λe−λ
s=0
s!
=λ (espansione in serie della funzione esponenziale).

V ar(X) = EX 2 − (EX)2 = λ.

Infatti,
∞ k ∞ ∞
2 −λ
X
2λ −λ
X λk−1+1 −λ
X λs+1
EX = e k =e k =e (s + 1) = λEX + λ.
k=0
k! k=1
(k − 1)! s=0
s!

La funzione di ripartizione è data da



 X 0, x < 0
FX (x) = pk , x ≥ 0

k≥0 : k≤x
Capitolo 7. Distribuzioni di probabilità elementari 191

Esercizio 130. Dimostrare che una v.a. di Poisson è chiusa rispetto alla somma, che
vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 ) e X2 ∼ P ois(λ2 ).

Esercizio 131. Calcolare la funzione caratteristica di X.

La v.a. di Poisson viene anche detta legge degli eventi rari perché, fissato λ, si ha
la convergenza in legge

Bin(n, λ/n) → P ois(λ) per n→∞

partendo quindi da successi legati alla probabilità p = λ/n che decresce al crescere
delle prove.

7.2 Variabili continue -


Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per le quali
possiamo calcolare la corrispondente legge di densità fX .

Uniforme. Sia X ∼ U nif (a, b) con a < b ed a, b ∈ R. Allora


1
fX (x) = 1[a,b] (x), x ∈ R.
b−a
Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di Lebesgue
dell’insieme (a, x] ⊂ (0, 1).

1 b 2 − a2 a+b
EX = =
b−a 2 2
che è la media aritmetica di a e b,

(b − a)2
V ar(X) =
12

 0, x≤a
FX (x) = (x − a)/(b − a), a ≤ x ≤ b .
1, x≥b

Esercizio 132. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z = X + Y .

Esercizio 133. Una v.a. Uniforme è continua o assolutamente continua?

Esercizio 134. Calcolare la funzione caratteristica di X.


192

Osservazione 44. Siano X1 , X2 due v.a. indipendenti e uniformi in (0, 1), allora X =
(X1 , X2 ) è uniforme in Q = (0, 1) × (0, 1) e scriveremo X ∼ U nif (Q). Se invece
R = (0, a) × (0, b) è un rettangolo con a, b > 0 e X ∼ U nif (R), cioè il vettore X è
uniforme in R, allora
1 1
fX (x) = fX1 ,X2 (x1 , x2 ) = 1R (x1 , x2 ) = 1R (x), x = (x1 , x2 )
|R| |R|

dove |R| = area(R) = ab. Si vede subito che

1 1 1
1R (x1 , x2 ) = 1(0,a) (x1 ) · 1(0,b) (x2 ).
|R| a b

Inoltre, vale una forma continua di impostazione classica della probabilità , cioè se
X ∼ U nif (R), per ogni A ⊆ R, si ha

|A|
P (X ∈ A) = .
|R|

Esponenziale. Sia X ∼ Exp(λ) con λ > 0. Allora

fX (x) = λe−λx 1[0,∞) (x), x ∈ R.

1
EX =
λ

1
V ar(X) =
λ2

0, x≤0
FX (x) = −λ x λ > 0.
1−e , x≥0

Esercizio 135. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y . Calcolare fZ


dove Z = X + Y .

Esercizio 136. Calcolare la funzione caratteristica di X.

Gamma. Sia X ∼ Gamma(λ, ν) con parametri λ, ν > 0. Allora

λν ν−1 −λx
fX (x) = x e 1[0,∞) (x), x∈R
Γ(ν)
Capitolo 7. Distribuzioni di probabilità elementari 193

dove Z ∞
Γ(z) = uz−1 e−u du, z>0 (7.3)
0
è la funzione Gamma. Si ottiene che

ν
EX =
λ

ν
V ar(X) =
λ2

0, x≤0
FX (x) =
Γ(x, λ, ν), x > 0
dove
x
λν ν−1 −λu
Z
Γ(x, λ, ν) = u e du
0 Γ(ν)

è la Gamma incompleta.

Esercizio 137. Dimostrare che la Gamma è chiusa rispetto alla somma.

Esercizio 138. Calcolare la funzione caratteristica di X.

Diamo alcune proprietà molto importanti della funzione Gamma:

• (la formula di duplicazione) per m ∈ N, z > 0, si ha che


m  
Y k−1 m−1 1
Γ z+ = (2π) 2 m 2 −mz Γ(mz). (7.4)
k=1
m

• (la formula di riflessione) per z > 0, si ha che


π
Γ(z)Γ(1 − z) = . (7.5)
sin πz

• (la funzione fattoriale) per z > 0, si ha che

Γ(z + 1) = z!, per z ∈ N, (7.6)

Γ(z + 1) = zΓ(z), per z ∈ R.


194

Dalle proprietà del fattoriale,

Γ(1) = Γ(2) = 1.

Inoltre, per m = 2, si ottiene


  √
1 4π
Γ(z)Γ z + = z Γ(2z)
2 4
dalla quale si vede subito che
√ 1√
   
1 3
Γ = π, Γ = π, ... .
2 2 2

Esercizio 139. Dimostrare che Γ(z) = (z − 1)! se z ∈ N.

Cauchy. Se X ∼ Cauchy,
1
fX (x) = , x ∈ R.
π(1 + x2 )

EX =∞

1 1
FX (x) = + arctan(x), x ∈ R.
2 π
Esercizio 140. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞).

Esercizio 141. Quale trasformata associamo ai momenti della Cauchy e per quali
valori è definita?

La funzione caratteristica di una Cauchy è data da

φX (ξ) = e−|ξ| , ξ ∈ R.

Normale e Normale standard (Gaussiana). Sia X ∼ N (µ, σ 2 ) con µ ∈ R e σ 2 >


0. Allora
1 (x−µ)2
fX (x) = √ e− 2σ2 , x∈R
2πσ 2

EX =µ
Capitolo 7. Distribuzioni di probabilità elementari 195

V ar(X) =σ 2
 
1 x−µ
FX (x) = √ Φ √ , x∈R
2σ 2 2σ 2
dove
x 2
e−u
 Z
√ du, x≤0

x −u2
Z 
e −∞ Z π

Φ(x) = √ du = x −u2
−∞ π 1 e
√ du, x ≥ 0

 +

2 0 π

è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta Normale


standard. Se X ∼ N (0, 1) e Y = aX + b, si ottiene Y ∼ N (b, a2 ). Inoltre, se
X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per ogni i, allora
!
X X X
a+ bi X i ∼ N a + bi µ i , b2i σi2 .
i i i

La funzione caratteristica di una Normale standard è data da


ξ2
φX (ξ) = e− 2 , ξ ∈ R. (7.7)

Infatti,

X (iξ)r
φX (ξ) = Mr (X)
r=0
r!

dove

EX 2k , r = 2k
Mr (X) = k∈N
EX 2k+1 = 0, r = 2k + 1
e
2 2
Z − x2 Z ∞ − x2
2k 2k e Γ(k + 1/2) 2k e
EX x √ dx = 2
= x √ dx = 2k √
R 2π 0 2π π

dove si è posto x = y (ricordiamo anche che Γ(1/2) = π 1/2 ). Dalla formula di
duplicazione della Gamma, si ottiene per r = 2k

k 1 4π Γ(2k)
Mr (X) =2 √
π 4k Γ(k)
196

1 2k Γ(2k)
=
2k k Γ(k)
1 Γ(2k + 1)
= k
2 Γ(k + 1)
1 (2k)!
= k
2 (k)!
e Mr (X) = 0 per r = 2k + 1. Si ottiene la (7.7) dalla serie

X (iξ)2k 1 (2k)!
φX (ξ) = , ξ∈R
k=0
(2k)! 2k (k)!
e ricordando che i2 = −1.
Esercizio 142. Dimostrare che Mr (X) = 0 per r = 2k + 1, k ∈ N.
Esercizio 143. Calcolare la funzione caratteristica di Y ∼ N (µ, σ 2 ).

Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di v.a. Gaussiane


(non necessariamente indipendenti!!), allora X è detta v.a. Normale (o v.a. Gaussiana)
multidimensionale. La densità di X è la densità multidimensionale
 
1 1 −1 T
fX (x) = p exp − (x − µ)Σ (x − µ)
(2π)n |Σ| 2
dove x = (x1 , . . . , xn ) ∈ Rn , µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore (x − µ)
trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la matrice inversa di
 
σ1,1 σ1,2 . . . σ1,n
 σ2,1 σ2,2 . . . σ2,n 
Σ =  .. ..  = {σi,j } con 1 ≤ i, j ≤ n.
 
.. ..
 . . . . 
σn,1 σn,2 . . . σn,n
La matrice Σ è detta matrice di varianze e covarianze (o semplicemente, delle cova-
rianze) di X e
σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i
per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi la diago-
nale di Σ è costituita dalle varianze degli elementi del vettore X. Ovviamente se le
componenti sono indipendenti si ottiene
Σ = diag{σi,i }1≤i≤n
mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per ogni i,
Σ = σ2I
dove I è la matrice identità.
Capitolo 7. Distribuzioni di probabilità elementari 197

Weibull. Sia X ∼ W eibull(λ, n) con parametri λ > 0 e n ∈ N. Allora


λn
fX (x) = xn−1 e−λx 1[0,∞) (x), x∈R
(n − 1)!

Pn con ν = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ) sono v.a.


che è quindi una Gamma
indipendenti, allora i=1 Xi ∼ W eibull(λ, P n). Inoltre,P
per quanto appena detto, la
Weibull è chiusa rispetto alla somma, infatti ni=1 Xi + m j=1 Xj ∼ W eibull(λ, n +
m).

Beta. Sia X ∼ Beta(α, γ) con parametri α, γ > 0. Allora


1
fX (x) = xα−1 (1 − x)γ−1 1[0,1] (x), x∈R
B(α, γ)

Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero) sono detti


gradi di libertà. Allora
 ν  ν −1 ν x
fX (x) = 2 2 Γ x 2 −1 e− 2 x ≥ 0, ν > 0
2
e si ha:
EX = ν e V ar(X) = 2ν,
se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora ni=1 Ni2 ∼ χ2 (n),
P

se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora ni=1 Xi ∼ χ2 ( ni=1 νi ),


P P

X1
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1 +X2
∼ Beta(ν1 /2, ν2 /2),
X1 /ν1
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X2 /ν2
∼ F (ν1 , ν2 ).

T di Student. La variabile prende il nome da Gosset, ingegnere presso Guinnes che


si firmava come Student. Se X ∼ T ,
1 1
fX (x) = 1 ν
√  ν+1 x ∈ R, ν > 0
B ,
2 2
ν 1− x2 2
ν

che è simmetrica e tende alla normale al crescere di n, si ha:



se Z ∼ N (0, 1) e G ∼ Gamma ν2 , ν2 sono indipendenti, allora Z/ G ∼ T (ν),


T 2 ∼ F (1, ν),
T (1) = Cauchy(0, 1).
198

La variabile F. La variabile di Fisher-Snedecor ha legge di densità


µ ν µ
µ2 ν 2 x 2 −1
fX (x) = µ+ν , x ≥ 0, µ, ν > 0
B µ2 , ν2 (µx + ν) 2


Quartile, decile, centile


Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R sappiamo che
P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli disgiunti Dj tali che
D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si definiscono quartili, quei valori per
cui α = 1/4 ed in particolare

Dj = [dj , dj+1 ), j = 0, 1, 2, 3

dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui α = 1/10 e

Dj = [dj , dj+1 ), j = 0, 1, . . . , 9

dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei valori per cui
α = 1/100 e

Dj = [dj , dj+1 ), j = 0, 1, . . . , 99

dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i quantili di
ordine α = 1/n. Il quantile di ordine 1/2 è la mediana.
Capitolo 7. Distribuzioni di probabilità elementari 199

Tabella 7.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1).
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91308 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997

Come si legge una tavola? Se voglio calcolare z tale P (Z ≤ z) = Φ(z) = 0.95 devo
cercare 0.9500 nella tavola, mi accorgo che non c’è ma posso considerare il valore più
vicino che è 0.95053. Tale valore corrisponde alla riga 1.6 e alla colonna 0.05. Allora,
z = 1.6 + 0.05 = 1.65 è il valore cercato.
200
Appendice A

Esercizi

Esercizio 144. In una stanza ci sono 100 persone che devono essere visitate da due
medici. Il primo medico arriva alle 8:00 AM e inizia le visite, osservati tutti i pazienti
arriva alla conclusione che 10 di loro sono affetti da crioglobulinemia. Il secondo
medico arriva alle 2:00 PM e non trova il primo medico, decide di iniziare le visite.
Preso un paziente a caso, con quale probabilità è affetto da crioglobulinemia?
Esercizio 145. Si consideri il precedente esercizio. Se il medico scegliesse a caso 3
pazienti, con quale probabilità tutti sono affetti da crioglobulinemia?
Esercizio 146. Da precedenti osservazioni una società ha registrato una perdita mag-
giore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità
che nel prossimo anno la società registri una perdita maggiore del 5% in almeno una
delle sue 20 agenzie.
Esercizio 147. Da precedenti osservazioni una società ha registrato una perdita mag-
giore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità
che nel prossimo anno la società non registri una perdita maggiore del 5% in almeno
una delle sue 20 agenzie.
Esercizio 148. Due fabbriche locali, diciamo A e B, producono telefoni cellulari e
la percentuale di telefoni difettosi è uguale al 5% per la ditta A e al 1% per la ditta
B. Il mercato è chiuso e si possono acquistare telefoni solo da queste due fabbriche.
Inoltre, A e B immettono sul mercato locale lo stesso numero di prodotti. Calcolare
la probabilità di acquistare un telefono difettoso. Dopo aver acquistato due telefoni
vedo che provengono dalla stessa fabbrica (senza sapere se è A oppure B). Se il primo
telefono è difettoso, con quale probabilità sarà difettoso anche il secondo?
Esercizio 149. Si consideri la situazione del precedente Esercizio 148 nel caso in cui
il mercato non è chiuso ed A immette sul mercato il 60% dei prodotti dei B. Inoltre, i
prodotti di entrambe le fabbriche rappresentano il 20% della domanda.

201
202

Esercizio 150. Una fabbrica produce sensori laser che escono da due linee di pro-
duzione, diciamo linea A e linea B. Dalla linea A escono il 30% dei prodotti. Si
riscontra che la percentuale di pezzi difettosi nelle due linee è pari al 15% e 12%
rispettivamente. Calcolare:

1. P (un sensore scelto a caso sia difettoso),

2. P (il sensore difettoso e scelto a caso provenga dalla linea A).

I sensori vengono confezionati in scatole da 10 pezzi della stessa linea. Viene ispezio-
nata una scatola a caso e k sensori risultano difettosi (si noti che k ≤ 10). Calcolare:

3. P (la scatola proviene dalla linea A),

4. P (la scatola proviene dalla linea B)

Esercizio 151. In una slot machine si vincono 10 euro con una puntata di 1 euro. Si
vince una volta su dieci. Avendo a disposizione 10 euro, calcolare la probabilità di
vincere per la prima volta al decimo tentativo. Calcolare la probabilità di vincere 10
euro.

Esercizio 152. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = x/y.
Caratterizzare Z nei seguenti casi:

1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2),

2. X ∼ U nif (0, 1) e Y ∼ Exp(λ),

3. X ∼ Exp(λ) e Y ∼ Exp(λ).

Esercizio 153. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = xy.
Caratterizzare Z nei seguenti casi:

1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2),

2. X ∼ U nif (0, 1) e Y ∼ Exp(λ),

3. X ∼ Exp(λ), λ > 0 e Y ∼ U nif (0, 1),

4. X ∼ Exp(λ) e Y ∼ Exp(λ).

Esercizio 154. Siano X ∼ U nif (0, 1) e Y ∼ P ois(λ), λ > 0 due v.a. indipendenti.
Scrivere la f.r. della v.a. Z = X + Y .

Esercizio 155. Siano X ∼ U nif (0, 1) e g(x) = |x − 1|−1 . Studiare Y = g(X).


Appendice A. Esercizi 203

Esercizio 156. Siano X ∼ U nif (0, 1) e Y ∼ U nif (0, 1) tali che X ⊥ Y . Sia
g(x, y) = |x − y|. Studiare Z = g(X, Y ).

Esercizio 157. Siano X ∼ Exp(λ), λ > 0 e U ∼ U nif (0, 1) due v.a. indipendenti.
Studiare la v.a. s
1
Y = X − ln U .
λ

Esercizio 158. Sia {Xk }k∈N una successione di v.a. indipendentiP


ognuna esponenziale
di parametro λk > 0. Si dimostri che X(1) ∼ Exp(λ) dove λ = nk=1 λk . Si scriva la
densità di Z = X(n) .

Esercizio 159. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1). Studiare la
convergenza della v.a.
Zn = min {Xk }.
1≤k≤n

Esercizio 160. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1) e Zn =
min1≤k≤n {Xk } . Studiare la convergenza della v.a.

Yn = n · Zn .
204
Appendice B

Alcune somme notevoli

n
X n
X
c=c+ c = c(n + 1) (banale!)
k=0 k=1

n n
X X n(n + 1)
k= k= (somma dei primi n numeri)
k=0 k=1
2

n n
X
2
X n(n + 1)(2n + 1)
k = k2 = (somma dei primi n quadrati)
k=0 k=1
6

n n  2
X
3
X
3 n(n + 1)
k = k = (somma dei primi n cubi)
k=0 k=1
2

n
X
(2k − 1) = n2 (verificare!)
k=1

n  
X n
= 2n (verificare!)
k=0
k


X 1
=e (verificare!)
k=0
k!

205
206


X (−1)k 1
= (verificare!)
k=0
k! e


X k
=1
k=1
(k + 1)!

n
X xm − xn−1
xk = (verificare!)
k=m
1−x

n
!2 n n n
X X X X X
xk = xk xs = x2k + xk xs
k=1 k=1 s=1 k=1 0≤k≤n
0≤s≤n
k6=s
Formulario

207
208
Appendice C

Svolgimenti

Svolgimento Esercizio 12. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) ri-
caviamo media x̄ e varianza σ̄ 2 . La stima puntuale del prezzo medio è la media cam-
pionaria. Non interviene la varianza campionaria che invece risulta essere un infor-
mazione importante. Per tale motivo cerchiamo una stima intervallare e rispondiamo
al secondo punto. Supponiamo che X ="prezzo" si distribuisce come una normale
di media µ e varianza σ 2 , le stime trovate sono µ̂ = x̄ e σ̂ 2 = σ̄ 2 quindi la variabile
standardizzata
X −µ
Z= per cui si ha X = µ + σZ
σ
ci consente di definire gli estremi di interesse per l’intervallo che stiamo cercando. La
variabile Z è la normale standard, le quantità zα codificati nelle tavole dei percentili
della Z secondo la relazione P (z α2 < Z ≤ z1− α2 ) = 1 − α ci consentono di trovare
x1 , x2 tale che P (x1 < X ≤ x2 ) = 1 − α dalle relazioni

x1 = x̄ + σ̄z α2 e x2 = x̄ + σ̄z1− α2 . (C.1)

Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i percentili che
ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica e centrata in zero. Si
osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ).

Soluzione Esercizio 28. Dato Ω = B ∪ B̄, si ottiene

P (A ∩ Ω) = P (A ∩ B) + P (A ∩ B̄) = P (A)P (B) + P (A ∩ B̄)

dove si sono considerate l’intersezione con un evento e l’indipendenza di A e B.


Allora,

P (A ∩ B̄) = P (A) 1 − P (B) = P (A)P (B̄).

209
210

Soluzione Esercizio 31.


a)
n!(13 − n)! 1
P (tutte minori o uguali ad n) = = 13 , n = 1, 2, . . . , 13
13! n

b)
13−n

n
P (tutte maggiori di n) = 13
 , n ≤ 13 − n (C.2)
n
e
P (tutte maggiori di n) = 0, n > 13 − n (C.3)

c)
1
P (tutte di cuori) =
4

Soluzione Esercizio 32.


1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4

2. (5/9)2 · (4/9)2

3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅}

4. 2 · [(5/9)2 · (4/9)2 ] − 2 · 0

5. 2 · (5/9)2 · (4/5)2

Svolgimento Esercizio 44. Si deve considerare


Z ∞ Z ∞
P (X > x)µ(dx) = P (X ∈ (x, ∞))µ(dx)
0 0
Z ∞
= E1(x,∞) (X)µ(dx)
0
Z ∞
= E1(0,X) (x)µ(dx)
0
Z ∞ 
=E 1(0,X) (x)µ(dx) (linearità media/intergale)
0
Z X 
=E µ(dx)
0
=EX
Appendice C. Svolgimenti 211

infatti
Z X Z X
dx = X e µδ (dx, spet(X)) = X ∈ spet(X).
0 0

Soluzione Esercizio 48.

1. Passando alle coordinate polari si ha che


x ρ cos θ
lim = lim = 0 uniformemente
z→∞ x2 + y 2 ρ→∞ ρ2
cioè per ogni angolo θ. Quindi il limite è 0.

2. Passando alle coordinate polari e considerando che la funzione è positiva si trova


che diverge positivamente (verificare!!). Inoltre, si poteva osservare che
2
3x2 + 2y 2 3 xy2 + 2 1
= x2 y2
(x2 + y 2 )2 +2+ x2
y2 x2

e quindi

3x2 + 2y 2 5 1
lim 2 2 2
= lim = +∞.
(x,y)→(0,0) (x + y ) x→0 4 x2

3. Si può passare alle coordinate polari, vedere che si ottiene una forma indetermi-
nata (ma non uniformemente e questo già è sufficiente) e quindi usare la regola
di de l’Hôpital per vedere che il limite diverge ma non per tutti i valori di θ (non
per θ = π/4). Oppure si può vedere cosa succede sulle rette, basta considerare
y = mx per ottenere

x2 (1 + m2 )(1 − m) + (1 − m)
lim =∞
x→0 2x(1 + m2 )

ma non uniformemente (cioè, non per m = 1). Il limite non esiste, la funzione
in (0, 0) non ammette limite.

2 2 2 2
Soluzione Esercizio 50. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere la
normale multidimensionale. Quindi κ = 1/π e
2
e−xj
fXj (xj ) = √ , j = 1, 2.
π
212

Soluzione Esercizio 54. Conosco la v.a. X e la sua legge di densità definita su


supp(X), devo trovare la densità della v.a. Y = g(X). Se g è invertibile, allora X =
g −1 (Y ) e posso usare le informazioni in mio possesso, i dati del problema. Essendo
g(x) = x2 continua e X v.a. continua, allora Y è continua e supp(Y ) = supp(X 2 ). In
particolare vale il teorema fondamentale del calcolo integrale e fY (y) = FY0 (y). Dalla
f.r.

FY (y) =P (Y ≤ y)
=P (X 2 ≤ y)

=P (|X| ≤ y)
√ √
=P (− y ≤ X ≤ y)
Z √y
= √ fX (x)dx
− y

e dalla formula (54), ricaviamo


 
1 √ √
fY (y) = √ fX ( y) + fX (− y) 1supp(X 2 ) (y).
2 y

Soluzione Esercizio 56. Conosco fX e fY , voglio trovare fZ . Le v.a. X, Y sono


continue, la funzione g(x, y) = x/y è continua, la composizione di funzioni conti-
nue Z = g(X, Y ) è continua, allora fZ = FZ0 . Il supporto della v.a. Z può essere
ricostruito a partire dai limiti

lim g(x, y0 ), lim g(x, y0 ), fissato y0 ∈ (0, 1)


x→0+ x→∞

lim g(x0 , y), lim g(x0 , y), fissato x0 ∈ (0, ∞)


y→0+ x→1−

e si ottiene supp(Z) = (0, ∞). Inoltre la coppia (Y, X) ∈ D dove il dominio D =


(0, 1) × (0, ∞) è una striscia infinita e rappresenta la regione del piano ammissibile
per il problema dato, posso considerare solo i punti in D ⊂ R2 . La f.r. si ottiene
considerando la probabilità

FZ (z) =P (Z ≤ z)
=P (X ≤ zY ) moltiplico per Y ≥ 0 e non cambio il verso della dis.

e quindi tutti i punti

Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z).


Appendice C. Svolgimenti 213

Si vede subito che per ogni z ∈ (0, ∞), Az ∩ D è una regione del piano che identifica
sempre la stessa figura geometrica, ho una sola figura e un solo caso per z, cioè z > 0.
Considerando un riferimento cartesiano (di assi y, x invertiti), rappresentando Az ∩ D
e quindi la retta X = zY , vedo che per ogni z > 0
Z 1 Z zy
P (X ≤ zY ) = dy dxf(Y,X) (y, x)
0 0

dove f(Y,X) (y, x) = fX (x)fY (y) per il fatto che X ⊥ Y . Sostituendo si ottiene
Z 1 Z zy
P (X ≤ zY ) = dy1(0,1) (y) dxλe−λx
Z0 1 0

dy 1 − e−λzy

=
0
1 − e−λz
=1 − , z>0
λz
ed avendo una sola figura geometrica,

0, z<0
FZ (z) =
P (Z ≤ zY ), z > 0.
Si vede che
1 − e−λz λe−λz
lim FZ (z) = 0, lim FZ (z) = lim 1 − = lim 1 − =0
z↑0 z↓0 z→0 λz z→0 λ
e scriviamo

 0, z≤0
FZ (z) = −λz
1−e
 1− , z > 0.
λz
Inoltre, limz→∞ FZ (z) = 1. Derivando la f.r. si ottiene la densità
1
fZ (z) = 2 1 − e−λz − λze−λz 1(0,∞) (z), z ∈ R.

λz

Soluzione Esercizio 63.


1. κ = θ/aθ e θ > 0
2. si ottiene V ∈ (0, log(1 + a)1/2 ) e

 0, 
 θ
v<0
2v
FV (v) = 1 − 1 + 1−ea , 0 ≤ v ≤ log(1 + a)1/2

v > log(1 + a)1/2

1,
214

3.
 θ−1
θ 1 1
fZ (z) = θ 2 a− 1(1/a,∞) (z)
a z z

Soluzione Esercizio 64. Si vede subito che supp(Z) = (0, +∞). Passiamo al secon-
do punto dell’ Esempio 19: si vede che D = (0, +∞) × (0, +∞) = D1 , non occorre
costruire una partizione di D che identifichi diverse forme geometriche per D1 ∩ Az ,
z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre un triangolo. Si noti che Az è
costituito da tutti i punti (x, y) del piano tali che x + y ≤ z, cioè anche dai punti con
x e y negativi. Invece, D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0
(si ricordi che z > 0). Si ottiene la f.r.

 0, z≤0
FZ (z) = P (T ), z ∈ (0, ∞)
1, z = ∞ (in questo caso non va considerato)

dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 = (0, z), T3 =


(z, 0). L’evento certo, non va considerato perché, in casi come questo, può essere
ricondotto a P (T ) con z → ∞. Si costruisca il grafico e si verifichi quanto appena
detto. Dal grafico se vede che
Z z Z z−x
P (T ) = P ((X, Y ) ∈ T ) = dx dyfX (x)fY (y)dxdy
0 0

e quindi
Z z
dxλe−λx 1 − e−µ(z−x) dx

P (T ) =
0
λ
=1 − e−λz − e−µz − e−λz = P (Z ≤ z).

λ−µ
Si ottiene la densità

λ
λe−λz − λe−λz − µe−µz , z ∈ (0, ∞),
 
fZ (z) = λ−µ
 0, z∈/ (0, ∞).

Soluzione Esercizio 67. Si disegni il grafico.


a)

P (Z < z) =P (X + Y < z) = P (Y < z − X)


Appendice C. Svolgimenti 215

Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre 0 < X < 1 se


X + Y = z > 1. Quindi si ottiene


 0, z≤0


 R
z R z−x −λy
P (Z < z) = 0
dx 0
λe dy = z − e−λz (eλz − 1)/λ, z ∈ (0, 1]




 R 1 R z−x −λy
0
dx 0 λe dy = 1 − e−λz (eλ − 1)/λ, z > 1
La legge di densità è quindi


 1 − e−λz , z ∈ (0, 1]



fZ (z) = e−λz (eλ − 1), z > 1




0, altrove

b)
FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ).
c) La somma di due esponenziali di parametro λ è una gamma di parametri (2, λ),
quindi
fZ (z) = λ2 ze−λz 1(0,∞) (z)

Svolgimento Esercizio 69.


1. Si vede che f > 0 se κ > 0. Inoltre
Z r
1 θ
1= f (x)dx se θ = 2 ≥ 0 κ= ≥0
R 2σ π
Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞).
2. X ∼ N (0, 1/2θ)
3. Volendo fissare due valori
√ (per semplificare i conti) si può scegliere θ = 1 e di
conseguenza κ = 1/ π. Si ottiene
e−y y 1/2−1 −y
fY (y) = √ = e , y≥0
yπ Γ(1/2)
che è una Gamma(1/2, 1).
4. Z ∼ Gamma(n/2, 1), quindi
z n/2−1 −z
fZ (z) = e , z≥0
Γ(n/2)
216

Svolgimento Esercizio 73. Si consideri Ω = (X1 ≤ X2 ) ∪ (X1 > X2 ).

Svolgimento Esercizio 76. Si deve considerare che la somma di k Bernoulliane


indipendenti di parametro p è una Bin(k, p).

Svolgimento Esercizio 84. Dallo sviluppo in serie della funzione caratteristica e dal
fatto che
X X X
= +
r r pari r dispari

si vede che (ponendo r = 2k con k ∈ N, cioè r pari)


∞ ∞
X (iξ)r r! r X (−ξ 2 a)k 2
a 1(r pari) = = e−aξ = φX (ξ).
r=0
r! (r/2)! k=0
k!

Soluzione Esercizio 86. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X =


1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω))n → 0 e si ha convergenza
q.c.
puntuale in Ω. Si conclude che Zn → 0.

Soluzione Esercizio 87. Come nel precedente Esercizio 86 X ∈ (0, 1) q.c., cioè
q.c.
P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0.

Soluzione Esercizio 88. Un occhio attento vede subito che non conviene considerare
altre forme (più deboli) di convergenza, si può verificare subito la convergenza quasi
certa. In particolare, Y ∈ D è una v.a. finita e
1
∀ ω ∈ Ω Zn (ω) = X(ω) + Y (ω) → X(ω)
n
q.c.
(convergenza puntuale in Ω) e quindi Zn → X.

Soluzione Esercizio 89. Si vede subito che fXn → 0 uniformemente mentre la f.r.

 0,
 x < −n
x+n
FXn (x) = , x ∈ [−n, +n)
 2n

1, x≥n
1
converge a FX (x) = 2
per ogni x ∈ R (puntualmente). Diciamo allora che Xn non
converge in R1 .
1
Potremmo dire però che Xn diverge con probabilità 1 (q.c.) ad X ”degenere” ed in particolare
P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove R∗ = R ∪ {−∞} ∪ {+∞} è
l’estensione di R (il completamento dei reali).
Appendice C. Svolgimenti 217

Soluzione Esercizio 90. Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e la


f.r.

 0, x<0
FXn (x) = n2 x2 , x ∈ [0, n1 )
1, x ≥ n1

converge a

0, x < 0
FX (x) =
1, x ≥ 0.

Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità.

Svolgimento Esercizio 91. Si deve sfruttare



iξX
X (iξ)k
Ee = EX k
k=0
k!

per una v.a. X e i2 = −1. Allora si ha che


ξ 2
1. φXj (ξ) = 1 − 2n
 n
ξ2
2. φZn (ξ) = 1 − 2n

ξ2
3. φZ∞ (ξ) = e− 2 e quindi
x2
e− 2
fZ∞ (x) = √ , x ∈ R.

Soluzione Esercizio 92.


n 

 
α
P (Yn ≤ y) =P X ≥ 1 − → P (X ≥ e−y )
n

da cui si ricava

0, y≤0
FY (y) = −y α .
1−e , y >0

d
Si noti che per α = 1, Yn → Y ∼ Exp(1).
218

Soluzione Esercizio 93.

fXk (x) = n1(0,1/n) (x), x ∈ R,


 0, x ≤ 0
FXn (x) = nx, 0 < x ≤ 1/n
1, x > 1

si vede che

0, x < 0
lim FXn (x) =
n→∞ 1, x ≥ 0

e Xn → 0 in distribuzione (e quindi anche in probabilità). Inoltre, Yn → 0 in di-


stribuzione essendo il massimo di una successione infinitesima (e quindi anche in
probabilità).

Soluzione Esercizio √ 95. EXk = 0 e V ar(Xk ) = 1 per ogni k allora EZn = 0


e V ar(X̄n ) = 1/ n. Si può applicare il teorema del limite centrale e Zn → Z ∼
N (0, 1) in distribuzione. Infatti

1/n X̄n − 0
Zn = √ .
1/n 1/ n

Soluzione Esercizio 96. EXk = λ e EYk = 0, V ar(Yk ) = V ar(Xk ) = λ. Inoltre,


V ar(Ȳn ) = λ/n. Posso applicare il teorema del limite centrale considerando che

Ȳn − 0
Zn = p .
λ/n
Pn
Yk ] = 0, V ar(Yk ) = 1/λ2 e V ar( nk=1 Yk ) =
P
Soluzione Esercizio 97. EYk = 0 e E[ k=1
n/λ2 , quindi

Ȳn 1 Ȳn − 0
Zn = =
√1 λ λ√1 n
n

e applicando il teorema del limite centrale


1
Zn → Z ∼ N (0, 1/λ2 )
λ
in distribuzione.
Appendice C. Svolgimenti 219

Soluzione Esercizio 99.


1. 0,
R∞
2. Bisogna osservare che l’integrale si riduce a 1
2 0
ye−y dy e quindi la soluzione
MC è data da
n
1 X
Xj , Xj ∼ Exp(1),
2n j=1

3. Si vede che Z √
1 + x2
Z
1
√ dx = 2
dx
R 1 + x2 R 1+x
e quindi una soluzione MC è
n
π Xq
1 + Xj2 , Xj ∼ Cauchy.
n j=1

In alternativa, si può considerare che


Z ∞
1 1 1 2
√ = u 2 −1 e−u(1+x ) du
1 + x2 Γ(1/2) 0

e quindi
Z Z Z ∞
1 1 1 2
√ dx = u 2 −1 e−u(1+x ) du dx
R 1 + x2 R Γ(1/2) 0
Z 
−x2 Y
=E e dx
R

dove Y ∼ Gamma(1, 1/2). Osservando che (integrale della densità N (0, (2a)−1 ))
Z Z
−x2 a 1 x2
e− 1/a dx = π/a
p p
e dx = π/a p
R R π/a
si ottiene
Z
1 p
√ dx = E π/Y
R 1 + x2
che introduce una soluzione MC per il problema dato, cioè
√ X n
π 1
, Yk ∼ Gamma(1, 1/2).
n k=1 Yk
220

Soluzione esercizio 102. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè sono
n copie di una stessa variabile X che rappresenta la popolazione di interesse. La v.a.
varianza campionaria è data dalla somma
n n
1X 1 X
(Xk − µ + µ − X̄)2 = (Xk − µ)2 − 2(Xk − µ)(X̄ − µ) + (X̄ − µ)2

n k=1 n k=1
n
1X
= (Xk − µ)2 − (X̄ − µ)2 .
n k=1

Passando al valor medio si vede che


" n # n
1X 2 1X
E (Xk − µ) = E(Xk − µ)2 (linearità della media)
n k=1 n k=1
n
1X
= V ar(Xk )
n k=1
2
=σX (le v.a. sono identicamente distribuite)

e
2
σX
E(X̄ − µ)2 = V ar(X̄) = .
n
Infatti,
n
2 1 X 2 1 X
X̄ = 2 Xk + 2 Xk Xs
n k=1 n 0≤k,s≤n
k6=s

dove EXk2 = σX 2
per ogni k e Cov(Xk , Xs ) = 0 per ogni k 6= s. Quindi E X̄ 2 = σX
2
/n.
Si ottiene che
" n #
1X n−1 2
E (Xk − X̄)2 = σX
n k=1 n

e lo stimatore non è corretto. Si vede però che è asintoticamente corretto.

Soluzione esercizio 103. Dal precedente Esercizio 102 si vede che


" n #
2 n 1 X
ESn−1 = E (Xk − X̄)2 = σX 2
n−1 n k=1

quindi lo stimatore è corretto.


Appendice C. Svolgimenti 221

Svolgimento Esercizio 104. La v.a. media campionaria


n n
1X 1X
X̄n = Xk ha media E X̄n = EXk
n k=1 n k=1

per la linearità della media. Le variabili Xk , per ogni k, sono supposte essere copie
(indipendenti, ma in questo caso non importa) di una v.a. X che descrive una certa
popolazione oggetto di studio. Quindi, se Xk ∼ X per ogni k (sono i.d.), allora
EXk = EX per ogni k. sia µ = EX la media vera della popolazione. Otteniamo che
µ
b = x̄ è lo stimatore per il parametro µ, X̄ (o X̄n ) è la v.a. stimatore per µ e E X̄ = µ.
Lo stimatore X̄ è corretto.

Svolgimento Esercizio 105. Si è già visto che la v.a. X̄ è uno stimatore corretto,
calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno al suo valore
centrale (cioè, il valore medio) è data da
2
σX̄ = E(X̄ − µ)2 = E X̄ 2 − µ2

dove (per la linearità della media ed il quadrato di una somma, Appendice B)


n n
2 1 XX
E X̄ = 2 E[Xk Xs ].
n k=1 s=1

A questo punto è importante ricordare che le osservazioni sono realizzazione di v.a.


supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e quindi di covarianza nulla.
Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si ottiene
n n n
2 1 XX 2 2 1 X 2 n2 2 σX2
+ µ2 .

E X̄ = 2 σXk 1(s=k) + µ = 2 σX + 2 µ =
n k=1 s=1 n k=1 n n

La varianza cercata è
2
2 σX
σX̄ =
n
cioè la varianza teorica (finita) della popolazione caratterizzata dalla v.a. X diviso la
numerosità campionaria n. Come al solito, volendo sottolineare la dipendenza da n
scriviamo X̄n invece di X̄. Si vede subito che
2
2 σX
σX̄ = → 0 quando n → ∞.
n
n
222

Svolgimento Esercizio 107. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui


componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti (sono i.i.d.).
La realizzazione di X è il campione x. La densità della v.a. multidimensionale X,
essendo le componenti i.i.d., è data dal prodotto
1 Pn
n 2
Y e− 2σ2 k=1 (xk −µ)
fX (x) = fXk (xk ) = p
k=1
(2πσ 2 )n

dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a noi interessa,


in questo caso, sottolineare il fatto che dipende da µ. La funzione di verosimiglianza è
data dalla relazione L(µ; x) = fX (x; µ) ed il suo logaritmo restituisce la funzione
n
n 2 1 X
log L(µ; x) = − log(2πσ ) − 2 (xk − µ)2 .
2 2σ k=1

Si ottiene µ
bM V = x̄.

Svolgimento Esercizio 108. Dalla log-verosimiglianza calcolata nel precedente eser-


cizio
n
n 2 1 X
log L(µ; x) = − log(2πσ ) − 2 (xk − µ)2
2 2σ k=1

si ottiene subito che


n
2 1X
σ
bM V = (xk − µ)2 ,
n k=1

la varianza campionaria è stimatore di MV per la varianza della popolazione.

Svolgimento Esercizio 109. Si veda il precedente Esercizio 102.

Svolgimento Esercizio 110. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ)


per ogni j (variabili i.i.d.) si ha che
n
Y 1
fX (x) = 1[0,θ] (xj )
j=1
θ

con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si ottiene come al


solito dalla relazione L(θ; x) = fX (x; θ) e quindi
n
1 Y
L(θ; x) = 1[x ,∞) (θ)
θn j=1 j
Appendice C. Svolgimenti 223

ed ovviamente
n
X
log L(θ; x) = −n log θ + log 1[xj ,∞ (θ).
j=1

Svolgimento Esercizio 111. Si deve considerare

√ 
 
 |X̄ − µ|  
P |X̄ − µ| ≤  = P ≤ = P |N (0, 1)| ≤ n .
σX̄ σX̄ σ

Osservando che

P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95 ⇔ z = z0.975 ,

cioè 1.96 è il percentile z0.975 della tavola in Tabella 7.1 (si noti che 0.975 = 0.95 +
0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo a questo punto sfruttare
l’identità
√
n = 1.96 ⇒ n = (1.96σ/)2 oppure n ≥ (1.96σ/)2 .
 
σ
2
 relazione2 n ≥ (1.96σ/) sceglierò il più piccolo n, cioè la parte
Ovviamente, nella
intera superiore (1.96σ/) .

Svolgimento Esercizio 112. Si deve impostare un sistema di due equazioni nelle due
incognite µ, σ 2 (θ ∈ R2 ),

EX =x̄
EX 2 =x̄2

dal quale si ottiene,

µ
b = x̄ e b2 = x̄2 − (x̄)2 .
σ

Lo stimatore dei momenti è quindo dato dal vettore θbM = (b b2 )t .


µ, σ

Svolgimento Esercizio 113. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e


quindi H1 : µ 6= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva della X. Ci
interessa solo H0 . In particolare, per la v.a. media campionaria sotto l’ipotesi nulla si
ha che X̄n |H0 ∼ N (1, 1/n) con n = 30, quindi

P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95
224

dove la v.a. (standardizzata) in questione è


X̄n − 1
Z|H0 = √ ∼ N (0, 1)
1/ n
si ottiene dai percentili
a = z0.025 = −1.96 e b = z0.975 = 1.96
ottenuti dalla Tabella 7.1. Dal campione osservato si ha che
x̄ − 1 1√
−1.96 < √ = 30 < 1.96
1/ 30 5
e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade nella re-
gione di accettazione per H0 : µ = 1. Possiamo accettare, al 95% (o al livello di
significatività α = 0.05), l’ipotesi che X ∼ N (1, 1).

Svolgimento Esercizio 114. Riprendiamo quanto visto nell’Esercizio 113. In questo


caso si deve considerare un valore zoss diverso e per quale
x̄ − 1 2√
zoss = √ = 30 > 1.96
1/ 30 5
e si conclude che il valore stimato standardizzato sotto H0 cade nella regione di rifiuto
per H0 . Non possiamo accettare l’ipotesi nulla.

Svolgimento Esercizio 115.


1. λ̂M = 1/x̄ = λ̂M V . Infatti, il sistema di una sola equazione da risolvere è
EX = x̄
mentre lo stimatore di massima verosimiglianza si calcola dalla
L(λ; x) = λn e−λnx̄ e log L(λ; x) = −λnx̄ + n log λ

2. si deve osservare che


P (|X̄ − µ| ≤ ) = P (− ≤ |X̄ − µ| ≤ )
dove X̄ ∼ N (µ, 1/n) quindi
√ √ √
P (− ≤ |X̄ − µ| ≤ ) =P (− n ≤ n|X̄ − µ| ≤  n)
√ √
=P (− n ≤ Z <  n)
dove Z ∼ N (0, 1) e dalle tavole si vede che
P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48.

Quindi  n > 1.48 e n > (1.48/)2 .
Appendice C. Svolgimenti 225

Soluzione Esercizio 116.


a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 ) quindi
la stima per µY è la media campionaria del vettore y = ax = (ax1 , . . . , axn ).
Ovvero

µ
bX = ȳ = ax̄

essendo x̄ uno stimatore di massima verosimiglianza per µX .

b) Con il metodo dei momenti otteniamo

ȳ = EY = aEX = aµX

x̄ = EX = µX

quindi

µ
bX = x̄ ⇒ µ
bY = ax̄

c) Si deve calcolare la probabilità

P (|Ȳ − µY | < ) ≥ 0.95.

Quindi
|Ȳ − µX | √ √  √ √ 
 
P n< n =P − n < N (0, 1) < n = 0.95
a a a a
dove

P (N (0, 1) < z) ≥ 0.975 per z ≥ 1.96

ed otteniamo
√ a 2
n ≥ 1.96 ⇒ n≥ 1.96 .
a 

Svolgimento Esercizio 117.


1. λ̂ = x̄ = n1 ni=1 xi = conti
P

2. κ = λ−log θ > 0, basta osservare che θx = ex log θ . Inoltre θ̂M V = exp(−2/x̄) ∈


(0, 1)
226

Svolgimento Esercizio 118. Sia y = (y1 , . . . , yn )t il vettore da stimare e yb = xβb una


stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità (y − yb)2 =
b 2 rispetto al vettore βb = (βb0 , βb1 ), ovvero βb tale che Q(β)
(y − xβ) b = min dove
n
X
Q(β)
b = (yi − βb0 − βb1 xi )2 .
i=1

Si arriva al sistema
1 dQ
− = ȳ − βb1 x̄ − βb0 = 0
2n dβb0
n
1 dQ 1X
− = xi yi − βb1 x̄2 − βb0 x̄ = 0
2n dβb1 n i=1

che è un sistema di due equazioni in due incognite. La soluzione è unica ed è quella


cercata. Infatti dalla prima equazione si ricava subito βb0 . Sostituendo nella seconda ed
osservando che x̄2 − x̄2 = σ bX2
(è la varianza campionaria, cioè una stima di σX 2
) e che
P
i xi yi − x̄ȳ = σ
bXY (una stima della covarianza σXY ), si ricava β1 . Si verifica poi
b
che il punto trovato è effettivamente un punto di minimo per Q.

Soluzione Esercizio 120.


n
1 X iξk eiξn 1 − eiξ
φX (ξ) = e = , ξ ∈ R.
n k=1 n 1 − eiξn

Soluzione Esercizio 123.



X
φX (ξ) = C k −α−1 eiξk , ξ ∈ R.
k=1

Soluzione Esercizio 124. V ar(X) = q/p2 .

Soluzione Esercizio 126.



X k pqeiξ
φX (ξ) = q peiξ = , ξ ∈ R.
k=1
1 − eiξ

Soluzione Esercizio 128.


n  
X n k n
φX (ξ) = peiξ q n−k = q + peiξ , ξ ∈ R.
k=0
k
Appendice C. Svolgimenti 227

Soluzione Esercizio 131.



X 1 k iξ
φX (ξ) = e−λ λeiξ = e−λ(1−e ) , ξ ∈ R.
k=0
k!

Soluzione Esercizio 134.


eibξ − eiaξ
φX (ξ) = , ξ ∈ R.
ibξ − iaξ

Soluzione Esercizio 136.


λ
φX (ξ) = , ξ ∈ R.
λ − iξ

Soluzione Esercizio 138.


 ν
λ
φX (ξ) = , ξ ∈ R.
λ − iξ

Soluzione Esercizio 143.


σ 2 ξ2
φY (ξ) = Eeiξµ+iξσX = eiξµ EeiξσX = eiξµ− 2 , ξ ∈ R.

Svolgimento Esercizio 144. Le visite effettuate dal primo medico evidenziano una
distribuzione di frequenze relative:

• il 10% delle persone è affetto da crioglobulinemia,

• il 90% delle persone non è affetto da crioglobulinemia.

Il medico ha osservato ed ha ottenute delle frequenze. Il secondo medico sceglie a


caso, quindi per gli eventi

• A ="persona affetta da crioglobulinemia",

• Ac ="persona non affetta da crioglobulinemia",

si ha

P (A) = 0.1 P (Ac ) = 0.9

che sono probabilità.


228

Svolgimento Esercizio 145. Se sceglie 3 pazienti,

10 9 8
P (A, A, A) = .
100 99 98

Svolgimento Esercizio 146. Se indichiamo che A ="Agenzia con perdita maggiore


del 5%", allora sappiamo che presa una agenzia a caso, P (A) = 0.03. Inoltre, se
B ="almeno una delle sue 20 agenzie è in perdita",

P (B) = 1 − P (B c )

dove B c =" nessuna agenzia della società è in perdita". Considerando i due eventi,
otteniamo
 
20
1− (0.03)0 (0.97)20−0 = 1 − (0.97)20
0

che è la probabilità cercata. Infatti, se

Ak = "k agenzie su 20 registrano una perdita maggiore del 5% "

allora
 
20
P (Ak ) = (0.03)k (0.97)20−k , k = 0, 1, . . . , 20
k

e Ak ∼ Binom(n, p) con n = 20 e p = 0.03.

Svolgimento Esercizio 147.


 
20
1− (0.97)0 (0.03)20−0 = 1 − (0.03)20 .
0

Si deve considerare

Ack = "k agenzie su 20 registrano una perdita minore del 5% ".

Allora
 
20
P (Ack ) = (0.97)k (0.03)20−k , k = 0, 1, . . . , 20
k

e Ack ∼ Binom(n, p) con n = 20 e p = 0.97.


Appendice C. Svolgimenti 229

Svolgimento Esercizio 148. Indichiamo con Di l’evento "telefono i-esimo difetto-


so" con i = 1, 2. Allora
1 1 1 6
P (Di ) = P (Di ∩ A) + P (Di ∩ B) = P (Di |A) + P (Di |B) =
2 2 2 100
e P (D1 ) è la probabilità di acquistare un telefono difettoso (il primo!).
Si deve ora calcolare
P (D1 ∩ D2 )
P (D2 |D1 ) =
P (D1 )

dove

P (D1 ∩ D2 ) =P (D1 ∩ D2 ∩ A) + P (D1 ∩ D2 ∩ B)


=P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B)
 2  2
5 1 1 1
= +
100 2 100 2
1 26
= .
2 1002
Quindi si ottiene
2 26 100 13
P (D2 |D1 ) = 2
= .
2 100 6 300

Svolgimento Esercizio 149. Dai dati del problema si evince che


60
P (A) = P (B)
100
20
P (A) + P (B) =
100
e risolvendo (sistema di due equazioni in due incognite, la soluzione è unica!)
12
P (A) =
160
20
P (B) = .
160
Seguendo la linea del precedente esercizio,

P (D1 ) =P (D1 ∩ A) + P (D1 ∩ B) + P (D1 ∩ (A ∪ B)c )


=P (D1 |A)P (A) + P (D1 |B)P (B) + P (D1 ∩ (A ∪ B)c )
230

12 5 20 1
= + +x
160 100 160 100
80
= + x,
160 · 100
con x ∈ (0, 1) variabile incognita,
P (D1 ∩ D2 ) =P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B) + P (D1 ∩ D2 ∩ (A ∪ B)c )
 2  2
5 12 1 20
= + +y
100 160 100 160
con y ∈ (0, 1) variabile incognita. Osserviamo che
x = P (D1 ∩ (A ∪ B)c ) = P (D1 |(A ∪ B)c ) P ((A ∪ B)c ),

y =P (D1 ∩ D2 ∩ (A ∪ B)c )
=P (D1 ∩ D2 |(A ∪ B)c ) P ((A ∪ B)c )
=P (D1 |(A ∪ B)c ) P (D2 |(A ∪ B)c ) P ((A ∪ B)c )
e ponendo z = P (D|(A ∪ B)c ), otteniamo
128 128 2
x= z, y= z .
160 160
Allora,
1 + 4000z 2
P (D2 |D1 ) = , z ∈ (0, 1).
25 + 4000z
Se P (D|(A ∪ B)c ) = 0 (cioè per z → 0),
P (D2 |D1 ) = 0.04
mentre per P (D|(A ∪ B)c ) ≈ 1,
P (D2 |D1 ) ≈ 0.99
è prossima ad uno.

Svolgimento Esercizio 150.


1. Sia D =”il sensore è difettoso”. Si ha che
P (A) = 0.3 P (B) = 1 − P (A) = 0.7 P (D|A) = 0.15 P (D|B) = 0.12
Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle probabili-
tà totali e composta si ottiene P (D) = P (D∩(A∪B)) = P ((D∩A)∪(D∩B)) =
P (D|A)P (A) + P (D|B)P (B)
Appendice C. Svolgimenti 231

2. Si utilizza la formula di Bayes


P (D|A)P (A) P (D|A)P (A)
P (A|D) = =
P (D|A)P (A) + P (D|B)P (B) P (D)

3. e 4. I sensori sono difettosi in maniera indipendente quindi

P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi)


 
10 k
= p (1 − pA )10−k
k A

dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso modo si


considera Bin(10, pB ) dove pB = P (D|B) per calcolare P (k su 10|B). Quindi
si usa la formula di Bayes e si ottiene
P (k su 10|A)P (A) P (k su 10|B)P (B)
P (A|k su 10) = P (B|k su 10) =
P (T ) P (T )

dove P (T ) = P (k su 10|A)P (A) + P (k su 10|B)P (B) = P (k su 10).

Svolgimento Esercizio 151. Sia p = P (vincere) = 0.1, allora

P (vincere per la prima volta al decimo tentativo) = (0.9)9 (0.1)

mentre
 
10
P (vincere 10 euro) = (0.1)(0.9)9 .
1

Svolgimento Esercizio 152. Come già visto nel precedente Esercizio 56 la f.r. è
individuata dalla probabilità

FZ (z) = P (X ≤ zY ), z > 0.

1. Il dominio della coppia (Y, X) è D = (0, 2) × (0, 1) è un rettangolo. Dise-


gnando il rettangolo in un sistema (Y, X) e disegnando la retta X = zY si deve
identificare

Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z) = (0, ∞)

e la f.r. si deve ottenere considerando la probabilità

P (X ≤ zY ) = P (D ∩ Az ) z > 0.
232

L’insieme D ∩ Az identifica due figure geometriche distinte al variare di z ∈


(0, 1/2) e z ∈ (1/2, ∞) quindi, se z < 1/2
Z 2 Z zy
P (X ≤ zY ) = dy dxf(X,Y ) (x, y)
0 0

mentre per z > 1/2


Z 1/z Z zy Z 2 Z 1
P (X ≤ zY ) = dy dyf(X,Y ) (x, y) + dy dxf(X,Y ) (x, y)
0 0 1/z 0

dove il punto 1/z dell’asse Y è il punto in cui la retta di equazione X = 1


interseca la retta di equazione X = zY (e quindi 1 = zy). La densità congiunta
si fattorizza per il fatto che X ⊥ Y e quindi si ottiene
1 2
Z Z zy
P (X ≤ zY ) = dy dx, z ∈ (0, 1/2)
2 0 0

e
Z 1/z Z zy Z 2 Z 1
1 1
P (X ≤ zY ) = dy dx + dy dx, z > 1/2.
2 0 0 2 1/z 0

Quindi
(
z, 0 < z < 1/2
P (X ≤ zY ) = 1 1
1− + , 1/2 < z < ∞
2z 4z 2
che è continua nel punto z = 1/2 (e nel punto z = 0)
1
lim P (X ≤ zY ) = lim P (X ≤ zY ) =
z↑1/2 z↓1/2 2
(come ci si aspettava, infatti Z è una v.a. continua) e la f.r. diventa

 0,
 z≤0
FZ (z) = z, 0 < z ≤ 1/2
1
 1 − , z > 1/2

4z
Si osservi che
|Az ∩ D|
P (X ≤ zY ) = P (U ∈ Az ∩ D) =
|D|
dove U ∼ U nif (D) e |A| = area(A).
Appendice C. Svolgimenti 233

2. Il dominio della coppia (Y, X) è D = (0, ∞) × (0, 1), basta invertire gli assi
nell’Esercizio 56.

3. Il dominio D = R2+ è dato da tutto il primo quadrante e Az ∩ D identifica una


sola figura geometrica (un triangolo) per ogni valore di z > 0. Si deve calcolare
Z ∞ Z zy
P (X ≤ zY ) = dy dxf(X,Y ) (x, y),
0 0

con z ∈ supp(Z) = (0, ∞) e per il fatto che X ⊥ Y ,


Z ∞ Z zy
−λy
P (X ≤ zY ) = dyλe dxλe−λx ,
Z0 ∞ 0

dyλe−λy 1 − e−λzy

=
Z0 ∞ Z ∞
−λy
= dyλe − dyλe−λy−λzy
0 0
λ ∞ 0 −λ0 y
Z
=1 − 0 λe dove si è posto λ0 = λ(1 + z)
λ 0
1
=1 − , z > 0.
1+z
Quindi
(
0, z<0
FZ (z) = 1
1− , z>0
1+z
I controlli da fare sono

lim FZ (z) = lim FZ (z) = 0, lim FZ (z) = 1.


z↑0 z↓0 z↑∞

La densità è data da

fZ (z) = (1 + z)−2 1(0,∞) (z), z ∈ R.

Svolgimento Esercizio 153. Si deve calcolare la f.r.

FZ (z) = P (XY ≤ z) = P (Y ≤ z/Y ) non cambio il verso della dis. perché Y > 0.

1. la coppia (X, Y ) varia in D = (0, 1) × (0, 2), la f.r. si ricava dalla probabilità

P (D ∩ Az ), z ∈ supp(Z) = (0, 2)
234

dove

Az = {(x, y) ∈ R2 : y ≤ z/x}.

Dal grafico della funzione Y = z/X si vede subito che D ∩ Az identifica una
sola figura geometrica al variare di z e allora si deve calcolare, per z fissato,
Z z/2 Z 2 Z 1 Z z/x
P (D ∩ Az ) = dx dyf(X,Y ) (x, y) + dx dyf(X,Y ) (x, y)
0 0 z/2 0

dove il punto z/2 sull’asse X è il punto in cui la retta Y = 2 interseca la curva


Y = z/X (cioè 2 = z/X). Per il fatto che X ⊥ Y la congiunta è data dal
prodotto delle marginali,

1 z/2
Z 2
1 1
Z Z Z z/x
P (D ∩ Az ) = dx dy + dx dy
2 0 0 2 z/2 0
Z z/2
z 1 dx
Z
= dx +
0 2 z/2 x
x=1
z z
= + log x
2 2 x=z/2
z z
= 1 − log , z ∈ (0, 2).
2 2
Inoltre,
−2/z
lim P (D ∩ Az ) = lim = 0, lim P (D ∩ Az ) = 1.
z↓0 z→0 −2/z 2 z↑2

Quindi,

 0, z≤0
FZ (z) = P (D ∩ Az ), z ∈ (0, 2]
1, z>2

dove si sono considerati i limiti

lim FZ (z) = 0, lim FZ (z) = 1.


z↑0 z↓2

Derivando la f.r. si ottiene


 
1 z
fZ (z) = − log 1(0,2) (z), z ∈ R.
2 2
Si osservi che fZ (z) ≥ 0 per ogni z ∈ (0, 2).
Appendice C. Svolgimenti 235

2. Si ha (X, Y ) ∈ D = (0, 1) × (0, ∞) e

Az = {(x, y) ∈ R2 : y ≤ z/x}, z ∈ supp(Z) = (0, ∞).

Come si vede dal grafico, Az ∩ D identifica una sola figura geometrica e quindi,
per ogni z > 0,
Z 1 Z z/x
FZ (z) = P (Az ∩ D) = dx dyf(X,Y ) (x, y)
0 0

dove (X ⊥ Y )

f(X,Y ) (x, y) = fX (x)fY (y) = 1(0,1) (x)λe−λy 1(0,∞) (y).

Quindi, per ogni z > 0


Z 1 Z z/x
P (Az ∩ D) = dx λe−λy
Z0 1 0
z
dx 1 − e−λ x

=
0
Z 1
z
=1 − dx e−λ x
0

e

0, z≤0
FZ (z) =
P (Az ∩ D), z > 0
con
Z 1   Z 1
d −λ z z dx
fZ (z) = − dx e x =λ e−λ x .
0 dz 0 x

Inoltre, FZ (0+ ) = 0, limz→∞ FZ (z) = 1.

3. Si ha che (X, Y ) ∈ D = (0, ∞) × (0, 1) e Az = {(x, y) ∈ R2 : y ≤ z/x}


con Az ∩ D che identifica sempre una sola figura geometrica al crescere di z ∈
supp(Z) = (0, ∞). Si deve fare attenzione al punto di intersezione della retta
Y = 1 con la curva Y = z/X, cioè nel punto z della retta X (1 = z/X), infatti
Z z Z 1 Z ∞ Z z/x
P (Az ∩ D) = dx dyf(X,Y ) (x, y) + dx dyf(X,Y ) (x, y).
0 0 z 0
236

Utilizzando l’indipendenza delle v.a. ed esplicitando


Z z Z ∞
−λx z
P (Az ∩ D) = dxλe + dxλe−λx
x
Z0 z Zz ∞
dy
= dxλe−λx + λze−λzy
0 1 y

(dove si è posto x = zy nel secondo integrale) e per z ∈ R



0, z≤0
FZ (z) = .
P (Az ∩ D), z > 0

Si vede che
Z ∞   dy
lim FZ (z) = 0, lim FZ (z) = 1 + lim λze−λzy =1
z→0 z→∞ 1 z→∞ y

dove si è usata la convergenza dell’integrale ed il limite uniforme in y (per ogni


y, la funzione esponenziale decresce più velocemente di ogni polinomio come
z → ∞). Inoltre, si ricava
Z ∞
dx 1
FZ0 (z) =fX (z) + λe−λx − z fX (z)
z x z
e
Z ∞ 
−λx dx
fZ (z) = λe 1(0,∞) (z), z ∈ R.
z x

4. si veda l’Esercizio 64 per µ = λ, in particolare

λ λ
λe−λz − µe−µz = lim µze−µz − e−µz
 
lim
µ→λ λ − µ µ→λ −1

=λe−λz − λ2 ze−λz

λ2 2−1 −λz
fZ (z) = λ2 ze−λz 1(0,∞) (z) = z e 1(0,∞) (z), z ∈ R.
Γ(2)

Quindi Z ∼ Gamma(λ, 2).


Appendice C. Svolgimenti 237

Svolgimento Esercizio 155. La v.a. Y ∈ supp(Y ) = (1, ∞) è continua quindi


consideriamo la f.r.
FY (y) =P (|X − 1|−1 ≤ y) tutte quantità positive
 
1
=P ≤ |X − 1|
y
 
1 1
=P (X − 1 ≤ − ) ∪ (X − 1 ≥ )
y y
 
1 1
=P (X ≤ 1 − ) ∪ (X ≥ 1 + )
y y
   
1 1
=P X ≤ 1 − +P X ≥1+
y y
 
1
=P X ≤ 1 − + P (∅)
y
1
=1 − , y > 1.
y
Si vede subito che FY (y) → 0 se y → 1 e FY (y) → ∞ se y → 0. Inoltre
fY (y) = FY0 (y) 1(1,∞) (y), y ∈ R.

Svolgimento Esercizio 156. Si deve considerare la f.r. di Z e l’evento certo ΩX =


(X ≤ Y ) ∪ (X > Y ). Otteniamo
FZ (z) =P (|X − Y | ≤ z)

=P (|X − Y | ≤ z) ∩ [(X ≤ Y ) ∪ (X > Y )]

=P [(|X − Y | ≤ z) ∩ (X ≤ Y )] ∪ [(|X − Y | ≤ z) ∩ (X > Y )]
= [gli eventi sono incompatibili, legge delle prob. totali]
 
=P (|X − Y | ≤ z) ∩ (X ≤ Y ) + P (|X − Y | ≤ z) ∩ (X > Y )
= [utilizzo le informazioni X ≤ Y e X > Y ]
 
=P (Y − X ≤ z) ∩ (X ≤ Y ) + P (X − Y ≤ z) ∩ (X > Y )
 
=P (Y ≤ z + X) ∩ (X ≤ Y ) + P (X ≤ z + Y ) ∩ (Y < X)
 
=P X ≤ Y ≤ z + X + P Y < X ≤ z + Y

=2P X ≤ Y ≤ z + X (entrambe le v.a. sono uniformi).
Dal grafico sul piano (X, Y ) si vede quindi che per z ∈ supp(|X − Y |) = (0, 1),
Z 1−z Z z+x Z 1 Z 1
FZ (z) =2 dx dy + dx dy
0 x 1−z x
238

=2z − z 2

e quindi

fZ (z) = FZ0 (z)1(0,1) (z), z ∈ R.

Per verificare che FZ sia una f.r. basta osservare che fZ ≥ 0 (la f.r. è non decrescente)
e FZ (z) → 0 se z → 0, FZ (z) → 1 se z → 1. Inoltre, potevamo ricavare la f.r.
FZ considerando le aree del quadrato unitario sopra e sotto la retta Y = z + X,
ovvero il triangolo superiore del quadrato ha area 1/2 mentre il triangolo sopra la retta
Y = z + X ha area (1 − z)2 /2. Quindi tra le due rette troviamo un area pari a

1 (1 − z)2 z2
− =z− .
2 2 2
Dovendo calcolare due aree uguali, si moltiplica per 2 e si ottiene il risultato cercato.

Svolgimento Esercizio 157. La v.a Y è continua e quindi studiamo la f.r.

FY (y) = P (Y ≤ y), y ∈ supp(g(X, U ))

dove s
1
g(x, u) = x − ln u , x ≥ 0, 0 ≤ u ≤ 1.
λ
In particolare, supp(Y ) = (0, ∞). Si può procedere in diversi modi, ad esempio
 
2 1 2
FY (y) =P − y ≤ X − ln U ≤ y
λ
 
2 1 1 2
=P − y ≤ X − ln U, X − ln U ≤ y
λ λ
 
2 1 2 1
=P X ≥ −y + ln U, X ≤ y + ln U
λ λ
 
1
= essendo ln u < 0 per ogni u ∈ (0, 1)
λ
 
2 1
=P X ≥ 0, X ≤ y + ln U
λ
= [essendo (X ≥ 0) = ΩX ]
 
2 1
=P X ≤ y + ln U .
λ
Appendice C. Svolgimenti 239

Dal grafico si ottiene


1
Z 1 Z y2 + λ ln u
FY (y) = du dxλe−λx .
e−λy2 0

Vogliamo mostrare un procedimento più immediato, si deve notare che


 
1
P − ln U ≤ z = P (U ≥ e−λz ) = 1 − e−λz , z > 0.
λ

Quindi la v.a. Z = 1/λ ln U è una esponenziale di parametro λ > 0 e Z ⊥ X per il


fatto che U ⊥ X. Sappiamo che la somma di due esponenziali di parametro λ è una
Gamma, in particolare Z + X ∼ Gamma(λ, 2), quindi |X + Z| = X + Z e
Z y2
FY (y) = P (X + Z ≤ y ) = 2
λ2 w2−1 e−λw dw, y > 0.
0

Si ricava,
2
fY (y) = 2λ2 y 3 e−λy 1(0,∞) (y), y ∈ R.
Pn
Svolgimento Esercizio 158. Sia λ = k=1 λk . Per il minimo di v.a. si ha
n
Y n
Y
P (X(1) > z) = P (Xk > z) = e−λk z = e−λz
k=1 k=1

quindi X(1) ∼ Exp(λ). Inoltre,


n
Y n
Y
P (Z ≤ z) = P (Xk ≤ z) = FXk (z), z>0
k=1 k=1

per cui
n
X Y
fZ (z) = fXk (z) FXs (z)1(0,∞) (z), z ∈ R.
k=1 s6=k

Svolgimento Esercizio 159.

1 − FZn (z) =P (Zn > z) = P (X1 > z, . . . , Xn > z)


Z 1 n
= 1(0,1) (u)du
z
240

da cui si ricava

 0, z≤0
n
FZn (z) = 1 − (1 − z) , 0 < z ≤ 1
1, z>1

che tende, per n → ∞,



0, z < 0
FZ (z) =
1, z ≥ 0

Diciamo che Zn → 0 in distribuzione che implica Zn → 0 in probabilità perché Z = 0


è una v.a. degenere. Inoltre si vede che il minimo di v.a. in (0, 1) converge q.c. a 0.

Svolgimento Esercizio 160. La v.a. Zn è stata studiata nel precedente esercizio. Si


vede inoltre che

 0, y≤0
FYn (y) = 1 − (1 − y/n)n , 0 < y ≤ n
1, y>n

da cui Yn → Exp(1) in distribuzione.


Bibliografia

[1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011.

[2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000.

[3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994.

[4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996.

[5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and products.


Academic Press, Elsevier Inc., 2007.

[6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle nozioni


fondamentali alle applicazioni. Carocci editore, 2009.

[7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione.

[8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze. Apogeo, ultima


versione.

[9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987.

[10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997.

[11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University Press., 2006.

241
Indice analitico

approssimazioni covarianza, 66
di v.a., 95
decile, 198
binomio di Newton, 187 dipendenza, 79
disposizioni
calcolo combinatorio, 46 con ripetizione, 47
campione semplici, 47
grande, approssimazioni, 95 disuguaglianza
numerosità ottima, 157 di Boole, 36
centile, 198 di Chebyshev, 114
combinazioni di Doob, 116
con ripetizione, 48 di Hölder, 34
semplici, 10 di Jensen, 34
continuità di Kolmogorov, 116
di funzioni, 56 di Lévy, 115
separata, 75 di Markov, 114
convergenza di Marshal, 116
p
in L , 30, 120 di Minkowski, 34
in distribuzione, in legge, debole, 116 divergenza di v.a., 125
in media, 119
eventi
in media quadratica, 119
compatibili, 36
in misura, 30
complementari, 36
in probabilità, in misura, 118 incompatibili, 36
pointwise, 29 indipendenti, 40
puntuale, 29
quasi certa, forte, 120 formula
quasi completa, 121 di Bayes, 42
quasi ovunque, q.o., 30 di duplicazione, 193
stabile, 122 di riflessione, 193
uniforme, 29 funzione
convergenze, 29 caratteristica, 107
convoluzione, 88 continua, 56
correlazione, 77 convessa, 33

242
INDICE ANALITICO 243

dei momenti generalizzati, 113 modello


di Lipschitz (o Lipshitziana), 60 aleatorio, 66
di verosimiglianza, 142, 155 deterministico, 66
Gamma, 193 lineare, 70, 77
generatrice dei momenti, 112 momenti, 66
generatrice delle probabilità, 113
limitata, 60 numeri casuali
uniformemente limitata, 60 generatori, 101

passeggiata aleatoria, 96
identità di Wald, 96
percentile, 198
indice
permutazioni
di Bravais-Pearson, 77
con ripetizione, 47
indicie
semplici, 9
di correlazione, 77
popolazione
legge finita, 137
debole dei grandi numeri, 125 virtuale, 142
delle pr. composte a più alternative, problema MMC, 130
42
quantile, 198
delle probabilità composte, 38
quartile, 198
delle probabilità totali, 38
forte dei grandi numeri, 126 random walk, 96
limite regola del
centrale, 126 ne fisso uno, 12
limiti procedo per iterazioni successive, 14
notevoli, 106
serie
mancanza di memoria, 77 armonica, 104
media, 66 di funzioni, 104
media di Maclaurin, 105
campionaria, 2 di potenze, 106
memoria, 77 di Taylor, 105
metodo geometrica, 106
dei minimi quadrati, 158 numerica, 103
dei momenti, 159 telescopica, 104
di massima verosimiglianza, 155 simulazione, 101
Monte Carlo, 128 soluzione MMC, 130
misura somme
di conteggio, 25 aleatorie, 96
di Dirac, 26 di v.a., 88
di Lebesgue, 24 spettro, 63–65
244

statistica Normale Multidimensionale, 196


descrittiva, 1 Uniforme continua, 191
funzione, 1 Uniforme discreta, 183
inferenziale, 15, 145 varianza campionaria corretta, 82
stima Weibull, 197
dei minimi quadrati, 158 Zipf, 184
dei momenti, 159 variabili
di Bayes, 159 i.i.d., 72
di massima verosimiglianza, 155 indipendenti, 72
per intervalli, 156 ordinate, 96, 99
successioni varianza, 66
monotone di v.a., 99 varianza
supporto, 55, 57, 64, 65 campionaria, 2
campionaria corretta, 82
tabella di contingenza, 79
tempi di attesa, 99
test
del χ2 , 165
di Kolmogorov-Smirnov, 166

valore
atteso, 66
medio, 66
variabile
χ-quadrato, 82
Bernoulli, 186
Beta, 197
Binomiale, 186
Cauchy, 194
Chi-quadrato, 197
degenere, 118
di Fisher-Snedecor, 198
di Poisson, 189
di Student, 197
Esponenziale, 192
Gamma, 192
Geometrica, 184
Ipergeometrica, 189
media campionaria, 6
Multinomiale, 188
Normale, 194
INDICE ANALITICO 245

Finito di stampare (ultima modifica) il 5 maggio 2015 utilizzando LATEX 2ε

Potrebbero piacerti anche