Appunti Di Probabilit e Statistica

Appunti di Probabilità e Statistica
Appunti di Probabilità e Statistica

Mirko D’Ovidio
Mirko D’Ovidio
2020
c 2015 by Mirko D’Ovidio
�
All rights reserved. This book or any portion thereof may not be re-
produced or used in any manner whatsoever without the express written
permission of the publisher except for the use of brief quotations in a
book review or scholarly journal.
First Printing: 2015 2016 2017 2018 (2020)
ISBN 978-1-329-61591-5
Capire l’incertezza per ridurla
The things one feels absolutely

certain about are never true
(Oscar Wilde)
Il materiale riportato in queste note è stato selezionato in modo da

garantire una trattazione ben organizzata di argomenti della probabilità
e della statistica trattati nei due corsi di ”Calcolo delle Probabilità” e
”Probabilità e Statistica” delle Facoltà di Ingegneria.
Alcuni concetti sono trattati in maniera più approfondita, possono

risultare quindi troppo avanzati. Lo scopo di queste note è quello di
fornire un aiuto nella comprensione della teoria di base ma anche quello
di stimolare gli interessi di alcuni verso concetti più avanzati.
✍ : il simbolo indica gli argomenti importanti. Il resto degli appunti è

necessario per la comprensione di tali argomenti (prerequisiti o
applicazioni).
Indice
1 Osservazione e Probabilità 1
1.1 Statistica descrittiva . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . 9
1.4 Il concetto di Probabilità . . . . . . . . . . . . . . . . . . 11
1.5 Probabilità e Applicazioni . . . . . . . . . . . . . . . . . . 12
2 Misura e Probabilità 15
2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Misure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Misure di Probabilità ✍ . . . . . . . . . . . . . . . . . . . 23
2.4 Spazi di Probabilità uniformi . . . . . . . . . . . . . . . . 34
3 Variabili Aleatorie 47
3.1 Definizione e caratterizzazione ✍ . . . . . . . . . . . . . . 47
3.2 Media e Momenti ✍ . . . . . . . . . . . . . . . . . . . . . 64
3.3 Relazioni tra variabili aleatorie ✍ . . . . . . . . . . . . . . 70
3.3.1 Probabilità congiunte e condizionate . . . . . . . . 70
3.3.2 Relazioni di dipendenza . . . . . . . . . . . . . . . 75
3.3.3 Trasformazioni di v.a. . . . . . . . . . . . . . . . . 84
3.3.4 Somme di variabili aleatorie . . . . . . . . . . . . . 93
3.3.5 Variabili aleatorie ordinate . . . . . . . . . . . . . 103
3.3.6 Simulazione, generatori di numeri casuali . . . . . 109
3.3.7 Alcune disuguaglianze fondamentali . . . . . . . . 111
3.4 Trasformate di densità . . . . . . . . . . . . . . . . . . . . 112
3.5 Convergenza di variabili aleatorie . . . . . . . . . . . . . . 119
3.5.1 Convergenza in distribuzione . . . . . . . . . . . . 120
3.5.2 Convergenza in probabilità . . . . . . . . . . . . . 122
3.5.3 Convergenza in media . . . . . . . . . . . . . . . . 123
3.5.4 Convergenza quasi certa . . . . . . . . . . . . . . . 124
3.5.5 Altre questioni sulla convergenza . . . . . . . . . . 126
i
ii INDICE
3.5.6 Teoremi limite ✍ . . . . . . . . . . . . . . . . . . . 129

3.6 Processi aleatori . . . . . . . . . . . . . . . . . . . . . . . 137
3.7 Probabilità di eventi: Esempi & Esercizi . . . . . . . . . . 140
4 Esercizi 145
5 Approfondimenti 154
6 Inferenza statistica 164

6.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . 164
6.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . 165
6.3 Stima parametrica ✍ . . . . . . . . . . . . . . . . . . . . . 168
6.3.1 Proprietà desiderabili di uno stimatore . . . . . . . 169
6.3.2 Metodi di stima . . . . . . . . . . . . . . . . . . . 177
6.4 Verifica delle ipotesi statistiche ✍ . . . . . . . . . . . . . . 183
6.4.1 Test parametrici . . . . . . . . . . . . . . . . . . . 183
6.4.2 Test non parametrici . . . . . . . . . . . . . . . . . 190
6.5 Inferenza su particolari parametri . . . . . . . . . . . . . . 192
6.6 Logiche inferenziali . . . . . . . . . . . . . . . . . . . . . . 195
7 Esercizi 197
8 Distribuzioni elementari 201

8.1 Variabili discrete ✍ . . . . . . . . . . . . . . . . . . . . . . 201
8.2 Variabili continue ✍ . . . . . . . . . . . . . . . . . . . . . 211
A Somme Notevoli
B I modelli lineari
C Svolgimenti, Tracce, Soluzioni
Bibliografia
Introduzione
Nelle scienze applicate si procede sempre allo stesso modo, si osserva,

si elabora, si traggono conclusioni. Si raccolgono dati da un campione e si
traggono conclusioni per l’intera popolazione (sia essa di uomini, animali,
batteri, titoli, etc.). Sembra un procedimento elementare, ebbene lo scopo
di questo corso è proprio quello di fornire gli elementi per capire quanto,
in effetti, non lo sia.
Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della
Statistica Descrittiva è quello di fornire ed estrapolare informazioni dai
dati in nostro possesso. Utilizziamo a questo scopo delle funzioni dei dati
campionari che sono chiamate appunto, statistiche dei dati campionari.
Una volta ottenute le informazioni sul fenomeno oggetto di studio,
ci si chiede quanto queste informazioni siano attendibili (sembra inevi-
tabile ricordare che l’affidabilità di un dispositivo è la probabilità che
funzioni!). Ci sono diverse questioni da affrontare, ad esempio, si deve
ricordare che tutte le informazioni ottenute sono il frutto di analisi fatte
sullo stesso campione. Vogliamo quindi sapere se considerando un cam-
pione diverso, oppure osservando un campione diverso, arriveremmo alle
stesse informazioni. Oppure, se il campione osservato rispecchia al meglio
le caratteristiche della popolazione, se cioè il campione osservato è quello
più probabile. Questo è il ruolo della Statistica Inferenziale.
Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle
Probabilità. Più avanti nel testo, si è accennato a problemi (semplificati)
relativi ai seguenti campi di applicazione della Probabilità:
• Matematica applicata: costruire modelli (governati da equazioni a

derivate parziali o no) che riducano l’incertezza in ambiti anche
molto diversi, dalla Fisica alle Scienze Sociali o dalla Biologia alla
Medicina (processi aleatori );
• Teoria dei segnali: si studia la variazione nel tempo di una gran-

dezza (o misurazione) cercando proprietà matematiche e statistiche
(processi aleatori );
iii
iv INDICE
• Inferenza Statistica: problemi di stima per parametri di un modello

(matematico) che descrive un fenomeno oggetto di studio e che non
può essere descritto da modelli puramente deterministici. si voglio-
no studiare alcune proprietà su pochi unità e trarre conclusioni più
generali;
• Teoria delle decisioni: metodologia che si applica quando un deciso-
re può scegliere tra varie azioni future il cui esito dipende da fattori
esterni che non possono essere previsti esattamente;
• Teoria del rischio: modelli matematici per descrivere la vulnera-
bilità di insolvenza di un assicuratore (o altra compagnia). Si può
associare allo studio del problema classico della rovina del giocatore.
In particolare, possiamo elencare alcuni esempi:
Astrofisica: studio della radiazione cosmica di fondo,...; Biologia: in-
ferenza su culture....; Economia/Marketing: indagini sui nuovi prodotti,
...; Farmacia: testare un farmaco,...; Finanza/Assicurazione: problemi re-
lativi ai titoli finanziari,...; Fisica: diffusione del calore, moti di particelle,
.... Geologia: statistica spaziale, statistica per l’ambiente ...; Informati-
ca: approssimazione di integrali, calcolatori quantistici, ...; Inquinamento:
stima delle concentrazioni di inquinanti,...; Medicina: studiare gli effetti
di malattie o cure su pazienti, ....;
Obiettivi del corso. Acquisire competenza e abilità nel trattare:

• probabilità di eventi, variabili aleatorie: relazioni, interpretazioni;
• trasformazioni di variabili aleatorie Y = g(X) e studio della rela-
zione di dipendenza g;
• trasformazioni di variabili aleatorie�X �→ g(X) dove X può essere
n
un vettore, somme di v.a. Sn = k=1 g(Xk ), convergenza della
media aritmetica n−1 Sn per n → ∞;
• inferenza statistica su X̄n = n−1 Sn , n ∈ N.
(Importanza della casualità)
Il lettore interessato può approfondire gli argomenti trattati nei seguenti
testi di riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica
asintotica [11]; somme notevoli ed integrali [5]; Probabilità [1, 2, 6, 7];
Probabilità e Statistica [8].
1
Osservazione e Probabilità
1.1 Statistica descrittiva

La statistica è una scienza, una disciplina che ha come scopo lo studio
quantitativo e qualitativo di fenomeni (non deterministici). La statistica
descrittiva ha lo scopo di fornire una fotografia di una situazione o di un
particolare fenomeno osservato.
”Una statistica è una funzione dei dati campionari. ”
I dati campionari sono costituiti dalle misurazioni (o osservazioni) fat-
te sul campione osservato. Il campione osservato è costituito da unità
statistiche che sono state opportunamente selezionate da una popolazio-
ne. La popolazione rappresenta l’interesse principale ed il motivo per il
quale si vuole effettuare una analisi statistica. Si vuole cioè studiare un
particolare (o più di uno) fenomeno che coinvolge la popolazione di inte-
resse. La popolazione oggetto di studio può essere costituita da persone,
animali, batteri, titoli finanziari, insetti, etc., in ogni caso siamo interes-
sati a studiarne le caratteristiche. Non ci preoccupiamo ora di questioni
legate al campione (come viene selezionato, come viene definita la nume-
rosità ottima, etc.), tali argomenti rappresentano parte dei problemi che
risolveremo ricorrendo alla statistica inferenziale. Per ora, diremo che il
campione è casuale senza dire in che modo sia regolata tale casualità.
Una volta osservato il campione, avremo una serie di misurazioni (sup-
poniamo che la caratteristica di interesse ammetta valori numerici, sia
quindi di tipo quantitativo1 ). Indichiamo tali misurazioni con il vettore
x = (x1 , x2 , . . . , xn ) (1.1)
che è quindi un punto di R . Dalla definizione data sopra di statistica,
n
sembra chiaro che possiamo considerare tutte le funzione con supporto

1 Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative
ad esempio.
1
2 CAPITOLO 1. OSSERVAZIONE E PROBABILITÀ
in Rn . Ovviamente, volendo ricavare delle informazioni (riguardanti la

popolazione) dal campione, sembra altrettanto chiaro che le funzioni de-
putate debbono prima di tutto essere informative. La prima informazione
utile che possiamo ottenere è la media campionaria x̄. Vogliamo poi ca-
pire quanto i dati si discostano da tale media. Introduciamo allora una
distanza (Euclidea) dei dati campionari da tale valore che è la varianza
campionaria s2 . In particolare siamo interessati alle quantità
n n
1� 1�
x̄ = xi , s2 = (xi − x̄)2 . (1.2)
n i=1 n i=1
Le due quantità x̄ e s2 dipendono da n e nei casi in si vorrà sottolinea-

re questo aspetto scriveremo x̄n e s2n . La varianza campionaria si può
scrivere a partire dai momenti campionari di ordine r > 0
n
1�
mr = (xi )r (1.3)
n i=1
dove, per r = 1, si ottiene la media campionaria m1 = x̄. Infatti,

s2 = m2 − (m1 )2 ,
il secondo momento meno il quadrato del primo.
Supponiamo adesso che nel campione osservato x ci siano un certo
numero di valori uguali, diciamo ad esempio che k valori su n siano esat-
tamente uguali. In generale, supponiamo che ki valori sugli n totali sono
uguali al generico vi . Allora, si può identificare una distribuzione (suc-
cessione) di frequenze relative fi = ki /n ricavata dalla distribuzione di
frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la cui
cardinalità |I| è la dimensione del nuovo vettore v = (v1 , v2 , . . . , v|I| ). Il
nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro
pesi ki , i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci
sono valori uguali. Seguendo questa impostazione abbiamo
|I| |I|
� 1�
x̄ = vi fi = v i ki (1.4)
i=1
n i=1
e
|I| |I|
� 1�
2 2
s = (vi − x̄) fi = (vi − x̄)2 ki (1.5)
i=1
n i=1
1.1. STATISTICA DESCRITTIVA 3
dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notia-

mo che tali frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn )
e k = (k1 , k2 , . . . , kn ).
Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato
x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1)
e calcolare media e varianza campionarie. (Suggerimento: f 2 = 4/11).
Data una successione finita di valori xk , k = 1, . . . , n si definiscono:

n
1�
xk media aritmetica,
n
k=1
n
�
xk fk media ponderata,
k=1
n
�n 1 media armonica,
k=1 xk
� n
�1/n
�
xk media geometrica,
k=1
� n
�1/p
1�
(xk )p media di potenza.
n
k=1
In base al fenomeno oggetto di studio può essere scelta una diversa

statistica di interesse, la media campionaria appena introdotta è solo un
esempio. Possiamo essere interessati a studiare il max{x1 , . . . , xn }, il
min{x1 , . . . , xn } oppure altre funzioni dei dati campionari.
Supponiamo ora che il Rettore della Sapienza ci chieda l’età media
degli iscritti al primo anno delle Facoltà di Ingegneria e supponiamo che
tale informazione sia da comunicare entro 10 ore. Sappiamo che gli iscrit-
ti sono circa 10000 e non abbiamo il tempo di chiedere a tutti gli studenti
di comunicare la loro età. La soluzione sembra essere quella di seleziona-
re un campione molto ridotto di studenti, chiedere l’età e comunicare la
media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la cosa
è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Imma-
giniamo per comodità che ad ogni studente si possa far corrispondere un
numero invece del nome, ci sono 10000 studenti quindi se X è l’età dello
studente, allora Xi è per noi l’età dello studente i con i = 1, 2, . . . , 10000.
All’ingresso della Facoltà di ingegneria trovo i 5 studenti corrispondenti
ai numeri (6, 60, 114, 1002, 8657) registro le loro età e ottengo il campione
x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21).
La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro

che è x̄ = 15 (19+20+26+18+21). La seconda domanda che mi pongo ri-
guarda la correttezza di tale informazione e mi chiedo se veramente voglio
assumermi la responsabilità di comunicare l’età media appena trovata al
Rettore. Le mie insicurezze riguardano due punti:
D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio
considerare n > 5? Quanti studenti dovrei considerare per ottenere
un risultato attendibile, n =?
D2 se avessi considerato studenti diversi, la media quanto sarebbe cam-
biata?
In effetti, avrei potuto trovare le età relative ai campioni
(X62 , X69 , X124 , X1402 , X9239 ),
(X632 , X1989 , X2014 , X4201 , X9719 )

oppure, in generale
(Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ). (1.6)
La scelta degli studenti da intervistare è del tutto casuale, dipende dagli

studenti che trovo in quel momento, in quel posto. In particolare
D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a
dire, quante medie diverse potevo calcolare?)
Si noti che il vettore (1.6) si può rappresentare nel modo seguente
{Xi }i∈I (1.7)
dove I è un insieme di indici (di cardinalità 5) i cui elementi sono le

etichette associate agli studenti selezionati.
1.2. PROBABILITÀ 5
1.2 Probabilità
Per introdurre il concetto di probabilità cerchiamo di impostare il pro-
blema visto sopra da un punto di vista più matematico.
Si capisce bene che l’età di una persona può essere considerata come
una variabile in un dato problema, in particolare è una variabile quantita-
tiva discreta2 . Nel nostro caso, dobbiamo aggiungere che si tratta di una
variabile aleatoria, non sappiamo cioè quanto vale fino a quando non os-
serviamo (fino a quando non si realizza la variabile aleatoria). Dobbiamo
quindi distinguere tra
variabile deterministica e variabile aleatoria.
Diciamo che una variabile è deterministica se “possiamo prevedere il suo

valore in un certo momento”mentre una variabile è aleatoria se non abbia-
mo nessun controllo sui valori che assume, se cioè “siamo in grado di pre-
vedere il suo valore in un certo momento solo con una certa probabilità”.
Se lancio un dado, non possiamo semplicemente dire “esce 4” ma pos-

siamo dire P (esce 4) = 16 cioè la probabilità dell’evento “lancio il dado
ed esce 4 ” è pari a 1/6. Formalizziamo dicendo che la variabile aleatoria
X =“lancio il dado” ha un insieme limitato di realizzazioni che sono ov-
viamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che P (X = x) = 1/6
per ogni faccia x ∈ Ω. Si poteva quindi scrivere
P (X = 4) = P (esce 4) = P (lancio il dado ed esce 4).
Notiamo che
P (X ∈ Ω) = P (lancio il dado ed esce una faccia) = 1
e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente

chiameremo eventi impossibili quegli eventi con probabilità pari a 0. Ci
riferiremo agli eventi rari quando le loro probabilità sono prossime a 0.
In generale, ci possiamo riferire ad un fenomeno oggetto di studio
come ad una variabile aleatoria X, non conosciamo il valore di X fino a
quando X non si realizza, cioè fino a quando non osserviamo. Chiamiamo
2 Alcuni esempi: il colore degli occhi è una variabile qualitativa mentre l’altezza è
quantitativa continua.
x la realizzazione della variabile aleatoria X. Quindi x è la nostra osser-

vazione, nel caso del lancio del dado, x è una faccia di Ω = {1, 2, 3, 4, 5, 6}.
Le probabilità che ci interessano saranno allora
P (X = x), P (X ≤ x), P (X < x), P (X ≥ x), P (X > x) (1.8)
oppure, se x1 ≤ x2 , P (x1 ≤ X ≤ x2 ). Si noti che se x1 , x2 ∈ R, la (1.8)

continua ad avere senso.
La variabile aleatoria sarà scelta in base al fenomeno che vogliamo
studiare, alcuni esempi possono essere puramente didattici:
i) X =“lancio il dado”;
ii) X =“estraggo una pallina da un urna”;
iii) X =“estraggo k palline con ripetizione”;
iv) X =“estraggo k palline in blocco”;
altri possono rappresentare delle semplificazioni di modelli molto più

complicati e utilizzati nella vita reale:
i) X =“altezza”;
ii) X =“pressione sistolica”;
iii) X =“livello di reddito”;
iv) X =“numero di sinistri”;
v) X =“misurazioni relative alla radiazione cosmica di fondo”;
vi) X =“precipitazioni in una regione”;
vii) X =“concentrazione di un inquinante”.
Se Xi =“età della persona i” come nell’esempio sopra, allora possiamo

formalizzare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.6).
Cioè, ogni elemento di X è un numero naturale. La media campionaria è
una quantità deterministica una volta che X si è realizzato, prima che si
realizzi�
X, anche la media
� aritmetica degli elementi di X è aleatoria, cioè
5
X̄ = 15 j=1 Xij = 15 j∈c5 Xj dove si è usato il fatto che c5 è un insieme
1.2. PROBABILITÀ 7
di 5 etichette rappresentanti gli studenti intervistati. Volendo generaliz-

zare ad n qualunque, scriviamo la variabile aleatoria media campionaria,
1 �
X̄n = Xj (1.9)
n j∈c
n
e cn è un insieme di etichette che rappresenta un gruppo di n studenti

(esempio: cn = (3, 10, 12, 50) indica un gruppo di n = 4 studenti identi-
ficabili con i numeri 3, 10, 12, 50. Si poteva prendere c4 come un insieme
delle matricole corrispondenti e non con i numeri riportati sopra e pre-
si arbitrariamente). Quindi diciamo che X̄n è la variabile aleatoria “età
media campionaria”. A questo punto potrei chiedermi
D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti

insiemi diversi cn di etichette posso costruire?
Esempio 1. Supponiamo che Mario chieda al fratello Moreno di essere

visitato senza aggiungere altre informazioni. Moreno che è un medico
esperto ma anche preoccupato, si chiede come mai il fratello volesse essere
visitato ed immagina la scoperta improvvisa di qualche malattia, diciamo
X. Allora Moreno si interroga sulla storia passata dei sui pazienti, sulla
base cioè delle sue informazioni. Le malattie per le quali i suoi pazienti si
sono presentati negli ultimi anni sono x1 , x2 , . . . e rovistando tra le carte
le associa alle frequenze fi , i = 1, 2, . . ., cioè
fi = f req{ pazienti con la malattia xi }, i = 1, 2, . . . .
Sulla base delle frequenze appena ricostruite, arriva a dire che
P (X = xi ) = fi i = 1, 2, . . .
e scartando le malattie con probabilità più basse, restringe la rosa di

possibilità per la malattia del fratello Mario.
Esempio 2. Si consideri una classe di 100 studenti. Alcuni indossano

una maglia rossa. Se non ho informazioni sul numero di studenti che
indossano maglie di colore diverso, osservo (quindi conto gli studenti con
maglie di colore diverso) ed ottengo una successione di frequenze relative
(una distribuzione di frequenze fi con i = 1, 2, . . . , N dove N è il nu-
mero di colori diversi per le maglie nella classe). Se ho già osservato e
quindi conosco la distribuzione di frequenze, allora posso selezionare dal-

l’elenco uno studente a caso (a caso). Con quale probabilità chiamando
lo studente selezionato a caso, si alzerà uno studente con la maglia rossa?
Si noti che ora si sta considerando la distribuzione di probabilità p i con
i = 1, 2, . . . , N .
Spazi di Probabilità uniformi (prime considerazioni)

Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che
esso è caratterizzato da due oggetti:
i) un insieme Ω detto insieme degli eventi (elementari);
ii) la probabilità P che possiamo immaginare come una funzione del
tipo P : ω → [0, 1] con ω ∈ Ω.
Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω
sono equiprobabili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6}
e P (ω) = 1/6 per ogni ω ∈ Ω. Potremmo anche considerare un urna
contenente n palline numerate da 1 a n. Allora, Ω = {1, 2, . . . , n} e
P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω (cioè per
ogni x = 1, 2, . . . . , n).
Notiamo subito che Ω è detto insieme degli eventi elementari perché
non contiene tutti gli eventi ai quali posso essere interessato. Continuiamo
a riferirci al lancio del dado, le probabilità degli eventi elementari come
abbiamo già osservato sono costanti e tutte uguali a 1/6. Potrei chiedermi
allora con quale probabilità:
1. esce una faccia con un numero minore di 4 (esce un numero < 4);
2. esce una faccia con un numero minore o uguale a 4 (esce un numero
≤ 4);
cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si
può utilizzare l’impostazione classica delle probabilità secondo la quale, la
probabilità di un evento A si può trovare dal rapporto tra casi favorevoli
e casi possibili,
numero di casi f avorevoli ad A
P (A) = . (1.10)
numero di casi possibili
Ad esempio, nel lancio di un dado:
1.3. STATISTICA INFERENZIALE 9
Figura 1.1: Grafo con 8 nodi e 9 archi.
• P (esce un numero pari) = 3/6;

• P (esce un numero < 3) = 2/6;
• P (esce un numero ≤ 4) = 4/6.
Esercizio 2. Calcolare P (A) dove:
1. A =“ottengo due volte T dal lancio di due monete regolari”
2. A =“ottengo due volte T lanciando due volte una moneta regolare”
3. A =“pesco il due di picche da un mazzo di 52 carte (da poker)”
Esercizio 3. Supponiamo che il grafo in Figura 1.2 rappresenti i possibili

percorsi dal punto 0 e che Emily si trovi proprio in 0. Sia p i,j = P (i → j)
la probabilità di passare dal punto i al punto j.
�4
1. Dire perchè j=1 p0,j = 1.
2. Assegnare le probabilità pi,j per ogni 0 ≤ i, j ≤ 8 e calcolare p0,6 .
1.3 Statistica inferenziale

Vogliamo inferire su un particolare parametro della popolazione. Nei
problemi a cui vogliamo trovare risposta disporremo di alcune informa-
zioni, ad esempio un campione e vogliamo caratterizzare la popolazione,
ad esempio trovando un valore che ben rappresenta un parametro (o i

parametri) di tale popolazione. Tale valore è proprio una stima del pa-
rametro. Si deve però definire il concetto di stima, per ora diciamo che
possiamo disporre dei seguenti concetti legati alla stima, supponiamo che
il parametro di interesse sia unidimensionale:
• stima puntuale, vogliamo trovare un valore che rappresenti il valore

vero (un numero);
• stima intervallare, vogliamo trovare un insieme di valori che con-

tenga con elevata probabilità il valore vero (un intervallo),
• test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute

(ad esempio se possiamo considerarle attendibili/affidabili).
Tratteremo tecniche della statistica inferenziale mirate a risolvere

problemi come quelli di seguito elencati.
Esercizio 4. Per una particolare marca di abbigliamento, si poteva as-

sumere che il prezzo di vendita di un capo negli passati seguiva una legge
normale di media µ = 66 euro (cioè il prezzo in Italia del capo variava
attorno a 66 euro seguendo una distribuzione normale). Vengono consi-
derati 10 negozi (presi a caso in tutta Italia) tra i 1000 che trattano il capo
in questione e si rileva, per ognuno, il prezzo di vendita di quest’anno. Il
vettore delle osservazioni è dato da
x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62).
Si vuole capire se ci sono state variazioni in termini di prezzo medio.
1. Calcolare una stima del prezzo medio di quest’anno.
2. Calcolare un intervallo che con probabilità pari al 95% contenga il

prezzo medio italiano vero (cioè di tutti i 1000 negozi).
Dal campione emerge che il prezzo medio campionario è inferiore a quello

degli anni passati.
3. Stabilire se si può sostenere che il prezzo sia cambiato (test di

ipotesi) e con quale probabilità (fiducia).
1.4. IL CONCETTO DI PROBABILITÀ 11
numero di transiti in un minuto frequenza

0 14
1 21
2 12
3 4
4 5
5 3
12 1
Tabella 1.1: Transiti dei pesci in 60 minuti
Esercizio 5. Un pescatore vorrebbe sapere, in un particolare tratto di

fiume, quanto tempo deve aspettare in media l’arrivo di un pesce (che
forse abboccherà). Sa che un modello utile nello studio del numero di
arrivi è basato sulla variabile di Poisson di parametro λ e si chiede se è
veramente così, cioè se i pesci arrivano veramente seguendo una legge di
Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ in modo da
capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60
minuti quanti pesce attraversano il tratto di fiume al minuto e registra le
osservazioni riportate nella Tabella 1.1.
1. Verificare se tale campione è rappresentativo e se i dubbi del pesca-

tore sul modello sono fondati (si può usare il modello di Poisson?).
2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un

pesce) che sia valido con una probabilità del 95% (che sia al 95% il
tempo medio vero che bisogna attendere per l’arrivo di un pesce).
Svolgimento Esercizio 5 Tornare a questo esercizio dopo aver letto

il Capitolo 8.
1.4 Il concetto di Probabilità

“La Probabilità è una misura.”
Dobbiamo ricordare che si possono dare diverse definizioni di probabilità

spesso legate anche a diverse scuole e linee di pensiero. Inoltre, diverse
impostazioni considerano diverse ipotesi sugli eventi elementari: possono

ad esempio rappresentare un insieme finito oppure un insieme infinito (di
prove ripetute).
• Impostazione classica (Laplace). Semplicemente il rapporto tra casi

favorevoli e casi possibili se gli eventi sono equiprobabili. La pro-
babilità di un evento è quindi data dal rapporto tra il numero casi
favorevoli all’evento ed il numero totale di casi possibili (rapporto
di frequenze assolute).
• Impostazione frequentista (von Mises). Si associa la probabilità di

un evento alla frequenza di tale evento. Se i casi in questione non
sono equiprobabili ma possono ripetersi in un numero infinito di
prove, tutte sotto le stesse condizioni, allora la probabilità si può
ottenere dal rapporto tra casi favorevoli (a tale evento) e casi pos-
sibili (le prove) su un numero molto elevato di prove. Si definisce la
probabilità come limite di frequenze relative al crescere del numero
delle prove (spesso chiamate esperimenti).
• Impostazione soggettiva (Ramsey, De Finetti e Savage). Si basa

su una definizione soggettiva di probabilità: la probabilità di un
evento è il prezzo che siamo disposti a pagare in una scommessa
per ricevere 1 al verificarsi dell’evento o 0 altrimenti.
• Impostazione Bayesiana (Bayes). La probabilità di un evento di-

pende da una legge a posteriori ottenuta scegliendo (anche sogget-
tivamente) una legge a priori. È forte quindi il condizionamento a
ciò che conosciamo sul fenomeno che ci interessa. Si può definire
in questo ambito uno schema che prevede aggiornamenti successi-
vi della priori con la posteriori fino ad uno step definito ottimo in
qualche senso.
• Impostazione assiomatica (Kolmogorov). Si basa sugli assiomi di

Kolmogorov.
1.5 Probabilità e Applicazioni

La statistica inferenziale è una delle molte applicazione della probabili-
tà. Sono collegate alla statistica inferenziale anche problemi di stima per
1.5. PROBABILITÀ E APPLICAZIONI 13
processi aleatori che sono oggetti più complessi e prevedono, tra le altre
cose, una diversa struttura di dipendenza tra le osservazioni. I processi
aleatori possono rappresentare fenomeni evolutivi e quindi dipendono dal
tempo. Tali processi rappresentano fenomeni fisici, biologici, finanziari e
si possono associare a moti aleatori (di particelle o titoli ad esempio) che
seguono delle leggi governate da equazioni differenziali.
Supponiamo che Google voglia estrapolare delle informazioni dalle sue

ricche basi di dati. Le informazioni vengono immagazzinate in matrici di
dati (matrici di Rn×m ) e supponiamo che sia importante, per il caso di
interesse, trovare i determinanti di tali matrici. La potenza di calcolo del-
le macchine di Google consente di trovare il determinante di una matrice
in due giorni ma gli Ingegneri di Google conoscono un metodo più veloce.
Le matrici sono di dimensione n×m con n, m grandissimi, troppo. Consi-
deriamone una, ad esempio la matrice A. Allora, si scelgono due numeri
n� e m� molto minori di n e m rispettivamente e si decide di calcolare il
determinante della sotto-matrice di dimensioni n� e m� , ad esempio A� . Il
calcolo del determinate diventa un operazione che impegna le macchine
Google solo pochi minuti ma il problema diventa:
”esiste una scelta ottima degli elementi di A in modo da costruire la
sotto-matrice A� tale per cui P (det(A) = det(A� )) = max?”.
Ovviamente se tale probabilità fosse sufficientemente alta, diciamo
non minore del 95%, allora Google risparmierebbe molto tempo e denaro!
Sempre Google, come può minimizzare il tempo di ricerca? I vari

server in cui si può trovare ciò che si cerca sono collegati da una fitta rete
(il web) che possiamo immaginare come una vera e propria rete costituita
da archi (collegamenti tra due server). Consideriamo un grafo aleatorio
(random graph), cioè una successione di archi (e quindi una successione
di server). Ho scelto a caso gli archi e ho stabilito un percorso tra i server
in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo
un algoritmo di scelta per gli archi tale per cui
P ( scelta giusta ) = max.
Un ulteriore esempio elementare ma molto utile di applicazione pos-

sibile è dato dagli algoritmi probabilistici come il quicksort con scelta
casuale dell’elemento pivot oppure in generale, algoritmi in cui il tempo
di esecuzione è probabilistico o la correttezza è probabilistica. In questi
Figura 1.2: ...provate con I’m feeling lucky.
algoritmi si cerca di minimizzare la probabilità di ottenere la situazione

peggiore e/o massimizzare la probabilità di ottenere la situazione mi-
gliore. Lo scopo è quello di ottenere un miglioramento (rispetto agli
algoritmi non randomizzati) nei tempi di esecuzione o nella complessità
computazionale.
2
Misura e Probabilità
Osservazione N.1: lancio un dado regolare.

P (ottenere un numero pari) = P ({2, 4, 6}),
P (ottenere un numero pari minore di 5) = P ({2, 4, 6} ∩ {1, 2, 3, 4}).
Studiamo gli insiemi (e le operazioni su di essi) per ottenere la probabilità
di eventi, cioè P (evento) = P (insieme).
Osservazione N.2: supponiamo di lanciare a caso (occhi bendati) una
pallina in una stanza di 16 mq in cui il pavimento è composto da matto-
nelle 20x20 cm. Ottanta mattonelle sono colorate. Con quale probabilità
la pallina cade su una mattonella colorata? Possiamo parlare di aree, in
particolare (80 x 0.04 mq)/(16 mq) = 20% di probabilità. Possiamo pen-
sare ad una estrazione a caso di una mattonella da una scatola contenente
400 mattonelle.
Osservazione N.3: la probabilità di un evento A si potrà scrivere
�
P (A) = dF
A
ed è riconducibile ad una misura: numero di elementi (misure di conteg-

gio), area relativa (misure di Lebesgue), et cetera.
2.1 Insiemi
Useremo le seguenti notazioni:
N = {1, 2, 3 . . .}, N0 = N ∪ {0},
Z = {. . . , −3, −2, −1} ∪ N0 ,
Q = {m/n, m ∈ Z, n ∈ N},
R = (−∞, +∞), R∗ = R ∪ {−∞, +∞}.
Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’in-

sieme dei sottoinsiemi di A. P(A) può essere considerato come un insieme
15
16 CAPITOLO 2. MISURA E PROBABILITÀ
di famiglie di insiemi. Possiamo cioè considerare famiglie di insiemi di

P(A), ogni famiglia è costituita da insiemi di P(A) che condividono una
certa caratteristica, la caratteristica della famiglia 1 . Sia Ē il complemen-
tare di un insieme E. Scriveremo anche E c per indicare il complementare
di E.
Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi
A e B di P(A), si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c .
Sia A un insieme di P(A). Si noti che A = (A ∩ B) ∪ (A ∩ B̄) per ogni
scelta di B in P(A).
Definizione 1. Una successione Ek ⊆ P(A) si dice
• monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N,
• monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N.
Definizione 2. Data una successione Ek ⊆ P(A):

• si dice limite superiore2 di Ek l’insieme
∞ �
� ∞
lim sup Ek = lim Ek := Ek .
k i=1 k=i
• si dice limite inferiore3 di Ek l’insieme

∞ �
� ∞
lim inf Ek = lim Ek := Ek .
k
i=1 k=i
1 Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di
numeri pari, un insieme di numeri inferiori ad N fissato etc.. Si possono costruire

famiglie più o meno complesse, più o meno grandi.
2 Sia a , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore
k
come segue
lim sup ak = inf sup ak .
k n∈N k≥n
3 Sia a , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore

k
come segue
lim inf ak = sup inf ak .
k n∈N k≥n
2.1. INSIEMI 17
Osservazione 1. Se Ek è una successione monotona di insiemi di P(A),

allora
�
lim Ek = Ek se la successione è crescente,
k
k∈N
�
lim Ek = Ek se la successione è decrescente.
k
k∈N
Esercizio 6. Calcolare il limk→∞ Ek nel caso Ek = (a, b − 1/k) oppure

Ek = (a, b + 1/k) con 0 < a < b < ∞. Dire quando la successione è
crescente o decrescente.
Definizione 3. Sia E ⊆ A. La funzione 1E : A �→ {0, 1} così definita
�
1 se x ∈ E
1E (x) := , x∈A (2.1)
0 altrimenti
è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta

χE ). La funzione caratteristica 1[0,∞) è detta funzione di Haeviside e
viene denotata con il simbolo H, cioè H(x) := 1[0,∞) (x).
Definiamo la cardinalità di un insieme. Nel definire la cardinalità è
importante definire il concetto di insiemi equipotenti, due insiemi A e B
sono detti equipotenti se esiste una applicazione biunivoca f : A �→ B, ad
esempio i �→ ki , che associa ad ogni i ∈ I ⊂ N un elemento ki , definendo
così l’insieme {ki }i∈I ∈ KI . Possiamo da I risalire ad un elemento preciso
di KI e viceversa. Diamo allora la seguente
Definizione 4. (Cardinalità) Si dice cardinalità dell’insieme A (denotata
con |A|) la famiglia degli insiemi equipotenti ad A:
|A| = {B|∃f : A �→ B, f biunivoca}.
Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre

se l’applicazione f è del tipo f : I �→ KI , biunivoca, segue spontanea-
mente l’idempotenza con un insieme C ⊆ N, in particolare diciamo che
un insieme A è numerabile se |A| ≤ |N|. Diciamo che un insieme A è
infinito se esiste un sottoinsieme proprio B ⊂ A (B �= A almeno per un
4 Con il temine caratteristica preferiamo indicare una trasformata di densità che
verrà introdotta in seguito. Chiameremo quindi 1 funzione indicatrice.

elemento) tale che |A| = |B| mentre è finito un insieme che non risulti
infinito. Tutti gli insiemi finiti sono numerabili, è facile pensare nel caso
f : I �→ KI che esista un unico n ∈ N per cui |A| = |{1, 2, . . . , n}| e
scriveremo |A| = n, abbiamo ottenuto quindi che un insieme A è finito se
e solo se vale |A| < |N| e quindi è finito numerabile5 . Si dice invece che
un insieme ha la potenza del continuo se risulta |A| = |R|.
Definizione 5. (Insieme numerabile) Un insieme A è detto numerabile
se esiste una funzione iniettiva f : A �→ N . Se f è anche una funzio-
ne suriettiva (quindi è biunivoca), allora A è chiamato insieme infinito
numerabile.
Si noti che |{a, b, f, 3, h}| = 5, |{•, ♣, ♠}| = 3, si sta considerando il
numero di elementi che costituiscono un insieme. E’ importante notare
che se un insieme è finito allora è numerabile. Se un insieme non è finito,
può essere infinito numerabile. Dato un insieme a ∈ Rn possiamo scrivere
a = {ak , k = 1, 2, . . . , n} oppure a = (a1 , a2 , . . . , an ). Dato un insieme
x ∈ Rn useremo la stessa notazione e scriveremo
x = {xk , k = 1, 2, . . . , n} = {xk }k∈N
oppure
x = (x1 , x2 , . . . , xn ).
Sia A un insieme, sia P(A) la famiglia dei sottoinsiemi di A.
Definizione 6. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A
se
1. {∅} ∈ A;
2. E ∈ A ⇒ Ē ∈ A;
3. E, F ∈ A ⇒ E ∪ F ∈ A
Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile),
nel senso che l’operazione di unione su insiemi di A porta ad un insieme
di A, inoltre è numerabile visto che a due a due possono formarsi le unioni
di tutti gli elementi di A. Ogni famiglia non vuota A ⊆ P(A) stabile per
il passaggio al complementare e per unione finita contiene l’insieme vuoto
{∅} e quindi è un’algebra.
5 Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è
numerabile mentre non lo è l’insieme [0, 1]

2.1. INSIEMI 19
Definizione 7. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su

A se
1. {∅} ∈ A;
2. E ∈ A ⇒ Ē ∈ A;
�∞
3. per ogni successione {Ek } ⊆ A risulta k=1 Ek ∈ A.
La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi

misurabili.
Si noti che una σ-algebra è un’algebra stabile per unioni numerabili

ed inoltre vale la seguente relazione tra algebra e σ-algebra.
Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equi-

valenti:
1. A è una σ-algebra;
2. per ogni {En } ⊆ A risulta lim En ∈ A.
Quindi 1. ⇒ 2. e 2. ⇒ 1., cioè per le due affermazioni vale la doppia

implicazione logica.
Definizione 8. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra

AF = A ∩ F è detta σ-algebra indotta da A su F 6 .
Esempio 3. Si consideri il lancio di un dado regolare. In questo caso

A = Ω dove Ω = {1, 2, 3, 4, 5, 6} è l’insieme dei possibili risultati dell’espe-
rimento “lancio un dado regolare ”. Gli elementi di Ω non sono tutti quelli
ai quali potremmo essere interessati, ad esempio P (esce un numero pari)
è (diciamo) la probabilita o la misura dell’insieme {2, 4, 6} ∈ A. Quindi
la σ-algebra A contiene tutti gli insiemi (eventi) per i quali posso voler
calcolare una probabilità (ovviamente relativa all’esperimento “lancio un
dado regolare”).
Esempio 4. Si consideri una scatola S contenente i numeri da 1 a 6,

scriviamo S = {1, 2, 3, 4, 5, 6}, un insieme di cardinalità |S| = 6. Se
tolgo i numeri dispari ottendo Sp = {2, 4, 6}. Sia Sp = {1, 3, 5} l’insieme
6 Tornate a questa definizione dopo aver studiato il condizionamento di variabili
aleatorie.
dei pari in S. Si consideri l’esperimento “estraggo un numero a caso da

S”e la corrsipondente σ-algebra A. La σ-algebra relativa all’esperimento
“estraggo un numero a caso da S sapendo che è pari”sarà data da A Sp ,
cioè A ristretta ad Sp 7 .
2.2 Misure
Proposizione 3. (Misura di Lebesgue) Valgono le seguenti:
1. ogni intervallo limitato Ia,b = (a, b) ⊂ R è misurabile secondo
Lebesgue e risulta µ� (Ia,b ) := b − a,
2. ogni intervallo non limitato I (I = I(−∞,b) o I = I(a,+∞) ) è misu-
rabile secondo Lebesgue e risulta µ� (I) := ∞.
Osservazione 2. (Lunghezza di un intervallo) Si consideri la misura di

Lebesgue µ, allora dµ� = µ� (dx) = dx e
� � b
� �
µ (Ia,b ) = dµ = µ� (dx) = b − a. (2.2)
Ia,b a
(Misura di un insieme A) Nel precedente esempio si è considerato A =

(a, b). In generale, per un insieme A ⊂ Rn scriveremo
� �
� �
µ (A) = µ (dx) = dx1 dx2 · · · dxn
A A
dove µ� (dx) = dx1 dx2 · · · dxn se µ� è la misura di Lebesgue (lunghezza,

area, volume, etc.).
Esercizio 7. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare:
1. misura di Lebesgue µ� (Q) di Q,
2. area di Q.
Definire un rettangolo R e calcolare:
1. misura di Lebesgue µ� (R) di R,
7 Tornare a questo esempio dopo aver studiato la probabilità condizionata.
2.2. MISURE 21
2. area di R.
Osservazione 3. Notiamo che µ� ([a, b]) = µ� ({a} ∪ (a, b) ∪ {b}) =
µ� ((a, b)) visto che µ� ({a}) = µ� ({b}) = 0. Vale infatti quanto sotto
riportato.
Proposizione 4. Ogni sottoinsieme numerabile di R è misurabile secon-
do Lebesgue e ha misura nulla.
Si scelga una funzione f e si calcoli il limite
� a+1/n
lim f (x)dx.
n→∞ a
Definizione 9. (Misura che conta, di conteggio) Sia A un insieme.

L’applicazione µ� : P(A) �→ R+ definita come segue
�
|A| se A è finito
µ� (A) :=
∞, altrimenti
è una misura di conteggio.

Sembra evidente quindi la natura del nome dato a µ� , infatti associa
ad un insieme finito A il valore |A| =“numero di elementi di A”. Per
completezza diamo anche la seguente definizione.
Definizione 10. (Misura di Dirac) Sia A un insieme. L’applicazione
µδ : R × P(A) �→ {0, 1} relativa ad E ∈ P(A) definita come segue
�
1, x ∈ E
µδ (x) := , x∈R
0, altrimenti
è una misura di presenza/assenza. Scriveremo anche µ δ (x, E) per sotto-

lineare che µδ è relativa ad E 8 .
Definizione 11. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La re-

strizione di µ alla σ-algebra indotta AF = A ∩ F è una misura denotata
con µF è detta misura indotta da µ su AF 9 .
8 Si
�
noti che µδ (A) =
A dµ = |A ∩ E| cioè il numero di elementi di E che stanno
δ
in A.
9 Tornate a questa definizione dopo aver studiato le variabili aleatorie condizionate.
Definizione 12. Sia A ⊆ P(A) una σ-algebra, µ : A �→ R+ una misura.
• La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita)

lo spazio di misura è detto finito (σ-finito).
• Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la

misura µ è detta misura di probabilità. Scriveremo (Ω, A, P ).
Osservazione 4. Uno spazio di misura è definito dalla terna data sopra

che coinvolge la σ-algebra A e la misura µ : A �→ R+ . Nonostante
sia consuetudine tra i matematici definire in questo modo uno spazio
di misura, la logica impone che tale definizione sia ridondante, infatti
potremmo semplicemente scrivere (A, µ) dove A è definita come dominio
di µ. Quando parliamo dello spazio misurabile (A, A) in realtà abbiamo
già in mente una misura µ con dominio A, senza introdurla. Il concetto di
insieme misurabile (per cui basterebbe definire una σ-algebra e quindi una
spazio misurabile) andrebbe quindi sostituito con il concetto di insieme
µ-misurabile (o come vedremo sotto, funzione µ-misurabile, argomento
importante per definire un integrale di funzione). Tale precisazione va
fatta soprattutto quando si vogliono studiare questioni più delicate.
Vogliamo ricordare che si dovranno considerare misure diverse per

insiemi diversi. Intendiamo per diversi, quegli insiemi strutturalmente
differenti. Si pensi ad un insieme di punti (finito o no, comunque nume-
rabile) e ad un intervallo (cioè un insieme con infiniti punti, si dice con
la potenza del continuo).
Esercizio 8. Si calcoli
� x
I(x) = f (u)du, x∈R (2.3)
−∞
nei due casi

�
1, x ∈ (0, 1) ∪ (1, 3)
f (x) = (2.4)
0, altrove
oppure
�
1, x ∈ (0, 2) ∪ (2, 3)
f (x) = . (2.5)
0, altrove
2.3. MISURE DI PROBABILITÀ - 23
Una esempio di misura (di Lebesgue) che "non vede" i punti (separa-
tamente) ma "vede" solo gli intervalli. Le funzioni (2.4) e (2.5) sono
diverse ma si ottiene la stesso integrale I(x). Conoscendo I(x) e la sua
rappresentazione (2.3) non si può risalire ad f .
2.3 Misure di Probabilità ✍

Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi
attorno ai quali estendere quanto si è visto sino ad ora. In particolare ci
stiamo riferendo agli Assiomi della probabilità o Assiomi di Kolmogorov.
Assiomi di Kolmogorov. Valgono i seguenti assiomi:

A.1 Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe
additiva A.
A.2 Ad ogni evento A ∈ A è associato un numero reale non negativo
P (A) che viene detto probabilità di A.
A.3 P (Ω) = 1.
A.4 A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B).
A.5 Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e
limn→∞ An = {∅}, si ha limn→∞ P (An ) = 0.
Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La
classe additiva o σ-algebra A è una classe di insiemi non vuota e chiusa
(stabile) rispetto alla negazione e all’unione numerabile (la chiusura ap-
pena menzionata vuole intendere che tale classe è costituita da elementi,
gli insiemi, che possono essere uniti formando un nuovo insieme appar-
tenente alla classe e che preso il complementare di ognuno di essi, della
negazione o dell’unione appena ricordata, tale complementare appartiene
ancora alla classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e
∪n An ∈ A per ogni successione {An } ∈ A. Vale la pena ricordare che A
può essere così descritta,
A = { insieme di tutti gli eventi, riguardanti un esperimento dato,

per i quali posso voler calcolare la probabilità }.
La misura P è quindi una misura di probabilità. Diremo che Ω è

l’insieme fondamentale o spazio fondamentale, spazio campionario, insie-
me degli eventi. In un esperimento o nel lancio di un dado si ottiene
uno degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere
A = “si ottiene 1”. Lo spazio degli eventi A o anche algebra degli eventi
è l’insieme di tutti gli eventi casuali che si possono ottenere in un certo
esperimento. Supponiamo che nel lancio di un dado sia A =“si ottiene un
numero pari”= {2, 4, 6} = {2} ∪ {4} ∪ {6}, la σ-algebra A sarebbe allora
A = {∅, A, Ā, Ω} dove
Ā ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5},
quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi

di interesse relativamente all’esperimento (sopra si è usata la legge di
DE MORGAN o di BOOLE). Sembra utile chiarire un formalismo che
in realtà è anche una importante sfumatura teorica, l’evento P ({1, 2, 3})
nel lancio di un dado può essere riscritto P ({1, 2, 3}) = P ({1} ∪ {2} ∪
{3}) e rappresenta l’evento P (esce 1 o 2�o 3) = P �
(esce 1) + P (esce 2) +
P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1 sotto le
condizione dell’assioma 4.
Esempio 5. Nel lancio di due dadi si deve considerare uno spazio degli
eventi elementari dato da
Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6}
cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di

ottenere una sola coppia è costante (spazio uniforme) ed è pari a 1/36
e 36 sono gli elementi della matrice. Si deve osservare che P (ottenere
(1, 2)) = P (ottenere (2, 1)) = 1/36 mentre
2 1 1
P (ottenere entrambi i numeri 1 e 2) = = +
36 36 36
che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il
fatto che P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito
che
1 1 1
P (ottenere (1, 2)) = = · = P (ottenere 1) · P (ottenere 2)
36 6 6
che introduce il concetto di indipendenza10 (eventi indipendenti e compa-

tibili) ed il fatto che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può
essere visto come lanciare due volte un solo dado.
Evento certo, Evento impossibile. Sia A un evento. Diciamo che

A è un evento impossibile se P (A) = 0. Diciamo che A è un evento certo
se P (A) = 1. Segue immediatamente che {∅} e Ω sono rispettivamente
un evento impossibile ed un evento certo, per definizione.
Eventi complementari. Diciamo che B è il complementare di A e

scriviamo B = Ā oppure B = Ac se A ∪ B = Ω e A ∩ B = ∅.
Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili

se E ∩ F = {∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo
a Roma” si ottiene E ∩ F = “mi trovo a Parigi e a Roma” = “evento
impossibile”.
“Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompati-
bili, la probabilità dell’unione di tutti gli eventi è uguale alla somma delle
probabilità degli eventi. In simboli
n
� n
�
Ai ∩ Aj = {∅} per i �= j ⇒ P ( Ar ) = P (Ar ). (2.6)
r=1 r=1
Stiamo quindi dicendo che P è additiva.
Esempio 6. Gli eventi E =“mi trovo a Pisa” e F =“vedo la torre Eiffel”

sono eventi incompatibili.
Esercizio 9. Consideriamo gli eventi E =“piove”, F =“cado scendendo

le scale”. Che tipo di eventi sono?
Intersezione con un evento certo. Un evento è certo se si verifica

con probabilità pari ad 1. Dato un evento certo che indichiamo con Ω
(e quindi P (Ω) = 1) è sempre possibile individuare un evento A tale
che A ∪ Ac = Ω. Si vede subito che P (A ∩ Ac ) = 0, i due eventi sono
10 Il concetto di indipendenza verrà introdotto più avanti a pagina 27.
incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato un evento

E ∈ Ω, è estremamente utile ricordare la seguente decomposizione
P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )).
Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.6) segue che
P (E) = P (E ∩ A) + P (E ∩ Ac ). (2.7)
Esercizio 10. Si rappresenti graficamente quanto appena detto mediante

i digrammi di Eulero-Venn.
Eventi compatibili. Diremo che due eventi sono compatibili se non

sono incompatibili. Se quindi non si escludono.
La legge delle probabilità totali. Siano A e B due eventi compatibi-

li. Allora, P (A∪B) = P (A)+P (B)−P (A∩B) (si dimostri graficamente).
Inoltre, se A,B,C sono eventi compatibili,
P (A ∪ B ∪ C) =P (A) + P (B) + P (C)

−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)
Ovviamente si può procedere con più di tre eventi. Lasciamo questo eser-
cizio al lettore interessato, si noti che un modo di procedere è il metodo
grafico (diagrammi di Venn).
La legge delle probabilità composte. Siano A e B due eventi.

Allora, P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A) dalla quale si ricava
P (A ∩ B) P (A ∩ B)
P (A|B) = e P (B|A) = .
P (B) P (A)
L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una

dipendenza di A da B. Prima di andare a vedere in quanti modi può
verificarsi A bisogna distinguere tra i casi possibili di B e capire come il
verificarsi di B modifica il verificarsi di A.
Esempio 7. Sia A ="mi rompo un braccio" un evento, non troppo felice!

Sia B ="piove" un secondo evento. Allora A|B può avere un senso, posso
cioè rompermi il braccio cadendo e cado perché piove. Forse, col sole non
sarei caduto! C’è quindi una probabilità positiva (cioè diversa da zero)
per l’evento A|B.
Esempio 8. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è

nato il 4 luglio". Cosa posso dire?
Eventi indipendenti. Se gli eventi A e B sono indipendenti (e scri-

viamo A ⊥ B), allora P (A ∩ B) = P (A)P (B). Cioè nel calcolare la
probabilità che A e B si verifichino entrambi, si deve considerare che
A ⊥ B e quindi A si verifica con la sua probabilità di verificarsi e B si
verifica con la sua probabililtà di verificarsi. Se gli eventi sono indipen-
denti, come si è visto, A|B = A. Cioè il verificarsi di A dipende solo
da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono
indipendenti anche A e B̄, Ā e B, Ā e B̄.
Esercizio 11. Siano A e B eventi indipendenti. Si dimostri che P (A ∩

B̄) = P (A)P (B̄).
Vale il seguente risultato nel caso di più eventi.
Proposizione 5. Se gli eventi {Ar }, in numero finito e infinito, sono

indipendenti, allora comunque si prendano k di essi A j1 , Aj2 , . . . , Ajk con
k > 1, si ha
P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ). (2.8)
Osservazione 5. Dobbiamo notare che se gli eventi sono incompatibili,

non ha senso il concetto di dipendenza. Si può facilmente verificare che
tutti gli eventi sono indipendenti dall’evento impossibile.
Osservazione 6. Notiamo che due eventi A, B sono indipendenti se

P (A|B) = P (A) o P (B|A) = P (B). Inoltre, ∅ ⊥ A e Ω ⊥ A per ogni
evento A, infatti P (∅ ∩ A) = 0 = P (∅)P (A) e P (A ∩ Ω) = P (A) =
P (A)P (Ω). Se P (A|B) = P (A) diciamo anche che B non è informativo,
cioè sapere se si è realizzato B non aggiunge informazioni sul realizzarsi
di A. Lo stesso per P (B|A) = P (B).
Esempio 9. Siano A =“faccia pari” e A = B =“faccia dispari” due eventi

nel lancio di un dado regolare. Si vede subito che P (faccia < 2|A) = 0
e P (faccia > 5|B) = 0 quindi gli eventi “faccia < 2” o “faccia > 5” non
sono indipendenti da A o B. A dispetto di ciò si ottiene comunque che
per qualche k
P (faccia < k|A) = P (faccia < k), P (faccia < k|B) = P (faccia < k).
Verificare inoltre se P (faccia ≥ 5, B) = P (faccia ≥ 5)P (B) e dire se gli

eventi sono indipendenti (considerare la definizione di eventi indipendenti
data sopra). [In questo esempio si vede che la regola del prodotto delle
probabilità può essere una coincidenza analitica.]
Osservazione 7. Siano A, B, C tre eventi. Se A ⊥ B, B ⊥ C, A ⊥ C
non possiamo concludere che P (A ∩ B ∩ C) = P (A)P (B)P (C). Cioè,
l’indipendenza a due a due non implica l’indipendenza a tre a tre.
Nel seguito useremo anche la seguente notazione
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An ) (2.9)
ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si ve-

rifichino tutti. Sembra utile leggere P (A ∩ B) come la probabilità che
si verifichi A e B. Diremo invece che P (A ∪ B) è la probabilità che si
verifichino A, B o entrambi (diremo quindi A o B). In generale P (∪r Ar )
sarà la probabilità che si verifichi almeno uno degli Ar (non escludiamo
quindi che se ne possono verificare più di uno).
Se gli eventi sono indipendenti, la formula (2.9) si scrive come il
prodotto delle singole probabilità altrimenti vale la regola del prodotto
P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ).

(2.10)
Ovviamente, sotto l’ipotesi di indipendenza si ha che
P (An |An−1 , . . . , A2 , A1 ) = P (An ),

..
.
P (A2 |A1 ) = P (A1 )
e quindi la regola (2.10) vale per eventi qualunque.

Esempio 10. Si consideri una scatola contenente due palline rosse e tre
palline nere. Vogliamo calcolare la probabilità di ottenere tutte palline
nere estraendo tre palline in blocco. Allora, sia Ni ="pallina nera alla
i-esima estrazione", otteniamo
P (N1 , N2 , N3 ) =P (N3 |N2 , N1 )P (N2 , N1 )

=P (N3 |N2 , N1 )P (N2 |N1 )P (N1 ).
Esempio 11. Dal lancio di due dadi regolari, diciamo D 1 e D2 , voglio

calcolare la probabilità che sia uscita la faccia 1 sapendo che la somma
dei numeri sulle facce è 3. Allora,
P ({1}|somma = 3)
=P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3)
P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3))
=
P (D1 + D2 = 3)
P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)])
=
P (D1 + D2 = 3)
P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1))
= = 1.
P (D1 + D2 = 3)
Esempio 12. Seguendo il precedente esercizio, vediamo invece che
P ({1}|somma = 4)
P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)])
=
P (D1 + D2 = 4)
P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1))
=
P (D1 + D2 = 4)
1 2
= ·
P (D1 + D2 = 4) 36
dove P (D1 +D2 = 4) = 3/36. Si ottiene quindi P ({1}|somma = 4) = 2/3

[si noti che {1} = {1} ∪ {1}, cioè 1 dal primo o dal secondo dado].
Osservazione 8. Si consideri F = ”D1 + D2 = k” con k = 3, 4 come
nei precedenti esempi. Si consideri poi ΩF = Ω ∩ F o AF = A ∩ F .
Cosa possiamo dire sulle probabilità sopra studiate? (Ω F rappresenta la
restrizione di Ω ai soli elementi di F , si veda la Definizione 8).
Esercizio 12. Si lanci un dado regolare D. Calcolare:

1. P (D = 1|D < 4),
2. P (D = 1|D è un numero pari),
3. P (D = 1|D è un numero dispari),
4. P (D = 3)|2 ≤ D ≤ 4).
La legge delle probabilità composte a più alternative (formula di

Bayes). La formula di Bayes svolge un ruolo molto interessante. Mette
in relazione un evento E (che possiamo identificare come un effetto) con
altri eventi (che possiamo considerare come le cause). Ci chiediamo quan-
to uno degli altri eventi intervenga nel determinare E (quanto partecipa
una certa causa nel determinare un effetto).
Teorema 1. Dati un evento E ed un insieme finito �n (o numerabile) di
eventi incompatibili {Ar }, r = 1, 2, . . . , n, se E ⊂ r=1 Ar e P (E) �= 0,
si ha
P (Ar )P (E|Ar )
P (Ar |E) = �n , r = 1, 2, . . . , n. (2.11)
i=1 P (Ai )P (E|Ai )
Dimostrazione. Per la legge delle probabilità composte possiamo scrivere
P (E ∩ Ar ) P (E|Ar )P (Ar )
P (Ar |E) = = .
P (E) P (E)
Inoltre, E ⊂ ∪r Ar e quindi
� �
� �
E=E∩ Ar = (E ∩ Ar ).
r r
Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono

incompatibili. Per la legge delle probabilità totali, otteniamo
n
� n
�
P (E) = P (∪r (E ∩ Ar )) = P (E ∩ Ar ) = P (E|Ar )P (Ar ).
r=1 r=1
La dimostrazione è conclusa.
Una lettura della formula di Bayes può essere data in termini di

ipotesi. In particolare, se A1 , A2 , . . . , An sono n ipotesi diverse, allora
P (E|Ar ) è la probabilità che si realizzi E sotto l’ipotesi Ar . Di conse-
guenza P (Ar |E) è la probabilità che verificatosi E si sia verificata Ar ,
cioè quanto è plausibile l’ipotesi Ar data la realizzazione di E.
Esercizio 13. Una compagnia di assicurazioni considera la popolazione
composta da PI ="persone propense agli incidenti" e PIc ="persone non
propense agli incidenti". Le statistiche della compagnia mostrano che tra
le persone propense agli incidenti, il 40% ne ha entro il primo anno; tra
le persone non propense agli incidenti, il 20% ne ha uno entro un anno.
Inoltre, dalle statistiche si evince che il 30% della popolazione è propensa
agli incidenti. Si vuole calcolare:
1. la probabilità che un nuovo assicurato abbia un incidente entro il
primo anno dalla stipula della polizza,
2. la probabilità che una persona che ha avuto un incidente entro il
primo anno sia propensa agli incedenti.
Svolgimento Esercizio 13. Sia A = "un nuovo assicurato abbia un

incidente entro il primo anno dalla stipula della polizza" l’evento di in-
teresse. Sappiamo che PI ∪ PIc = Ω e P (PI ) = 0.3 quindi si ottiene
P (PIc ) = 0.7 per passaggio al complementare.
1. Consideriamo l’intersezione con l’evento certo Ω,
P (A) =P (A ∩ [PI ∪ PIc ])

=P ([A ∩ PI ] ∪ [A ∩ PIc ])
=P ([A ∩ PI ]) + ([A ∩ PIc ])
=P (A|PI )P (PI ) + P (A|PIc )P (PIc )
4 3 2 7 26
= + =
10 10 10 10 100
dove si è usata la legge delle probabilità totali prima e delle proba-
bilità composte dopo.
2. Si ha
P (A ∩ PI ) P (A|PI )P (PI ) 4 3 100 12
P (PI |A) = = = = .
P (A) P (A) 10 10 26 26
Disuguaglianza di Boole. Prima di proseguire ricordiamo il principio

di induzione già introdotto nei corsi precedenti:
“Sia Ak dipendente da un indice k ∈ N una affermazione vera per
k = 1 e supponiamo che sia vera per un certo k = n. Se è vera anche per
k = n + 1, allora Ak è vera per ogni k ∈ N. ”
Diamo ora il seguente risultato (subadditività di P ).
Teorema 2. (Dis. di Boole) Per una successione finita o numerabile di

eventi {Ar }r=1,...,n si ha
n
� n
�
P( Ar ) ≤ P (Ar )
r=1 r=1
Dimostrazione. Introduciamo una successione arbitraria di eventi

r−1
�
Fr = Ar \ Ak , r = 1, 2, . . . , n
k=1
e procediamo per induzione nel dimostrare che

n
� n
�
Ar = Fr . (2.12)
r=1 r=1
Sarà utile ricordare la relazione
A \ B = A ∩ Bc (2.13)
dove B c = B̄ è il complementare di B (verificate utilizzando i diagrammi

di Venn). Si vede subito che A1 = F1 per costruzione. Supponiamo che
(2.12) sia vera per n − 1 e verifichiamo per n. Si ottiene
n
�n−1 �
� �
Fr = Fr ∪ Fn
r=1 r=1
�n−1 �
�
= Ar ∪ Fn (assunzione)
r=1
�n−1 � � n−1
�
� �
= Ar ∪ An \ Ak (definizione)
r=1 k=1
�n−1 � � �n−1 �c �
� �
= Ar ∪ An ∩ Ak (dalla (2.13))
r=1 k=1
� n � n
� �
= Ar ∩Ω= Ar .
r=1 r=1
Quindi la (2.12) è dimostrata. La scelta della successione Fr non è sta-

ta arbitraria. Infatti si può verificare facilmente che gli insieme di tale
successione sono a due a due disgiunti (la verifica è lasciata al lettore, si
consideri ad esempio F2 ∩ F1 ). Possiamo allora scrivere
n
� n
�
P( Ar ) =P ( Fr ) (per quanto appena dimostrato)
r=1 r=1
n
�
= P (Fr ) (per la additività di P, quarto assioma)
r=1
�n
≤ P (Ar )
r=1
dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo

fatto segue ancora dalla definizione della successione Fr . Infatti, si vede
subito che P (F1 ) = P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione
è conclusa.
Osservazione 9. Se Ak ∩ As = ∅ per ogni s �= k, allora Fk = Ak e

P (Fk ) = P (Ak ) per ogni k. Vale il segno di uguale nella dis. di Boole e
ritroviamo la (2.6).
Teorema 3. (Continuità di P ) Sia P una misura di probabilità. Sia

{Ak }k∈N ∈ A una successione monotona di eventi, allora
� �
lim P (Ak ) = P lim Ak . (2.14)
k→∞ k→∞
Inoltre,
� ∞
�
�
lim P (Ak ) = P Ak , (se la successione è crescente)
k→∞
k=1
� ∞
�
�
lim P (Ak ) = P Ak , (se la successione è decrescente).
k→∞
k=1
2.4 Spazi di Probabilità uniformi

Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a
spazi uniformi11 e impostazione classica della Probabilità. Uno spazio di
probabilità è detto uniforme se gli eventi possibili (finiti) sono equipro-
babili, cioè tutti di probabilità data e uguale a p. Si pensi al lancio di un
dado o di una moneta non truccati. Come si vedrà,
1
p = P (ω) = , ω∈Ω
µ� (casi possibili)
dove Ω è lo spazio degli eventi (elementari) possibili. Indichiamo con

ωk ∈ Ω, k = 1, 2, . . . , N 12 , gli eventi di Ω, allora l’evento si verifica se si
verifica uno degli eventi elementari13 contenuti in A, quindi
�
P (A) = P (ωk ) =p · µ� (casi favorevoli all’evento A)
k:ωk ∈A
µ� (casi favorevoli all’evento A)

=
µ� (casi possibili)
dove A è un elemento della σ−algebra generata da Ω, P (ωk ) = p per ogni

k (eventi equiprobabili) e µ� è una misura di conteggio, cioè
µ� (casi favorevoli all’evento A) = µ� {ωk : ωk ∈ A},
µ� (casi possibili) = µ� {k : k = 1, 2, . . . , N } = N.
Il nostro lavoro in questa direzione è quindi solo quello di identificare il

numero di casi possibili e favorevoli. Introduciamo il calcolo combinatorio
11 Ricordiamo che sono spazi finiti.
12 Quindi si sta dicendo che |Ω| = N .
13 Si pensi al lancio di un dado in cui gli eventi elementari sono i numeri da 1 a 6,
cioè Ω = {1, 2, 3, 4, 5, 6}. Se A =“esce un numero pari", allora A si verifica se si verifica

uno degli eventi elementari {2}, {4}, {6} ognuno con probabilità p = 1/6. Inoltre,
µ� (casi possibili) = 6, µ� (casi favorevoli) = 3 e P (A) = 3/6.
2.4. SPAZI DI PROBABILITÀ UNIFORMI 35
che risulta essere un strumento molto potente nel calcolo di probabilità

su spazi uniformi. In particolare, si considera l’impostazione classica
della probabilità, bisogna distinguere tra casi possibili (la totalità degli
eventi che possiamo registrare) e casi favorevoli (i soli eventi relativi alla
probabilità di interesse, i casi che contribuiscono al verificarsi dell’evento
per cui vogliamo calcolare la probabilità).
Figura 2.1: Estrazioni da una scatola
Nel calcolo combinatorio si studiano le diverse regole secondo le quali

insiemi di elementi sono considerati diversi. Tali regole definiscono delle
famiglie di insiemi, al loro interno tutti gli insiemi rispettano le stesse
regole, su numerosità e ordine ad esempio. Approfondiremo questi aspetti
in seguito.
Definizione 13. Dato un insieme U di cardinalità |U | = n, tutti i
sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordine (ordinati)
formano l’insieme P n delle
permutazioni semplici degli n elementi di U .
Inoltre,
|P n | = n!.

sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che non differiscono per ordine (non ordinati)
formano l’insieme Cn,k delle
combinazioni semplici degli n elementi di U in classi di k.
Inoltre,
� �
n n!
|Cn,k | = = .
k (n − k)!k!
Sia U = {a, b, c}, allora P 3 = {abc, acb, bac, bca, cab, cba}, C3,1 =
{a, b, c}, C3,2 = {ab, ac, bc}, C3,3 = {abc}.
Esercizio 14. Da un urna contenente 5 palline rosse e 5 palline nere, si
estraggono, con reimbussolamento (o con ripetizione), due palline a caso.
Calcolare le seguenti probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere);
4. P (avere estratto una pallina rossa se so che una è nera).
Esercizio 15. Da un urna contenente 5 palline rosse e 5 palline nere,
si estraggono, senza reimbussolamento (o senza ripetizione), due palline
a caso. Calcolare le seguenti probabilità:
3. P (estrarre due palline nere).
Esercizio 16. Da un urna contenente 4 palline rosse e 6 palline nere,
si estraggono, senza reimbussolamento, due palline a caso. Calcolare le
seguenti probabilità:
3. P (estrarre due palline nere).

Esercizio 17. (Regola del ”ne fisso uno”) Da un mazzo di carte da poker
(52 carte) si distribuiscono 5 carte prese a caso. Calcolare:
1. P (asso di picche tra le 5);
2. P (un asso tra le 5) = P (esattamente un asso tra le 5);
3. P (almeno un asso tra le 5);
4. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori).
Esercizio 18. Un gruppo di n maschi e m femmine partono per le va-
canze. Decidono di trovarsi in stazione la mattina del giorno dopo alle
5:30 e attendere che la biglietteria apra. Quando arrivano in stazione
non c’è nessuno, si mettono in fila in ordine di arrivo. Volendo parlare
durante l’attesa, si chiedono con quale probabilità i maschi saranno tutti
vicini e di conseguenza anche le femmine?
Cerchiamo ora di rispondere alla D4 e quindi anche alla D3 del Ca-
pitolo 1. Nel calcolare la media campionaria non importa in quale ordine
osservo le stesse n persone, posso quindi considerare cn una combinazione
semplice di 10000 indici in classi di n e può essere scelto in |C10000,n | modi
diversi. Inoltre,
� �−1
1 10000!
P (cn ) = �10000� = .
n
(10000 − n)! n!
Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media
x̄ = 20. Dobbiamo notare che P (X̄n = 20) �= P (cn ) infatti ci possono
essere diversi campioni con la stessa media campionaria (la media delle
età di Maria e Alberto può essere uguale alla media delle età di Marta e
Simone). Il problema di determinare la legge distributiva di X̄n è quindi
ancora aperto, non sappiamo cioè scrivere P (X̄n = x) per ogni x.
Svolgimento Esercizio 14. Le palline estratte vengono inserite nuova-

mente nell’urna e quindi ad ogni estrazione la situazione è esattamente la
stessa. Indichiamo con N =”estraggo pallina nera” e R =”estraggo pallina
rossa”. Gli eventi di interesse sono RN oppure N R (sono i casi favore-
voli). I casi possibili sono RR, RN, N R, N N . La situazione iniziale
prevede che (eventi di probabilità uniformi) P (R) = 10 5

e P (N ) = 10
5
.
Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di
nuovo la pallina nell’urna. Si ottiene: 1. P (RN oppure N R) = 2/4;
2. P (RR) = 1/4; 3. P (N N ) = 1/4; 4. P (R|N ) =?. Nei primi tre
punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta la
probabilità condizionata, utilizzeremo la legge delle probabilità composte.
Diamo uno svolgimento diverso da quello già visto. Se estraggo con

reimbussolamento le estrazioni sono indipendenti (le probabilità non cam-
biano in estrazioni successive). In particolare, P (R) = 5/10 = P (N )
1. P (RN ∪N R) = P ((R∩N )∪(N ∩R)) = P (R∩N )+P (N ∩R)−P (R∩

N ∩ N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) =
10 = 10 ;
5 5 5
2 10
52
2. P (RR) = P (R ∩ R) = P (R)P (R) = 102 ;
52
3. P (N N ) = P (N ∩ N ) = P (N )P (N ) = 102 ;
P (R∩N )
4. P (R|N ) = P (N ) = 10 .
5
Svolgimento Esercizio 15. Dobbiamo considerare un urna con 10 pal-

line dalla quale si estrae una pallina alla volta, senza reimbussolamento.
Dopo la prima estrazione la situazione cambia e di conseguenza anche
le probabilità di estrarre palline rosse o nere. Alla seconda estrazione,
P (R) e P (N ) dipenderanno da quale pallina ho estratto la prima volta.
Devo quindi introdurre gli eventi Ri = ”R alla estrazione i-esima” e Ni =
”N alla estrazione i-esima” e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inol-
tre, in questo caso P (R1 N2 ) = P (R2 N1 ), perché? Daremo la soluzione
di questo esercizio in seguito.
Svolgimento Esercizio 16. Anche questo esercizio ha il solo sco-

po di sottolineare alcuni aspetti importanti, daremo la soluzione in se-
guito. Siamo però in grado di fornire una spiegazione del fatto che
P (R1 N2 ) �= P (R2 N1 ) contrariamente a quanto accadeva nel precedente
esercizio. Perché?
Svolgimento Esercizio 17. Devo riempire cinque caselle con cinque

carte. In particolare:
1. 5/52. Infatti, fissato
� � l’asso di picche, devo considerare
�52� le altre
combinazioni : 1 · 51
4 sul totale delle combinazioni 5 ;
2. fisso un asso, picche. Considero le combinazioni in cui le restanti

quattro
� � caselle possono contenere tutte le altre �48carte.
� In totale
1 · 48 . Considerando gli altri assi, ottengo 4 · . Il risultato si
4 �4��48��52� 4
poteva anche ottenere scrivendo 1 4 5 ;
� �� 52�
3. “almeno uno” equivale a “non nessuno” quindi 1 − 40 48 5 5 ;
��52�
4. 1 5 . Fissata una delle possibili combinazioni, non ho caselle da
riempire.
Svolgimento Esercizio 18. Pensiamo ad una sequenza di numeri, da

1 a n + m. Ad ogni amico associamo un numero. I casi favorevoli sono
dati da tutti i modi in cui posso ordinare i primi n numeri (i maschi) e
tutti i modi in cui posso ordinare i numeri da n + 1 a m (le femmine),
si ottiene rispettivamente P n e P m . Quindi i casi favorevoli sono n!m!
mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli
n + m numeri (amici). In definitiva, applicando l’impostazione classica
della probabilità, la
P (i maschi saranno tutti vicini e di conseguenza anche le femmine)
si ottiene considerando l’ordine di arrivo e calcolando

n!m!
P (due gruppi distinti) = .
(n + m)!
Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 .

Esercizio 19. (Regola del ”procedo per iterazioni successive”) Due ami-
ci arrivano al cancello chiuso di un palazzo e solo Mario (il custode)
conosce la chiave del mazzo che apre il cancello. Appena arrivati Mario
deve rispondere al telefono e lascia il mazzo di n chiavi all’amico Matteo
chiedendogli di aprire. Matteo non sapendo quale sia la chiave giusta, le
prova tutte una ad una togliendo ogni volta dal mazzo la chiave che non
apre. Con quale probabilità Matteo proverà k chiavi?
Svolgimento Esercizio 19. Si considerino gli eventi G =”chiave giu-

sta” e S =”chiave sbagliata”. Allora
1
P (G al tentativo numero 1) =P (G) =
n
n−1 1
P (G al tentativo numero 2) =P (S)P (G) =
n n−1
n−1n−2 1
P (G al tentativo numero 3) =P (S)P (S)P (G) =
n n−1n−2
....
..
1
P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) =
n
per ogni k ≤ n. Bisogna notare che si è usato il fatto che G ⊥ S (gli

eventi G e S sono indipendenti). Notiamo inoltre che S = Gc e quindi
P (G) + P (S) = P (Ω) = 1.
Osservazione 10. Quanto la notazione è importante? Torniamo al pre-

cedente esercizio, si sono indicati con G e S gli eventi G ="prendo a caso
la chiave giusta dal mazzo" e S ="prendo a caso la chiave sbagliata dal
mazzo". In entrambi i casi ci si riferisce all’operazione di prendere a
caso una chiave, cioè sono bendato e prendo una chiave. Diciamo che i
due eventi sono indipendenti, nel senso che pescando da bendato pesco in
maniera indipendente.
Se invece introducessi l’evento Gi ="pesco a caso dal mazzo una chia-
ve giusta al tentativo i-esimo" e l’evento Si ="pesco a caso dal mazzo
una chiave sbagliata al tentativo i-esimo" dove i = 1, 2, . . . , n. Fatti gli
n tentativi ho finito le chiavi. Allora, ovviamente P (Gi ∪ Si ) = 1 e
P (Gi ∩ Si ) = 0. Inoltre,
P (G al tentativo numero 1) =P (G1 )

P (G al tentativo numero 2) =P (S1 )P (G2 |S1 )
P (G al tentativo numero 3) =P (1 S)P (S2 |S1 )P (G3 |S2 ∩ S1 )
....
..
P (G al tentativo numero k) =P (S1 ∩ · · · ∩ Sn−1 )P (Gn |S1 ∩ · · · ∩ Sn−1 )
Osservazione 11. Si consideri una scatola contenete n chiavi e si estrag-

ga con ripetizione. Calcolare
pk = P (aprire al k − esimo tentativo), k ∈ N.
Dire quanto vale la P (successo) = P (aprire) al generico tentativo.

Esercizio 20. Una segretaria riceve 4 buste dove scrive i rispettivi indi-
rizzi e 4 lettere da inserire nelle buste. Risponde al telefono e dimentica
quale lettera va associata a quale indirizzo, decide di provare a caso. Cal-
colare la probabilità che 3 lettere vengano inserite nelle buste giuste e
quindi spedite al giusto indirizzo.
Svolgimento Esercizio 20. Se 3 lettere sono messe nella busta cor-

retta allora anche la quarta verrà spedita al giusto indirizzo. Se chiamo
le buste A, B, C, D e le lettere a, b, c, d, per mettere le lettere nelle buste
giuste devo aver ordinato le buste e le lettere allo stesso modo. Quindi,
la probabilità cercata è 1/4!.
Definizione 15. Dato un insieme U = ∪N j=1 Uj di cardinalità |U | =
�N
j=1 nj = n dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da
nj ripetizioni dello stesso elemento, tutti i sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordinamento (ordinati),
iii) che non differiscono per numero di elementi uguali (con ripetizione)
formano l’insieme Pnn1 ,...,nN delle
permutazioni con ripetizione.
Inoltre,
n!
|Pnn1 ,...,nN | = .
n1 ! n 2 ! · · · nN !
Osservazione 12. Si deve notare che |Pk,n−k

n
| = |Cn,k |.
sottoinsiemi di U
i) di cardinalità k ≤ n,
iii) in cui ogni elemento di U può essere preso una sola volta (senza
ripetizione)
formano l’insieme Dn,k delle
disposizioni semplici di n elementi in classe di k.
Inoltre,
n!
|Dn,k | = n · (n − 1) · · · (n − k + 1) = .
(n − k)!
Osservazione 13. Si noti che |Dn,k | = k!|Cn,k |.

sottoinsiemi di U
i) di cardinalità k ∈ N,
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
formano l’insieme Dn,k
�
delle
disposizioni con ripetizione di n elementi in classe di k.
Inoltre,
�
|Dn,k | = nk .

sottoinsiemi di U
i) di cardinalità k ∈ N,
ii) che non differiscono per ordinamento (non ordinati),
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
formano l’insieme Cn,k

�
delle
combinazioni con ripetizione di n elementi in classe di k.
Inoltre,
� �
� n+k−1
|Cn,k |= .
k
Sia U = {a, a, b}, allora P2,1

3
= {aab, aba, baa}. Sia U = {a, b}, allora
� �
D2,2 = {ab, ba}, D2,2 = {aa, ab, ba, bb}, C2,2 = {aa, ab, bb} = {aa, ba, bb}.
Svolgimento Esercizio 15 (continuazione). Possiamo considerare

le estrazioni in blocco e quindi otteniamo
� �� 5
1. P (RN ∪ N R) = 51 51 / 10 2 = 9;
�5��5� �10�
2. P (RR) = 2 0 / 2 ;
� ��
3. P (N N ) = 50 52 / 102 ;
oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità

cambiano ad estrazioni successive. Infatti,
5 5
P (RN ) =P (R alla prima estrazione)P (N alla seconda estrazione) = .
10 9
Si ottiene allora
1. P (RN ∪ N R) = 2 10 9;
5 5
2. P (RR) = 10 9 ;
5 4
3. P (N N ) = 10 9 .
5 4
Esercizio 21. Da un mazzo di 52 carte Mariello prende tutte le 13 carte

di un solo seme scelto a caso e le passa a Mario. Mario distribuisce a
Maria le prime n carte del mazzo. Calcolare le seguenti probabilità:
a) tutte le carte di Maria sono minori o uguali ad n.
b) tutte le carte di Maria sono maggiori di n.
c) tutte le carte di Maria sono di cuori.
Esercizio 22. Mario e Piero (in questo ordine) estraggono una pallina
numerata a testa con reimbussolamento da una scatola contenete i numeri
da 1 a 9. Guardano i numeri sulle due palline estratte, chi ha un numero
pari vince 5 euro e se si sono estratte due palline con un numero pari
non vince nessuno. Si ripete questa operazione due volte. Calcolare le
probabilità dei seguenti eventi:
1. nessuno vince;
2. Piero vince 10 euro;
3. entrambi vincono 10 euro;
4. uno dei due vince 10 euro;
5. entrambi vincono 5 euro.
Esercizio 23. Un biologo marino studia il comportamento di nove squali

mentre attraversano un tratto di mare. Ci sono tre tunnel (diciamo A,B
e C) e gli squali possono attraversare quel tratto di mare solo attraverso
uno di questi passaggi obbligati. Il biologo si chiede con quale probabilità:
1. (esattamente) tre passano per A;
2. (esattamente) due passano per A e (soltanto) quattro per B;
3. (esattamente) tre passano per un tunnel.
Esercizio 24. Estrazione del lotto rivisitata. Si estraggono 5 palline da

un urna U contenete |U | = 49 palline numerate da 1 a 49. L’estrazione
viene fatta in blocco e si ripete ogni settimana, una volta estratte le palline
vengono reinserite in U . Calcolare :
1. P(di estrarre il numero 5)
2. P(di estrarre il numero 5 la seconda settimana)
3. P(di non estrarre il numero 5 per 7 settimane)
4. P(di estrarre il numero 5 se non è stato estratto per le precedenti 7

settimane)
5. P(di estrarre due volte il numero 5 nella stessa settimana)

6. P(di estrarre due volte il numero 5 in due settimane successive)

7. P(di estrarre due numeri pari nella stessa settimana)
Esercizio 25. Estrazione del lotto rivisitata. Si estraggono 5 palline da
un urna U contenete |U | = 69 palline numerate da 1 a 69. L’estrazione
viene fatta in blocco e si ripete ogni settimana, una volta estratte le palline
vengono reinserite in U . Calcolare :
1. P(di estrarre il numero 5)
2. P(di estrarre il numero 5 la seconda settimana)
3. P(di non estrarre il numero 5 per 17 settimane)
4. P(di estrarre il numero 5 se non è stato estratto per le precedenti
17 settimane)
5. P(di estrarre due volte il numero 5 nella stessa settimana)
6. P(di estrarre due volte il numero 5 in due settimane successive)
7. P(di estrarre due numeri pari nella stessa settimana)
Esercizio 26. L’urna U contiene 10 palline di cui 5 sono rosse e 5 sono
bianche. Da U si estraggono 6 palline senza reimmissione. A questo
punto si lancia una moneta bilanciata tante volte quante sono le palline
rosse estratte. Calcolare le seguenti probabilità:
1. di lanciare la moneta esattamente 6 volte.
2. di lanciare la moneta esattamente 4 volte.
3. di ottenere esattamente 2 volte testa.
4. di aver lanciato la moneta esattamente due volte dato che si è
ottenuta esattamente una testa.
5. di lanciare esattamente due volte la moneta ottenendo esattamente
una testa e una croce.
Osservazione 14. E.S.R.(Campionamento in blocco). Relativamente
alla figura E.S.R. (estrazione senza ripetizione) calcolare la probabilità di
estrarre k palline bianche (e quindi n − k palline nere).
Osservazione 15. E.C.R.(Campionamento Bernoulliano). Relativa-

mente alla figura E.C.R. (estrazione con ripetizione) calcolare la proba-
bilità di estrarre k palline bianche (e quindi n − k palline nere).
Da ricordare
Si è introdotta la classe A come la σ-algebra definita a partire da Ω, dove
Ω è l’insieme degli eventi elementari. Ω è definito dall’esperimento ogget-
to di studio. Dobbiamo sottolineare che P è una "misura" di probabilità,
cioè una funzione P : A �→ [0, 1] dove A è la classe contenente tutti gli
eventi per i quali possiamo voler calcolare P . Ricordiamo inoltre che P
è una misura di insieme, infatti saremo sempre in grado di associare un
evento ad un insieme e utilizzare la teoria degli insiemi (con le relati-
ve operazioni di unione, intersezione e passaggio al complementare) per
arrivare alle nostre conclusioni.
3
Variabili Aleatorie
3.1 Definizione e caratterizzazione ✍

Diamo una definizione formale e introduciamo le variabili aleatorie con
un esempio.
Definizione 19. (Variabile aleatoria a valori in B) Sia X = X(ω) una
funzione X : Ω �→ B, diremo che X è una variabile aleatoria (v.a.)
definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se cioè
(X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} = A ∈ A.
Si noti che A è un insieme della σ-algebra A ed è costituito dagli
elementi di Ω per cui X ≤ x. Sia B la σ-algebra costruita da B. Possiamo
quindi parlare di una v.a. misurabile X(ω) : A �→ B e risulta
P (X(ω) ∈ B) = P (X −1 (B) ∈ A) (3.1)
con B ∈ B e A ∈ A dove B ⊆ P(Rn ) se X ∈ Rn o B ⊆ P(Zn ) se
X ∈ Zn . Dobbiamo specificare rispetto a quale misura si sta calcolando
la probabilità P quando si considera un insieme B della σ-algebra B di
Rn (oppure B della σ-algebra “discreta” B di Zn ) o un insieme A della
σ-algebra A di Ω. Dobbiamo capire cosa misuriamo. Infatti, A e B dalla
relazione (3.1) sono tali per cui P (A) = P (B)1 dove
�
P (A) = dP (ω), A ∈ A, (3.2)
A
(è un integrale sugli elementi di Ω che stanno in A) o equivalentemente

�
P (B) = dFX (x), B ∈ B (3.3)
B
1 Diciamo che A ≡ B, cioè la probabilità che si realizzi A è uguale alla probabilità
che si realizzi B. Questo perchè i due eventi sono dati l’uno dall’altro. Si veda più
avanti il caso delle altezze della popolazione italiana.
47
48 CAPITOLO 3. VARIABILI ALEATORIE
(che è un integrale sugli elemti di B che stanno in B ). Diremo che FX è

associata a P . Si vede subito che FX : B �→ [0, 1] mentre P : Ω �→ [0, 1]
(oppure FX : B �→ [0, 1] mentre P : A �→ [0, 1]). Il nostro scopo, in
questo capitolo, è quello di caratterizzare la misura nel caso in cui X
assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω)
assume valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci
interessano tutti gli ω ∈ A ⊂ A tali che X(ω) ∈ B ⊂ B). Ci troviamo a
dover trattare due spazi, (Ω, A, P ) e (B, B, FX ) dove FX è indotta dalla
v.a. X. La v.a. X(ω) rappresenta il collegamento tra i due spazi 2 . Diamo
il seguente esempio.
Se X fosse la v.a. altezza delle persone di Ω (dove, ad esempio, Ω è
la popolazione italiana) diciamo che la probabilità che una persona sia
alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈ A) = P (A)
dove A è costruito da Ω. In particolare, A è l’insieme delle persone
di Ω con altezza pari a 1.70 e quindi P (A) o P (X = 1.70) si ricava
dalla formula µ� (A)/µ� (Ω) = nX=1.70 /npersone di Ω . In questo caso A è
l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70
metri, A = {ω ∈ Ω | X(ω) = 1.70} e µ� (A) restituisce il numero di tali
persone. Si osservi che
A = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70)

A = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞)
A = {ω ∈ Ω | 1.20 < X(ω) ≤ 1.80} ⇔ B = (1.20, 1.80].
Diremo quindi che X(ω) =“ altezza di ω” se X =“altezza” e ad ω (o

alla persona ω) può essere associata una misura di probabilità P (ω), cioè
P (misurare la persona ω).
Osservazione 16. Notiamo che
P (X ∈ B) = P (ω ∈ Ω : X(ω) ∈ B) = P (A), A∈A
nello spazio (Ω, A, P ) e quindi
P (X ∈ B) = FX (B : X −1 (B) ∈ A), B∈B
nello spazio (B, B, FX ).

2 Ricordiamo che B è costruito a partire da B esattamente come A si costruisce a
partire da Ω.
3.1. DEFINIZIONE E CARATTERIZZAZIONE - 49
Oggetto chiave è la funzione di ripartizione della v.a. X a valori in B

data da
FX (x) := P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
dove X = (X1 , X2 , . . . , Xn ) è un vettore aleatorio e x = (x1 , x2 , . . . , xn ) ∈
B. Ricordiamo che B può essere l’insieme dei reali, interi, razionali, ...,
cioè l’insieme dei valori che può assumere la v.a. X.
Diamo la seguente definizione di variabile aleatoria (v.a. in breve).
Definizione 20. Una v.a. reale (a valori reali) X è una funzione dallo
spazio di probabilità (Ω, A, P ) allo spazio misurabile (B, B, F X ), con la
classe B misurabile, nel senso che le immagini inverse degli insiemi della
classe B costruiti da B ⊂ R appartengono alla classe A costruita da Ω.
Notiamo che N ⊂ Z ⊂ R, potevamo considerare B = Rn . Nella
definizione precedente si sono introdotte non solo le variabili a valori
reali, come vedremo più avanti noi saremo interessati a caratterizzare
le variabili a valori continui e discreti. Useremo, se necessario, anche la
notazione (ΩX , AX , PX ) per indicare che lo spazio di probabilità (Ω, A, P )
si riferisce alla v.a. X.
Proprietà della funzione di ripartizione. Vediamo il caso in cui

X ha valori in R ovvero X è reale 1-dimensionale. Sarà più chiaro in
seguito che la funzione di ripartizione è sempre definita nei reali, cioè
FX : R �→ [0, 1]. In particolare
FX (x) := P (X ≤ x), x ∈ R. (3.4)
Valgono le seguenti proprietà, dati x, x1 , x2 , {xn }n ∈ R con x1 < x2 :
1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x);
2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 );
3. P (X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 );
4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0;
5. limx→x+ FX (x) = FX (x0 ) (continuità a destra) cioè
0
xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x)
xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−)

(ad esempio xn = x + 1/n e xn = x − 1/n). Se xn → ∞ (o xn ↑ ∞) allora

FX (xn ) → P (X < ∞) = 1. Notiamo che
P (X = x) = FX (x) − FX (x−) (3.5)
è uguale a zero per tutti i punti x di continuità3 per FX .
Osservazione 17. Si calcoli FX (3/2) − FX (3/2−) nella formula (3.5)

nel caso in cui X ="faccia nel lancio di un dado regolare". Il punto 3/2
è di continuità (locale) per FX (x).
Nel caso di una v.a. multidimensionale si ottiene

lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ),
x1 →+∞
(3.6)
lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ),
x2 →+∞
lim F(X1 ,X2 ) (x1 , x2 ) = 0, lim F(X1 ,X2 ) (x1 , x2 ) = 0, (3.7)

x1 →−∞ x2 →−∞
lim F(X1 ,X2 ) (x1 , x2 ) = 1. (3.8)

x1 ,x2 →∞
Variabili aleatorie a valori discreti

Un esempio di v.a. discreta (a valori discreti) può essere la variabile che
restituisce i numeri da 1 a 6 nel lancio di un dado oppure una variabile
che può assumere solo i valori 1 e −1 con probabilità assegnate.
Definizione 21. Una v.a. si dice discreta se assume valori discreti 4 .
Definizione 22. Se X è una v.a. discreta, definiamo spet(X) lo spettro

della v.a. X, cioè l’insieme dei valori che può assumere X.
Una v.a. si dice discreta se lo spettro è un insieme numerabile5 . La

funzione di ripartizione è scritta a partire dalla seguente probabilità (come
3 Se la v.a. è continua si ha F (x−) = F (x) mentre nel caso di v.a. discrete, i
X X
salti della f.r. determinano P (X = x) > 0.
4 Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito
chiamato spettro o spettro discreto, è un insieme finito o infinito numerabile.

5 Se ad esempio spet(X) = {−π, +π}, allora diciamo che X è una variabile discreta
anche se ±π non sono interi.

1.0
●
0.8
●
0.6
●
0.4
●
0.2
●
0.0
0 1 2 3 4 5 6 7
Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia

nel lancio di un dado". La funzione è continua a destra (da destra).
vedremo questa non è la scrittura definitiva)

�
P (X ≤ x) = pk , x ∈ R
k:xk ≤x
dove
�
P (X = xk ), xk ∈ spet(X)
pk := (3.9)
0, altrimenti
e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può

assumere. La successione è dunque numerabile (cioè può essere messa in
corrispondenza biunivoca con l’insieme dei numeri naturali) e può essere
scritta come {xk }k∈IX dove IX ⊆ N è un insieme di indici per la v.a.
X. In generale, diremo che una v.a. discreta X può essere caratterizzata
dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo
X ∼ (xk , pk ), k ∈ IX . (3.10)
La funzione di ripartizione si può quindi riscrivere come segue

�
P (X ≤ x) = pk , x ∈ R.
k∈IX :xk ≤x
La successione pk , k ∈ IX è detta densità discreta di X e per ogni B ∈ B 6 ,

�
P (X ∈ B) = pk 1B (xk ) (3.11)
k∈IX
dove 1B (xk ) = 0 per ogni k se e solo se B ∩ spet(X) = ∅, se cioè B rap-

presenta un evento impossibile per X. Condizioni necessarie e sufficienti
affinché pk sia una densità discreta sono:
1. pk ≥ 0,
�
2. k∈IX pk = 1.
Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1]

sono probabilità. Si noti anche che la definizione (3.9) è stata data per
chiarezza ma risulta ridondante. Infatti P (X = xk ) = 0 se xk ∈
/ spet(X),
si pensi al lancio di un dado,
P (esce la faccia con il numero 21) = 0.
La seconda condizione (necessaria e sufficiente) dice in sostanza chi è

l’evento certo per una v.a. X, cioè
� �
� �
(X = xk ) = X ∈ {xk } = (X ∈ Ω)
k∈IX k∈IX
dove gli eventi (X = xk ) sono mutuamente esclusivi (la v.a. si realizza

una sola volta, gli eventi sono incompatibili) e quindi
� �
� �
P (X = xk ) = P (X = xk ).
k∈IX k∈IX
Osservazione 18. Se pk = 1/|Ω| è costante ∀ k, dalla (3.11) si ha che
µ� (B) 1 �
P (X ∈ B) = = µ (B).
µ� (Ω) |Ω|
Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un
evento si può calcolare usando il metodo classico (si veda la Sezione 2.4).
6 Ricordiamo che per ogni E ⊂ Z si ha |P(E)| = 2|E|
Introduciamo le seguente notazione per indicare la probabilità relativa

ad un vettore di v.a. discrete,
pr,s := P (X1 = xr , X2 = xs ), r ∈ I X1 , s ∈ IX2 (3.12)
oppure
pr1 ,r2 := P (X1 = xr1 , X2 = xr2 ), r1 ∈ I X 1 , r2 ∈ I X 2
Segue immediatamente la notazione relativa a vettori aleatori di dimen-

sione n > 2 del tipo X = (X1 , X2 , . . . , Xn ).
Esercizio 27. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼

P ois(λ), λ > 0 e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .}
caratterizza una v.a. Y .
Esercizio 28. Sia X ∼ P ois(2), calcolare:
1. FX (1) e P (X > 2),
2. 1 − FX (2) e P (X ≤ 1),
3. P (X < 1) + P (X > 2).
Variabili aleatorie a valori continui

Diamo innanzitutto le seguenti definizioni.
Definizione 23. Una v.a. si dice continua se assume valori continui 7 .
Definizione 24. Se X è una v.a. continua, definiamo supp(X) il sup-

porto della v.a. X, cioè l’insieme dei valori che può assumere X.
Osservazione 19. Notiamo che si sta usando un insieme diverso dallo

spettro di una v.a., il supporto. Si vuole infatti sottolineare che nel caso
delle v.a. discrete si ha a che fare con un insieme, lo spettro, per cui si
ha P (X = x) �= 0 per ogni x ∈ spet(X).
7 Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito
chiamato supporto, ha la potenza del continuo.

La funzione di ripartizione è scritta come segue

� x
P (X ≤ x) = fX (u)du
−∞
dove fX (x), x ∈ R è detta densità di X. Tale densità può essere continua

o integrabile8 .
Introduciamo le funzioni continue e vediamo come si legano alle v.a.
continue.
Definizione 25. Sia f : D �→ R una funzione. Se per ogni successione
xn a valori in D per cui xn → x per n → ∞ si ha
lim f (xn ) = f ( lim xn ) (3.13)

n→∞ n→∞
o equivalentemente
f (xn ) → f (x) per n → ∞
diciamo che f è continua in x. Se la (3.13) vale per ogni x ∈ D, scriviamo

f ∈ C(D) dove C(D) è l’insieme delle funzioni continue in D.
Osservazione 20. Se una funzione è continua in un punto, allora è

continua da destra e da sinistra in quel punto. Si consideri il limite della
funzione
� �n
fn (x) = 1 − n−xλ , x ∈ R, λ > 0.
Si ottiene (per n → ∞) la funzione


 0, x < 1/λ
f (x) = 1/e, x = 1/λ

1, x > 1/λ
e quindi per x ↑ 1/λ si ha che f (x) ↑ 1/e ma f (1/λ−) = 0 mentre per

x ↓ 1/λ si ha f (x) ↓ 1/e ma f (1/λ+) = 1, la funzione non è continua ne
da destra ne da sinistra infatti è costante e uguale a zero, salta e torna
costante ma uguale a uno.
8 Si
�
intende una funzione con R f (u)du < ∞, tale funzione appartiene ad una classe
di funzioni detta classe di Lebesgue, si denota con L1 (R).
Teorema 4. (Teorema fondamentale del calcolo integrale) Sia f una

funzione continua nell’intervallo [a, b]. La funzione integrale
� x
F (x) = f (u)du (3.14)
a
è derivabile e vale
F � (x) = f (x) ∀ x ∈ [a, b]. (3.15)
Dimostrazione. Consideriamo la proprietà di additività dell’integrale

� x+h � x � x+h
F (x + h) − F (x) = f (u)du − f (u)du = f (u)du
a a x
ed il rapporto incrementale
� x+h
F (x + h) − F (x) 1
= f (u)du.
h h x
Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un punto

xh ∈ [x, x + h] tale che (teorema della media)
F (x + h) − F (x)
= f (xh )
h
e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x)
ed ovviamente si ha che
F (x + h) − F (x)
→ F � (x).
h
Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è
conclusa.
Una funzione derivabile in un punto è continua in quel punto. Non è
sempre vero il contrario, si pensi alla funzione modulo f (x) = |x|.
Teorema 5. (Formula fondamentale del calcolo integrale) Sia f una fun-
zione che ammette una primitiva F , cioè F � (x) = f (x) per ogni x ∈ [a, b].
Se f è integrabile, si ha
� b
f (x)dx = F (b) − F (a). (3.16)
a
La funzione integrale (3.14) è scritta per una f ∈ C nota, da questa

ricaviamo F . Nel caso della (3.16), in cui f è integrabile (e non nota
mentre lo è la F ) possiamo scegliere f = F � se l’uguaglianza vale quasi
ovunque9 .
Tornando alla v.a. X, dato B ∈ B, ad esempio B = (−∞, x], x ∈ R,
possiamo scrivere �
P (X ∈ B) := fX (x)dx (3.17)
B
se fX è continua oppure integrabile10 , nei casi quindi in cui valgono

rispettivamente il Teorema 4 oppure il Teorema 5.
Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni
assolutamente continue, cioè funzioni continue con derivata integrabile.
Quindi, se FX ∈ AC, allora FX ∈ C e FX �
= fX quasi ovunque e risulta
che fX è integrabile. Tale insieme è costituito dalle funzioni per cui vale la
formula fondamentale del calcolo integrale. Notiamo però che se fX ∈ C,
vale il Teorema fondamentale (ed ovviamente FX �
= fX in ogni punto).
Quindi, possiamo definire una f.r. se fX è integrabile ma occorre che
fX sia continua affinché FX sia differenziabile in tutti i punti11 . Diremo
quindi che X è una v.a. continua (o assolutamente continua) se FX è
continua (o assolutamente continua).
Proposizione 6. Sia X una v.a. c. o a.c. con f.r. F X (x). Allora,

�
d in tutti i punti in cui è continua se X è c.,
fX (x) = FX (x) .
dx in tutti i punti in cui esiste se X è a.c.
(3.18)
Osservazione 21. La v.a. X è c. oppure a.c. nel suo supporto.
Se fX è continua (fX ∈ C([a, b])), abbiamo quindi detto che y = FX

risolve y � = f (dove y ∈ C 1 ([a, b])). Bisogna sottolineare che le soluzioni
fornite dal Teorema fondamentale del calcolo integrale sono relative alla
9 Se
cioè si ha uguaglianza tranne che per un insieme di punti, tale insieme ha
misura nulla. Due integrali possono essere uguali ma questo non implica uguaglianza
delle funzioni integrate, si veda l’Esercizio 8.
10 Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è
integrabile. Dobbiamo notare che fX > 0� è una condizione necessaria affinché fX sia
una legge di densità. Quindi deve essere B fX (x)dx < ∞.
11 Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10,
pag. 311].
teoria dell’integrazione secondo Riemann e quindi, come si è detto, al

caso in cui fX ∈ C. Noi ci occupiamo anche di funzioni fX ∈ L1 per
cui y � = f quasi ovunque (rispetto alla misura di Lebesgue). Si parla in
questo caso di teoria dell’integrazione secondo Lebesgue12 .
Una v.a. a valori continui possiede quindi una f.r. che è la funzione
integrale FX . FX si può rappresentare come integrale di una funzione
fX detta (funzione di) densità e valgono le (3.3) e (3.17) se la v.a. è
c. oppure vale la (3.17) se la v.a. e a.c., per entrambe devono valere
le seguenti condizioni. Affinché una funzione fX sia una densità, sono
condizioni necessarie e sufficienti:
1. fX (x) ≥ 0,
�∞
2. −∞ fX (x)dx = 1.
Se X è assolutamente continua, a volte diremo semplicemente che X
è continua nel senso della Definizione 23. Inoltre, se X è una v.a. c. o
a.c. scriveremo
X ∼ fX (3.19)
e per ogni Boreliano B ∈ P(R),
�
P (X ∈ B) = fX (x)1B (x)dx.
supp(X)
Se supp(X) ⊆ Rd , cioè se X è un vettore aleatorio di dimensione d ≥ 1,

allora per ogni Boreliano B ∈ B(Rd ),
�
P (X ∈ B) = fX (x)1B (x)dx.
Rd
Infatti, la funzione fX è nulla fuori il suo supporto supp(fX ) = supp(X).

Osservazione 22. Spesso il supporto di una v.a. (continua) viene chia-
mato spettro continuo mentre lo spettro di una v.a. (discreta) viene chia-
mato spettro discreto. Noi chiameremo supporto e spettro gli insiemi in
questione per sottolineare i collegamenti con la densità f della misura
P ed il fatto che il supp(f ) è costituito dai punti x per cui f (x) �= 0.
In particolare il supporto di una funzione f è dato dalla chiusura di
{x : f (x) �= 0}.
12 Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale
�
(3.3) o f dFX per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-
Stieltjes.
2
Esercizio 29. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una
densità.
Esercizio 30. Verificare se f (x) = e−3x , x ≥ 0 è una densità.
Esercizio 31. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia
una densità.
Esercizio 32. Dire se le f.r. relative alle densità considerate negli eser-
cizi precedenti sono continue o assolutamente continue.
Il concetto di funzione di distribuzione può essere esteso al caso delle
v.a. multidimensionali (o vettori di v.a.). Nel caso di un vettore 2-
dimensionale scriveremo (considerando ad esempio 1B1 (x1 )1B2 (x2 ))
� �
P (X1 ∈ B1 , X2 ∈ B2 ) = fX1 ,X2 (x1 , x2 )dx1 dx2
B1 B2
In generale, X è un vettore di variabili aleatorie di dimensione n se
X = (X1 , X2 , . . . , Xn )
dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle

formule in (3.6) si ottengono le marginali. Diciamo che, data la f.r.
ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )
e fissato j ∈ {1, 2, . . . , n}, si ottiene
lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ).

xj →∞
dove ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ) è la marginale di ordine n − 1. Si

possono definire marginali di ogni ordine k ≤ n partendo da una funzione
di ripartizione di ordine n. Infatti anche per k = n si può pensare di avere
una marginale rispetto a qualche funzione di ripartizione di ordine m > n.
Le densità marginali si ottengono derivando le corrispondenti funzioni di
ripartizione o integrando le densità marginali di ordine superiore. Nel
caso unidimensionale ad esempio,
�
fX1 (x1 ) = fX1 ,X2 (x1 , x2 )dx2
R
oppure
�
dFX1 (x) ��
fX1 (x1 ) = .
dx �x=x1
Se poniamo, per x = (x1 , x2 , . . . .xn ) ∈ Rn ,
∂nϕ
φn (x) = (x) = fX1 ,...,Xn (x1 , . . . , xn ),
∂x1 · · · ∂xn
e
φn−1 (x) = fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj−1 , xj+1 , . . . , xn )
otteniamo
�
φn−1 (x) = φn (x)dxj .
supp(Xj )
Vale la pena di notare che
P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 )
dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè

P (X2 ≤ ∞) = 1 o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il
Boreliano B = (−∞, x], si ricava che
� x � x
FX ((−∞, x]) = FX (x) = dFX = fX (u)du.
−∞ −∞
Osservazione 23. Osserviamo che per una v.a. assolutamente continua

si ha P (X = x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti
gli x ∈
/ supp(X), per definizione). Basta considerare la continuità di F X
o �x → 0+ nella relazione
� x+�x
fX (x)�x � fX (u)du
x
=P (x < X ≤ x+ � x) = FX (x + �x) − FX (x)
con
P (x < X ≤ x+ � x) �
lim = FX (x).
�x→0 �x
Segue dalla Definizione 24 che P (X ∈ A) > 0 per ogni insieme A ⊂

supp(X). Si vede subito che per ogni densità fX (e quindi per ogni
v.a. X) si ha che supp(X) = supp(fX ) e quindi fX (x) = 0 per ogni
x∈ / supp(X). Infatti, sia X una v.a. n-dimensionale e A = Rn \supp(X),
allora possiamo scrivere,
� �
fX (x)dx = fX (x)dx = P (X ∈ Ω) = 1
Rn supp(X)
e
�
fX (x)dx = P (X ∈ A) = 0.
Rn \supp(X)
Diamo la seguente definizione.
Definizione 26. Sia f ∈ C. Diciamo che:
• f è dominata da g, se g ∈ L1 e |f (x)| ≤ g(x) per ogni x.
• f ∈ Cb dove Cb indica l’insieme delle funzioni continue e limitate

(o uniformemente limitate), se per M > 0, si ha |f (x)| ≤ M per
ogni x.
Abbiamo preferito mantenere il simbolo Cb che sta per continuous and

bounded. Possiamo dire che una funzione è limitata se la sua immagine
è un insieme limitato13 . Introduciamo ora la condizione di Lipschitz, per
una funzione f , |f (x) − f (y)| ≤ M |x − y| dove M è detta costante di
Lipschitz. Una funzione Lipschitziana14 è una funzione di una variabile
reale che ha una crescita limitata, nel senso che il grafico della funzione
f è contenuto nella regione delimitata dalle rette di coefficiente angola-
re +M e −M passanti per un punto opportunamente scelto del grafico
della f . La Lipshitzianetà è una condizione più forte della continuità 15
13 Un
insieme si dice limitato se esiste una palla di raggio finito che lo contiene.
14 Una
funzione è detta di Lipschitz (o Lipischitziana) se esiste una costante M tale
che, per ogni x, y, vale la condizione di Lipschitz.
15 Una funzione è detta continua in x se
∀ � > 0 ∃ δ = δ(y, �) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < �.

Questa definizione è ovviamente analoga a quella già data, viene riportata solo per
evidenziare il collegamento con le funzioni Lipschitziane.
o della uniforme continuità16 . Indichiamo con Lip l’insieme delle fun-

zioni Lipschitziane. Una funzione derivabile e Lipschitziana ha derivata
limitata17 . In particolare, le seguenti affermazioni sono equivalenti:
i) f è derivabile e |f � | ≤ M , allora f ∈ Lip,
ii) f ∈ C 1 , allora f è localmente Lipischitziana.
Osserviamo che la ii) significa che f è uniformemente continua in un
intervallo, basta considerare δ = �/M .
Osservazione 24. Sono esempi di funzioni continue in R le funzioni
f (x) = √x2 e g(x) = sin x. Si noti che f ∈ / Lip mentre g ∈ Lip. Inoltre,
f (x) = x è continua in [0, ∞) ma f ∈ / Lip. Osserviamo infine che non
vale la doppia implicazione. Infatti, f (x) = |x| è Lipshitziana ma f ∈
/ C1
in R, essendo continua ovunque ma derivabile per x �= 0.
Una funzione (di una variabile) continua può non essere derivabile
mentre una funzione derivabile è continua. Per funzioni di più variabili
bisogna introdurre la nozione di funzione differenziabile. Se f è diffe-
renziabile, allora ha derivata in ogni direzione. Inoltre, ogni funzione
differenziabile in x è continua in x.
Teorema 6. Se f ha derivate parziali in un intorno di x e sono continue
in x, allora f è differenziabile in x.
Esercizio 33. Dire se
�
1
x2 sin , x �= 0
F (x) = x2
0, x=0
16 Una funzione f è uniformemente continua se δ dipende solo da �, cioè se per ogni
x, y si ha
∀ � > 0 ∃ δ = δ(�) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < �.
17 Infatti, se f è derivabile nel punto x, allora

f (x) − f (y)
lim = f � (x).
y→x x−y
Quindi, se f ∈ Lip,
|f (x) − f (y)|
|f � (x)| = lim ≤M
y→x |x − y|
e quindi la derivata è limitata.
/ L1 (f non è integrabile18 ).
è differenziabile e verificare che F � = f ∈
Esercizio 34. Si è introdotta la funzione di Heaviside H(x) = 1 [0,∞) (x)

con x ∈ R. Dire se H è continua a destra o a sinistra. Dire se H è
continua in A = (1, 3), B = [1, 3), C = (−1, 0), Ac , B c , C c \ [0, ∞).
Esercizio 35. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0.
Dire se X è c. oppure a.c. in R. Quanto vale κ? Chi è X? (Chiedere
chi è X equivale a chiedere di caratterizzare X. Scrivere la sua densità.)
Esercizio 36. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri

che FX (x) = P (X ≤ x).]19
Esempio 13. (Modello deterministico v.s. Modello aleatorio) Un mo-

dello matematico deve descrivere un fenomeno reale a partire dalla cono-
scenza di alcune informazioni, le informazioni sono i dati del modello e
rappresentano valori (o variabili) in input. Il valore in output deve descri-
vere il fenomeno sulle base delle variabili considerate. Consideriamo un
modello semplice che descrive il fenomeno y, tale fenomeno dipende dal-
le variabili x1 , x2 , . . . , xn , allora se la relazione di dipendenza è espressa
dalla funzione g, scriveremo y = g(x1 , x2 , . . . , xn ) per indicare un mo-
dello deterministico: le variabili sono fisse. Pensiamo ad un fenomeno
fisico, se conosco tutte le variabili che entrano in gioco, posso determinare
esattamente il valore della risposta y. Se non conosco tutte le variabili, il
modello non potrà restituire una risposta esatta (o fedele alle leggi fisiche
del fenomeno) e si introduce inevitabilmente una condizione di incertez-
za. Il modello matematico diventerebbe allora Y = g(x 1 , x2 , . . . , xn , X)
dove X è una variabile aleatoria che deve giustificare la mia ignoranza
sul fenomeno o l’impossibilità di reperire tutte le informazioni necessarie.
La risposta diventa a sua volta una variabile aleatoria e la sua legge di
densità è legata alla densità di X per il tramite della funzione g. Il mo-
dello così formulato si chiamo modello aleatorio : le variabili non sono
fisse ma sono legate ad una legge di probabilità, esiste ad esempio, un
valore modale e un valore medio.
18 Spazio di Lebesgue Lp di ordine p = 1.

19 Si veda la Definizione 35.
Variabili aleatorie miste

Potremmo dire che X è una v.a. mista se, contrariamente a quanto visto
sopra per P (X = x), si ha che
0 < FX (x) − FX (x−) < 1
e la f.r. non è continua20 . Si consideri la v.a. con f.r.


 0, x≤0
FX (x) = x/2, 0<x<1

1, x≥1
ottenuta considerando una moneta regolare M ed una U ∼ U nif (0, 1),

�
U, se M ="testa"
X= .
1, se M ="croce"
Dalla costruzione di X si vede che P (X = 1) = 1/2 = P (X ∈ (0, 1)),

inoltre la f.r. non è continua. Consideriamo la v.a. X = U/(min{1, U })
dove U ∼ U nif (0, 2). Otteniamo,

 0, x<1
FX (x) = 1/2 + (x − 1)/2, 1 ≤ x ≤ 2

1, x>2
che non è continua.

Osservazione 25. Nel seguito ci riferiremo a densità miste che non
devono essere confuse con le v.a. miste. Sia X una v.a. continua con
supp(X) = (0, 1) e Y una v.a. discreta con spet(Y ) = {2, 3}. Siano
X e Y indipendenti con distribuzione uniforme. Ovviamente, P (X ≤
x) = x ∈ (0, 1), P (Y = y) = 1/2, y ∈ {2, 3}. La v.a. Z = X + Y
con valori in [2, 4] ⊂ R ha densità ottenuta da densità miste (marginale
continua e marginale discreta. Si pensi alla congiunta!). Si vede subito
che P (Z ∈ [2, 3)) = P (Y = 2, X ∈ (0, 1)) = P (Y = 2) = 1/2 e P (Z ∈
20 La densità (non singolare) può essere scritta come somma di una parte continua
e una parte discreta, fX (x) = fC (x) + fD (x) dove

�
fD (x) = pi δx (xi ).
i∈I
[3, 4)) = P (Y = 3, X ∈ (0, 1)) = P (Y = 3) = 1/2. Per z ∈ [2, 4],

otteniamo
P (Z ∈ [2, z)) = P (Y = 2, X ∈ (0, z − 2)) = (z − 2)/2, 2<z<3
P (Z ∈ [3, z)) = P (Y = 3, X ∈ (0, z − 3)) = (z − 3)/2, 3<z<4

e quindi


 0, z≤2

P (Z ∈ [2, z)) = (z − 2)/2, 2<z≤3
P (Z ≤ z) =

 P (Z ∈ [2, 3) ∪ [3, z)) = 1/2 + (z − 3)/2, 3<z≤4

1, z>4
che è continua.
3.2 Media e Momenti ✍

Si consideri una v.a. continua X con legge di densità fX ed una v.a.
discreta Y caratterizzata dalla successione (yk , pk ), k ∈ IY . Allora, data
la funzione g, possiamo scrivere il valor medio
� �
Eg(X) := g(x) fX (x)dx, Eg(Y ) := g(yk ) pk . (3.20)
supp(X) k∈IY
che può essere generalizzato come visto in precedenza21 .
Proposizione 7. Sia g ∈ Cb e non negativa, allora le medie in (3.20)

sono finite.
Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare!). Si noti

che se g ∈ Cb allora g ∗ = −g ∈ Cb è una funzione negativa. La funzione
g(x) = xr con r > 0 è continua ma non limitata: possiamo trovare
21 Per v.a. continue o discrete, data una funzione g possiamo scrivere
�
Eg(X) = g(x)f (x)µ(dx)
R
dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto supp(X))

o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta di X).
3.2. MEDIA E MOMENTI - 65
una v.a. X per cui EX r = ∞ e non avrà senso per noi considerare un
momento infinito,
g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞

|Eg(X)| < ∞ �⇒ g ∈ Cb (R).
Si consideri g(x) = xr con r ≥ 0. Definiamo per r > 0

� �
EX r := xr fX (x)dx, EY r := (yk )r pk
supp(X) k∈IY
che sono detti momenti di ordine r e per r = 1, le medie22

� �
EX := x fX (x)dx, EY := y k pk .
supp(X) k∈IY
Nelle formule sopra si è considerata la funzione continua g(x) = xr con

r > 0. Per r = 0 si ottiene banalmente E1 = 1.
Esercizio 37. Siano X e Y due v.a. 1-dimensionali. Dire perché valgono

le seguenti scritture
� �
r
EX = xr fX (x)dx, EY r = (yk )r pk
R k∈Z
con r > 0.
Le medie campionarie introdotte a pagina 3 sono dunque collegate

alle medie appena introdotte. In particolare, la media aritmetica è un
caso particolare di media ponderata ed entrambe si possono vedere come
il valore medio di una variabile aleatoria. Dobbiamo osservare che le
medie campionarie di pagina 3 sono medie aritmetiche mentre le medie
di cui si parla in questa sezione sono dette teoriche, sono cioè calcolate
relativamente alla densità della v.a X (che sia continua o discreta).
Diamo alcune proprietà della media:
i) E1A (X) = P (X ∈ A)
22 Si usa il simbolo E per ricordare il termine Expectation o Expected value
(aspettazione o valore atteso). Si usa anche dire speranza matematica.

ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n,

 
�n n
�
E aj X j  = aj EXj (linearità della media)
j=1 j=1
iii) se X ⊥ Y , allora EXY = EX EY

iv) se X ≥ 0, si ha
� ∞ �
EX = P (X > x)dx, EX = P (X > xk )
0 k∈IX
v) se X ≥ 0 e p > 0, si ha
� ∞ �
EX p = pxp−1 P (X > x)dx, EX p = p(xk )p−1 P (X > xk )
0 k∈IX
vi) se X ≥ 0 e EX = 0, allora P (X = 0) = 1
vii) se p e q sono esponenti coniugati, allora
1 1
E|XY | ≤ (E|X|p ) p (E|Y |q ) q
Siano adesso X ed Y due v.a. (continue o discrete). Caratterizziamo

g in (3.20) al fine di ottenere le seguenti sintesi23 di interesse:
la varianza24
V ar(X) := E(X − µ)2 = M2 − (M1 )2 , (3.21)
la covarianza25
Cov(X, Y ) := E[(X − µX )(Y − µY )] = EXY − EXEY (3.22)
ed i momenti
Mr := EX r . (3.23)
23 Ci riferiamo a valori di sintesi nel senso che caratterizzano le v.a. allo studio e
quindi il fenomeno da esse descritto.

24 Si noti che g(X) = (X − µ)2 .
25 Si noti che g : R2 �→ R.
Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il

numero µ (non deve creare confusione il fatto che si stia usando lo stesso
simbolo µ utilizzato per indicare una misura, infatti dal contesto sarà
sempre chiaro a quale oggetto ci stiamo riferendo). Scriveremo anche
σX2
= V ar(X) per indicare la varianza di X o semplicemente σ 2 se non
ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X) o
Mr (Y ). Notiamo inoltre che σX
2
= Cov(X, X).
Proviamo che vale la relazione (3.21) scritta sopra tra varianza e
momenti. Otteniamo
2
σX =E(X − µ)2 (per definizione)
=E(X − 2µX + µ2 )
2
(sviluppando il quadrato)
2
=M2 − 2µM1 + µ (per la linearità della media)
2
=M2 − (M1 ) (per la definizione di momento)
Per la varianza vale inoltre la relazione
V ar(aX) = a2 V ar(X) (3.24)
per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX −

E(aX)]2 ). Osserviamo inoltre che (indipendenza lineare)
X ⊥ Y ⇒ Cov(X, Y ) = 0. (3.25)
Non è vero il contrario (perché?).

Dimostrazione del punto i). Se X ∼ fX ,
� �
E1A (X) = 1A (x)fX (x)dx = fX (x)dx = P (X ∈ A).
A
Se invece X ∼ (xk , pk ), k ∈ IX ,
� �
E1A (X) = 1A (x)f (x)µδ (dx) = 1A (xk ) pk = P (X ∈ A).
k∈IX
Esercizio 38. Si dimostri il punto ii) usando la linearità di integrale e

somma, partendo dalla definizione di media.
Dimostrazione del punto iii). Segue dal fatto che
f(X,Y ) (x, y) = fX (x) fY (y)
per le v.a. continue e analogamente pr,s = pr ps per le v.a. discrete.

Esercizio 39. Si dimostri il punto iv) per v.a. continue e discrete.
Osservazione 26. Dimostrazione del punto iv) nel caso EX 2 < ∞ e
X ∼ fX . Sotto tali condizioni, integriamo per parti ed otteniamo
� ∞ �∞ � ∞
� d
P (X > x)dx =xP (X > x)�� − x [1 − FX (x)]dx
0 0 0 dx
�∞ � ∞
�
=x(1 − FX (x))�� + xfX (x)dx
0 0
� ∞
= xfX (x)dx
0
dove si è usata la regola di de l’Hopital ed il fatto che
FX (0) = 0, FX (+∞) = 1,
fX (±∞) = 0 (integrabilità della fX , cioè fX ∈ L1 )

ed il fatto che (integrabilità della funzione g(x) = x 2 fX (x))
EX 2 < ∞ ⇒ x2 fX (x) → 0 se |x| → ∞.
Esercizio 40. Si dimostri il punto v).

Dimostrazione del punto vi). Dal punto precedente si vede che
� ∞
EX = P (X > x)dx = 0 implica P (X > x) = 0 per ogni x. (3.26)
0
Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) per ogni x e quindi

(essendo FX (x) non decrescente) tutta la probabilità è concentrata solo
nel punto x = 0 (essendo X ≥ 0, una v.a. non negativa).
Dimostrazione del punto vii). Consideriamo prima il caso in cui le varia-
bili siano continue. Osserviamo che
� � �
E|XY | = |xy|f(X,Y ) (x, y) dxdy = |xy|dµ = �xy�1
supp(X) supp(Y )
che equivale a �f g�1 per le funzioni f (x, y) = x e g(x, y) = y. Inoltre,

� � �
E|X|p = |x|p f(X,Y ) (x, y) dxdy = |x|p dµ = (�f �p )p
supp(X) supp(Y )
e E|Y |q = (�g�q )q . Si sta quindi considerando una misura µ con densità

continua f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato.
Se le variabili sono discrete, la disuguaglianza di Hölder continua a
valere in lp rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla
v.a. discreta (X, Y ).
Esempio 14. (Il modello lineare: matematica spicciola) Consideriamo
la funzione y = ax dove a ∈ R, il grafico è una retta passante per l’origine
degli assi. La funzione y descrive un fenomeno lineare deterministico, si
ha cioè una perfetta relazione (lineare) tra le variazioni di x e y. Nella
realtà è assai difficile trovare un fenomeno così “regolare” e d il modello
lineare deterministico non risulta quindi molto adatto a descrivere al-
cun fenomeno. Consideriamo una v.a. E che rappresenti l’errore che si
commette passando dal modello deterministico y = ax ad uno più adatto
Z = y + E e sia EE = 0. Si vede subito che EZ = ax ed ax diventa un
trend lineare, cioè il fenomeno oggetto di studio non deve essere lineare
ma deve avere un andamento medio lineare (che è una richiesta meno
artificiale).
Esempio 15. (Modelli, deterministico vs aleatorio: fisica spicciola) Sup-
poniamo di essere interessati al seguente esperimento: in aula ci sono tre
finestre aperte e n studenti che vogliono lanciare un gessetto con direzione
e verso fissati, angolo fissato, forza fissata e vedere dove cade il gesset-
to nei diversi lanci. Per mantenere uno scopo illustrativo consideriamo
quantità adimensionali. Siamo interessati a studiare (semplificando)
y = posizione = g(peso, f orza, vento ) = g(x1 , x2 , x3 )
dove il peso del gessetto varierà ad ogni lancio per via dell’urto, la forza
che ogni studente dovrà utilizzare nel lancio è stata fissata ma ognuno
avrà una diversa sensibilità e pur volendo non riuscirà a lanciare con
forza costante, il vento disturberà i lanci con una forza variabile e che
non possiamo controllare. Vista la quantità di incertezza che si introduce
il modello giusto sembra essere un modello aleatorio del tipo
Y = g(X1 , X2 , X3 )
dove X1 ="peso del gessetto" avrà una sua distribuzione con un peso me-
dio e varianza prossima a zero, X2 ="forza nel lancio" avrà media uguale
alla forza stabilita nella fase iniziale dell’esperimento e varianza che di-
penderà dalla sensibilità generale dei lanciatori, X 3 ="forza del vento"
avrà un valore medio prossimo a zero (nel senso che “mediamente” 26 non
ci sarà vento) ma la varianza può essere elevata (per via delle folate di
vento). Il modello aleatorio consentirà di individuare una distribuzione di
probabilità per il punto di contatto del gessetto. Inoltre data una regione
di piano, diciamo R, attraverso tale distribuzione di probabilità diremo
che il gessetto (in un lancio effettuato da uno studente) cadrà in un punto
di R con una certa probabilità. Se Rρ è un disco di raggio ρ > 0, possiamo
trovare quel valore di ρ per cui P (Y ∈ Rρ ) = α con α = 0.95 o α = 0.99
ad esempio. Se ρ è molto grande, P (Y ∈ Rρ ) = 1 ma questo rappresenta
il caso banale. La giusta scelta di ρ ∈ (0, ∞) va fatta massimizzando la
probabilità α ∈ (0, 1) ma in relazione alla regione Rρ più piccola possibile.
Esercizio 41. Da precedenti osservazioni si è visto che la vita media

di una lampada è pari a 35 accensioni. Calcolare la probabilità che
accendendo la lampada, questa non funzioni.27
Esercizio 42. Sia X ∼ P ois(λ), λ > 0 il numero (giornaliero) di inci-

denti in via A. Scarpa. Si è visto che il numero (giornaliero) medio di
incidenti è pari a 50, calcolare λ28 .
3.3 Relazioni tra variabili aleatorie ✍

3.3.1 Probabilità congiunte e condizionate
26 Questo termine è usato qui in modo improprio. Si intende infatti che tendenzial-
mente non si rileva vento tranne che in poche occasioni, quindi misurando la velocità
del vento in tutto un lasso di tempo e facendo la media, si ottiene un valore molto
basso e prossimo a zero.
27 Soluzione: La vita della lampada è misurata in termini di numero di accensioni.
Se accendo e spengo la lampada con ripetizione, la lampada si accenderà un certo

numero di volte fino a quando non si accenderà più. Lo schema è quello del succes-
so/insuccesso in ogni prova (si accende/non si accende) e l’istante di primo insuccesso
(non si accende) determina la vita della lampada, diciamo X. Quindi la vita è la v.a.
con densità P (X = k) = pk−1 (1 − p), k ∈ N e X ∼ Geo(1 − p), p ∈ (0, 1). Visto che
35 = EX = (1 − p)−1 , si ottiene 1 − p = 1/35 è la probabilità cercata.
28 Soluzione: si deve considerare EX = λ = 50
3.3. RELAZIONI TRA VARIABILI ALEATORIE - 71
Variabili identicamente distribuite. Diciamo che due o più variabili

sono identicamente distribuite e scriveremo “i.d.” se hanno la stessa legge
di densità29 (discreta o continua). Inoltre se due o più variabili i.d. sono
anche indipendenti scriveremo “i.i.d.”.
Indipendenza. È importante sottolineare che questo è un aspetto fon-

damentale nel calcolo delle probabilità. Il concetto di dipendenza rappre-
senta l’unica vera differenza tra probabilità e teoria della misura. Diamo
la seguente definizione.
Definizione 27. Siano X e Y due v.a. definite sullo stesso spazio di

probabilità. Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y
se
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B. (3.27)
Due eventi A, B relativi alla v.a. X sono indipendenti se (X ∈ A) ⊥

(X ∈ B). Si noti che si sta parlando della stessa v.a. X. Studiare il
verificarsi di A significa quindi studiare (X ∈ A) e così anche per B.
Se le due v.a. X e Y sono dipendenti, allora esiste una funzione g tale
che Y = g(X) o equivalentemente X = g(Y ). La condizione di inpen-
denza implica che non esiste g in grado di scrivere una v.a. in funzione
dell’altra. Si deve notare che ci sono diverse misure di dipendenza. Os-
serviamo i grafici in Figura 3.2, si vede che i punti in (a) sono distribuiti
in maniera casuale; i punti in (b) sono distribuiti in maniera casuale in-
torno ad una retta (detta trend); i punti in (c) sono distribuiti in maniera
casuale attorno ad una parabola (un trend diverso dal precedente); i pun-
ti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una
normale. Le realizzazioni sono quindi indipendenti ma essendo legate da
un trend sottostante, tranne nel caso (a), si possono identificare diverse
strutture di dipendenza dei dati. I grafici si sono ottenuti utilizzando R
ed eseguendo il codice:
>e=rnorm(500)
>x=seq(0.01, 5, 0.01)
>par(mfrow=c(2,2))
>plot(e, pch=16, axes=F, xlab="(a)", ylab=" ")
>plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ")
>plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ")
>plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ")
29 Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere
sempre la misura di Lebesgue per le v.a. continue (o assolutamente continue) e la

misura di Dirac per le v.a. discrete.
(a) (b)
(c) (d)
Figura 3.2: Diverse strutture di dipendenza.
Si noti che rnorm() restituisce un vettore (di dimensione 500) di nu-

meri con distribuzione N (0, 1). Tale funzione è un esempio di generatore
di numeri casuali.
Esercizio 43. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si
noti che tali punti rappresentano un errore Gaussiano e corrispondono
alla nuvola di punti 0+e. Perché tale osservazione non è banale? (Si
faccia il confronto con il grafico (b)!!).
Densità e funzioni di ripartizione. Dalla Proposizione 5, scriviamo

n
�
P (A1 , A2 , . . . , An ) = P (Aj )
j=1
se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj )

per ogni j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la
f.r.
FX (x) =FX (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )
n
� n
�
= P (Xj ≤ xj ) = FXj (xj ).
j=1 j=1
Dalla relazione precedente si ricava che, se X ∼ fX ,

�n
∂n
fX (x1 , . . . , xn ) = FX (x1 , . . . , xn ) = fXj (xj ).
∂x1 · · · ∂xn j=1
Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente

distribuite30 ), allora
n
�
pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) = pr j .
j=1
Otteniamo quindi il seguente risultato che vale per f.r. e per densità.
Proposizione 8. Sotto l’ipotesi di indipendenza, le congiunte sono il
prodotto delle marginali.
Passiamo alla probabilità condizionata. Si vede subito, dalla legge
delle probabilità composte che
pr,s
P (X1 = xr |X2 = xs ) = pr|s = . (3.28)
ps
Consideriamo ancora v.a. continue (e quindi integrali). La probabilità
condizionata può essere riscritta come segue, sfruttando formalmente la
legge delle probabilità composte,
P (X ∈ A, Y ∈ B)
P (Y ∈ A|X ∈ B) =
P (Y ∈ B)
�
P (X ∈ dx, Y ∈ B)
=
P (Y ∈ B)
�A �
= dFY |X (y, x)
�A �B
= fY |X (y, x)dxdy.
A B
30 Siconsidera il caso in cui sono identicamente distribuite solo per semplicità di
notazione ma si potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj .
Si ottiene che
fX,Y (x, y)
fY |X (y, x) = (3.29)
fX (x)
è la densità doppia della v.a. Y |X. Quindi, data la f.r. doppia condizio-
nata (continua), si ottiene per il dFY |X scritto sopra,
∂2 fX,Y (x, y)
FY |X (y, x) = = fY |X (y, x).
∂y∂x fX (x)
Osserviamo che
∂2 fX,Y (x, y)
FX|Y (x, y) = = fX|Y (x, y).
∂x∂y fY (y)
Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y)
è una densità (doppia) condizionata. Nel caso di dimensioni n > 2
parleremo di densità n-dimensionale (congiunta o condizionata).
xν−1
Esercizio 44. Sia fX (x1 , x2 ) = λν Γ(ν)
2
e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0,
λ > 0 la legge di densità del vettore X = (X1 , X2 ): 1. Dire se X1 ⊥ X2 ;
2. Scrivere la marginale fX1 ; 3. Scrivere la marginale fX2 ; 4. Scrivere
la f.r. FX2 .
2 2
Esercizio 45. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con
x1 , x2 ∈ R del vettore X = (X1 , X2 ): 1. determinare κ; 2. scrivere le
marginali fXj (xj ), j = 1, 2.
Continuità separata. Bisogna notare che la continuità di una funzione

di due variabili, diciamo f (x, y), non deve essere confusa con la continuità
separata . Una funzione f (x, y) si dice separatamente continua se per ogni
y fissato, la funzione φ : x �→ f (x, y) è continua solo in x e se per ogni x
fissato, la funzione ψ : y �→ f (x, y) è continua solo in y. Se f è continua
in un punto allora anche φ,ψ sono separatamente continue in quel punto.
Non è vero il contrario come si può vedere dalla funzione
� xy
, (x, y) �= (0, 0)
f (x, y) = x2 + y 2
0, (x, y) = (0, 0).
Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 )

e quindi sulle rette x = t e y = t. La verifica della continuità separata è
lasciata al lettore (verificare inoltre che f è derivabile). Se una funzione

è derivabile e le derivate sono continue in un punto, allora tale funzione è
differenziabile in quel punto; se una funzione è differenziabile in un punto,
allora è continua in quel punto.
Esercizio 46. Sia
 √
 �x y , (x, y) �= (0, 0)
f (x, y) = x2 + y 2

0, (x, y) = (0, 0).
Provare che f non è differenziabile. Dire se è continua.

Esercizio 47. Calcolare:
1. lim(x,y)→(∞,∞) x
x2 +y 2 ;
3x2 +2y 2
2. lim(x,y)→(0,0) (x2 +y 2 )2 ;
x−y
3. lim(x,y)→(0,0) log(x2 +y 2 +1) .
3.3.2 Relazioni di dipendenza

Siano X e Y due v.a. qualunque.
Il caso Y = g(X), identificazione di un modello aleatorio. Os-

serviamo che se esiste una funzione g tale per cui Y = g(X), allora X e
Y sono due v.a. dipendenti. Se invece X e Y sono indipendenti, allora
non esiste nessuna g tale per cui Y = g(X). Quanto appena detto vale
ovviamente in entrambi i casi se consideriamo una funzione h tale per cui
X = h(Y ). La massima dipendenza tra X e Y si ottiene se g = h (g è la
funzione identità, h = g −1 è la funzione inversa), cioè se Y = X. Vale la
seguente affermazione.
Proposizione 9. Date due v.a. X e Y ,
X⊥Y ⇔ � g : Y = g(X).
Quindi se non esiste una funzione g che lega due v.a. possiamo dire
che tali v.a. sono indipendenti. Si noti che vale la doppia implicazione
logica.
Mancanza di memoria (dipendenza dal passato). Diciamo che

una v.a. non ha memoria se vale la relazione di indipendenza
P (X > a + b|X > a) = P (X > b) (3.30)
per a, b > 0. Per la legge delle probabilità composte si vede subito che
deve verificarsi
P (X > a + b, X > a) P (X > a + b)
= = P (X > b)
P (X > a) P (X > a)
dove la prima uguaglianza è sempre soddisfatta essendo vero che (X >

a + b) implica (X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂
{ω : X(ω) > a + b}. La mancanza di memoria è una proprietà molto
importante, implica che il comportamento di un certo fenomeno (e quindi
della v.a. che lo rappresenta) non dipende dal comportamento passato.
Il condizionamento non aggiunge e non toglie informazione.
Esercizio 48. Verificare la proprietà (3.30) per le seguenti v.a. : 1) X ∼

Exp(λ) con λ > 4; 2) X ∼ Gamma(λ, 1) con λ > 0; 3) X ∼ N (0, σ 2 );
4) X ∼ Geo(1/9); 5) X ∼ Geo(1/8).
Covarianza e dipendenza. Dobbiamo prima la seguente definizione.
Definizione 28. La correlazione è una misura della dipendenza linere
La correlazione è misurata dalla covarianza e ci dice quanto le variabili

in questioni dipendono linearmente tra di loro. Se due v.a. X e Y han-
no covarianza nulla diciamo che sono incorrelate (o non sono correlate).
Stiamo dicendo che non è possibile identificare una relazione lineare tra le
due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b
(o X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere
nulla per una pura combinazione numerica (come ad esempio 12 = 3 · 4
o 12 = 2 · 6) e quindi non implica che le v.a. siano indipendenti, pos-
siamo solo dire che tra le due v.a. non c’è dipendenza lineare. Quindi,
riassumiamo come segue.
Proposizione 10. Date due v.a. X e Y ,
X ⊥ Y ⇒ Cov(X, Y ) = 0 mentre Cov(X, Y ) = 0 �⇒ X ⊥ Y.

Esempio 16. Sia X ∼ U nif (−1, 1) e Y = X 2 . Ovviamente Y dipende

da X ma Cov(X, X 2 ) = 0, cioè non c’è dipendenza lineare. Infatti Y �=
aX + b.
Esercizio 49. Sia X ∼ N (0, 1) e Y = X 2 . Dire se sono indipendenti.
Esercizio 50. Sia X ∼ N (0, 1) e Y = g(X) dove g ∈ Cb . Dire se

Cov(X, Y ) = Eg � (X).
Osservazione 27. Si consideri X ∼ U nif {−1, 0, 1} e Y = g(X) do-

ve g(X) = X 2 non è ovviamente lineare. Si verifica facilmente che
Cov(X, Y ) = 0 e dovremmo concludere che X ⊥ Y ma Y è funzione di
X e non è quindi indipendente da X. Infatti, X ⊥ Y solo linearmente,
nel senso che non esiste una funzione lineare che lega X e Y .
Se la covarianza tra le due v.a. è nulla potremmo dire che non cono-
sciamo la dipendenza tra X e Y che implicherebbe l’esistenza di una g
tale che Y = g(X) ma sappiamo che g se esiste, non è lineare del primo
ordine, cioè g(x) �= ax + b (potrebbe essere, ad esempio ax2 + b o altre
combinazioni lineari di funzioni elemtari). Si utilizza spesso un indice di
correlazione detto di Bravais-Pearson dato da
Cov(X, Y ) σX,Y
ρ(X, Y ) := � = .
V ar(X) V ar(Y ) σX σY
Proposizione 11. Si ha che ρ(X, Y ) ∈ [−1, 1].
Dimostrazione. Dalla dis. di Hölder si vede che

� �1 � �1
|E[(X − µX )(Y − µY )]| ≤ E(X − µX )2 2 E(Y − µY )2 2
e quindi
�
|Cov(X, Y )| ≤ V ar(X) V ar(Y ) ⇒ −1 ≤ ρ(X, Y ) ≤ 1.
Se esiste una dipendenza lineare tra le v.a. X e Y allora Y = g(X)

(o viceversa) e g(x) = ax + b con a �= 0. Come vedremo sotto, se ρ =
1 parliamo di massima dipendenza lineare positiva mentre se ρ = −1
abbiamo massima dipendenza lineare negativa.
Modello lineare. Sia (y, x) con x, y ∈ Rn il campione osservato. Si

consideri il modello lineare (detto modello lineare semplice), cioè il model-
lo secondo il quale per ogni osservazione del vettore x = (x1 , x2 , . . . , xn )
si stabilisce con il vettore y = (y1 , y2 , . . . , yn ) la seguente relazione
yi = β0 + β 1 x i + �i
dove �i ∼ N (0, σ�2 ) ∀i ∈ {1, . . . , n} è l’errore che si commette nel consi-

derare che i dati osservati seguano (effettivamente) tale relazione lineare.
Le stime dei coefficienti lineari sono date da
�XY
σ
β̂0 = ȳ − β̂1 x̄, β̂1 = 2
�X
σ
e sono le stesse sia con il metodo dei MQ31 che con la MV32 ; inoltre
sono stimatori33 corretti34 . Le stime della covarianza e della varianza
(parliamo di stime e quindi utilizziamo il simbolo σ
�, sono stime perchè si
considerano i dati campionari) sono date da
n
� n �� n �
1� 1� 1�
σxy = xi yi − xi yi
n i=1 n i=1 n i=1
che viene dalla relazione teorica35 Cov(X, Y ) = EXY − EXEY e

n n
� n �2
2 1� 2 1� 2 1�
σx = (xi − x̄) = x − xi
n i=1 n i=1 i n i=1
che viene dalla relazione teorica V ar(X) = EX 2 −(EX)2 . In particolare,

osserviamo che σ 2
�X = σx2 e σ
�XY = σxy sono due stime campionarie.
Esercizio 51. Dimostrare che β� = (β�0 , β�1 ) è uno stimatore MQ .

Esempio 17. Consideriamo un campione di n soggetti ai quali viene
somministrato un farmaco per valutarne gli effetti. Ogni soggetto (di-
ciamo il paziente i-esimo) viene sottoposto a visita medica e vengono
31 Minimi Quadrati.
32 Massima Verosimiglianza.
33 Uno stimatore è una funzione dei dati campionari.
34 Si veda la correttezza, tra le proprietà degli stimatori.
35 Parliamo di relazioni teoriche quando si considerano v.a. e parliamo di relazioni
campionarie quando si considerano i campioni, cioè realizzazioni di v.a..

misurati i valori relativi alla pressione arteriosa (variabile X i per il pa-

ziente i-esimo) e livelli di colesterolo nel sangue (variabile Y i ). Quindi
dal campione di n soggetti si ottengono le osservazioni
x = (x1 , x2 , . . . , xn ), y = (y1 , y2 , . . . , yn )
che possiamo vedere come realizzazioni dei vettori 36
X = (X1 , X2 , . . . , Xn ), Y = (Y1 , Y2 , . . . , Yn ).
Supponendo che esista la relazione lineare di cui sopra, sarà possibile ap-
prossimare le yi osservate con i valori g(xi ) ottenute dalle osservazioni
xi . Inoltre, la relazione lineare sarà tanto più plausibile quanto più l’er-
rore ei = yi −g(xi ) sarà minimo. Vogliamo allora trovare gli a e b tali per
�n
cui i=1 e2i = min. Seguendo la soluzione dell’Esercizio 51 con a = β̂1
e b = β̂0 si vede che il coefficiente angolare (e quindi il coefficiente che
determina la relazione lineare) è legato a ρ = ρ(x, y), il coefficiente di
correlazione campionario. Ricordiamo che il coefficiente di correlazio-
ne campionario è una statistica, cioè una funzione dei dati campionari
(in questo caso i vettori x = (x1 , x2 , . . . , xn ) e y = (y1 , y2 , . . . , yn )). In
particolare,
1
�n
n i=1 xi yi − x̄ȳ
ρ(x, y) = �� 1 �n �
1 n
n i=1 xi − x̄ n i=1 yi − ȳ
dove x̄ e ȳ sono medie campionarie. In questo contesto dovremmo parlare

di stima del coefficiente di correlazione e scrivere ρ̂(X, Y ) = ρ(x, y).
Matrice delle covarianze. Consideriamo il vettore aleatorio X =

(X1 , X2 , . . . , Xn ) e le covarianze
σi,j = Cov(Xi , Xj ) = EXi Xj − EXi EXj con 1 ≤ i, j ≤ n.
Si vede subito che σi,j = σj,i , le covarianze sono simmetriche. Inol-

tre, scriveremo σi2 = σi,i per indicare che Cov(Xi , Xi ) = V ar(Xi ),
36 Prima di visitare il paziente i-esimo non conosco i valori di pressione arteriosa e
livello di colesterolo. Tali valori sono rappresentati dalla v.a. doppia (Xi , Yi ). Una
volta selezionato a caso il paziente, ho tali valori, cioè la v.a. si realizza ed ottengo la
coppia (xi , yi ) relativa al paziente i-esimo.
i = 1, 2, . . . , n. Si definisce matrice delle covarianze quella matrice n × n

i cui elementi sono proprio le covarianze Σ = {σi,j }1≤i,j≤n . La matrice
Σ è simmetrica e quindi Σt = Σ. Inoltre se le componenti del vettore
X sono indipendenti, allora Σ = diag{σi2 }1≤i≤n è una matrice diagonale.
Infatti, Cov(Xi , Xj ) = 0 per ogni i �= j.
Il ruolo della matrice Σ emerge in maniera naturale quando si vuole
scrivere la densità di un vettore aleatorio, cioè la densità congiunta. Si
veda ad esempio il caso della Normale Multidimensionale a pagina 216.
Tabella di contingenza: definizione. Siano X e Y due v.a. di-

screte. In generale è sempre possibile associare alla v.a. doppia (X, Y )
una distribuzione doppia (la congiunta) pr,s definita sopra. Scriviamo
X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due di-
stribuzioni di probabilità. Per distinguere quindi le marginali della v.a.
doppia. Supponiamo inoltre che entrambe le v.a. possano assumere so-
lo tre valori per semplicità. La corrispondente tabella di contingenza
(tabella a doppia entrata) è data da
y1 y2 y3
x1 p1,1 p1,2 p1,3 p1,· = p1
x2 p2,1 p2,2 p2,3 p2,· = p2
x3 p3,1 p3,2 p3,3 p3,· = p3
p·,1 = q1 p·,2 = q2 p·,3 = q3 1
dove le�marginali si possono
�3ottenere sommando sulle colonne o sulle righe
3
pk,· = s=1 pk,s e p·,s = k=1 pk,s .
Siano ora X e Y due v.a. indipendenti. Allora la tabella di contin-
genza nel caso di indipendenza prende la forma
y1 y2 y3
x1 p1 q 1 p1 q 2 p1 q 3 p1,· = p1
x2 p2 q 1 p2 q 2 p2 q 3 p2,· = p2
x3 p3 q 1 p3 q 2 p3 q 3 p3,· = p3
p·,1 = q1 p·,2 = q2 p·,3 = q3 1
Si capisce subito che entrambe le tabelle possono essere scritte in ter-
mini matriciali, in particolare possiamo associare una matrice n × m (o
quadrata) alla prima tabella, ad esempio A ed una matrice delle stesse
dimensioni alla seconda tabella, ad esempio B. La dimensione delle ma-
trici dipende ovviamente dalle v.a. X e Y e quindi dai loro insiemi di
indici IX e IY . Avremo le marginali

m
� n
�
pk,· = pk,s e p·,s = pk,s
s=1 k=1
e le matrici
A = {pk,s } 1≤k≤n e B = {pk qs } 1≤k≤n .

1≤s≤m 1≤s≤m
Esempio 18. Nel lancio di due dadi, diciamo D1 e D2 , la tabella di

contingenza è scritta come segue
D2 = 1 D2 = 2 D2 = 3 D2 = 4 D2 = 5 D2 = 6 D1
D1 = 1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 = 2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 = 3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 = 4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 = 5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D1 = 6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
D2 1/6 1/6 1/6 1/6 1/6 1/6 1
dove la distribuzione in ultima colonna corrisponde al dado D 1 e la di-

stribuzione in ultima riga corrisponde al dado D 2 . Inoltre, si vede subito
che dalle
1
pk,s = P (D1 = k, D2 = s) = ∀ k, s
6
si ottiene
6
� 6
�
P (D1 = k) = pk,s = P (D1 = k, D2 = s)
s=1 s=1
� 6
�
�
=P D1 = k, (D2 = s)
s=1
=P (D1 = k, D2 ∈ spet(D2 )) .
per ogni k ∈ {1, 2, 3, 4, 5, 6}. Vale ovviamente il risultato analogo per

P (D2 = s).
Esercizio 52. Completare la tabella di contingenza

Y 1 = y1 Y 2 = y2
X 1 = x1 1/3 2/3
X 2 = x2 1/6 1/3
e dire se X ⊥ Y .
Tabella di contingenza: analisi della dipendenza. Supponiamo

ora di volere una ricostruzione della matrice A a partire da una matrice
osservata che possiamo chiamare F. Vogliamo quindi che F rappresen-
ti una situazione osservata. Si sono osservate le realizzazioni della v.a.
doppia (X, Y ) su un campione (di persone, animali, batteri, alberi, etc.)
di numerosità N e si sono registrate le osservazioni dalle quali si sono
ricavate le frequenze fk,s , quindi
F = {fk,s } 1≤k≤n .
1≤s≤m
Notiamo che le frequenze (relative) fk,s si sono ottenute considerando

le frequenze assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s =
Nk,s /N ed Nk,s rappresenta il numero di elementi del campione (numero
di persone, animali, batteri, alberi, etc.) per le quali si è osservata la
realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo anche scrivere
1
F= N dove N = {Nk,s } 1≤k≤n .
N 1≤s≤m
Seguendo un approccio frequentista potremmo dire che al crescere di N

(numerosità del campione) si arriverebbe a scrivere N1 N → A cioè le
frequenze diventano probabilità. Diciamo infatti che A e B sono matrici
teoriche (o che rappresentano situazioni teoriche) mentre F è una matri-
ce osservata. Sembra ovvio che quanto più F è “simile” alla matrice A
o alla matrice B, tanto più le osservazioni possono considerarsi realizza-
zioni delle v.a. con distribuzioni di probabilità relative alla matrici A o
B. Inoltre, se si evincesse similitudine con la matrice B, allora le v.a.
osservate si possono considerare indipendenti. Introduciamo le quantità:
n �
� m
d(F, A) = (fk,s − pk,s )2 (3.31)
k=1 s=1
che restituisce una misura quadratica della distanza tra le matrici F e A,

n �
� m
d(F, B) = (fk,s − pk qs )2 (3.32)
k=1 s=1
che restituisce una misura quadratica della distanza tra F e B. Come si

vede subito, 0 ≤ d(F, A) ≤ nm e 0 ≤ d(F, B) ≤ nm. Quanto più d(·, ·) si
avvicina a 0 tanto più possiamo dire che la situazione osservata è in linea
con la matrice teorica o rappresenta meglio un ipotesi di dipendenza o
indipendenza tra le variabili X e Y della popolazione (di persone, animali,
batteri, alberi, etc.).
Osservazione 28. (Confronto tra distribuzioni) Ogni v.a. doppia può

essere caratterizzata mediante una matrice teorica. Si deve notare che
confrontando la matrice osservata F con altre matrici teoriche signifi-
ca cercare la v.a. doppia che meglio è rappresentata dalla situazione
osservata.
Esercizio 53. Data la matrice

� 3
�
8 1
A= 1 1
2 4
calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 .

Cosa possiamo dire?
Osservazione 29. Come si può ricostruire la matrice teorica B dalla

matrice osservata F in un caso reale? Cioè nel caso in cui si è osservato
il fenomeno oggetto di studio e si è costruita la matrice F. Si noti che
d(F, B) = 0 se pk = fk,· e ps = f·,s dove, come sopra, la tabella di
contingenza relativa alla matrice osservata F è costruita considerando
m
� n
�
fk,· = fk,s , f·,s = fk,s .
s=1 k=1
Nel caso di indipendenza si avrebbe quindi che le f k,s possono scriversi

come il prodotto delle frequenze marginali fk,· e f·,s .
Osservazione 30. (Confronto tra marginali) Da una matrice osservata,

come verifichiamo se le corrispondenti v.a. sono indipendenti? Cioè come
verifichiamo che le osservazioni riguardano due fenomeni tra loro indi-

pendenti? Se c’è indipendenza allora dovremmo avere f k,s − fk,· f·,s = 0
per ogni coppia k, s. Nei casi di studio reali, è quindi ragionevole pensare
che quanto più la quantità
� 2
(fk,s − fk,· f·,s )
k,s
è prossima a zero, tanto più le osservazioni possono considerarsi associate

a fenomeni indipendenti. Si deve notare che qui non mi chiedo quale
v.a. doppia descriva meglio la situazione osservata ma semplicemente
se i fenomeni oggetto di studio (qualunque sia la v.a. in gioco) sono
indipendenti o no!
Il χ-quadrato. Una v.a. �nmolto importante in statistica è data dalla

somma parziale χ2 (n) = k=1 Xk2 dove Xk ∼ N (µ, σ 2 ) e n assume qui
il significato di gradi di libertà. La somma (v.a. varianza campionaria
corretta)
n
1 �
S2 = (Xk − X̄)2
n−1
k=1
si distribuisce in accordo con una χ2 (detta χ-quadrato), in particolare

σ2 2
S2 ∼ χ (n − 1).
n−1
I gradi di libertà sono n − 1 perché si può identificare una combinazione
lineare nella somma Xk − X̄ per cui una v.a. può essere scritta in funzione
delle n − 1 rimanenti.
3.3.3 Trasformazioni di v.a.

Diamo prima i seguenti risultati senza dimostrarli.
Teorema 7. Sia X una v.a. 1-dimensionale e g : R �→ R una funzione
misurabile, allora Y = g(X) è una variabile aleatoria.
Teorema 8. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 �→ R
misurabile, continua e derivabile. Allora g(X 1 , X2 ) = Z è una variabile
aleatoria.
Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo

identificare le loro funzioni di ripartizione FY e FZ .
Osservazione 31. Sia Z = g(X1 , X2 ) come nel Teorema 8. Notiamo

che il valore medio può essere scritto a partire dalla F Z o dalla FX , cioè
EZ = Eg(X1 , X2 ).
Se le v.a. sono continue posso considerare

�
EZ = z dFZ (z)
supp(Z)
oppure
� �
Eg(X1 , X2 ) = g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ).
supp(X1 ) supp(X2 )
Analogamente nel caso discreto.
Ricordiamo anche che le derivate della funzione g e della sua inversa

h = g −1 sono legate dalla seguente formula
1
h� (g) = (3.33)
g � (h)
(verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi

x = h(y))
1 1
h� (g(x)) = e h� (y) = .
g � (x) g � (h(y))
Teorema 9. Sia g una funzione misurabile. Sia X una v.a. con legge di
densità fX nota. Se g è invertibile e derivabile con inversa37 h = g −1 , la
densità della v.a. Y = g(X) è data da
fY (y) = |h� (y)| fX (h(y)), y ∈ supp(g(X)) (3.34)

37 Una funzione g : dom(g) �→ cod(g) ammette inversa h : cod(g) �→ dom(g) se
h(g(x)) = x e g(h(y)) = y. Ricordiamo che una funzione monotona in senso stretto

è sempre invertibile, non è vero il contrario [si disegni una funzione strettamente
monotona (ad esempio una retta) e si verifichi quanto appena detto ].
Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 7, quindi

possiamo calcolare la f.r. FY . Inoltre,
� �
fY (y)dy = |h� (y)| fX (h(y))dy
supp(Y ) g(supp(X))
�
= fX (z)dz = 1 ponendo y = g(z).
supp(X)
Se X ∼ fX allora la composizione di funzioni continue da una funzione

continua ed Y = g(X) è una v.a. continua. Per trovare la fY si deve
quindi derivare la f.r. FY . Se g è crescente, allora h = g −1 è crescente e
h� > 0. Otteniamo,
FY (y) =P (g(X) < y)

=P (X < h(y))
� h(y)
= fX (x)dx ⇒ fY (y) = h� (y)fX (h(y)) ≥ 0.
−∞
Se g è decrescente, allora la sua inversa è decrescente. In particolare,

h� < 0 e quindi
FY (y) =P (g(X) < y)

=P (X > h(y))
� ∞
= fX (x)dx ⇒ fY (y) = −h� (y)fX (h(y)) ≥ 0.
h(y)
Per quanto sopra, la dimostrazione è conclusa.
Ricordiamo un risultato utile nei conti.
Proposizione 12. Siano ϕ e ψ derivabili, f integrabile. Allora, la

funzione integrale
� ϕ(x)
F (x) = f (u)du (3.35)
ψ(x)
ha derivata
F � (x) = ϕ� (x) f (ϕ(x)) − ψ � (x) f (ψ(x)). (3.36)
Vediamo ora il caso (semplice) delle trasformazioni di v.a. discrete.

Teorema 10. Sia g una funzione misurabile. Sia X una v.a. con di-
stribuzione di probabilità (xk , pk ), k ∈ IX nota. Se g è invertibile con
inversa h = g −1 , la distribuzione di probabilità della v.a. Y = g(X) è
data da
P (Y = y) = P (X = h(y)), y ∈ spet(g(X)). (3.37)
Inoltre, Y ∼ (yk = g(xk ), pk ), k ∈ IY = IX e spet(Y ) = {g(xk ) : xk ∈
spet(X), k ∈ IX }.
Esercizio 54. Dimostrare la (3.37).
Esercizio. Sia X ∼ (xk , pk ), k ∈ IX una v.a. discreta. Caratterizzare la
v.a discreta Y = g(X).
Svolgimento. La v.a. X è discreta e esiste una applicazione Z �→
spet(X) per cui diciamo che lo spetto è numerabile (cioè k �→ xk ). Quindi,
data la trasformazione Y = g(X) dallo spettro di X definiamo lo spettro
di Y , cioè
spet(X) = {xk , k ∈ IX } ⇒ spet(Y ) = {yk = g(xk ), k ∈ IX }
e quindi P (Y = yk ) = P (X = xk ) = pk , k ∈ IY = IX . Conoscendo
X, otteniamo la caratterizzazione di Y . Lo spettro di Y è un insieme
numerabile infatti esiste una applicazione che mette in corrispondenza
biunivoca l’insieme degli indici Z con gli elementi di spet(Y ), cioè k �→
g(xk ).
Esercizio. Caratterizzare Y = X 2 dove X ∼ Geo(p), p ∈ [0, 1].
Svolgimento. Si ha
spet(X) = N = {k : k ∈ N} quindi k �→ xk = k
che è numerabile per il tramite della funzione identità xk = k e
spet(Y ) = {k 2 : k ∈ N} quindi k �→ yk = k 2
che è ancora un insieme numerabile considerata l’applicazione k �→ k 2

che mettre in relazione biunivoca N con spet(Y ). Inoltre, si vede subito
che
P (Y = 1) =P (X = 1) = (1 − p)0 p,
P (Y = 4) =P (X = 2) = (1 − p)p,
...
o in forma compatta P (Y = k 2 ) = (1 − p)k−1 p, k ∈ N. Per y ∈ R si ha

� √
(1 − p) y−1 p, y ∈ {1, 4, 9, . . .}
P (Y = y) = .
0, y∈/ {1, 4, 9, . . .}
Si noti che spet(Y ) si può anche scrivere come
{1, 4, 9, . . .} = {s : s = k 2 , k ∈ N}.
Esercizio. Caratterizzare Y = (1 − X)−1 dove X ∼ P ois(λ), λ > 0.
Svolgimento. Si ha spet(X) = {k : k ∈ N0 } quindi
� �
1
spet(Y ) = : k ∈ N0 = {1, ∞, −1, −1/2, −1/3, . . .}
1−k
k
e la densità è data da P (Y = (1 − k)−1 ) = e−λ λk! , k ∈ N0 . Si noti che lo
spettro di Y è numerabile in quanto esiste una applicazione che associa
ogni valore in N0 con un valore in spet(Y ), cioè k �→ yk = (1 − k)−1 . Per
y ∈ R, scriviamo
 1− y1
 e−λ � λ

� , y ∈ spet(Y )
P (Y = y) = 1 − 1
! .

 y
0, y∈/ spet(Y )
Osservazione 32. Supponiamo che in uno studio medico sia importan-
te misurare il livello Y di una certa sostanza e che tale misurazione sia
estremamente complessa. Si sa però che Y = g(X) dove X è il peso ed
è quindi facilmente reperibile, cioè tra Y e X esiste la relazione (di di-
pendenza) g. Il medico aspetta che arrivi un paziente e subito misura il
peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casual-
mente, quindi per il medico il peso di ogni paziente è aleatorio fino alla
misurazione. Di conseguenza, è aleatorio il livello Y 38 .
38 Alcuni
esempi:
• modello lineare, g(X) = aX + b con a, b ∈ R
• potenza di v.a., g(X) = X α con α ∈ R
• somma di v.a., g(X1 , X2 ) = X1 + X2
• rapporto di v.a., g(X1 , X2 ) = X1 /X2
• funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 )
• etc.
Si osservi che la funzione g esprime quindi una relazione di dipendenza tra le variabili
input e la variabile output (o risposta del modello).
Esempio 19. Sintetizziamo il problema di indentificare la densità di una

trasformazione di v.a. continue.
Caso g : R �→ R. Si vuole caratterizzare la v.a. Y = g(X) conoscendo
X e la funzione g. Dobbiamo quindi calcolare la densità di Y e riconoscere
Y tra le v.a. elementari se la sua densità è notevole. Si deve partire dalla
f.r. di Y
FY (y) =P (Y ≤ y) definizione
=P (g(X) ≤ y) dato del problema
=P (X ∈ Ay ) si determina Ay considerando h = g −1
dove g −1 è la funzione inversa di g. Nel passare ad h si deve fare atten-

zione al verso della disuguaglianza e quindi verificare la monotonicità di
h. Dobbiamo prima di tutto dire per quali y si sta definendo la funzione
FY , si deve quindi individuare supp(Y ). Volendo procedere graficamente,
si deve considerare il grafico della funzione g, cioè Y = g(X). Possiamo
quindi calcolare P (X ∈ Ay ).
Caso g : R2 �→ R. Si vuole caretterizzare la v.a. Z = g(X, Y ) cono-
scendo la v.a. doppia (X, Y ) (e quindi la densità congiunta f X,Y (x, y) che
nel caso di indipendenza X ⊥ Y si fattorizza nel prodotto delle densità
fX (x)fY (y)) e la funzione g. La f.r.
FZ (z) = P (Z ≤ z) = P (g(X, Y ) ≤ z) = P ((XY ) ∈ Az )
è funzione di z, si deve caratterizzare quindi supp(Z). Si considera nel

piano cartesiano la regione ammissibile per la coppia (X, Y ), cioè D =
supp(X) × supp(Y ). Nel calcolare la f.r. si deve considerare l’evento
Az ∩ D dove
Az = {(x, y) ∈ R2 : g(x, y) ≤ z}.
A questo punto
FZ (z) = P ((X, Y ) ∈ Az ∩ D), z ∈ supp(Z)
e va calcolata per tutte le figure geometriche diverse che si possono iden-

tificare da Az ∩ D al variare di z.
In entrambi i casi: si determina la densità derivando la f.r. che è
sempre relativa ad una v.a. 1-dimensionale.
Esempio 20. Se la v.a. X è discreta, nel caratterizzare Y = g(X) non

occorre studiare la f.r. ma la sola densità discreta. Se g(x) = x 2 e
spet(X) = {−π, +π}, allora P (Y = π 2 ) = 1 (cioè Y è una v.a. degenere
in π 2 ). Consideriamo invece X con densità px = P (X = x) = (1−p)x−1 p
con p ∈ [0, 1], x ∈ N. Allora, per y ∈ R si ottiene
� √ √
P (X = y) = (1 − p) y−1 p, y ∈ {1, 4, 9, 16, . . .}
P (Y = y) =
0, y∈
/ {1, 4, 9, 16, . . .}
dove spet(Y ) = {y : y = x2 , x ∈ N} ⊂ N.
Esercizio. Caratterizzare Y = exp(− 1−X 1
) dove X ∼ U nif (0, 2).
Svolgimento. La v.a. X è continua ed ha densità fX (x) = 12 1(0,2) (x),
x ∈ R, la v.a. Y è continua quindi va caratterizzata trovando la densità
fY . Devo considerare le formule (3.4) e (3.17). Se vogliamo introdurre
la f.r. FY (y) = P (Y ≤ y) che è funzione di y dobbiamo anche dire per
quali y consideriamo tale funzione, dobbiamo quindi trovare il supp(Y ).
Per trovare il supp(Y ) studiamo il grafico della funzione g. Studio i punti
di singolarità con i limiti da destra e da sinistra, disegno la curva g (in
realtà non serve studiare la concavità/convessità, vogliamo solo vedere
quali valori assume Y ) e vedo che supp(Y ) =
Esercizio 55. Sia X ∼ fX una v.a., scrivere la legge di densità di Y =
X 2.
Esercizio 56. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X +1.
Esercizio 57. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a.
indipendenti, scrivere la legge di densità di Z = X/Y .
Esercizio 58. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 .
Esercizio 59. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia
� x
, x, y ∈ R \ {0}
g(x, y) = x+y
0, (x, y) = (0, 0)
e Z = g(X1 , X2 ). Determinare: 1. supp(Z); 2. fZ (z); 3. supp(fZ ).
Esercizio 60. Sia
� xy
, x, y ∈ R \ {0}
g(x, y) = x2 + y2 .
0, (x, y) = (0, 0)
Determinare il supporto della v.a. Z = g(X, Y ) se X ⊥ Y e
1. X, Y ∼ Exp(λ), λ > 2;
2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0;
3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1);
4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0;
5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1.
Esercizio 61. Determinare gli insiemi di definizione 39 delle funzioni:
1. f (x, y) = x(x2 − y 2 )−1 ,
2. f (x, y) = (y log x)y−x ,

√
3. f (x, y) = (|x| − x − y)y ,
4. f (x, y) = e1/y (x2 − y 2 )−1/2 ,

√
5. f (x, y) = y − log x.
Esercizio 62. Determinare il supporto40 per ognuna delle funzioni del

precedente esercizio.
39 Ricordiamo che data una funzione f : R �→ R si definisce insieme di definizione
della funzione, diciamo def (f ) ⊆ R, quell’insieme in cui f è definita, cioè il massimo

insieme dove andare a cercare i possibili valori della variabile x tali che f (x) sia definita,
data cioè la legge x �→ f (x). Diremo allora che il dominio di una funzione è proprio il
suo insieme di definizione, dom(f ) ≡ def (f ). Data una legge x �→ f (x) assieme al suo
dominio dom(f ) e al codominio cod(f ) resta quindi definita una funzione con insieme
immagine contenuto nel codominio, scriviamo Imm(f ) ⊆ cod(f ). Si considerino ad
esempio le funzioni:
 2  2
 x , x ∈ (−2, −1)  x , x ∈ (−3, −2)
f1 (x) = 2
x − 1, x ∈ (1, 2) f2 (x) = x2 − 1, x ∈ (2, 3)
 
0, altrove 0, altrove.
Entrambe le funzioni sono definite su tutta la retta dei reali R = (−∞, +∞), si
noti che non sono inclusi −∞ e +∞; hanno diverso supporto; diversa immagine.
Infatti dom(fi ) = cod(fi ) = R per i = 1, 2; supp(f1 ) = (−2, −1) ∪ (1, 2), supp(f2 ) =
(−3, −2) ∪ (2, 3); Imm(f1 ) = f1 (R) = [0, 4), Imm(f2 ) = f2 (R) = {0} ∪ (3, 9).
40 Ricordiamo che il supporto di una funzione è l’insieme dei punti del dominio in
cui la funzione è diversa da zero.

Esercizio 63. Siano X e Y due v.a. indipendenti con densità

2 2
fX (x) = 2xλe−λx 1(0,∞) (x), fY (y) = 2yλe−λy 1(0,∞) (y), λ > 0.
Sia Z = g(X, Y ) dove

� x
, x, y ∈ R \ {0}
g(x, y) = x2 − y 2 .
0, (x, y) = (0, 0)
Determinare: 1. Eg(X, Y ); 2. fZ ; 3. EZ.
Esercizio 64. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due √ v.a. indipen-

denti. Determinare: 1. la legge di densità della v.a. Z = Y − log X; 2.
supp(Z).
Esercizio 65. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a),

a > 0. Determinare
1. gli insiemi di definizione per κ e θ tali che f sia una legge di densità.
Si consideri la v.a. X con legge fX = f appena trovata.

√
2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X);
3. Scrivere la legge di densità della v.a. Z = (a − X)−1 .
Esempio 21. Sia X ∼ P ois(λ), λ > 0 il livello di concentrazione del

reagente A. Si sa il livello Y di concentrazione del reagente B è uguale a
Y = 3X + 2. Se EY = 5, determinare λ.41
Esempio 22. Sia Y = eX dove X ∼ U nif {a, b}. Se EY = (1 + e)/2

caratterizzare X. 42
Esempio 23. Sia N ∼ P ois(7) il numero di dispositivi BHT venduti nel

2018. Se il costo unitario del dispositivo era 2 euro e sapendo che era
previsto uno sconto del 20%. Calcolare la spesa media del 2018
41 Soluzione: λ = 1.
42 Soluzione: a = 0, b = 1.
3.3.4 Somme di variabili aleatorie

Somme parziali, combinazioni lineari. È utile nelle applicazioni�n
saper trattare la somma di v.a. o somme parziali del tipo Sn = k=1 Xk ,
n ∈ N. Come vedremo, il modo migliore per trattare tali oggetti prevede
un utilizzo abbastanza elementare delle funzioni caratteristiche associate
alle v.a. coinvolte nella somma (transformate di Fourier delle densità).
Un modello poco più complicato si ottiene considerando la combinazione
lineare
� n
Zn = ak X k , n ∈ N (3.38)
k=1
dove compaiono i coefficienti ak che possono essere scelti anche senza re-
strizioni. Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1
con α ∈ R. Come vedremo, sarà interessante capire a quale v.a. tende
Zn se n → ∞. Nelle applicazioni, n → ∞ significa n molto grande e
corrisponde all’aumento di numerosità campionaria o di informazioni di-
sponibili. Inoltre, molto spesso n grande si traduce in n > 1000, n > 100
o n > 30 nel senso che raggiunti tali valori si ottiene una buona approssi-
mazione del problema oggetto di studio. Le informazioni disponibili sono
già sufficienti ad ottenere una analisi accurata.
Osserviamo che per la linearità del valore medio si ha
n
�
EZn = ak EXk
k=1
e (dalla proprietà (3.24)) supponendo che le Xk siano indipendenti

n
� n
�
V ar(Zn ) = V ar(ak Xk ) = a2k V ar(Xk ). (3.39)
k=1 k=1
Si veda lo svolgimento dell’Esercizio 157. Se le v.a. Xk , k ∈ N non sono

indipendenti, dalla relazione V ar(Zn ) = M2 (Zn ) − M12 (Zn ) ricaviamo
n �
� n
V ar(Zn ) = ak as Cov(Xk , Xs ).
k=1 s=1
Infatti
� n
�2 � n
� � n
�
� � �
ak X k = ak X k · ak X k
k=1 k=1 k=1
� n � � n �
� �
= ak X k · as X s
k=1 s=1
n �
� n
= ak X k as X s
k=1 s=1
dalla quale scriviamo M2 (Zn ) mentre per il primo momento si ha che

� ��
� �
2
M1 (Zn ) = ak E[Xk ] as E[Xs ]
k=1 s=1
��
= as ak E[Xk ] E[Xs ].
k=1 s=1
Quindi, si ottiene
n �
� n
M2 (Zn ) − M12 (Zn ) = ak as (E[Xk Xs ] − E[Xk ] E[Xs ]) .
k=1 s=1
La v.a. media campionaria. È definita dalla media aritmetica di

v.a. indipendenti Xk , k ∈ N ed è indicata con X̄ o X̄n per sottolineare
la dipendenza da n (numerosità campionaria),
n
1�
X̄n = Xk
n
k=1
ed è quindi riconducibile alle v.a. viste sopra (n−1 Sn o Zn con ak =

1/n per ogni k). Bisogna subito notare che se Xk ∼ N (µk , σk2 ) sono
indipendenti, allora
� n n
� � n n
�
1 � � 1� 1 � 2
2
X̄n ∼ N µk , σk = N µk , 2 σk .
n n n
k=1 k=1 k=1 k=1
Se le Xk ∼ N (µ, σ 2 ) sono i.i.d., allora

� �
1 σ2
X̄n ∼ N (nµ, nσ 2 ) = N µ, .
n n
Oltre alla variabile Normale, possiamo ovviamente considerare altre

v.a. e quindi altre densità chiuse rispetto alla somma oppure no, si avrà
sempre comunque (se le v.a Xk sono i.i.d.)
V ar(X1 )
E X̄n = EX1 , e V ar(X̄n ) = .
n
Somme di due v.a. indipendenti. Consideriamo la somma di due

v.a. indipendenti X,Y . Vogliamo trovare la legge di densità (continua,
discreta o mista) della v.a. Z = X + Y . Diamo i seguenti risultati.
Teorema 11. (Convoluzione per densità discrete) Siano X ∼ (x i , pi ),

i ∈ IX e Y ∼ (ys , ps ), s ∈ IY due v.a. indipendenti. Allora,
X + Y = Z ∼ (zk , pk ), k ∈ IZ
con
pk =P (Z = zk ) (3.40)
� �
= P (Y = zk − xi ) pi = P (Y = zk − xi ) pi
i∈I�
X
i∈Z
� �
= P (X = zk − ys ) ps = P (X = zk − ys ) ps
s∈I�
Y
s∈Z
e
� �
P (Z ≤ zk ) = P (Y ≤ zk − xi ) pi = P (Y ≤ zk − xi ) pi
i∈I�
X
i∈Z
� �
= P (X ≤ zk − ys ) ps = P (X ≤ zk − ys ) ps
s∈I�
Y
s∈Z
dove
I�
X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)}
I�
Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}.
Dimostrazione. Le due v.a.
X ∼ (xi , pi ), i ∈ IX , Y ∼ (ys , ps ), s ∈ IY
sono indipendenti e discrete, consideriamo la loro somma Z = X + Y che

sarà ancora un v.a. discreta.
Per ogni z ∈ spet(X + Y ),
P (Z = z) =P (Y = z − X) = P (Y = z − X, X ∈ spet(X))
= [(considero l’intersezione con un evento certo)]
� �
�
=P Y = z − X, (X = xi )
i∈IX
(unione di eventi incompatibili)

� �
�
=P [(Y = z − X) ∩ (X = xi )]
i∈IX
� � �
= P (Y = z − X) ∩ (X = xi )
i∈IX
(legge delle prob. totali)

�
= P (Y = z − X|X = xi )P (X = xi )
i∈IX
(legge delle prob. composte)

�
= P (Y = z − xi )P (X = xi )
i∈IX
dove, nell’ultimo passaggio, si è usato il condizionamento, si è usata cioè

l’informazione disponibile X = xi . Si possono considerare le somme su Z
perché pi (e ps ) sono nulle per gli indici non in IX (o IY ).
Teorema 12. (Convoluzione per densità miste) Siano X ∼ (x i , pi ), i ∈
IX e Y ∼ fY due v.a. indipendenti. Allora,
X + Y = Z ∼ fZ
con � �
FZ (z) = FY (z − xi ) pi = FY (z − xi ) pi (3.41)
i∈IX i∈Z
e �
fZ (z) = fY (z − xi ) pi (3.42)
i∈I�
X
dove
I�
X = {i ∈ IX : z − xi ∈ supp(Y ), z ∈ supp(Z)}.
Dimostrazione. Seguendo quanto abbiamo visto nella precedente dimo-

strazione, nel caso delle v.a. miste si deve considerare
� � �
FZ (z) = P (Y ≤ z − X) ∩ (X = xi )
i∈IX
(legge delle prob. totali)

�
= P (Y ≤ z − X|X = xi )P (X = xi )
i∈IX
(legge delle prob. composte)

�
= P (Y ≤ z − xi )P (X = xi ).
i∈IX
Teorema 13. (Convoluzione per densità continue) Siano X ∼ f X e

Y ∼ fY due v.a. indipendenti. Allora,
X + Y = Z ∼ fZ
con densità
� �
fZ (z) = fY (z − x)fX (x)dx = fX (z − y)fY (y)dy, z ∈ supp(Z)
SX SY
(3.43)
dove
SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)}
SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)}

Dimostrazione. Si ottiene che
FZ (z) =P (Y ≤ z − X) = P (Y ≤ z − X, X ∈ supp(X))
�
= FY (z − x)fX (x)dx
supp(X)
e derivando
�
FZ� (z) = fY (z − x)fX (x)dx
supp(X)
(infatti FZ < ∞ e FZ� < ∞ quindi posso derivare sotto il segno di in-
tegrale) si ottiene fZ = FZ� e l’integrale si calcola su tutti i punti per
cui fX (x) �= 0 e fY (z − x) �= 0. La prima condizione è soddisfatta per
tutti i punti x ∈ supp(X) mentre la seconda è soddisfatta per i soli punti
x ∈ supp(X) tali che, fissato z ∈ supp(Z) si ha che z − x ∈ supp(Y ).
Osservazione 33. Valgono le seguenti uguaglianze
� �
fY (z − x)fX (x)dx = fY (z − x)fX (x)dx
SX R
(perché fY è nulla fuori il suo supporto) e

� �
fX (z − y)fY (y)dy = fX (z − y)fY (y)dy
SY R
(perché fX è nulla fuori il suo supporto).

Esercizio 66. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che
X ⊥ Y . Studiare la v.a. Z = X + Y .
Esercizio 67. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso
µ = λ.
Esempio 24. Calcolare la densità della v.a. Z = X + Y dove X ⊥ Y
sono due v.a. Exp(1).
Si vede che supp(Z) = (0, ∞). Utilizzando la formula di convoluzione
si ottiene
� ∞
fZ (z) = e−(z−x) 1(0,∞) (z − x) e−x 1(0,∞) (x) dx
0
dove 1(0,∞) (x) = 1 per ogni x e per z ∈ (0, ∞),
z − x ∈ (0, ∞) ⇒ 0 < z − x < ∞ ⇒ x < z
e quindi
� z
fZ (z) = e−(z−x) e−x dx.
0
Cioè, SX = (0, z).
Esempio 25. Calcolare la densità della v.a. Z = X + Y dove X ⊥ Y

sono due v.a. U nif (0, 1).
Si vede che supp(Z) = (0, 2). Si può considerare l’integrale
�
fZ (z) = 1(0,1) (z − x) 1(0,1) (x) dx
R
dove 1(0,1) (x) = 0 per ogni x ∈ (−∞, 0) ∪ (1, +∞) e per z ∈ (0, 2),
z − x ∈ (0, 1) ⇒ 0 < z − x < 1 ⇒ x < z e x > z − 1,
e quindi
 � z

 dx, 0<z≤1

fZ (z) = �0 1


 dx 1<z≤2
z−1
Cioè, SX = (0, z) se z ≤ 1 e SX = (z − 1, 1) se 1 < z ≤ 2.
Esempio 26. Si calcoli V ar(Z) = M2 (Z) − (M1 (Z))2 dove Z = X + Y

e X ⊥Y.
Definizione 29. Si dice famiglia di densità di probabilità F = F(θ) di

parametro θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆
Rd .
Per indicare che non ci interessa la dipendenza dalla variabile x, scri-

veremo f (·; θ). La funzione f ci interessa nell’argomento θ (il parametro)
e non nell’argomento x (la variabile).
λk −λ
Esempio 27. La densità discreta pk = k! e = f (k; λ) al variare di λ
definisce la famiglia di densità
F(λ) = {f (·; λ), λ ∈ (0, ∞)} .

2 2 √
Esempio 28. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈
R × (0, ∞) definisce la famiglia
� �
F(µ, σ 2 ) = f (·; µ, σ 2 ), µ ∈ R, σ 2 > 0 .
Definizione 30. Una famiglia F di densità di probabilità è chiusa rispet-

to alla somma se prese due densità in quella famiglia, la loro convoluzione
appartiene ancora ad F.
Esercizio 68. Dimostrare che la famiglia di densità di Poisson è chiusa
rispetto alla somma.
Esercizio 69. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili
indipendenti:
a) calcolare la legge di densità della somma Z = X + Y ,
b) calcolare la funzione di ripartizione della variabile W = λZ,
c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0.
Esercizio 70. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due
v.a. indipendenti. Studiare la v.a. Z = X + Y .
2
Esercizio 71. Si consideri la funzione f (x) = κ e−θx con x ∈ R.
1. Determinare gli insiemi di definizione per κ e θ tali che f sia una
legge di densità.
Si consideri la v.a. X con legge di densità fX = f appena trovata.
2. Chi è X?
3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di
densità della v.a. Y = |X|2 .
4. Si consideri la successione
�n di v.a. i.i.d. Y j ∼ Y . Scrivere la legge
di densità di Z = j=1 Yj .
Proposizione 13. Sia pk , k ∈ N ∪ {0} la densità discreta di una v.a.

Bin(n, p). Allora pk è prima monotona crescente e poi monotona decre-
scente attorno al valore massimo (n + 1)p.
Dimostrazione. Basta considerare il rapporto
pk (n − k + 1)p
=
pk−1 k(1 − p)
che è maggiore di uno se pk ≥ pk−1 , cioè se e solo se
(n − k + 1)p > k(1 − p) ovvero k < (n + 1)p.
Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazio-

ne del vettore X le cui componenti sono Bernoulliane indipendenti. Sap-
piamo che sommando tali componenti otteniamo una Binomiale, siamo
quindi interessati alla v.a.
n
�
Sn = Xi ∼ Bin(n, p) n ∈ N, p ∈ [0, 1]. (3.44)
i=1
Osserviamo che
• Se n è grande e p è molto piccola possiamo approssimare la binomiale
Bin(n, p) con la legge degli eventi rari o di Poisson di parametro
λ = np. Quando p è molto grande vale la stessa approssimazione
se consideriamo che 1 − p = q è molto piccola. Infatti, se Xn ∼
Bin(n, p) con p = λ/n, allora
� �n−k
n! λk λ
P (Xn = k) = 1−
k!(n − k)! nk n
k
� �n � �−k
λ λ λ
= 1− 1− cn
k! n n
dove
n(n − 1)(n − 2) · · · (n − k + 1)
cn = .
nk
Per n → ∞,
� �n � �−k
λ λ
1− → e−λ , 1− → 1, cn → 1
n n
e quindi si ottiene
λk −λ
lim P (Xn = k) = e , k = 0, 1, 2, . . . .
n→∞ k!
Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una
N (λ, λ).
• Se n è grande e p � q � 0.5, approssimiamo la binomiale Bin(n, p) con
la normale N (np, npq).
In ultima analisi quindi la Bin(n, p) può essere approssimata al cre-
scere di n da una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np
oppure σ 2 = npq se p è molto piccola oppure se p � q rispettivamente.
Passeggiate aleatorie (random walks). Consideriamo una succes-

sione Xk di v.a. Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) =
{−1, 1} per ogni k ∈ N. In particolare, si ha che
�
p, xk = +1
P (Xk = xk ) = ∀ k.
q, xk = −1
La somma parziale Sn può essere vista come una passeggiata aleatoria,
cioè come un movimento aleatorio (di una particella, di un animale, di
una persona) che dipende da spostamenti in avanti (+1) e spostamenti
in dietro (−1). La posizione raggiunta ad un certo istante dipende dal
numero di spostamenti in avanti e in dietro. Provate a disegnare i punti
(n, Sn ) per qualche n partendo da una realizzazione del vettore X =
(X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo
che il salto |Xk | = 1 può non essere unitario, si consideri ad esempio una
successione di v.a. con spet(Xk ) = {−c, +c} e c > 0.
Identità di Wald. Consideriamo la somma parziale

N
�
SN = Xk (3.45)
k=1
dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk

possono essere discrete o continue mentre supporremo sempre che N sia
una v.a. discreta. Inoltre, considereremo sempre N ⊥ Xk per ogni k. Se
le Xk sono i.i.d, notiamo che
d
X1 + X2 + . . . + XN = X + X + . . . + X
� ��
N volte
dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità

delle Xk (per ogni k). Da questa uguaglianza in legge ricaviamo l’identità
di Wald
ESN = EN X = EN EX.
3.3.5 Variabili aleatorie ordinate

Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da
X = (X1 , X2 , . . . , Xn ), x = (x1 , x2 , . . . , xn ).
In generale possiamo ottenere una realizzazione in n! modi diversi, cioè
possiamo ordinare le n realizzazione in n! modi diversi. Possiamo poi
considerare le realizzazioni uguali e quindi i modi diversi in cui ordinare
le n realizzazioni sono dati dalle permutazioni con ripetizioni, ad esempio
se x1 si ripete k1 volte e k2 osservazioni sono uguali ad x2 , allora si possono
considerare k1n! !k2 ! modi diversi di ordinare il vettore delle realizzazioni.
Qui siamo interessati ad un solo ordinamento, dalla realizzazione minima
a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate
ed il vettore diventa
(X(1) , X(2) , . . . , X(n) )
dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto
i-esimo del campione x una volta ordinato dalla realizzazione minima
alla massima. Quindi X(1) = min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }.
Cerchiamo la densità del massimo.
Proposizione 14. Sia {Xj }j=1,2,...,n una successione di v.a. indipen-
denti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la
v.a. ordinata di posto n. Allora,
FY (y) = [FX (y)]n , y ∈ supp(X). (3.46)
Dimostrazione.
Y = max {Xj }
1≤j≤n
quindi supp(Y ) = supp(X).
P (Y ≤ y) =P ( max {Xj } ≤ y)
1≤j≤n
ma se il massimo non supera il livello y, allora nessuna v.a. lo supera

n
�
P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) = P (Xj ≤ y)
j=1
dove si è usato il fatto che le v.a. sono indipendenti. Considerando che

Xj ∼ X, cioè sono identicamente distribuite, si ottiene
n
�
P (Y ≤ y) = P (X ≤ y) = [P (X ≤ y)]n
j=1
ed otteniamo il risultato cercato.
Cerchiamo ora la densità del minimo di n v.a. i.i.d..

denti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la
v.a. ordinata di posto 1. Allora
FY (y) = 1 − [1 − FX (y)]n , y ∈ supp(X). (3.47)
Dimostrazione. Notiamo che
FY (y) = P ( min {Xj } ≤ y)

1≤j≤n
non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo

allora sulla probabilità
P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y)

1≤j≤n
(tutte sono maggiori se lo è il minimo)

n
�
= P (Xj > y) (sono indipendenti)
j=1
�n
= P (X > y)
j=1
(sono identicamente distribuite)

=[1 − FX (y)]n (per la definizione di FX ).
Quindi si ottiene l’enunciato.
In generale, diamo il seguente risultato senza dimostrazione.
denti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la
v.a. ordinata di posto j. Allora
�n � �
n
FY (y) = [FX (y)]k [1 − FX (y)]n−k . (3.48)
k
k=j
Esercizio 72. Da precedenti studi, una società associa la legge distribu-

tiva dei tempi medi di utilizzo di suoi alcuni macchinari alla legge espo-
nenziale, Exp(λ) con λ ∈ (2, 3). Inoltre, misurando gli utilizzi di tali
macchinari in unità di tempo, si chiede:
1. con quale probabilità la durata minima sia maggiore di 8 unità di
tempo,
2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una
stima43 per λ?
Esercizio 73. (Difficile) Sia Xk , k = 1, 2, . . ., una successione di v.a.
i.i.d. e U nif (0, 1). Studiare la v.a.
min1≤k≤n {Xk }
Zn = , n ∈ N.
max1≤k≤n {Xk }
Esercizio 74. (Difficile) Sia Xk , k = 1, 2, . . ., una successione di v.a.
i.i.d. e Exp(λ), λ > 0. Studiare la v.a.
Zn = max {Xk } − min {Xk }, n ∈ N.
1≤k≤n 1≤k≤n
43 Un valore ottenuto dalle evidenze empiriche che possa rappresentare il valore vero
(teorico) di λ.
Esercizio 75. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z 2 .
Successioni monotone di variabili aleatorie. Consideriamo una

successione di v.a. in cui l’ordinamento è dato, cioè la successione {Xk }k∈I
con I ⊆ N, può essere:
• monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . .,
• monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . ..
Sia K� con � ∈ R la v.a. per cui è vera la relazione
P (K� ≤ k) =P (Xk ≥ �) (se {Xk } è non-decrescente),
P (K� ≤ k) =P (Xk ≤ �) (se {Xk } è non-crescente).
Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la varia-
bile allo studio. Allora, la v.a. K� può essere vista come un tempo
ovvero come il tempo di attesa per il raggiungimento del livello � della
successione Xk . Ad esempio, se la successione è non-crescente, l’evento
(K� ≥ k) indica che la successione Xk raggiunge il livello � ad un istante
successivo (non precisato) a k. Aspettare k realizzazioni non bastano
per raggiungere (dal basso) il livello �. Analogamente, se la successione
è non-crescente, (K� ≥ k) indica che k realizzazioni non sono sufficienti
per raggiungere (dall’alto) il livello �. Inoltre, se le v.a. X k sono continue
allora � ∈ supp(Xk ); se le v.a. sono discrete, allora � ∈ spet(Xk ).
Esempio 29. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista
come la somma di k v.a. di Poisson indipendenti di parametro λ > 0
(chiusura rispetto alla somma). Ovviamente X k è non-decrescente, allora
vogliamo trovare la distribuzione K� del numero di addendi necessari per
superare il livello �. Si ha che
∞
�
P (K� ≤ k) =P (Xk ≥ �) = P (Xk = x)
x=�
∞
� �∞
(λk)x (λk)x
=e−λk = (λk)� e−λk .
x! x=0
(x + �)!
x=�
La densità discreta di una Poisson somma ad uno su N e allora

∞
� ∞
� �−1
�
(λk)x (λk)x (λk)x
P (K� ≤ k) =e−λk − e−λk + 1 = 1 − e−λk
x! x=0
x! x=0
x!
x=�
(che è 1 − P (Xk < �)). Notiamo che

� �
1 � − 1 (� − x − 1)!
=
x! x (� − 1)!
dove (si veda la funzione Gamma)
� ∞
(� − x − 1)! = Γ(� − x) = u�−x−1 e−u du, x ≥ 0.
0
Allora, possiamo scrivere

�−1
� �−1 � �
(λk)x 1 � �−1
= Γ(� − x) (λk)x
x=0
x! Γ(�) x=0 x
=[ per la linearità e la positività degli addendi ]
� �−1 � �
1
� ∞ � � − 1� (λk)x
�−1 −u
= u e du
Γ(�) 0 x=0
x ux
=[ per il binomio di Newton ]
� ∞ � ��−1
1 �−1 −u λk
= u e 1+ du
Γ(�) 0 u
� ∞
1 �−1
= e−u (u + λk) du
Γ(�) 0
� ∞
eλk
=[ pongo y = u + λk ] = y �−1 e−y dy.
Γ(�) λk
Riorganizzando i conti, per k ∈ N si ottiene
� ∞ � λk
1 �−1 −y 1
P (K� ≤ k) = 1 − y e dy = y �−1 e−y dy.
Γ(�) λk Γ(�) 0
Esercizio 76. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo),
allora K� è una v.a. continua. In maniera alternativa si dimostri che
K� ∼ Gamma(1, �). [Suggerimento: si consideri FK�
�
(t) dove
∞
� (λt)x
FK� (t) = e−λt
x!
x=�
ed il fatto che si ottiene una serie telescopica].

Osservazione 34. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt)

definisce il processo (aleatorio) di Poisson.
Osservazione 35. Le somme parziali Sn con n ∈ N di v.a. non-negative

sono successioni non-decrescenti.
Esercizio 77. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione

�k
di v.a. i.i.d. e sia Sk = j=1 Xj con k ∈ N la loro somma parzia-
le. Trovare la f.r. della v.a. K� , cioè del minimo numero k di v.a.
Bernoulliane necessarie per raggiungere il livello �. [Suggerimento: si
ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente per cui
P (Sk ≥ �) = P (K� ≤ k)].
Esercizio 78. Nel precedente Esercizio 77, si scriva P (Sk = k).
Esempio 30. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0.

Si vuole studiare la v.a. K� . Subito possiamo dire che � ∈ supp(Sk ),
infatti la somma di v.a. continue è una v.a. continua, in questo caso in
particolare � ∈ (0, ∞). Allora,
P (K� ≤ k) =P (Sk ≥ �)
� ∞
λk
=P (Gamma(λ, k) ≥ �) = uk−1 e−λu du.
Γ(k) �
Esercizio 79. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk

con k ∈ N la corrispondente successione delle somme parziali. Studiare
la v.a. (tempo di attesa) K� nei seguenti casi:
1. Xj = |Y | dove Y ∼ N (0, 1),
2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0,
3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2),
4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3),
per ogni j ∈ N.
3.3.6 Simulazione, generatori di numeri casuali

Nelle tecniche di generazione (di numeri casuali) supporremo sempre di
poter generare un vettore uniforme (cioè un vettore di realizzazioni indi-
pendenti di una variabile aleatoria Uniforme in un certo intervallo, pos-
siamo scegliere un intervallo che più si adatta alla nostre esigenze). È
possibile generare numeri aleatori uniformi seguendo ben noti algoritmi
oppure si possono utilizzare delle funzioni implementate in tutti i soft-
ware esistenti. Dalla generazioni di numeri casuali uniformi si possono
ottenere numeri casuali che seguono altre distribuzioni di frequenza (o di
probabilità). Il seguente teorema è importante se a = 0 e b = 1, diamo
qui il caso generale.
Proposizione 17. Sia g una funzione continua e differenziabile (mono-
tona non decrescente) ed U ∼ U nif (a, b). Allora, la v.a. X = h(U ) dove
h = g −1 ha legge di densità
 �
 g (x)
, h(a) ≤ x ≤ h(b)
fX (x) = b−a (3.49)
 0, altrimenti.
Dimostrazione. Per il Teorema 9, si ha che

1
fX (x) = |g � (x)|fU (g(x)) = g � (x) 1(a,b) (g(x)), x∈R (3.50)
b−a
con g non decrescente, quindi g � ≥ 0. Inoltre g(x) > a implica x > h(a)
essendo g monotona. Lo stesso vale per g(x) < b. Segue l’enunciato.
La generazione di numeri casuali equivale ad estrarre palline numerate
da una scatola in cui le palline sono state inserite seguendo una certa
distribuzione. Se prendiamo una scatola vuota e inseriamo 90 palline
numerate da 1 a 90, allora estraendo una pallina a caso,
1
P (estrarre la pallina con il numero x) = , ∀ x ∈ {1, 2, . . . , 90}.
90
Si sta estraendo da una distribuzione U nif {1, 2, . . . , 90}. Estraendo con
ripetizione n volte, ottengo un vettore proveniente da una U nif {1, 2, . . . , 90}.
Se avessi scelto di riempire la scatola con palline numerate ma facendo
attenzione ad inserire più volte solo certi numeri, avrei ottenuto una
distribuzione diversa da quella Uniforme. Di conseguenza, estraendo
con ripetizione n palline, avrei ottenuto un vettore proveniente da una

distribuzione diversa.
Esercizio 80. Con quale trasformazione posso simulare una variabile

aleatoria X con f.r. FX ?
Svolgimento Esercizio 80. Sia U ∼ U nif (0, 1) e g = FX . Allora,
P (g −1 (U ) ≤ x) = P (U ≤ g(x)) = g(x)
−1
implica che X = FX (U ).
Esercizio 81. Se il vettore X è stato ottenuto generando n valori U nif (0, 1),
come ottengo il vettore Y con distribuzione U nif (0, a), a > 0?
Esercizio 82. Se g(x) = 1−e−λx con x ≥ 0, determinare la distribuzione

di X = g −1 (U ) e dire quali numeri aleatori posso generare.
Esercizio 83. Scrivere un algoritmo che restituisca un vettore di realiz-

zazioni N (0, 1).
Esempio 31. Per generare una numero aleatorio in C si possono usare
le chiamate
void srand(unsigned seed);
int rand(void);
di stdlib.h e quindi il codice seguente:

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
double simul(int a)
{
double x;
int n;
srand(time(0));
n = rand();
x = a*((double)n)/RAND_MAX;
/* printf("Il numero estratto è %lf\n", x); */
return x;
}
La funzione restituisce (stampa a video) un numero aleatorio in (0, a)

proveniente da una legge Uniforme. Ogni numero ha uguale probabilità
di "essere estratto" dalla funzione rand.
3.3.7 Alcune disuguaglianze fondamentali

Teorema 14. (Dis. di Jensen) Sia g una funzione convessa e X una
v.a. con valore atteso finito, allora Eg(X) ≥ g(EX).
Dimostrazione. Si deve applicare il Teorema 28.
Dalla disuguaglianza appena introdotta e dalla Proposizione 7 si vede

che, g ∈ Cb funzione convessa, g(EX) ≤ Eg(X) ≤ M .
Teorema 15. (Dis. di Markov) Sia X una v.a. non negativa, allora
� .
∀ � > 0 P (X > �) ≤ EX
Dimostrazione. Si utilizza la proprietà i) della media. Per ogni � > 0

� � � �
X X
P (X > �) = E1(�,∞) (X) = E 1(�,∞) (X) ≤ E .
X �
Infatti 1(�,∞) (X) ≤ 1 (può valere 0 o 1) e vale 1 se X > �. Allora,

considerando che 1 = X/X < X/� se X > � si ottiene la disguaglanza
sopra. La dimostrazione è conclusa.44
Teorema 16. (Dis. di Chebyshev) Sia X una v.a.,
E|X|r
∀� > 0 P (|X| > �) ≤ , r > 0. (3.51)
�r
44 Se X ∼ f
X è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disu-
guaglianza di Markov come segue. Dalla definizione di media per v.a. continue,
scriviamo
� �
EX = xfX (x)dx ≥ xfX (x)dx
supp(X) {x∈supp(X) : x>�}
(X è positiva e l’integrale è non decrescente)

�
x
=� fX (x)dx (moltiplico e divido per �)
{x∈supp(X) : x>�} �
�
≥� fX (x)dx = �P (X > �) (perchè x/� > 1).
{x∈supp(X) : x>�}
Notiamo che {x ∈ supp(X) : x > �} = supp(X) ∩ (�, ∞).

Dimostrazione. Per ogni � > 0, P (Y > �) = E1(�,∞) (Y ) dove Y = |X|

è una v.a. non negativa. Si applica allora la disuguaglianza di Markov
moltiplicando e dividendo per Y r . Otteniamo
� r � � r�
Y Y
E r
1(�,∞) (Y ) ≤ E r .
Y �
45
La dimostrazione è conclusa .
Esercizio 84. Dimostrare che P (X > �) ≤ E[f (X)]/f (�) per f ≥ 0
crescente.
3.4 Trasformate di densità

Funzione caratteristica. Sappiamo trovare la soluzione per una equa-
zione del tipo x2 + 1 = 0? Introduciamo a tale scopo il numero complesso
z = a + ib ed il suo coniugato z ∗ = a − ib dove a = �(z) è la parte reale di
z e b = �(z) è la parte immaginaria di z, i è il numero immaginario per
cui i2 = −1. Parte reale e parte immaginaria di un numero complesso
variano in R. Il valore assoluto o modulo di un numero complesso |z| è
dato dalla seguente relazione
|z|2 = z z ∗ = a2 + b2 . (3.52)
45 Consideriamo X ∼ fX . Otteniamo
�
E|X|r = |x|r fX (x)dx (definizione)
supp(X)
� �
= |x|r fX (x)dx + |x|r fX (x)dx
{x∈supp(X):|x|≤�} {x∈supp(X):|x|>�}
�
≥ |x|r fX (x)dx (somma di quantità positive)
{x∈supp(X):|x|>�}
�
|x|r
=�r fX (x)dx
{x∈supp(X):|x|>�} �r
≥�r P (|X| > �) (sto integrando sulle x : |x| > � ⇒ |x|/� > 1).
Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora,
� �
E|X|r = |xk |r pk ≥ |xk |r pk .
k∈IX k∈IX : |xk |>�
Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la

dimostrazione.
3.4. TRASFORMATE DI DENSITÀ 113
Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale

complesso (formule di Eulero)
z = eix = cos x + i sin x, z ∗ = e−ix = cos x − i sin x. (3.53)
Si vede subito che |e ±ix
| = 1 (verificate!). Sia X una v.a. con legge di
densità fX e
�
φX (ξ) := EeiξX = eiξx fX (x)dx =: F[fX ](ξ). (3.54)
supp(X)
Definizione 31. La funzione a valori complessi φ X : R �→ C è la

funzione caratteristica della variabile aleatoria X (o associata alla v.a.
X).
Definizione 32. La funzione F[fX ](ξ) : R �→ C è la trasformata di
Fourier della funzione fX (o associata alla funzione fX ).
Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo
�
φX (ξ) := EeiξX = eiξxk pk =: F [{pk }](ξ)
k∈IX
che è in linea con le (3.20) ed è la funzione caratteristica per v.a. discrete.

In generale, la trasformata di Fourier di una funzione f : A → R è
definita da
�
F[f ](ξ) = eiξx f (x)dx
A
mentre F[{pk }](ξ) è una trasformata di Fourier discreta.

Proposizione 18. Valgono le seguenti proprietà :
1. φX (0) = 1,
2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata),
3. φX è uniformemente continua,
�n
4. se Y = j=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipen-
denti e aj ∈ R per ogni j, allora
n
�
φY (ξ) = φXj (aj ξ).
j=1
Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.54)

si vede subito che:
1. segue immediatamente considerando P (X ∈ supp(X)) = 1,
2. dalle proprietà del modulo, si ottiene
��
� � � �
|φX (ξ)| =�� e fX (x)dx�� = �EeiξX �
iξx
supp(X)
�
≤ |eiξx fX (x)|dx
supp(X)
�
� �
= |eiξx |fX (x)dx = E �eiξX � = 1
supp(X)
infatti fX ≥ 0 è una legge di densità e

|eiξx | = (cos2 ξx + sin2 ξx)1/2 = 1
3. si deve considerare
� �
|φX (ξ + h) − φX (ξ)| =�EeiξX+ihX − EeiξX �
� � ��
=�E eiξX+ihX − eiξX �
[linearità della media]
� �
≤E �eiξX+ihX − eiξX �
[proprietà del modulo]
��
=E �eiξX � · �eihX − 1�
� �
=E �eihX − 1�
[si è usato cos2 ξX + sin2 ξX = 1]
=Mh
che non dipende da ξ e quindi
|φX (ξ + h) − φX (ξ)| ≤ Mh .
Si deve notare che qui con il simbolo Mh si sta indicando una
costante46 . Volendo fornire una rappresentazione esplicita, si ha
��
2
Mh =E � (cos hX − 1) + sin2 hX �
46 Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento
di ordine r indicato con il simbolo Mr .

√
=E 2 − 2 cos hX = 2E| sin(hX/2)| ≤ 2
dove si sono usate formule ben note di trigonometria ed il fatto che

sin x è una funzione limitata. Potevamo anche considerare la dis.
di Minkowski, |eihX − 1| ≤ |eihX | + |1| ≤ 1 + 1.
4. in questo caso dobbiamo considerare
�n n
� n
�
Eeiξ j=1 a j Xj
=E eiξaj Xj = Eeiξaj Xj
j=1 j=1
[per l’indipendenza delle v.a. eiξaj Xj ]

�n
= φXj (aj ξ) (per definizione).
j=1
Proposizione 19. Se X ha momento di ordine n+1 finito, cioè M n+1 (X) <
∞, allora
� �n �
� (iξ)r � |ξ|n+1
�φX (ξ) − Mr (X)�� ≤ Mn+1 (|X|) (3.55)
� r! (n + 1)!
r=0
Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla

(5.21) che γn+1 = 1 e
|x|n+1
|Rn (ix)| = |Rn (x)| ≤ .
(n + 1)!
Quindi si ha che
� n
� � � � n
�
��
� (iξ) r � � (iξ) r �
�φX (ξ) − Mr (X)�� =��E e iξX
− X ��
r
� r! r!
r=0 r=0
� n �
� � (iξ)r r ��
≤E ��eiξX − X � = E|Rn (X)|
r!
r=0
e la dimostrazione è conclusa.
Da quanto visto possiamo enunciare i seguenti risultati.
Teorema 17. Se per ogni ξ,
|ξ|r
lim Mr (|X|) = 0, (3.56)
r→∞ r!
allora
∞
� (iξ)r
φX (ξ) = Mr (X). (3.57)
r=0
r!
Lemma 1. Se X ha momento assoluto di ordine n finito, cioè M n (|X|) <

(n)
∞, allora φX (0) = in Mn (X).
Diamo inoltre il seguente risultato senza dimostrarlo.
Teorema 18. Se φX ∈ L1 (R), allora X ∼ fX e
1. fX è uniformemente continua,
2. vale (3.18) per ogni x,
3. fX (x) = F −1 [φX ](x) dove

�
1
F −1 [φX ](x) = e−iξx φX (ξ)dξ
2π R
è la trasformata inversa di Fourier.
Dal teorema precedente arriviamo alla proposizione che segue (si veda
anche la formula (3.5)).
Proposizione 20. Se φX ∈ L1 (R), allora non ci sono punti di massa

positiva (di probabilità positiva). Vale a dire P (X = x) = 0 per ogni x.
Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha

�fX �∞ ≤ �φX �1 ). Si possono ottenere molte informazioni interessanti
dallo studio della funzione caratteristica che non intendiamo approfondire
ora. Ricordiamo però che le code della funzione caratteristica danno in-
formazioni sulla regolarità della densità (sulla continuità) mentre le code
della densità danno informazioni sulla regolarità (continuità) della fun-
zione caratteristica. In particolare, code che decadono esponenzialmente
determinano derivabilità di ogni ordine.
Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni

ordine uguali ma non necessariamente condividono la stessa legge di den-
sità. Infatti stessa densità significa stessa funzione caratteristica (perché
la trasformata di Fourier è un isomorfismo) ma queste possono non esiste-
re in termini di momenti, deve essere verificata per φX e φY la condizione
(3.56). Quindi le v.a. hanno momenti uguali di ogni ordine ma la funzione
caratteristica non può essere scritta come in (3.57).
Ricordiamo anche che due v.a. possono avere la stessa densità ma
essere diverse. Cioè possono avere marginali di ordine k diverse, nel
senso che per x ∈ D,
� �
f (x) = w1 (x, y)dy = w2 (x, u)du = g(x)
A B
dove w1 e w2 sono due densità congiunte tali che w1 �= w2 mentre f e g

sono due marginali (univariate, k = 1 in questo caso!) tali che f = g.
� �
Esercizio 85. Calcolare E (1 − X)−1 nei seguenti casi
1. X è una v.a. con momenti Mr (X) = r−α e α > 1,
2. X è una v.a. con momenti Mr (X) = 1/4r ,
3. X è una v.a. con momenti Mr (X) = r−1/3 .
Esercizio 86. Sia X una v.a. tale che

r! Γ(r + 1) r
EX r = ar 1(r pari) = a 1(r pari) , a > 0, r > 0.
(r/2)! Γ( 2r + 1)
Scrivere la funzione caratteristica di X.

Esercizio 87. Sia X una v.a. continua. Dimostrare che
�
1
Eg(X) = ĝ(ξ)φX (ξ)dξ
2π R
dove ĝ(ξ) = F[g](ξ).

Esempio 32. Sia
n
�
Zn = Xk , n ∈ N.
k=1
Scrivere la funzione caratteristica φZn nei seguenti casi: 1. Xk ∼ N (0, 2−k );

2. Xk ∼ N (2−k , σk2 ); 3. Xk ∼ N (n−1 , 3−k ). Si scrive subito
�n n
�
iξ Xk
φZn (ξ) = Ee k=1 = φXk (ξ)
k=1
che diventa nei diversi casi

�n 1 1 2 2
1. φZn (ξ) = k=1 e− 2 2k ξ = e− 2 (1− 2n )ξ , ξ ∈ R
1 1
�n 1 1 2 2 2 2
ei 2k ξ− 2 σk ξ = ei(1− 2n )ξ− 2 σn ξ , ξ ∈ R dove σn2 =
1 1
2. φ
�Znn (ξ) = k=1
2
k=1 σk
�n 1 1 1 2 2
ei n ξ− 2 3k ξ = eiξ− 2 2 (1− 3n )ξ , ξ ∈ R
1 1 1
3. φZn (ξ) = k=1
e allora
1. Zn ∼ N (0, σn2 ) dove σn2 = (1 − 2−n )

�n
2. Zn ∼ N (µn , σn2 ) dove µn = (1 − 2−n ), σn2 = k=1 σk2
3. Zn ∼ N (1, σn2 ) dove σn2 = (1 − 3−n ).
Funzione generatrice dei momenti. La funzione generatrice dei mo-

menti è definita dalla media EeξX con ξ ∈ R. Seguendo argomenti ana-
loghi a quanto detto sopra per la funzione caratteristica si arrivano a
determinare interessanti proprietà se tale media esiste. Il problema prin-
cipale è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti
ma definiremo la funzione generatrice dei momenti, per ξ ≥ 0, come segue
�
−ξX
ψX (ξ) := Ee = e−ξx fX (x)dx =: L[fX ](ξ). (3.58)
supp(X)
dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se

X ≥ 0, ψX esiste sempre. In particolare, si ottiene:
1. ψX (0) = 1,
(n)
2. (−1)n ψX (0) = Mn (X),
3.5. CONVERGENZA DI VARIABILI ALEATORIE 119
3. se per ogni ξ,
ξk
lim Mk (X) = 0
k→∞ k!
allora
� ∞
� ∞
� (−ξX)k � (−ξ)k
−ξX
ψX (ξ) = Ee =E = Mk (X). (3.59)
k! k!
k=0 k=0
Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo

�
Ee−ξX = e−ξxk pk
k∈IX
che è ancora in linea con le (3.20).
Funzione dei momenti generalizzati. Sia X ≥ 0 con densità fX .

Definiamo la trasformata
� ∞
ϕX (η) := EX η−1 = xη−1 fX (x)dx =: M[fX ](η)
0
dove M[fX ](η) è la trasformata di Mellin di fX .
Funzione generatrice delle probabilità. Sia X una v.a., allora
GX (u) := EuX , |u| < 1
è detta funzione generatrice delle probabilità di X.
Osservazione 36. Ogni variabile è identificata in maniera univoca dalla

sua trasformata.
3.5 Convergenza di variabili aleatorie

Sia Xn , n = 1, 2, . . . una successione di v.a. e sia X una v.a. tale
che Xn → X quando n → ∞. Dobbiamo caratterizzare il senso della
convergenza. Si deve quindi dire in che senso Xn → X.
3.5.1 Convergenza in distribuzione

d
Definizione 33. Xn → X in distribuzione e scriviamo Xn → X se
P (Xn ≤ x) → P (X ≤ x) per n → ∞ (3.60)
per ogni punto x in cui la funzione limite x �→ P (X ≤ x) è continua.

Si considerano due successioni: {Xn }n∈N e {FXn }n∈N ; si traggono
conclusioni sulla prima studiando la seconda. Nel secondo caso si ha un li-
mite di funzioni mentre nel primo si ha un limite di v.a. (in distribuzione,
appunto!).
Se vale la (3.60) possiamo dire che Xn converge ad X in distribuzione
(in distribution), in legge (in law), debolmente (weakly). Notiamo che
la definizione appena data è in realtà il teorema di Helly-Bray e che la
convergenza in distribuzione non riguarda direttamente la v.a. X ma
la sua distribuzione di probabilità o appunto, la funzione di ripartizione
(si veda ad esempio l’Esercizio 8). La convergenza in distribuzione non
implica quindi la convergenza della funzione di densità! Si veda anche il
Teorema di Scheffé47 . Inoltre, si consideri la successione Xn con
�
1, x = 2 + n1
P (Xn = x) =
0, altrimenti.
Esempio 33. Sappiamo che vale il seguente limite di funzione:

� x �n
lim 1 − = e−x .
n→∞ n
Quindi una successione di funzioni converge ad una funzione (esponen-
ziale). Osserviamo che la successione Xn di v.a. converge a X ∼ Exp(1)
in distribuzione se
� x
lim P (Xn ≤ x) = 1 − e−x = e−u du.
n→∞ −∞
Si ottiene una convergenza di v.a. ad una v.a. (esponenziale).

Il lemma che segue ci fornisce definizioni equivalenti di convergenza
debole.
47 In particolare, convergenza delle densità continue implica convergenza delle
probabilità ma non è vero il contrario.

Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono afferma-

zioni equivalenti:
d
i) Xn → X,
ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb ,
iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈
Lipb ,
iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che
P (X ∈ ∂B) = 0 dove ∂B è la frontiera di B.
Osservazione 37. Consideriamo un intervallo della retta dei reali. La
frontiera di [a, b] è costituita dall’insieme {a, b}. Sia X ∼ f X , allora
sappiamo che P è assolutamente continua rispetto alla misura di Lebesgue
e la misura di Lebesgue di ∂[a, b] = {a, b} = {a} ∪ {b} è zero.
Dire che una v.a. converge in legge equivale a dire che la sua densità
(funzione di ripartizione) converge debolmente, cioè se Xn → X in distri-
buzione, allora Eg(X � n ) → Eg(X) dove g = 1B è la funzione indicatrice
(infatti Eg(Xn ) = g dFXn ). Se g è una funzione semplice, per la linea-
rità dell’integrale, continua a valere la convergenza debole. Se g è una
funzione misurabile non negativa, continua a valere per la convergenza
monotona48 e per linearità, continua a valere per una arbitraria funzione
misurabile.
d
Osservazione 38. Se Xn → X non è detto che EXn → EX. Infatti la
funzione g(x) = x non è limitata. In realtà, g(x) = xr con r > 0 non è
limitata e allora
d
Xn → X �⇒ Mr (Xn ) → Mr (X).
Indichiamo con |Xn | ≤ M il fatto che, data una costante M > 0,

P (|Xn | ≤ M ) = 1 e diciamo che Xn è uniformemente limitata (cioè, per
ogni n).
48 Sia {f }
n n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ).
Se fn → f puntualmente, allora f è misurabile (f ∈ L1 ) e
� �
lim fn (x)dµ(x) = f (x)dµ(x).
n→∞ Ω Ω
Teorema 19. Se la successione Xn è uniformemente limitata, allora

d
Xn → X ⇒ Mr (Xn ) → Mr (X) < ∞.
Dimostrazione. Consideriamo r = 1 e assumiamo che Xn ≥ 0, inoltre
ricordiamo che P (Xn > M ) = P (X > M ) = 0, allora
�� ∞ �
� �
�
|M1 (Xn ) − M1 (X)| =� [P (Xn > x) − P (X > x)] dx��
0
�� M �
� �
�
=� [P (Xn > x) − P (X > x)] dx��
0
� M � �
≤ �P (Xn > x) − P (X > x)�dx → 0
0
per n → ∞ dove il limite si ottiene dalla convergenza in distribuzione.

Infatti, P (Xn > x) → P (X > x) per ogni punto di continuità di P (X >
x) e l’integrale è finito per ogni n. Considerando la parte positiva e
negativa di Xn si ottiene il risultato generale per r = 1. Dalle proprietà
del valore medio si ottiene il risultato per r > 1 seguendo la stessa linea
indicata sopra.
3.5.2 Convergenza in probabilità

P
Definizione 34. Xn → X in probabilità e scriviamo Xn → X se ∀ � > 0
lim P (|Xn − X| > �) = lim P (ω : |Xn (ω) − X(ω)| > �) = 0
n→∞ n→∞
oppure ∀ � > 0
lim P (|Xn − X| ≤ �) = lim P (ω : |Xn (ω) − X(ω)| ≤ �) = 1.
n→∞ n→∞
La convergenza in probabilità richiede che asintoticamente l’insieme

{ω : |Xn (ω) − X(ω)| > �} diventi un insieme trascurabile, cioè di mi-
sura P nulla (si considera una distanza). La convergenza in probabilità
implica la convergenza in distribuzione, non è sempre vero il contrario.
In particolare, la convergenza in distribuzione implica la convergenza in
probabilità solo se il limite X è una v.a. degenere.
Definizione 35. Una v.a. X si dice degenere se è identicamente uguale
ad una costante quasi certamente (q.c.), cioè se P (X = costante) = 1.
Scriveremo X ∼ Deg(a) se P (X = a) = 1 con a costante.

d P
Proposizione 21. Sia X ∼ Deg(a). Allora Xn → X ⇒ Xn → X.
La convergenza in probabilità non implica la convergenza dei momenti
P
Xn → X �⇒ Mr (Xn ) → Mr (X).
d
Basta considerare la successione Xn per cui Xn = n Ber(1/n) ∀ n,
1 1
P (Xn = 0) = 1 − →1 e P (Xn = n) = →0
n n
quindi Xn → 0 in probabilità ma Mr (Xn ) = nr−1 e Mr (X) = 0.
3.5.3 Convergenza in media

M
Definizione 36. Xn → X in media r-esima e scriviamo Xn →r X se
E|Xn − X|r → 0, r > 0, per n → ∞.
Dalla disuguaglianza di Chebyshev

E|Xn − X|r
P (|Xn − X| > �) ≤
�r
si vede subito che la convergenza in media r-esima implica la convergenza
in probabilità. Si ottiene, per r ≥ 1
Mr (Xn − X) → 0 ⇒ P (|Xn − X| > �) → 0 ∀� > 0
e scriviamo
M P
Xn →r X ⇒ Xn → X.
Osserviamo inoltre che, per r pari (binomio di Newton),

� r � � r � �
�
r r k r−k r
|Xn − X| = ak [Xn ] [X] = ak [X]k [Xn ]r−k
k k
k=0 k=0
dove ak = (−1)k (per r dispari basta considerare il corrispondente ak

che tenga conto del modulo). Quindi si ottiene convergenza in media
r-esima se esistono i momenti 1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo

semplicemente di convergenza in media. Se cioè E|Xn | < ∞, si deve
verificare limn→∞ E|Xn − X| = 0. Se ogni elemento della successione
Xn ha momento secondo finito, allora Xn converge in media quadratica
M
a X, cioè Xn →2 X se limn→∞ E|Xn − X|2 = 0. Le convergenze in
media r-esima appena viste implicano la convergenza del corrispondente
momento r-esimo, cioè se r = 1, 2
M
Xn →r X ⇒ Mr (Xn ) → Mr (X)
inoltre, la convergenza in media quadratica implica la convergenza in

media,
M2 (Xn − X) → 0 ⇒ M1 (Xn − X) → 0.
Basta considerare la disuguaglianza di Hölder (per p = 2, cioè la disu-

guaglianza di Cauchy-Schwarz)
�
E|Yn 1| ≤ E|Yn |2 · E|1|2 = (M2 (Yn ))1/2
per Yn = Xn − X.
Osservazione 39. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una succes-
sione. Notiamo che
� b
r 1
E|fn (X)−f (X)| = |fn (x)−f (x)|r dx → 0 se n → ∞ (3.61)
b−a a
collega la convergenza in media r-sima con la convergenza nello spazio

di Lebesgue Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza
in Lp si può formalizzare come segue, se Yn ∈ Lr per ogni n, Y ∈ Lr e
Lr
r ≥ 1, diciamo che Yn → Y se limn→∞ E|Yn − Y |r = 0.
3.5.4 Convergenza quasi certa

Definizione 37. Xn → X con probabilità 1 (o quasi certamente) e
q.c.
scriviamo Xn → X se
P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1.

n→∞ n→∞
q.c.
Notiamo che Xn → X significa
P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0
n→∞ n→∞
oppure
P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1.
n→∞ n→∞
Si vede subito che la convergenza quasi certa è più forte della convergen-
za in probabilità. La convergenza q.c. implica quindi una convergenza
puntuale (pointwise) in ω, cioè per ogni ω ∈ Ω \ N , Xn (ω) → X(ω),
cioè a meno di un insieme N ⊂ Ω di misura nulla e quindi trascurabile
per cui P (N ) = 0. Inoltre la convergenza q.c. implica la convergenza in
probabilità (Lemma di Fatou). La convergenza quasi certa (almost sure)
è anche detta convergenza quasi ovunque (almost everywhere), con pro-
babilità uno (with probability one), in senso forte (strongly). Raramente
ci si riferisce alla convergenza certa (o ovunque) in cui si ha convergenza
quasi certa (quasi ovunque) a meno di insiemi di misura nulla.
Esempio 34. La funzione fn (x) = xn converge punto per punto a 0 in
[0, 1) ma non uniformemente. La convergenza non è puntuale in [0, 1].
Inoltre, converge q.o. in [0, 1] a 0 rispetto alla misura di Lebesgue, visto
che µ({1}) = 0 se µ è la misura di Lebesgue.
Esempio 35. Il limite puntuale di una successione di funzioni conti-
nue può essere una funzione discontinua solo se la convergenza non è
2n
uniforme. Si consideri fn (x) = (cos πx) .
Esercizio 88. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e
U nif (0, 1). Studiare la convergenza della successione di v.a. Z n =
max1≤k≤n {Xk }, n ∈ N.
Esercizio 89. Sia X ∼ U nif (0, 1). Studiare la convergenza della suc-
cessione di v.a. Zn = X n , n ∈ N.
Esercizio 90. Sia X ∼ U nif (0, 1). Studiare la convergenza della suc-
cessione di v.a. Zn = (−X)n , n ∈ N.
Esercizio 91. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza
della successione di v.a. Zn = X + n1 Y , n ∈ N.
P
Proposizione 22. Se Xn → X, allora esiste una sotto-successione tale
q.c.
che Xnk → X.
3.5.5 Altre questioni sulla convergenza

Definizione 38. (Convergenza quasi completa) Diciamo che X n → X
quasi completamente se
�
∀ � > 0, P (ω : |Xn (ω) − X(ω)| > �) < ∞, k > 0. (3.62)
n>k
Si ha quindi convergenza quasi completa se fissato � (piccolo a piace-

re), la somma (3.62) è finita indipendentemente da quale k scelgo (grande
a piacere). Se Xn converge quasi completamente allora converge quasi
certamente, cioè converge così velocemente da assicurare la convergenza
q.c. (Lemma di Borel-Cantelli).
Definizione 39. (Convergenza stabile) Sia Xn una successione di v.a.
d
definite in (Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in
G (G-stably in distribution) se
E[Zf (Xn )] → E[Zf (X)]
per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata

e G-misurabile.
Osservazione 40. Per la convergenza in media o in probabilità dobbiamo
conoscere le congiunte delle v.a. interessate mentre per la convergenza
in distribuzione basta conoscere la marginale di ordine k se si studia la
convergenza di una successione Xn ∈ Rk .
Teorema 20. Sia g : Rn �→ Rm una funzione continua in ogni punto
x ∈ D per cui si ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)).
Valgono le seguenti :
d d
i) Xn → X, implica g(Xn ) → g(X),
P P
ii) Xn → X, implica g(Xn ) → g(X),
q.c. q.c.
iii) Xn → X, implica g(Xn ) → g(X).
Osservazione 41. Notiamo che per una funzione g di Lipschitz, g ∈ Lip,
vale la seguente
P P
• Xn → X, implica g(Xn ) → g(X).
Si vede che g ∈ Lip implica che Ag ⊂ A, dove
Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < �}

�
A ={ω ∈ Ω : |Xn (ω) − X(ω)| < }
M
e quindi
�
P (|g(Xn ) − g(X)| < �) ≤ P (|Xn − X| < )→1 se n → ∞
M
P
perché vale Xn → X.
Teorema 21. Siano {Xn }n , X e {Yn }n v.a., allora
q.c. P
i) Xn → X implica Xn → X,
P d
ii) Xn → X implica Xn → X,
P d
iii) Xn → c se e solo se Xn → c dove c è una costante,
d P d
iv) Xn → X e |Xn − Yn | → 0 implica Yn → X.
Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una
d d
costante. Se Xn → X e Yn → c, allora
d
i) Xn + Yn → X + c;
d
ii) Yn Xn → cX;
d
iii) Yn−1 Xn → c−1 X se c �= 0.
Teorema 22. (Teorema di continuità di Lévy) Siano {X n }n e X v.a. in
Rd . Allora
d
i) Xn → X se e solo se
T T
φXn (ξ) = Eeiξ Xn
→ Eeiξ X
= φX (ξ), ∀ ξ ∈ Rd se n → ∞
(3.63)
ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e
φ(ξ) è continua in zero, allora φ = φX è la funzione caratteristica
d
di X e Xn → X.
Teorema 23. (Scheffé)49 Se {fn }n∈N è una successione di densità di

probabilità con supporto in D ⊂ Rd tale per cui
lim fn (x) = f (x) q.o. in D,

n→∞
allora una condizione sufficiente affinché

� �
lim fn (x)dx = f (x)dx
n→∞ B B
per ogni Boreliano B è che f sia una densità di probabilità.

Il teorema autorizza il passaggio al limite sotto il segno di integrale.
Proposizione 23. Sono equivalenti i seguenti limiti:
i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E),
ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E),
iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 22.
Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). In-
fatti, se vale i), dalla 3.18 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema
23. Le implicazioni con la iii) sono ovvie.
Esempio 36. Riprendiamo l’Esempio 32 e studiamo la convergenza in
distribuzione della variabile Zn . Si devono considerare nei diversi casi
lim µn = µ e lim σn2 = σ 2

n→∞ n→∞
e allora
1. Zn → Z ∼ N (0, 1)
�∞
2. Zn ∼ N (1, σ 2 ) dove σ 2 = k=1 σk2 (se finita!)
3. Zn ∼ N (1, 1).
I seguenti esercizi sono estremamente istruttivi.
49 Attribuiamoil risultato a Sheffé perché è una sua formulazione ma ricordiamo,
come anche lui ha fatto, che si poteva ottenere come caso particolare di risultati noti
più generali.
Esercizio 92. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N.

Una v.a. univariata U nif ([0, �]) avrà densità 1/� dove � è la lunghezza
del supporto. Sembra ovvio che se � → ∞ la densità tende a zero, tutti i
punti hanno eguale probabilità di essere considerati ed è nulla. Allo stesso
tempo però la f.r. può non essere nulla come nel precedente esercizio.
Quindi l’operazione di passaggio al limite sotto il segno di integrale può
condurre a situazioni da analizzare con cura.
Esercizio 93. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove
fXn (x) = 2n2 x1(0,1/n) (x), x ∈ R.
Divergenza di variabili aleatorie. Ci siamo sempre interessati alla

convergenza in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N ,
diamo una definizione di divergenza.
Definizione 40. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞]
diverge q.c. se
∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1.
Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗

in poi se e solo se Xn → ±∞ quasi certamente.
Esercizio 94. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che
1
E[Xj ]k = 1(k=2) , k ≥ 1,
n
1. determinare la funzione caratteristica di X j ,
�n
2. determinare la funzione caratteristica di Z n = j=1 Xj ,
3. determinare la legge di densità della v.a. Z∞ e dire che tipo di
convergenza si ottiene.
3.5.6 Teoremi limite ✍

Studiamo il limite della v.a. somma parziale
n
�
Sn = Xj (3.64)
j=1
e della v.a. media campionaria

n
1� 1
X̄n = Xj = Sn . (3.65)
n j=1 n
dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportu-

namente. Vogliamo prima ricordare il teorema di Cesàro per le medie
aritmetiche. Sia {xj } una successione con limite L ∈ R. Allora, per
n → ∞, si ottiene il seguente risultato,
n
1�
x̄n = xj → L.
n j=1
Si noti che la media campionaria x̄n è una successione numerica.
Legge dei grandi numeri.

Teorema 24. (Legge debole dei grandi numeri) Sia X j , j = 1, 2, . . ., una
successione di v.a. indipendenti e identicamente distribuite con EX j =
µ < ∞ e V ar(Xj ) = σ 2 < ∞ per ogni j. Allora
P
X̄n → µ se n → ∞. (3.66)
Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di

Chebyshev,
E|X̄n − µ|2 V ar(X̄n )

P (|X̄n − µ| > �) ≤ =
�2 �2
dato che E X̄n = µ. La varianza di X̄n si calcola come segue
n
1 � 1
V ar(X̄n ) = 2
V ar(Xj ) = σ 2
n j=1 n
dato che le Xj sono i.i.d., segue dunque che
σ2
P (|X̄n − µ| > �) ≤ →0 se n → ∞.
n �2
Dalla definizione di convergenza in probabilità segue l’enunciato.
Osserviamo che non è importante conoscere σ 2 . Infatti basta sapere

che V ar(Xj ) < ∞ per ogni j. Dire che la varianza e finita vale a dire che
esiste una costante M > 0 tale per cui V ar(Xj ) ≤ M per ogni j e quindi
n
1 � nM
V ar(X̄n ) = V ar(Xj ) ≤ 2 .
n2 j=1 n
Si ottiene
M
P (|X̄n − µ| > �) ≤ →0 se n → ∞
n �2
e allora possiamo riformulare la legge debole dei grandi numeri come
segue:
Sia {Xj }j∈N una successione di v.a. indipendenti con EXj = µ e
P
varianza finita per ogni j. Allora X̄n → µ.
Diamo ora una formulazione forte senza dimostrarla.

Teorema 25. (Legge forte dei grandi numeri) Sia X j , j = 1, 2, . . ., una
successione di v.a. indipendenti e identicamente distribuite con EX j =
µ < ∞ e V ar(Xj ) = σ 2 < ∞ per ogni j. Allora
q.c.
X̄n → µ se n → ∞. (3.67)
Esempio 37. Sia Xn = U/n, n ∈ N con U ∼ U nif (0, 1) una successione
di v.a., si vede che Xn → 0 q.c. per n → ∞.
Metodo Monte Carlo. Il metodo Monte Carlo (MMC in breve) è qui

introdotto come un metodo di approssimazione di intergali che risultano
difficili da calcolare, anche a livello computazionale. Consideriamo una
funzione w(x) e l’intergale
�
w(x)dx = I.
D
Vogliamo sapere quanto vale I ma w è difficile da integrare (anche per

un PC, cioè risulta computazionalmente dispendioso). Si deve allora
riscrivere l’integrale, riscrivendo w, ad esempio come segue
� �
w(x)dx = g(x)fX (x)dx e quindi I = Eg(X)
D D
per qualche v.a. X da identificare. a questo punto si considera In = Ȳn

e si ricorre alla legge debole dei grandi numeri, si ottiene In → I in
probabilità, quindi per un n sufficientemente grande, diciamo n > n∗ si
ha che In ≈ I. Vediamo in dettaglio come si deve procedere50 .
Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j =
1, 2, . . ., sotto le condizioni della legge dei grandi numeri sappiamo che
n �
1� P
Xj → µ = EX = xfX (x)dx se n → ∞.
n j=1 supp(X)
Inoltre, scrivendo Yj = g(Xj ) ∼ g(X) = Y , otteniamo

�
P
Ȳn → EY = yfY (y)dy
supp(Y )
ovvero
n �
1� P
g(Xj ) → Eg(X) = g(x)fX (x)dx.
n j=1 supp(X)
Se X ∼ U nif (a, b), allora

n �
1� P 1 b
g(Xj ) → g(x)dx.
n j=1 b−a a
Possiamo quindi considerare una successione {Xj }j∈N con componenti

i.i.d e ognuna convergente ad una v.a. Uniforme; di questa prendere solo
una realizzazione finita, data del vettore X = (X1 , X2 , . . . , Xn ) per n
sufficientemente grande; passare quindi alla v.a. media campionaria Ȳn
relativa al vettore Y = (g(X1 ), g(X2 ), . . . , g(Xn )). La v.a. Ȳn torna utile
nel calcolare un integrale di g numericamente complicato (di elevata com-
plessità computazionale). Le convergenze di cui si sta parlando si otten-
gono per n → ∞ ma in realtà si ottengono buone approssimazioni per n
sufficientemente grande (a volte può essere sufficiente n = 30, 100, 1000.).
La funzione somma in C:
50 Osserviamo che in generale si può considerare
� � � �
w(x) w(X)
w(x)dx = fX (x)dx e quindi I=E
D R fX (x) fX (X)
dove X e quindi fX ha supporto D.
#include <stdio.h>
#include <stdlib.h>
double sum(double v[])
{
int i;
int s;
s=0;
for(i=1; i<length(v)+1; i++)
{
s=s+v[i];
}
return s;
}
Definiamo inoltre la seguente funzione

#include <stdio.h>
/* altre librerie se necessario */
#include <stdlib.h>
double dist(double v)
{
double val;
...... /* il codice */
return val;
}
che restituisce un valore secondo la trasformazione della Proposizione

17. Il Metodo Monte Carlo in C:
#include <stdio.h>
#include <stdlib.h>
void MMC(void)
{
double v[500];
double V[500];
int i;
for(i=1; i<=500; i++)
{
v[i]=simul(1);
v[i]=dist(v[i]);
/* qui cambiamo distribuzione
al vettore v che era uniforme */
}
/* supponiamo di inserire qui il codice
che restitutisce il vettore V=g(v) */
printf("il valore dell’integrale è %lf\n", sum(V)/500);
}
dove sum(V)/500 restituisce la media campionaria (avendo simulato

V che può essere visto come una realizzazione di un vettore aleatorio).
Esercizio 95. Si verifichi che il codice non restituisce errori.

Esempio 38. Si vuole trovare la successione di v.a. {X j }j∈N tale da

approssimare con il MMC l’integrale
�
2
g(x)e−x dx. (3.68)
R
Si vede subito che

�
2 √
g(x)e−x dx = πE[g(X)] dove X ∼ N (0, 1/2)
R
e allora
√ � n
π
g(Xj ) dove Xj ∼ N (0, 1/2) (3.69)
n j=1
è la v.a. media campionaria cercata.

Ci riferiremo al problema appena affrontato come al problema MC.
Quindi, seguendo il precedente Esempio 38 diremo che la caratterizzazio-
ne (3.69) di una v.a. media campionaria è soluzione MC per l’integrale
(3.68), cioè (3.69) è soluzione del problema MC per l’integrale (3.68). Se
la funzione g non è specificata, allora la soluzione del problema MC sarà
data dalla caratterizzazione del tipo (3.69) ed una forma esplicita per la
funzione g.
Esempio 39. Trovare una soluzione MC per l’integrale
� ∞
β xα e−x dx, α, β > 0.
0
Si ottiene
n
β� α
X Xj ∼ Exp(1)
n j=1 j
e quindi g(x) = βxα .

Esercizio 96. Trovare una soluzione MC per i seguenti integrali:
� 2
1. R x3 e−x dx,
�∞ 2
2. 0 x3 e−x dx,
�
3. R
(1 + x2 )−1/2 dx
Il metodo
� Monte Carlo ci permette quindi di approssimare un integra-
le del tipo w(x)dx dove nella funzione w si può individuare una densità
continua. Ad esempio, l’intergale
� ∞
cos(x)
dx
0 3x
può essere riscritto (la seguente è una possibile riscrittura quindi arrive-
remo ad una possibile soluzione MC)
� ∞
1
cos(x)e−x ln 3 dx = E[cos X] = C = una costante
0 ln 3
dove X ∼ Exp(ln 3). Una soluzione MC è allora data dalla successione
Xj ∼ Exp(ln 3) j = 1, 2, . . . di v.a. i.i.d. e t.c.
n
1� n→∞
cos(Xj ) −→ C.
n j=1
In particolare, per n sufficientemente grande da ottenere una buona

approssimazione, diciamo N , si ha
� N
∞
cos(x) 1 �
dx ≈ cos(xj )
0 3x N j=1
dove x = (x1 , x2 , . . . , xN ) è una realizzazione (ottenuta per simulazione,

generazione di numeri aleatori) del vettore X = (X1 , X2 , . . . , XN ).
Limite centrale. Diamo il seguente risultato senza dimostrarlo.

Teorema 26. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di
v.a. i.i.d. con EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora,
Sn − nµ d
√ → N (0, 1) se n → ∞ (3.70)
σ n
e
X̄ − E X̄n d
�n → N (0, 1) se n → ∞ (3.71)
V ar(X̄n )
dove E X̄n = µ e V ar(X̄n ) = σ 2 /n.
Stima per intervalli. Dal teorema del limite centrale sappiamo che,
per n → ∞,
1
�n
n j=1 g(Xj ) − Eg(X) √ d
Zn = � n → N (0, 1)
V ar(g(X))
ed è quindi possibile identificare un intervallo di confidenza51 del tipo

� �
σ σ
Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √
n n
dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale

� � � �
P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α.
n→∞ n→∞
Il percentile zα∗ può essere individuato dalla tavola in Tabella 8.1.

Esercizio 97. Sia X ∼ U nif (0, 1). Studiare la convergenza della v.a.
Yn = (n(1 − X 1/n ))1/α con α > 0.
Esercizio 98. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n).
Studiare la convergenza della v.a. Yn = max0≤k≤n {Xk }.
Esercizio 99. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ
e varianza σ 2 per ogni k. Studiare la convergenza della successione
n
� (Xk − µ)
Yn = n−1/2 , n ∈ N.
σ
k=1
Esercizio 100. Siano Xk ∼ U nif {−1, 1} v.a. indipendenti. Determi-

nare il limite in distribuzione della v.a.
n
�
Zn = n−1/2 Xk .
k=1
Esercizio 101. Siano Xk ∼ P ois(λ), λ > 0 v.a. indipendenti e Yk =

Xk − λ per k ∈ N. Si vuole studiare la distribuzione limite della v.a.
n
�
Zn = (nλ)−1/2 Yk .
k=1
51 Si veda il Capitolo 6.
3.6. PROCESSI ALEATORI 137
Esercizio 102. Siano Xk ∼ Exp(λ), λ > 0 v.a. indipendenti e Yk =

Xk − 1/λ per k ∈ N. Si vuole studiare la distribuzione limite della v.a.
n
�
Zn = n−1/2 Yk .
k=1
Osservazione 42. Si veda il test di Kolmogorov-Smirnov a pag. 191.
3.6 Processi aleatori

I processi aleatori si possono classificare per spazio e tempo. Una rea-
lizzazione del processo Xt rappresenta un osservazione al tempo t di un
fenomeno che può essere continuo o discreto, in relazione a questo diciamo
che il processo a valori in uno spazio continuo o discreto (o semplicemente
Xt è a spazio continuo o discreto). Il tempo t può essere continuo ma se
pensiamo che le osservazioni siano possibili solo a tempi discreti, allora
possiamo caratterizzare Xt dicendo che può essere a tempo continuo o
discreto.
Spazio continuo e tempo continuo. La soluzione del problema di

Cauchy
∂u ∂2u
(x, t) = (x, t), x ∈ R, t > 0 (3.72)
∂t ∂x2
u(x, 0) = g(x)
si può scrivere come (supponiamo g ∈ Cb )

� w2 � (w−x)2
e− 4t e− 4t
u(x, t) = Eg(x + Bt ) = g(x + w) √ dw = g(w) √ dw
R 4πt R 4πt
dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità
� w2
e− 4t
P (Bt ∈ A) = √ dw. (3.73)
A 4πt
Il moto Browniano è un processo aleatorio “elementare” (volendo sem-
plificare) nel senso che rappresenta la base di partenza nello studio di
processi aleatori molto più generali e guidati dalle Stochastic differential

equations o dalle più complicate Stochastic partial differential equations
(il lettore interessato è invitato a fare una ricerca in rete, ad esempio uti-
lizzando Google!). Il moto Browniano rappresenta il movimento di una
particella, la diffusione del calore, l’andamento di un oggetto finanziario
e molto altro ed è associato alla equazione (3.72). È quindi di interesse
in Fisica, Economia, Finanza e tutte le scienze applicate. Al variare del
tempo, rappresenta un fenomeno di evoluzione governato dalla equazione
del calore. La (3.73) può quindi essere letta come la probabilità che al
tempo t una particella (o altro) si trovi in A (o occupi una delle posizioni
contenute nell’insieme A, un punto di A).
La soluzione del problema di Cauchy
∂u ∂2u
(x, t) = (x, t), x ∈ D, t > 0 (3.74)
∂t ∂x2
u(x, 0) = g(x)
si può scrivere come
u(x, t) = E[g(x + Bt ), t < τD ], x ∈ D, t > 0 (3.75)
dove τD = τD (x) = inf{s ≥ 0 : x + Bs ∈ / D} è il primo istante in cui il

moto Browniano Bt , partito da B0 = x ∈ D al tempo 0, esce da D.
Si noti come oggetti aleatori possano essere utilizzati per fornire in-
teressanti spunti nello studio delle equazioni a derivate parziali e quindi
nei vari modelli (o fenomeni) collegati.
Esercizio 103. Sia u(x, t) la soluzione di (3.72). Scrivere il problema

associato a v(x, t) = u(x, 2t).
Esempio 40. La Figura 3.4 da un idea di traiettoria del moto Brownia-

no, mentre nella Figura 3.3 si è rappresentata una realizzazione di un vet-
tore (sempre di dimensione 300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300.
È stata ottenuta considerando
>rnorm(n, media, varianza)
di R che genera un vettore con componenti
Xi ∼ N (0, ti ), i = 1, 2, . . . , 300.
3.6. PROCESSI ALEATORI 139
600
400
rnorm(300, 0, c(1:300))
200
0
−200
−400
0 50 100 150 200 250 300
Index
Figura 3.3: Collezione di Xi ∼ N (0, ti ).
Il moto Browniano Bi è stato ottenuto dalle v.a.

i
�
Xj ∼ N (0, 1) dove Bi = Xj , i = 1, 2. . . . , 300.
j=1
Si è considerata la funzione di R
>cumsum(vector)
che restituisce un vettore la cui componente i-esima è data dalla som-

ma delle prime i componenti.
Esercizio 104. Scrivere una soluzione MC per l’integrale
�
2
f (y)e−ay dy, f ∈ Cb (R), a > 0.
R
Spazio continuo e tempo discreto. Si supponga di dover analizzare

delle osservazioni che dipendono dal tempo, che sono state osservate non
allo stesso istante ma in un arco di tempo. Supponiamo che tali osserva-
zioni siano state effettuate nei tempi t = (t1 , t2 , . . . tn ) dove ovviamente
0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate, nel
senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo.
0
cumsum(rnorm(300, 0, 1))
−5
−10
−15
0 50 100 150 200 250 300
Index
Figura 3.4: Esempio di traiettoria di un moto Browniano.
Noi però conosciamo di tale fenomeno solo quello che abbiamo osservato.
Possiamo allora pensare che le osservazioni fatte siano realizzazioni di
uno stesso oggetto aleatorio ad istanti dati dal vettore t. In particolare
tale oggetto è un processo aleatorio, diciamo Xt indicizzato da t ∈ t e la
collezione di dati {Xt , t ∈ t} è una serie storica. Il processo è a tempo
discreto e le equazioni governanti sono discrete.
Processi multi-parametro. Sia {Xz , z ∈ Rn } con n > 1 un processo

a valori reali. Il processo è indicizzato dalla variabile z ∈ R n che gioca
il ruolo di multi-parametro. La realizzazione di X può dipendere dai
parametri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio.
Se z ∈ R2 , possiamo considerare il processo come un campo aleatorio sul
piano, se z ∈ R3 pensiamo ad un campo nello spazio etc., in ogni caso
rappresenta un oggetto molto utile nello studio di fenomeni ambientali
(statistica ambientale/statistica spaziale o geostatistica).
3.7 Probabilità di eventi: Esempi & Esercizi

Troveremo i seguenti schemi in molti problemi reali.
3.7. PROBABILITÀ DI EVENTI: ESEMPI & ESERCIZI 141
Il problema del ritardatario. Sia N ∈ {1, . . . , 90}. Nel gioco

del lotto, si ha che, per ogni estrazione del lotto, per una certa ruota,
� ��
1 89 �� −1
P (N ) = C90,5 �
1 4
è la probabilità di estrarre il numero N (ed è sempre la stessa, vista l’in-

dipendenza tra esrazioni diverse in giorni diversi). Se considero estrazioni
successive (in giorni successivi) mi posso chiedere con quale probabilità,
alla prossima estrazione uscirà il numero N , la risposta è P (N ). Se mi
chiedo con quale probabilità il numero N (come qualunque altro numero)
non uscirà per k −1 volte ma, per la prima volta, al k-esimo giorno, allora
devo considerare la geometrica
(1 − p)k−1 p dove p = P (N ).
Per la nota proprietà della geometrica (mancanza di memoria) si ha che
P (N |k − 1 ritardi) = p = P (N )
che equivale a considerare un numero qualunque con qualunque ritardo.

In particolare, sia X la v.a. "estrazione in cui esce il numero N ", allora
P (X > k) (1 − p)k
P (X > k|X > k.1) = = = 1 − p = P (N c ).
P (X > k − 1) (1 − p)k−1
I cerini di Banach. Il matematico Stefan Banach acquistava due

scatole di cerini alla volta, le riponeva nel taschino della giacca e all’oc-
correnza, prendeva un cerino da una scatola presa a caso, riponendola
nuovamente nel taschino. Una volta preso l’ultimo cerino da una scatola,
gettava la scatola vuota e si chiedeva:
• con quale probabilità nella seconda scatola ci sono ancora k cerini

se ogni scatola ne contiene n.
La soluzione si può ottenere pensando ad un unico contenitore in cui ci

sono n lettere A ed n lettere B dal quale estraggo con ripetizione. Infatti,
con A indico i cerini presi da una scatola e con B i cerini presi dall’altra
scatola, prendere un cerino è un evento di probabilità 1/2 (cioè scelgo
una scatola o l’altra con eguale probabilità) e la probabilità cercata si
ottiene calcolando P (n lettere A e n − k lettere B su un totale di 2n − k

lettere estratte dal contenitore) che è data dalla binomiale
(2n − k)! 1 1
, k ∈ {0, 1, . . . , n}. (3.76)
n!(n − k)! 2n 2n−k
Il Dilemma del prigioniero. Due criminali arrestati per aver com-
messo un reato vengono rinchiusi in due celle diverse e non comunicanti.
In fase di interrogatorio viene spiegato loro che
• se uno confessa: chi ha confessato eviterà la pena mentre l’altro
verrà condannato a 7 anni di reclusione;
• se entrambi confessano: entrambi verranno condannati a 6 anni di
reclusione;
• se nessuno confessa: entrambi verranno condannati a 1 anno di
reclusione.
Questo è un esempio di gioco in cui si cerca la strategia migliore e che
può essere descritto dalla tabella a doppia entrata 3.1. Se si pensa ad un
gioco non cooperativo, la strategia da seguire per entrambi i detenuti è
(6, 6). Se si pensa ad un gioco cooperativo, la strategia migliore è (1, 1).
Supponiamo che i due detenuti, diciamo A e B, scelgano cosa fare in base
ad una certa distribuzione di probabilità, diciamo:
P (A confessa) = pc , P (B confessa) = qc
allora, la Tabella 3.1 può essere descritta con la tabella a doppia entrata52
3.2. Si vede che la scelta (furba) di confessare porta con probabilità pari
ad uno a 6 anni di reclusione mentre, se entrambi scegliessero a caso
avrebbero eguale probabilità di rimanere 0, 1, 6 o 7 anni in prigione, ad
esempio lanciando una moneta non truccata e quindi
pc = qc = 1/2.
Il problema di Monty Hall. È un gioco nel quale ad un con-

corrente vengono mostrate tre porte, dietro due delle quali si trova una
capra e solo in una si trova una automobile. Il concorrente ne sceglie una
e prima di aprirla, il conduttore del gioco ne apre una delle altre due. Il
52 Diremo anche, di contingenza.
3.7. PROBABILITÀ DI EVENTI: ESEMPI & ESERCIZI 143
confessa non confessa

confessa (6, 6) (0, 7)
non confessa (7, 0) (1, 1)
Tabella 3.1: Strategie, coppie di anni di detenzione.
confessa non confessa

confessa pc q c pc (1 − qc )
non confessa (1 − pc )qc (1 − pc )(1 − qc )
Tabella 3.2: Probabilità, scelte indipendenti dei detenuti.
conduttore sa già cosa troverà dietro le porte. Aprendo una delle altre
due porte il conduttore libera una capra lasciando due porte chiuse. A
questo punto offre al concorrente la possibilità di cambiare la sua scelta,
cioè di mantenere la porta scelta oppure di cambiare con l’altra ancora
chiusa. Il problema allora è:
• conviene cambiare la scelta fatta?
La soluzione si ottiene considerando tre scenari possibili, ciascuno di pro-
babilità 1/3. Infatti, se chiamiamo A la porta con l’auto, B e C le porte
con la capra e considerando le triplette di scelte
(concorrente, conduttore, concorrente),
si possono verificare i seguenti casi, cambiando o non cambiando:
(A, B, C) ∪ (A, C, B), (B, C, A) ∪ ∅, (C, B, A) ∪ ∅

(A, B, A) ∪ (A, C, A), (B, C, B) ∪ ∅, (C, B, C) ∪ ∅.
Si vede che cambiando il concorrente vince l’auto due volte su tre quindi
P (vincere|cambiando) = 2/3, P (vincere|non cambiando) = 1/3.
Inoltre, supponiamo di non sapere dove sia l’auto. Se scelgo una porta e
mantengo la scelta, vinco con p = 13 12 mentre se scelgo una porta e non
mantengo la scelta, vinco con p = 23 21 .
Esempio 41. Si lanciano cinque dadi regolari, colcolare le probabilità di
ottenere
a) una coppia,
b) una doppia coppia.
Il problema non deve essere associato all’analogo nel � �caso delle carte,
infatti con un mazzo di 52 carte devo considerare 52 5 modi diversi di
distribuire le carte mentre il nostro problema prevede 6 5 realizzazioni pos-
sibili. Ad esempio, il 2 si può ripetere cinque volte mentre il 2♣ si può
ripetere una sola volta, inoltre le realizzazioni dei dadi sono indipendenti.
Otteniamo: a) scelgo un numero (in 6 modi diversi) col quale fissare la
coppia, i restanti tre numeri possono essere presi in modo da non forma-
re tris o una seconda coppia. Scelgo il terzo numero (in 5 modi diversi),
il quarto (in 4 modi diversi) ed il quinto (in 3 modi diversi). Inoltre
considero |P2,1,1,15
| ordinamenti diversi dei cinque dadi dove i tre numeri
diversi non possono permutare (il primo va preso tra 5, il secondo tra 4,
il terzo tra 3), quindi divido per 3!. La probabilità cercata è quindi data
da 6 · 5 · 4 · 3 · P2,3
5
|/65 ; b) scelgo un numero (in 6 modi diversi) e fisso una
coppia, scelgo un numero (in 5 modi diversi) e fisso la seconda coppia,
sceglo un numero (in 4 modi diversi) e ho fissato cinque numeri totali in
6 · 5 · 4 modi diversi. I cinque numeri si possono presentare in |P 2,2,1 5
|
ordinamenti diversi dove i numeri che fisso per le coppie non possono
permutare (la prima coppia è data da un numero preso tra 6, la seconda
è data da un numero preso tra 5), quindi divido per 2!. La probabilità
cercata è pari a 6 · 5 · 4 · |P2,2,26
|/66 .
Esempio 42. Si vogliono riempire due scatole inserendo a caso otto pal-
line. Nel momento in cui una delle due scatole contiene quattro palline
ci si chede con quale probabilità
a) rimangono k palline da inserire nelle scatole.

Si tratta di una variante del problema dei cerini di Banach. Chiamo A e
B le due scatole. Estraggo, con ripetizione, 8 volte da una terza scatola
contenente le lettere A e B (si noti che P (A) = 1/2 = P (B)), ottengo
così una sequenza di lettere. Se k palline restano fuori dalle scatole, sono
interessato al caso in cui nelle prime 8 − k − 1 lettere ci siano 3A e
(8 − k − 4)B mentre la (8 − k)-esima è una A. Lo stesso ragionamento
nel�caso ottengo
� prima 4 lettere B. Allora, la probabilità cercata è pari a
2 · 8−k−1
3 1/2 3
1/2 8−k−4
· 1/2 con k = 1, 2, 3, 4.
4
Esercizi
Esercizio 105. Si distribuiscono a caso 5 carte da un mazzo di 52. Cal-

colare le probabilità relative agli eventi: 1. ottengo una coppia; 2. ottengo
due coppie; 3. ottengo un poker; 4. ottengo un poker di assi; 5. ottengo
colore.
Esercizio 106. Mario è addetto al controllo qualità in una azienda che
produce lampadine. Da precedenti controlli si sa che il 5% delle lampadine
prodotte sono difettose.
1. Con quale probabilità Mario troverà una lampadina difettosa duran-
te il controllo?
2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lam-
padine prodotte e poi vengono imballate e sistemate in bancali da
20 scatole. Con quale probabilità Mario troverà una lampadina di-
fettosa in una scatola da 5? Con quale probabilità ne trova due
difettose in una scatola da 5? Se controlla tutto il bancale da 20
scatole, con quale probabilità troverà una scatola con almeno una
lampadina difettosa? Infine, con quale probabilità troverà più di 5
lampadine difettose nelle 20 confezioni di un bancale?
3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle
lampadine sono difettose? Possiamo ancora considerarla un infor-
mazione attendibile?
Esercizio 107. Una ditta produce due componenti a e b che risultano
difettosi rispettivamente per il 3% e 4%. La produzione avviene in reparti
diversi e quindi in maniera indipendente. I due componenti vengono poi
assemblati e si ottiene il prodotto finale. Calcolare la probabilità che
1. il prodotto finale presenti entrambi i difetti,
2. il prodotto finale sia difettoso (almeno un componente difettoso),
145
146 CAPITOLO 4. ESERCIZI
3. sia difettoso a sapendo che il prodotto finale è difettoso,

4. sia difettoso b sapendo che il prodotto finale è difettoso.
Esercizio 108. In un laboratorio di analisi si effettua un esame per
verificare la presenza/assenza di una particolare malattia. La malattia
è difficile da diagnosticare e l’esame è efficace (positivo in presenza di
malattia o negativo in assenza di malattia) al 95% ma porta a falsi positivi
(esame positivo quando la malattia non è presente) nel 1% delle persone
sane. Se le persone malate sono il 6% della popolazione, calcolare: la
probabilità che una persona sia malata se risulta positiva all’esame; la
probabilità che una persona risultata negativa sia malata.
Osservazione 43. Si noti che
P (E ∩ M ) P (E c ∩ M )
P (E|M ) + P (E c |M ) = + = 1.
P (M ) P (M )
Inoltre otteniamo un vero positivo se presa (a caso) una persona nella
popolazione (intera) questa realizza E ∩ M con probabilità P (E ∩ M ) =
P ((E ∩ M )|(M ∪ M c )) dove ovviamente M ∪ M c = Ω. Diciamo che per
una persona presa (a caso) nella popolazione dei malati si realizza un
vero positivo se questa persona realizza E ∩ M con probabilità
P (E ∩ M )
P ((E ∩ M )|M ) =
P (M )
che ovviamente equivale a scrivere P (E|M ), cioè una persona malata
presa a caso realizza l’evento E = ”test positivo”.
Osserviamo anche che un test è efficace al 95%, cioè presa una per-
sona a caso nella popolazione P = M ∪ M c ,
95% = P (ef f icace) = P ((E ∩ M )|P) + P (E c ∩ M c |P).
Osservazione 44. Si consideri il precedente esercizio nel caso in cui le

persone sane con test positivo sono l’1% della popolazione. Dovremmo
considerare P (E ∩ M c ) = 0.01 visto che la persona che verifica entrambi
gli eventi E ed M c va presa nella popolazione, cioè P = M ∪M c . Quindi,
presa una persona (a caso) nella popolazione P, questa realizza un falso
positivo con probabilità
P ((E ∩ M c )|P) = P (E ∩ M c ) = 1%
147
ed estraendo da P, diremo che l’1% di P relizza E ∩ M c , cioè l’1% della

popolazione realizza un falso positivo.
Esercizio 109. In una stanza ci sono 100 persone che devono essere
visitate da due medici. Il primo medico arriva alle 8:00 AM e inizia le
visite, osservati tutti i pazienti arriva alla conclusione che 10 di loro sono
affetti da crioglobulinemia. Il secondo medico arriva alle 2:00 PM e non
trova il primo medico, decide di iniziare le visite. Preso un paziente a
caso, con quale probabilità è affetto da crioglobulinemia?
Esercizio 110. Si consideri il precedente esercizio. Se il medico sceglies-
se a caso 3 pazienti, con quale probabilità tutti sono affetti da crioglobu-
linemia?
Esercizio 111. Da precedenti osservazioni una società ha registrato una
perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un
anno. Calcolare la probabilità che nel prossimo anno la società registri
una perdita maggiore del 5% in almeno una delle sue 20 agenzie.
Esercizio 112. Da precedenti osservazioni una società ha registrato una
perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un anno.
Calcolare la probabilità che nel prossimo anno la società non registri una
perdita maggiore del 5% in almeno una delle sue 20 agenzie.
Esercizio 113. Due fabbriche locali, diciamo A e B, producono telefoni
cellulari e la percentuale di telefoni difettosi è uguale al 5% per la ditta A
e al 1% per la ditta B. Il mercato è chiuso e si possono acquistare telefoni
solo da queste due fabbriche. Inoltre, A e B immettono sul mercato locale
lo stesso numero di prodotti. Calcolare la probabilità di acquistare un
telefono difettoso. Dopo aver acquistato due telefoni vedo che provengono
dalla stessa fabbrica (senza sapere se è A oppure B). Se il primo telefono
è difettoso, con quale probabilità sarà difettoso anche il secondo?
Esercizio 114. Si consideri la situazione del precedente Esercizio 113 nel
caso in cui il mercato non è chiuso ed A immette sul mercato il 60% dei
prodotti di B. Inoltre, i prodotti di entrambe le fabbriche rappresentano il
20% della domanda.
Esercizio 115. Una fabbrica produce sensori laser che escono da due
linee di produzione, diciamo linea A e linea B. Dalla linea A escono il
30% dei prodotti. Si riscontra che la percentuale di pezzi difettosi nelle
due linee è pari al 15% e 12% rispettivamente. Calcolare:
1. P (un sensore scelto a caso sia difettoso),

2. P (il sensore difettoso e scelto a caso provenga dalla linea A).
I sensori vengono confezionati in scatole da 10 pezzi della stessa linea.
Viene ispezionata una scatola a caso e k sensori risultano difettosi (si
noti che k ≤ 10). Calcolare:
3. P (la scatola proviene dalla linea A),
4. P (la scatola proviene dalla linea B)
Esercizio 116. In una slot machine si vincono 10 euro con una puntata
di 1 euro. Si vince una volta su dieci. Avendo a disposizione 10 euro,
calcolare la probabilità di vincere per la prima volta al decimo tentativo.
Calcolare la probabilità di vincere 10 euro.
Esercizio 117. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con
g(x, y) = x/y. Caratterizzare Z nei seguenti casi: 1. X ∼ U nif (0, 1) e
Y ∼ U nif (0, 2); 2. X ∼ U nif (0, 1) e Y ∼ Exp(λ); 3. X ∼ Exp(λ) e
Y ∼ Exp(λ).
Esercizio 118. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con
g(x, y) = xy. Caratterizzare Z nei seguenti casi: 1. X ∼ U nif (0, 1) e
Y ∼ U nif (0, 2); 2. X ∼ U nif (0, 1) e Y ∼ Exp(λ); 3. X ∼ Exp(λ),
λ > 0 e Y ∼ U nif (0, 1); 4. X ∼ Exp(λ) e Y ∼ Exp(λ).
Esercizio 119. Siano X ∼ U nif (0, 1) e Y ∼ P ois(λ), λ > 0 due v.a.
indipendenti. Scrivere la f.r. della v.a. Z = X + Y .
Esercizio 120. Siano X ∼ U nif (0, 1) e g(x) = |x − 1|−1 . Studiare
Y = g(X).
Esercizio 121. Siano X ∼ U nif (0, 1) e Y ∼ U nif (0, 1) tali che X ⊥ Y .
Sia g(x, y) = |x − y|. Studiare Z = g(X, Y ).
Esercizio 122. Siano X ∼ Exp(λ), �� λ > 0 e U � ∼ U nif (0, 1) due v.a.
indipendenti. Studiare la v.a. Y = �X − λ1 ln U �.
Esercizio 123. Sia {Xk }k∈N una successione di v.a. indipendenti ognu-
na esponenziale
�n di parametro λk > 0. Si dimostri che X(1) ∼ Exp(λ)
dove λ = k=1 λk . Si scriva la densità di Z = X(n) .
149
Esercizio 124. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la convergenza della v.a. Zn = min1≤k≤n {Xk }.
Esercizio 125. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1)
e Zn = min1≤k≤n {Xk } . Studiare la convergenza della v.a. Yn = n · Zn .
Esercizio 126. Sia Xn = n−1 Z, n ∈ N e Z ∼ Exp(λ), λ > 0. Studiare
la convergenza di Xn .
Esercizio 127. Siano Xk ∼ U nif {−1, +1} v.a. indipendenti. Studiare
�n 2
la convergenza della v.a. Zn = n1 ( k=1 Xk ) .
Esercizio 128. Sia Xk ∼ N (1, 2) una successione di v.a. indipendenti.
Caratterizzare X̄n .
Esercizio 129. Sia Xk ∼ N (0, 1) una successione di v.a. indipendenti.
Esercizio 130. Sia Xk ∼ Exp(3) una successione di v.a. indipendenti.
Esercizio 131. Sia Xk ∼ Exp(λ), λ > 1 una successione di v.a. indi-
pendenti. Caratterizzare X̄n .
Esercizio 132. Sia Xk ∼ P ois(2) una successione di v.a. indipendenti.
Esercizio 133. Sia Xk ∼ Ber(p), p ∈ (0, 1/3) una successione di v.a.
indipendenti. Caratterizzare X̄n .
Esercizio 134. Sia Xk ∼ 1(0,1) (x), x ∈ R una successione di v.a.
indipendenti. Caratterizzare X̄n .
Esercizio 135. Calcolare P (X > −1) nei seguenti casi:
1. X ∼ U nif (−2, +2); 2. X = 1/Y 1/α , α ∈ (0, 1), Y ∼ U nif (0, 1); 3.
X ∼ Exp(λ), λ > 0; 4. X ∼ Cauchy; 5. X ∼ N (0, 1).
Esercizio 136. Un dispositivo di riconoscimento ottico non funziona
correttamente. Una squadra di due tecnici sottopone il dispositivo a mi-
nuziosi test: prende una scatola, diciamo S, contenente palline con lettere
e numeri, in particolare S = {A, B, C, D, E, 1, 2, 3, 4, 5}. Estrae dalla sca-
tola con probabilità P (S) = p e con probabilità P (S c ) = 1 − p = q sceglie
(pensa) un numero a caso , cioè senza estrarre la pallina, immagina un
numero tra quelli presenti nella scatola e lo considera come un numero

di una pallina estratta. Segna tutte le palline (numeri e/o lettere) cosi
individuati in un foglio. Una volta segnate n palline, procede alla scan-
sione1 con il dispositivo e le inserisce nuovamente nelle scatole (le palline
estratte in S, i numeri aggiunti dal tecnico vengono dimenticati). Ripete
l’operazione un certo numero di volte controllando se il dispositivo rico-
nosce la sequenza esatta oppure no. Per garantire il corretto svolgimento
del test, un tecnico estrae le palline e un tecnico le scannerizza. Il tecnico
che estrae si chiede con quale probabilità:
1. nella seconda sequenza ci sono 3 lettere,
2. in una sequenza non ci sono numeri,
3. rimangono k ∈ N palline nella scatola S nel caso p = q se .
Il tecnico che scannerizza è convinto che il dispositivo non sia rotto ma

che semplicemente appartenga ad una linea (detta linea XW50) che rap-
presenta il 20% dei dispositivi utilizzati e la cui affidabilità è testata al
70% contro il 95% della affidabilità dei restanti dispositivi utilizzati. Cioè
P (il dispositivo funziona|è della linea XW50) = 7/10. Il tecnico si chiede
con quale probabilità:
4. un dispositivo preso a caso sbagli il riconoscimento ottico,
5. il dispositivo analizzato è della linea XW50 se ha appena sbagliato

il riconoscimento.
Esercizio 137. Siano X ∼ U nif {1, 2} e Y ∼ U nif {0, 1} due v.a.

indipendenti: 1. Scrivere la tabella di contingenza; 2. Dire se sono
identicamente distribuite. Siano ora X, Y due v.a. i.i.d. con densi-
tà N (0, 1): calcolare le densità delle trasformazioni: 3. Z = 1/X; 4.
W = 1/(X − Y + µ), µ ∈ R; 5. S = (X − ν) + (Y + γ), γ, ν ∈ R.
Esercizio 138. Siano X, Y ∼ U nif {1, 2} due v.a. (i.i.d.): 1. Scrivere

la tabella di contingenza; 2. Scrivere la densità della trasformazione U =
XY . Siano ora X, Y due v.a. i.i.d. con densità Exp(8), calcolare le
densità delle trasformazioni: 3. Z = 1/X; 4. W = 1/(X − Y ); 5.
S =X +Y.
1 Usiamo il termine scannerizzare per indicare la lettura ottica.
151
Esercizio 139. Mattia prende le palline numerate (da 1 in poi) ed in-

serisce le pari in una scatola e le dispari in una scatola diversa. Maria
estrae dalle due scatole n palline numerate e scrive su un foglio la corri-
spondente sequenza di numeri (sequenza di n numeri) che passa a Mario.
La scatola S1 contiene m1 palline numerate e la scatola S2 contiene m2
palline numerate. Nella scatola S1 ci sono solo palline con numeri pari
mentre nella scatola S2 ci sono solo palline con numeri dispari. Ogni
volta Maria sceglie a caso una delle due scatole e procede con l’estrazione
di una pallina.
Si consideri il foglio di Mario. Nel caso Maria estragga con ripetizio-
ne (ad ogni etrazione legge il numero sulla pallina e la reinserisce nella
scatola dalla quale e’ stata estratta), calcolare le probabilità degli eventi:
1. il numero 0 è presente due volte
2. ci sono k numeri dispari
3. la somma è pari ad n
4. la somma dei numeri è 4 se n = 3
Nel caso Maria estragga in blocco (ad ogni estrazione Maria legge il
numero e getta via la pallina), calcolare le probabilità degli eventi:
5. ci sono k numeri pari
6. i numeri dispari sono il doppio dei numeri pari
7. la somma è pari ad n
8. il numero 2 è presente due volte se n = 2
Esercizio 140. Date le v.a. indipendenti Xk ∼ X, k = 1, 2, . . ., calcola-

re:
�n
1. la densità della v.a. Zn = k=1 kXk se X ∼ N (0, 1),
3. fV dove V = |X1 |/|X2 | se X ∼ U nif (0, 1). Studiare la continuità

di FV .
3. FW dove W = X1 X2 se X ∼ U nif (0, 1). Studiare la continuità di

FW .
Esercizio 141. Date le v.a. indipendenti Xk ∼ fXk , k ≥ 1, dove

fXk (u) = λk e−λk u 1(0,∞) (u), u ∈ R .
1. Studiare la convergenza della successione X k per k → ∞ se λk /k →

1 per k → ∞,
�n
2. Studiare la convergenza della successione X n = n−1 k=1 Xk per
n → ∞ se λk = 1 per ogni k,
3. Trovare una soluzione Monte Carlo per l’integrale

� 3
sin(x)
dx
0 sin(x2 )
Esercizio 142. Si consideri un centralino al quale, ogni minuto, arrivano

un numero di chiamate N con la seguente distribuzione di probabilità
P (N = 0) = 1/4, P (N = 1) = 2/4, P (N = 2) = 1/4.
Se arrivano due chiamate rispondono Luca e Lucia, altrimenti solo Luca.

Ogni chiamata viene smistata in circa 30 secondi. Calcolare:
1. P (nessuno risponde in 3 minuti di servizio)
2. P (Luca risponde 1 volte in 3 minuti di servizio)
3. P (Lucia risponde 1 volta in 3 minuti di servizio)
4. P (Lucia risponde 2 volta in 5 minuti di servizio)
Si supponga ora che P (N = 0) = q e P (N = 1) = p con p + q = 1 (quindi

P (N = 2) = 0), calcolare:
5. P (arrivano 3 chiamate in 3 minuti di servizio)
6. P (arrivano 3 chiamate in 4 minuti di servizio)
7. P (arriva 1 chiamata in 2 minuti di servizio se nei precedenti 2

minuti sono arrivate 2 chiamate)
Esercizio 143. Date le v.a. indipendenti Xk ∼ Exp(λk ), k = 1, 2, . . .:
1. dire se le v.a. Xk sono identicamente distribuite,

153
�n
2. calcolare la densità della v.a. Zn = k=1 Xk se λk = 1,
3. fV dove V = (X1 + X2 )2 se λk = λ > 0 per ogni k.
√
4. Sia Y ∼ Bin(1, p), scrivere la densità di W = Y .
Esercizio 144. Date le v.a. indipendenti Xk ∼ fXk , k ≥ 1, dove

fXk (u) = 1b 1(0,b) (u), u ∈ R, b > 0 .
�n
1. Studiare la convergenza della successione X n = n−1 k=1 Xk per
n→∞,
�n
2. Studiare la convergenza della successione Y n = n−1 k=1 Yk per
n → ∞ dove Yk = ln Xk per ogni k e b = 1,
3. Dire quale integrale si può approssimare con la soluzione MC Y n
del precedente punto.
5
Approfondimenti
Alcune Notazioni
µ, media di una v.a. se non diversamente specificato
µ, misura (quando specificato)
µ� , misura di Lebesgue
µ� , misura di conteggio
Lp , spazio di Lebesgue, p ≥ 1
C, insieme delle funzioni continue
C 1 , insieme delle funzioni continue con derivata continua
Cb , insieme delle funzioni continue e limitate (bounded)
Lip, insieme delle funzioni Lipschitziane
Spazi Lp e Convergenze
Gli spazi di Lebesgue possono intendersi come una classe di equiva-
lenza per funzioni misurabili.
Definizione 41. (Spazi di Lebesgue) Sia (Ω, A, µ) uno spazio di misura.
Sia M(Ω, A) l’insieme delle funzioni misurabili in Ω. Per ogni p ∈ [1, ∞]
sia
Lp (Ω, A, µ) = {f ∈ M(Ω, A) | �f �p < ∞},
lo spazio di Lebesgue di ordine p, dove
�� 1/p


 p
|f | dµ , p ∈ [1, ∞)
�f �p = Ω (5.1)


 ess sup |f |, p = ∞.
Ω
Indicheremo tale classe di equivalenza semplicemente con L p .
154
155
Notiamo che ess supΩ |f |, l’estremo essenziale superiore di f in Ω, è

definito come segue
�f �∞ = inf{M : µ(|f | > M ) = 0},
cioè �f �∞ < ∞ se f è limitata quasi ovunque. Se Ω = [a, b] e f ∈ C(Ω),
allora ess supΩ |f | = maxΩ |f | ≤ supΩ |f |.
Esercizio 145. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp
per qualche p ≥ 1.
Definizione 42. Sia (Ω, A, µ) = (N, P(N), µ� ) dove P(N) è l’insieme dei
sottoinsiemi di N, e µ� è la misura di conteggio. Lo spazio Lp (N, P(N), µ� )
viene indicato con l p e per una successione {cn } ∈ lp vale

 �� 1/p � � ∞
�1/p


 |f |p dµ� = |cn |p < ∞, p ∈ [1, ∞)
�{cn }�p = N n=1



 sup |f | = sup |cn | < ∞, p=∞
N n∈N
(5.2)
dove si è posto
∞
�
f (x) = cn 1{n} (x), x ∈ Ω.
n=1
Diamo il seguente teorema a scopo puramente illustrativo (ed intro-

duttivo!!).
Teorema 27. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy.
Allora esiste f ∈ Lp tale che �fn − f �p → 0 per n → ∞.
Stiamo quindi dicendo in che senso fn → f se n → ∞1 . Sembra
utile introdurre alcune questioni legate alle convergenze di funzioni già
accennate nel teorema precedente. In particolare, facciamo notare quali
tipi di convergenza si possono considerare. Sia (A, A, µ) uno spazio di
misura e f : A → B, fn : A → B con n ∈ N due funzioni date, possiamo
trovarci nelle seguenti situazioni:
1 Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta
dalla norma � · �p . Dato uno spazio di Banach (X, � · �), si dice base per tale spazio
un insieme B ⊂ X, costituito da elementi linearmente indipendenti e tali che lo spazio
generato da B sia denso in X (o ogni elemento di X possa scriversi come combinazione
lineare di elementi di B). Si dice poi che X è separabile se esiste una base costituita
da un numero finito di vettori o al più da una infinità numerabile.
156 CAPITOLO 5. APPROFONDIMENTI
♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in

A se
∀ x ∈ A ∀ � > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < � (5.3)
♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se
∀ � > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < � ∀ x ∈ A (5.4)
oppure, se
�fn − f �∞ := sup |fn (x) − f (x)| → 0. (5.5)

x∈A
♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora

µ
fn → f in misura (e scriviamo fn → f ) se
µ({x ∈ A : |fn (x) − f (x)| ≥ �}) → 0 per ogni � > 0 se n → ∞.

(5.6)
♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se
{x ∈ A : lim fn (x) = g(x) e f (x) �= g(x)} ∈ N (5.7)

n→∞
dove N è un insieme di misura nulla.

♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp ,
f ∈ Lp . Allora fn → f in A se
∀ � > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha �fn − f �p < � (5.8)
dove �� 1/p
p
�fn − f �p := |fn (x) − f (x)| µ(dx) . (5.9)
A
Ci sono interessanti collegamenti tra convergenze, noi affronteremo

tali questioni nel caso µ sia una misura di probabilità. Diciamo qualche
parola sulla convergenza puntuale (o pointwise), siano fn , f definite in
D, se
∀ x ∈ D � ⊆ D, ∀ � > 0, ∃ n∗ = n∗ (x, �) : ∀n > n∗ si ha |fn − f | < �

157
diciamo che fn → f pointwise in D � ed n∗ dipende da x e �. Può accade-

re quindi che per qualche x non posso trovare nessun n∗ che verifichi la
condizione di convergenza. Se una successione converge uniformemente,
n∗ non dipende dalla scelta di x, fn converge infatti in maniera unifor-
me. Inoltre, se fn → f ∗ (puntualmente o uniformemente) e se f ∗ = f
quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che fn → f
(puntualmente o uniformemente) µ-q.o..
Esempio 43. Si chiami v la funzione (2.4) e g la funzione (2.5). Si defi-

nisca f = v − g e si calcoli �f �p . Vediamo subito che f (x) = 1{1}∪{2} (x),
x ∈ R. Sappiamo che l’integrale di �f �p rispetto alla misura di Lebesgue
è pari a zero, quindi deduciamo che f = 0 secondo la norma di L p (dx),
cioè �v − g�p = 0, vale a dire che v = g quasi ovunque (infatti v �= g).
Esempio 44. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si

vede che fn → 0 per ogni x ∈ R (convergenza puntuale), inoltre �fn −
0�∞ = n1 → 0 per ogni x ∈ R (convergenza uniforme).
Esempio 45. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che

fn → 0 (convergenza puntuale) mentre �fn − 0�∞ = n1 supx∈R |x| = ∞
(non converge uniformemente).
√ √
Esempio 46. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato
x, fn → 0 (convergenza puntuale) mentre �fn − 0�∞ = n1 supx∈D |x| =
√1 → 0 (converge uniformemente).
n
Esempio 47. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0

(puntualmente) infatti sin nx ∈ [−1, 1] è una funzione limitata. Inoltre,
�fn − 0�∞ ≤ n1 → 0 (convergenza uniforme).
Esercizio 146. Si dica se le seguenti successioni convergono pointwise.

(Dove?)
1. fn (x) = xn , x ∈ [0, 1].
2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R.
3. fn (x) = n−2 (nx + x2 ), x ∈ R.
Esercizio 147. Studiare la convergenza in misura della successione f n (x) =

xn con x ∈ [0, 1].
Esempio 48. Sia fn (x) = nx(1 − x2 )n , x ∈ [0, 1]. Si vede subito che
fn (0) = fn (1) = 0 e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1,
n/an → 0 per n → ∞). Inoltre,
� �n
n 1
�fn − 0�∞ = √ 1−
2n + 1 2n + 1
�� 2n+1 � 2n+1
n
n 1
=√ 1−
2n + 1 2n + 1
dove
 �� 
� � �2n+1 � 2n+1
n
n  lim 1 
lim �fn − 0�∞ = lim √ 1−
n→∞ n→∞ 2n + 1 n→∞ 2n + 1
� ��
n
= lim √ e−1/2
n→∞ 2n + 1
e quindi �fn − 0�∞ → +∞ (non converge uniformemente). Vogliamo
sottolineare che
� 1 � 1
lim fn (x)dx �= lim fn (x)dx = 0.
n→∞ 0 0 n→∞
Infatti, per ogni n,

� 1
1
fn (x)dx = .
0 2
Quindi la convergenza puntuale non è sufficiente per il passaggio al limite
sotto il segno di integrale.
�
Esercizio 148. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R
converge puntualmente e uniformemente. Studiare la convergenza di f n�
e confrontarla con f � .
Esempio 49. Consideriamo ancora fn (x) = sinnnx . Si vede subito che
� ��
lim fn� (x) �= f � (x) = lim fn (x) .
n→∞ n→∞
Basta vedere che fn� (0) = 1 per ogni n mentre f � (x) = 0 per ogni x.
Quindi la convergenza uniforme di fn non è sufficiente per il passaggio
al limite sotto il segno di derivata.
159
Osservazione 45. Quanto abbiamo detto si può estendere a spazi L p (X, A, m)

dove
dm = ϕdµ (5.10)
e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A,
scriveremo
� �
f (x)dm(x) = f (x)ϕ(x)dµ(x).
A A
Non tutte le misure ammettono densità.
Disuguaglianze
Definizione 43. Una funzione reale, due volte differenziabile f è detta:
i) convessa se f �� (x) ≥ 0 per ogni x (concavità verso l’alto),
ii) concava se f �� (x) ≤ 0 per ogni x (concavità verso il basso).
Esempio 50. Si verifichi la concavità di x2 e ln x.
Teorema 28. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che
µ(Ω) = 1. Sia f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una
funzione convessa. Allora2
� � � �
ϕ◦ f dµ ≤ (ϕ ◦ f )dµ. (5.11)
Ω Ω
Diamo inoltre la seguente definizione.
Definizione 44. (Esponenti coniugati) Se p e q sono numeri reali positivi

tali che
1 1
p + q = pq oppure + = 1,
p q
allora chiamiamo p e q, coppia di esponenti coniugati.

2 Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)).
Teorema 29. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤

p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lq (µ), allora
�f g�1 ≤ �f �p �g�q (quindi f g ∈ L1 (µ)). (5.12)
Teorema 30. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se

g ∈ Lp (µ), allora
�f + g�p ≤ �f �p + �g�p (quindi f + g ∈ Lp (µ)). (5.13)
Le disuguaglianze appena introdotte valgono anche negli spazi l p =

L (µ� ) della Definizione 42, non solo negli spazi Lp (µ) della Definizione
p
41. Valgono quindi anche per successioni. Dalle proprietà del modulo,
per funzioni integrabili si ottiene
��
� �
� f (x)dx� ≤ |f (x)|dx
� �
mentre dalla dis. di Minkowski si ottiene

� � �
|f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx.
Serie numeriche e di funzioni

Si è accennato sopra alle somme parziali di v.a., come vedremo ta-
li somme sono legate alle somme parziali di elementi di una successio-
ne numerica. Sembra quindi opportuno ricordare alcuni concetti base
riguardanti le serie numeriche.
Serie numeriche. Sia {ak }k∈Z una successione (numerica) di valori in
A. Si definisce serie numerica la somma
�
ak per qualche insieme di indici IK . (5.14)
k∈IK
Serie armonica. Sia ak = k α . Per α < −1 si ha

∞
�
kα < ∞ (5.15)
k=1
mentre per α > −1 la serie non converge.

161
Serie telescopica. Un esempio classico è dato dalla serie di Mengoli

∞
� 1
.
k(k + 1)
k=1
Una serie di addendo generico ak è detta telescopica se ak = ±(bk −bk+1 ),

se cioè ci si può ricondurre a due somme in cui gli addendi si elidono a k
successivi. Nel caso della serie di Mengoli si ha che
�∞ �∞ � �
1 1 1 1 1 1
= − = 1 − + − + . . . = 1.
k(k + 1) k k+1 2 2 3
k=1 k=1
�nSerie di funzioni. Sia {fk }k∈Z una successione di funzioni e Sn (x) :=

�k=1 fk (x) una somma parziale che in generale potrà essere scritta come
k∈IK fk (x). Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso
|IK | = n). In particolare, affrontiamo i problemi già accennati in Esempio
48 ed Esempio 49.
Proposizione 24. Valgono le seguenti:
i) (passaggio al limite sotto il segno di integrale) se f k è continua in
[a, b] e fk (x) → f (x) uniformemente. Allora
� b � b
fk (x)dx → f (x)dx (5.16)
a a
ii) (integrazione per serie) se fk è continua in [a, b] e Sn (x) → f (x)

uniformemente. Allora
� b ∞ �
� b
f (x)dx = fk (x)dx (5.17)
a k=1 a
iii) (derivazione per serie) se fk è derivabile in [a, b] e se

n
� n
�
fk (x) → f (x) e fk� (x) → g(x) uniformemente.
k=1 k=1
Allora
f � (x) = g(x) in [a, b]. (5.18)
Ricordiamo i seguenti sviluppi in serie

n
� x k dk f
f (x + z) = (z) + Rn (x + z) (serie di Taylor in z)
k! dxk
k=0
oppure scriviamo
n
� (x − z)k dk f
f (x) = (z) + Rn (x) (serie di Taylor in z)
k! dxk
k=0
dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al

caso in cui
Rn (x)
lim =0 (cioè Rn (x) = o((x − z)n ) per x → z). (5.19)
x→z (x − z)n
Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente

buona, ricordiamo anche il seguente sviluppo
∞
� x k dk f
f (x) = (0) (serie di Maclaurin - di Taylor in 0).
k! dxk
k=0
Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine

superiore a (x − z)n (resto di Peano), vale quindi (5.19). Se f è derivabile
n + 1 volte in [a, b] con derivata f (n+1) continua, allora possiamo scrivere
il resto come segue
� x
(x − y)n (n+1)
Rn (x) = f (y) dy, ∀ x ∈ [a, b]. (5.20)
z n!
Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]),
|x − z|n+1
|Rn (x)| ≤ γn+1 , γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}.
(n + 1)!
(5.21)
Esercizio 149. Ricavare la formula del binomio di Newton espandendo

in serie di Maclaurin la funzione f (x) = (1 + x)n .
163
Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione nume-

rica. Si ottiene la serie di potenze
�
ak x k (5.22)
k∈IK
per la quale è utile ricordare che

∞
� ∞
� ∞
�
ak x k + bk xk = ck xk dove ck = ak + bk (banale!)
k=0 k=0 k=0
e
� ∞
�� ∞
� ∞ k
� � � �
k k
ak x bk x = ck xk dove ck = as bk−s .
k=0 k=0 k=0 s=0
Ricordiamo che
n
� 1 − xn+1
xk = per |x| < 1 (serie geometrica). (5.23)
1−x
k=0
Osservazione 46. Si noti che tali risultati valgono per serie numeriche,
basta porre x = 1.
Esercizio 150. Si calcoli il limite per n → ∞ delle serie con f k (x) = xk ,
fk (x) = kxk−1 , fk (x) = xk /k!.
6
Inferenza statistica
6.1 Popolazioni finite

Supponiamo che la popolazione allo studio sia in corrispondenza biunivo-
ca con un insieme delle etichette P = {1, 2, . . . , i, . . . , N } e che possiamo
dunque riferirci alla unità i − esima della popolazione considerando la
etichetta i − esima di tale insieme1 , diremo anche che l’insieme P rap-
presenta la popolazione allo studio. Ogni campione c di dimensione n
sarà allora esprimibile con
cs = {ki1 , ki2 , . . . , kij , . . . , kin }
ed s = {i1 , i2 , . . . , ij , . . . , in } dove si è osservata la caratteristica k per

ognuna delle n unità i di P appartenente al sottoinsieme s ∈ Sn e Sn rap-
presenta l’insieme dei campioni di dimensione n che è possibile costruire
a partire dalle unità (etichette) di P, Sn è detto universo campionario.
Introduciamo la notazione seguente
P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi
P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j
dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le

probabilità del primo e secondo ordine rispettivamente, cioè le probabilità
che in s sia compresa
� l’etichetta i o siano comprese entrambe le etichette
i, j. Inoltre, si ha s∈Sn P (cs ) = 1.
1 Le etichette sono nomi inequivocabili, possiamo pensare alle etichette come ad un
insieme di nomi con i quali identificare gli elementi ma senza ambiguità, non possiamo
avere due elementi con lo stesso nome.
164
6.2. POPOLAZIONI VIRTUALI 165
Universi dei campioni con ripetizione

Universo Bernoulliano. È l’universo dei campioni ordinati, con ri-
petizione e a probabilità costanti caratterizzato da: P (c s ) = N1n , πi =
1 − (1 − N1 )n , πi,j = 1 − 2(1 − N1 )n + (1 − N2 )n .
Universi dei campioni senza ripetizione

Si considerano qui gli universi campionari che differiscono solo per l’or-
dine delle unità, in sostanza quindi dalle permutazioni n! delle unità
campionarie.
Universo esaustivo. È l’universo dei campioni ordinati, senza ripeti-

zione e a probabilità costanti caratterizzato da: P (cs ) = N1 n! , πi = N
n
,
(n)
n(n−1)
πi,j = N (N −1) .
Universo in blocco. È l’universo dei campioni non ordinati, senza

ripetizione e a probabilità costanti caratterizzato da: P (c s ) = N1 , πi =
(n)
n(n−1)
N
n
, π i,j = N (N −1) . Osserviamo che
�N −1� �N −2�
� �
πi = P (s) = �n−1
N
� e πi,j = P (s) = �n−2
N
� .
s∈S n s∈S n
s�i s�i,j
6.2 Popolazioni virtuali

Semplificando molto, diremo solo che ad una popolazione potrà sempre
essere associata una legge di probabilità. Tale legge sarà una legge di
densità. Diremo quindi che una popolazione P è rappresentata dalla v.a.
X, alternativamente diremo che X è la popolazione oggetto di studio. Se
X è la popolazione oggetto di studio, allora ogni realizzazione delle v.a.
X è legata alla f.r. FX e quindi alla sua legge di densità fX . Quando
X è continua, parleremo di popolazione continua (analogamente per una
v.a. discreta). Scriveremo P ∼ X dove P è la popolazione oggetto di
studio. La popolazione P ∼ X è caratterizzata2 dalla v.a. X e quindi
2 Il fenomeno oggetto di studio è descritto dalla legge della v.a. X.
166 CAPITOLO 6. INFERENZA STATISTICA
dalla sua densità fX . La densità è sempre una funzione nella variabile

x che dipende dai parametri che caratterizzano la v.a.3 . Il parametro
(vettoriale, quindi con compenenti che sono i parametri che caratterizzano
la v.a.) sarà indicato con θ ∈ Rm con m ≥ 1 e θ sarà il parametro da
stimare. Quindi la popolazione P dipende (o è caratterizzata) da θ,
evitiamo comunque, per non appesantire la notazione, di scrivere Pθ .
Funzione di verosimiglianza
Sia X (continua) la popolazione oggetto di studio ed x un campione
osservato. Si definisce funzione di verosimiglianza la funzione
n
�
L(θ; x) = L(θ; x1 , . . . , xn ) := fX (xi ; θ). (6.1)
i=1
Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione

di x (di parametro θ) mentre nel definire la funzione di verosimiglianza
si definisce una funzione di θ in cui i dati campionari svolgono il ruolo di
parametri (infatti sono dati, una volta osservato il campione). A questo
punto la variabile di interesse è θ. Dobbiamo inoltre osservare che si è
introdotta implicitamente la condizione di indipendenza nelle realizza-
zioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può
fattorizzare come segue
n
�
fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi )
i=1
solo se le componenti di X sono indipendenti a due a due. Si assu-

me quindi che le osservazioni fatte siano realizzazioni indipendenti della
stessa variabile. Si noti inoltre che nella formula (6.1) si è assunto an-
che che la v.a. fossero identicamente distribuite, cioè Xi ∼ X per ogni
i = 1, 2, . . . , n.
Vogliamo introdurre una notazione compatibile con una trattazione

unificata di funzione di verosimiglianza e quindi trattare allo stesso modo
variabili continue e discrete. Consideriamo la scrittura
dP = f · dµ (6.2)
3 Ad esempio se X ∼ P ois(λ), θ = λ. Se X ∼ N (µ, σ 2 ), θ = (µ, σ 2 )t .
6.2. POPOLAZIONI VIRTUALI 167
dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo

� �
P (X ∈ B) = f · dµ = 1B f · dµ per il Boreliano B ∈ B
B
dove f è detta densità di P e µ è la misura rispetto alla quale si sta

calcolando la probabilità P (quindi f è la densità di P rispetto alla misura
µ). Caratterizzare X, significa anche caratterizzare µ e di conseguenza f .
Se X è una variabile continua, allora µ è la misura di Lebesgue e f = fX
è una densità continua o integrabile. Se invece X è una v.a. discreta,
allora f sarà una densità discreta e µ dovrà essere tale da associare massa
di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X)
che si trovano anche in B. Scriveremo, come già introdotto nei capitoli
precedenti,
�
Lebesgue, se X ∼ fX
dµ =
Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX
e di conseguenza
 �

 1B (x) fX (x)dx, se X è continua,

� supp(X)
P (X ∈ B) = .


 1B (xk ) pk , se X è discreta.
k∈IX
La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) =

P (X = xk ) = pk se X è continua o discreta. Se le pk dipendono da
un parametro θ, scriviamo f (xk ; θ) = pk . Si consideri ad esempio X ∼
P ois(λ), allora
λk
f (xk ; θ) = f (k; λ) = e−λ .
k!
Se la v.a. allo studio è una Gaussiana, allora
x2
k
e− 2σ2
f (xk ; θ) = f (xk ; µ, σ 2 ) = √
2πσ 2
dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media

teorica della variabile X (non la misura di cui sopra).
Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo

studio ed un campione x di dimensione n, che
 n
 �

 fXj (xj ) se X è continua,
�n 

j=1
L(θ; x) := f (xi ; θ) = n

 �
i=1 
 pk se X è discreta.

k=1
Osservazione 47. Indipendentemente dal fatto che X sia continua o

discreta (e quindi che la densità sia continua, integrabile o discreta) si
deve notare che L(θ; x) è una funzione continua e derivabile in θ.
6.3 Stima parametrica ✍

Il problema di stima parametrica puntuale è quello di stimare un parame-
tro incognito θ ∈ Rm della legge distributiva di una popolazione X legata
al campione, potremmo anche essere interessati non alla stima di θ ma
di una sua funzione τ (θ) oppure ad una stima intervallare di θ o τ (θ).
Diciamo statistica una funzione g dei dati campionari come ad esempio
n
� n
�
g(x) = xi g(x) = x2i ,
i=1 i=1
dato il campione empirico x. Il campione x è una realizzazione del vet-

tore aleatorio X ∈ Rn che rappresenta la popolazione oggetto di studio.
La legge di X, diciamo fX (x; θ), dipende da un parametro θ. Si chia-
ma stimatore di un parametro θ ∈ Rm una statistica θ̂ opportunamente
individuata e funzione dei dati campionari
θ̂ = g(x1 , x2 , . . . , xn )
dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’uni-

verso campionario, al variare di x in U resta definito U �θ ∈ Rm costituito
dai valori dello stimatore θ̂ ottenuti per i diversi campioni x ∈ U . In
particolare, sia g : Rn �→ Rm , allora
�θ ={θ̂ : θ̂ = g(x), x ∈ U ⊆ Rn }
U
6.3. STIMA PARAMETRICA - 169
con m ≥ 1. Dato lo stimatore θ̂ = g(x) dove x è una realizzazione

del vettore aleatorio X, allora sembra immediata la definizione di v.a.
stimatore Θ̂ = g(X)4 . Notiamo che si può anche scrivere
�
X
E [g] = g(x) dFX (x) = E[g(X)] (6.3)
supp(X)
(come già definito, si è solo introdotto il simbolo E X per indicare che la

media E si sta facendo rispetto alla v.a. X) e
�
E U [g] = g(x) f req{x ∈ U } (6.4)
x∈U
che equivale a scrivere

�
E Uθ [θ̂] = E[Θ̂]. (6.5)
Quindi se A ∈ U �θ , allora E A [g] sarà la media di tutti (e soli) i valori

che θ̂ = g(x) assume al variare di θ̂ ∈ A o equivalentemente al variare di
x ∈ g −1 (A). Inoltre
(Θ̂ = θ̂) ≡ (X = x)
(i due eventi sono equivalenti) e allora
E[Θ̂] = E[g(X)].
La media di tutti i valori θ̂ in Uˆθ è quindi uguale alla media di tutti i

valori g(x) con x ∈ U . Tali medie sono uguali a E[g(X)] e quindi, per
definizione, a E[Θ̂].
6.3.1 Proprietà desiderabili di uno stimatore

Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima
e che sia nota la forma distributiva di X nella popolazione5 . Dato che θ̂
4 Se 1 �n
g(x) = n i=1 xi allora Θ̂ = X n è la v.a. media campionaria. Così per altre
g corrispondenti ad altre v.a. definite nei capitoli precedenti.
5 Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche
sulle quali osservare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci

si poteva anche riferire alla popolazione X visto che esiste un isomorfismo che collega
ogni sottoclasse delle unità statistiche aventi stessa caratteristica Xi ad una densità
di tale sottoclasse.
�
è scritto in funzione di g, la (6.5) si può anche scrivere come E Uθ [θ̂] ed
ovviamente intendiamo la media di tutti i valori θ̂ di U�θ .
Scriveremo Θ � invece di Θ� n per indicare la v.a. stimatore ma sarà
sempre implicita la dipendenza dalla numerosità campionaria n, ovvero
Θ̂n = g(X) dove X = (X1 , X2 , . . . , Xn ).
Correttezza. Uno stimatore Θ̂ si dice corretto se vale

�
E Uθ [θ̂] = θ o equivalentemente E[Θ̂] = θ
mentre si dice distorto nel caso
Dn = E[Θ̂n ] − θ �= 0
dove Dn è detta distorsione dello stimatore Θ̂ ed n in pedice indica la

numerosità campionaria. La distorsione Dn può essere tale per cui
lim Dn = 0
n→∞
e allora diciamo che Θ̂ è asintoticamente corretto.
Esercizio 151. Sia Xk , k = 1, 2, . . . una succ. di v.a. i.i.d., verificare

se la v.a. varianza campionaria
n
1�
Sn2 = (Xk − X̄)2
n
k=1
è uno stimatore corretto.
Esercizio 152. Si consideri

n
2 1 �
Sn−1 = (Xk − X̄)2 .
n−1
k=1
Verificare se è uno stimatore corretto.
Esercizio 153. Verificare che lo stimatore (v.a.) media campionaria è

uno stimatore corretto.
Esercizio 154. Sia P ∼ Exp(1/θ) con θ > 0 parametro da stimare. Dire

se lo stimatore di MV per θ è corretto.
Esercizio 155. Sia P ∼ Exp(θ) con θ > 0 parametro da stimare. Dire

se lo stimatore di MV per θ è corretto.
Indicheremo in generale la v.a. varianza campionaria con S 2 e con s2

la sua realizzazione (o varianza campionaria osservata). Più in dettaglio
indicheremo con Sn2 la v.a. varianza campionaria scritta sopra (e con s2
o s2n la sua realizzazione) mentre indicheremo con
2 n
Sn−1 = S2
n−1 n
la v.a. varianza campionaria corretta (e con s2 o s2n−1 la sua realizzazio-

ne).
Consistenza. Ipotizziamo ora che alla ripetizione i-esima di un espe-

rimento si sia osservato un campione ci ∈ Rn di dimensione campionaria
n e si abbia la stima θ̂i di θ ∈ R inoltre supponiamo di aver effettuato un
numero I di ripetizioni ovviamente rispettando la natura campionaria di
ci (cioè sempre nelle stesse condizioni). Considerando cioè che l’universo
campionario U sia lo stesso in ognuna delle I ripetizioni di un esperimento
e sia quindi la stessa anche la legge fX (x; θ) della popolazione X oggetto
di studio. Otteniamo così un insieme
�θ (I, n) = {θ̂i : θ̂i = g(ci ), ci ∈ U, i = 1, 2, . . . , I}
U
indicizzato rispetto ad n per via della numerosità campionaria di tutti i

campioni ci , i = 1, 2, . . . , I. Sia Θ̂ uno stimatore corretto, diciamo che è
consistente se per � piccolo a piacere si ha
�θ (I, n) : |θ̂i − θ| < �} = 1
lim f req{θ̂i ∈ U
n→∞
postulando in questo modo la convergenza in probabilità dello stimatore

Θ̂ al valore vero θ e affermando che uno stimatore consistente aumen-
ta in stabilità all’aumentare della numerosità campionaria. Seguendo
l’impostazione frequentista scriveremo
� n − θ| < �) → 1,
P (|Θ n → ∞.
Teorema 31. Sia Θ̂ uno stimatore corretto o asintoticamente corretto,

allora condizione sufficiente affinché Θ̂ sia consistente6 è che
2
lim σΘ̂ = 0.
n→∞
Esercizio 156. Dimostrare il Teorema 31. [Sugg.) Si utilizzi la dis. di

Chebyshev.]
Esercizio 157. Dimostrare che lo stimatore media campionaria è con-

sistente.
Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa

ed efficienza assoluta. Dati due stimatori corretti si dice efficiente (in
senso relativo) quello dei due con varianza minima. Siano allora Θ̂1 e Θ̂2
corretti, se vale
2 2
σΘ̂ ≤ σΘ̂
1 2
diciamo che Θ̂1 è efficiente rispetto a Θ̂2 . Dato uno stimatore corretto Θ̂e
si dice efficiente (in senso assoluto) se è lo stimatore di varianza minima
nella classe degli stimatori corretti del parametro θ. Siano Θ̂e , Θ̂ ∈ Cθ e
sia Cθ la classe degli stimatori corretti di θ, allora
2 2
σΘ̂e ≤ σΘ̂ ∀ Θ̂ ∈ Cθ .
Teorema 32. (Disuguaglianza di Cramer-Rao) Considerato un campio-

ne x ∈ Rn estratto da una popolazione con funzione di densità f X (x; θ)
e θ ∈ Θ, se valgono:
i) il campo di definizione7 della v.a. X non dipende da θ,
ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e

seconda rispetto a θ,
iii) Θ̂ è uno stimatore corretto di θ ( cioè Θ̂ ∈ Cθ ),

6 Considerato θ il valore teorico e E[Θ̂] = θ0 �= θ, otteniamo
E[Θ̂ − θ0 + θ0 − θ]2 = σΘ̂

2 2
+ Dn .
7 Si intende lo spettro o il supporto a seconda della natura della v.a. X.

allora si ha
1
E[Θ̂ − θ]2 = σΘ̂
2
≥ � �2 .
d log L
E dθ
Esercizio 158. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipen-

denti. Si vogliono trovare le stime λ̂ e â di λ e di a. Scrivere il campo
di definizione di entrambe le v.a. e dire se vale il punto i) del teorema
precedente.
Il teorema ci consente quindi di individuare l’estremo inferiore della

varianza di uno stimatore appartenente alla classe Cθ e se tale estremo
coincide con σΘ̂
2
�
allora Θ̂� è più efficiente (in senso assoluto) se esiste, può
capitare cioè che non esista uno stimatore con varianza uguale all’estremo
indicato dalla disuguaglianza di Cramer-Rao mentre se esiste è unico.
Sembra utile ricordare inoltre che dalla relazione
n
�
L(θ; x1 , . . . , xn ) = fX (xi ; θ)
i=1
e dalla v.a.
n
�
L(θ; X) = fX (Xi ; θ)
i=1
(dove le Xi sono i.i.d.) seguono le quantità

� �2 � �2
d log L d log fX
EU = nE U
dθ dθ
che è detta informazione di Fisher espressa dal campione mentre

� �2
U d log fX
E
dθ
è detta informazione di Fisher espressa da X (quindi dalla popolazione).

Inoltre,
� �2
�θ d log fX (θ̂; θ)
U
E
dθ
è l’informazione di Fisher espressa dallo stimatore. Vale la seguente

rappresentazione che lega momenti e derivate
� �2 � �
d log L(θ; X) d2 log L(θ; X)
I(θ) = E = −E
dθ dθ2
e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta

informazione di Fisher (attesa).
Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ

ed una statistica g � : Rn �→ Rm . Si vuole stimare il parametro θ, può
essere anche m ≥ 1 ma non m > n. Supponiamo che al fine di ottenere
una stima di θ costituisca la stessa informazione considerare il campione
x o il valore assunto da g � (x), allora g � è detta statistica sufficiente per
θ. Quanto abbiamo appena detto ci consente di passare da Rn ad Rm
trattando quindi con dimensioni minori o addirittura scalari (cioè m = 1)
rappresentando così una prima utilità espressa da tali statistiche. Un
ulteriore definizione di statistica sufficiente è dovuta al seguente teorema
di fattorizzazione di Neyman.
Teorema 33. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con

densità fX (x; θ), θ ∈ Θ, date due funzioni non negative γ : U �→ R e
ϕ : Θ × G� �→ R, una statistica sufficiente g � : Rn �→ G∗ ⊆ Rm , allora la
verosimiglianza può scriversi
L(θ; x) = γ(x) · ϕ(θ, g � (x)).
La funzione di verosimiglianza può essere quindi ricostruita a meno

di un fattore inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·)
e che a parità del valore g0� = g � (x0 ) per qualche x0 ∈ U della statistica
sufficiente si ottiene equivalenza in verosimiglianza. Quindi, diversi cam-
pioni x0 producono lo stesso g0∗ .
Di fatto vale il ragionamento inverso, se la verosimiglianza può de-

comporsi come sopra allora resta definita una statistica sufficiente g � .
Come tutte le statistiche campionarie le statistiche sufficienti effet-

tuano una classificazione per livelli dei campioni di U a partire da tutti
i campioni x ∈ Ugi� tali per cui g � (x) = gi∗ e i = 1, 2, . . . , I ( può essere
anche I = 1 ), individuando così I insiemi di livello in ognuno dei qua-

li si può avere o meno equivalenza in verosimiglianza ( verosimiglianza
proporzionale per i campioni appartenenti allo stesso insieme di livello e
per livello si intende appunto il livello della verosimiglianza ). La suffi-
cienza comporta che dato gi� (e quindi tutto un insieme di livello Ugi� ) la
distribuzione delle n-ple x ∈ Ugi� è indipendente da θ e si ottiene
fX (x; θ|gi� ) = γ(x), ∀ x ∈ Ugi�
che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}.
Sembra logico pensare quindi che il passaggio da Ugi� ad U sia definito
in termini di verosimiglianza dalla fattorizzazione di Neyman-Pearson.
Basta ricordare che
fX (x; θ) = L(θ; x).
Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che
�
L(θ; xa ) γ(xa ) ϕ(θ, g � (xa )) γ(xa )/γ(xb ), g � (xa ) = g � (xb )
= =
L(θ; xb ) �
γ(xb ) ϕ(θ, g (xb )) c(xa , xb ), g � (xa ) �= g � (xb )
(6.6)
dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la parti-
zione su U indotta da una statistica sufficiente g � è tale per cui campioni
appartenenti allo stesso insieme di livello (xa , xb ∈ Ugi� ) sono equivalenti
in verosimiglianza. Non è in generale vero il contrario visto che può ve-
rificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g � non sia minimale, come
vedremo!
Osserviamo che
log L(θ; x) = log γ(x) + log ϕ(θ; g � (x))
per cui si ottiene
d log L(θ; x) d log ϕ(θ; g � (x))

=
dθ dθ
e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica
g � sufficiente per θ è equivalente a quella espressa dal campione x.
Teorema 34. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ)

con θ ∈ Θ la densità per X. Se g � : U ⊆ Rn �→ G� è una statistica
sufficiente per θ e g uno stimatore corretto di θ, che non dipende da θ,

allora per �
g �� (g0� ) = E U |g0 [g|g � = g0� ]
valgono le seguenti :
i) E G [g �� (g0� )] = θ , (sempre ricordando che g0� è funzione di x ∈ Rn )
�
�
ii) V ar G [g �� (g0� )] ≤ V ar Uθ [g]
�
�
e possiamo riferirci a g �� (g0� ) = E U |g0 [g|g � = g0� ] come allo stimatore
migliorato.
Per ricollegarci al formalismo già usato consideriamo il caso in cui lo
stimatore Θ̂ sia una statistica sufficiente per θ, quindi se Θ̂ = g � (x1 , x2 , . . . , xn ),
�θ = G� . Indichiamo con
si ha U
Ug0� = U |g0� = {x ∈ Rn t.c. g � (x) = g0� }
un insieme di livello per la statistica sufficiente g � . Vediamo allora che le

proprietà dello stimatore migliorato sono ottenute come media su tutti
gli insiemi di livello delle medie in ogni insieme di livello8 . Sembra utile
chiarire quanto esposto per le applicazioni pratiche, osservato il campione
x0 ∈ Rn e considerato uno stimatore migliorato g � � di θ otteniamo
θ̂ = g �� (g0� )
che è funzione dei dati campionari attraverso g0� = g � (x0 ).
In Breve. Possiamo sintetizzare quanto appena detto come segue:

i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della va-
rianza di uno stimatore corretto che non necessariamente esiste, se
non esiste tale estremo non può essere raggiunto e lo stimatore cor-
retto di varianza minima per il parametro di interesse ha varianza
maggiore dell’estremo trovato,
8 Si effettua la media tra i campioni di U che determinano un certo valore g � della
0
statistica sufficiente g � (per i campioni che appartengono quindi a quell’insieme di
livello) ed otteniamo lo stimatore migliorato, il condizionamento rappresenta qui una
regola di inclusione per i campioni di U , inclusione in U |g0� . Le proprietà vanno
verificate per ogni insieme di livello (quindi possiamo condizionare per ogni g0� ∈ G�
al fine di individuare tutte le partizioni U |g0� e quindi tutti i valori per g �� ) o meglio
per tutti i campioni di U .
ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimato-

re funzione di una statistica sufficiente che è corretto e di varianza
minima. In particolare, preso uno stimatore Θ̂ ed una statistica suf-
ficiente g ∗ , allora lo stimatore Θ̂∗ = Θ̂|g ∗ è detto stimatore miglio-
rato ed ha varianza minore o uguale della varianza dello stimatore
Θ̂ (detto originale o di partenza).
iii) Inoltre, ricordiamo che
θ : il parametro da stimare,
θ� : lo stimatore per θ,
Θ� : la v.a. stimatore per θ,
x : campione osservato (denotato anche xoss ),
X : v.a. (in particolare, un vettore di n v.a.),
dove x = (x1 , x2 , . . . , xn ) è realizzazione di X = (X1 , X2 , . . . , Xn ),
θ� = g(x), � = g(X),
Θ e g è una statistica.
Esempio 51. Per il problema di stima dei parametri media e varianza:

θ = µ, µ̂ = x̄ e la v.a. è Θ̂ = X̄;
θ = σ 2 , σ̂ 2 = s2 e la v.a. è Θ̂ = S 2 .
6.3.2 Metodi di stima

Stima di massima verosimiglianza. Lo stimatore di massima vero-
simiglianza θ̂M V è tale per cui L(θ̂M V ) = max. Deve quindi soddisfare
le condizioni
� �
d L(θ; x) �� d2 L(θ; x) ��
= 0, <0
dθ �θ=θ̂M V dθ2 �θ=θ̂M V
dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere

massimizzata rispetto a θ e dato il campione osservato. Si chiede quindi
che θ̂M V sia la soluzione del problema
max P (X = x) dato x ∈ Rn
θ
e sapendo che X dipende da θ per il tramite della sua densità. Risulta:

1. (invarianza degli stimatori MV) Sia θ̂M V lo stimatore di massima

verosimiglianza di θ, se ψ è una funzione che ammette la funzione
inversa lo stimatore di massima verosimiglianza di ϑ = ψ(θ) è dato
da ϑ̂ = ψ(θ̂M V ),
2. Se esiste per θ una statistica sufficiente h� , allora uno stimatore di
massima verosimiglianza di θ se esiste, è funzione di h� e θ̂M V =
g(h� ),
3. Se esiste per θ uno stimatore corretto ed efficiente θ̂, allora è anche
stimatore di massima verosimiglianza, θ̂ = θ̂M V ,
4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per
ogni x e θ ∈ Ω esiste ed è continua e limitata la derivata terza di
fX (x; θ), lo stimatore di massima verosimiglianza è asintoticamente
corretto e consistente e ha distribuzione asintotica di tipo normale
Θ̂ ∼ N (θ, 1/I(θ)). Inoltre, L(Θ; x) ∼ N (θ̂, 1/I(θ̂; x)) dove I(θ̂; x)
è l’informazione di Fisher osservata. All’aumentare della numero-
sità campionaria Θ̂M V ha varianza sempre più vicina al limite di
Cramèr-Rao ed è corretto.
Esercizio 159. Sia P ∼ N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione
osservato. Determinare lo stimatore MV per la media della popolazione.
Esercizio 160. Sia P ∼ N (µ, σ 2 ) la popolazione allo studio e sia x =
(x1 , . . . , xn ) il campione osservato. Determinare lo stimatore MV per la
varianza della popolazione.
Esercizio 161. Dire se la v.a. varianza campionaria trovata nel prece-
dente esercizio è uno stimatore corretto per la varianza della popolazione.
Esercizio 162. Sia P una popolazione in cui il fenomeno oggetto di
studio X segue una legge distributive uniforme, X ∼ U nif (0, θ) con θ >
0. Scrivere la funzione di log-verosimiglianza.
Stima per intervalli. Supponiamo che si voglia ottenere la stima θ̂ di

un parametro θ da una osservazione campionaria, diciamo dal campione
x ∈ Rn . Si possono costruire degli intervalli per θ̂ se si conosce la legge
distributiva fΘ̂ (·) di tale stimatore. Dalla relazione
� θ1
P (θ0 ≤ Θ̂ ≤ θ1 ) = fΘ̂ (u)du = 1 − α
θ0
standardizzando secondo una trasformazione G(·), si ricava

� �
P G(θ0 ) ≤ G(Θ̂) ≤ G(θ1 ) = 1 − α
dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ̂) (·)
che una volta calcolati o individuati (ad esempio attraverso le tavole dei
percentili) consentono di scrivere
� �
P G−1 (gα/2 ) ≤ Θ̂ ≤ G−1 (g1−α/2 ) = 1 − α.
Se ad esempio X ∼ N (µ, σ 2 ) con varianza σ 2 nota e si vuole stimare

θ = µ (la media della popolazione P ∼ X), allora Θ̂ = X̄n è la v.a.
media campionaria e avremo
X̄n − µ √
G(X̄n ) = n = Z ∼ N (0, 1).
σ
Si vede subito che
σ
G−1 (Z) = µ + √ Z = X̄n .
n
Dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili
della normale) scriveremo
� �
0, 95 =P G−1 (−1.96) ≤ X̄n ≤ G−1 (1.96)
o equivalentemente
� �
0, 95 =P − 1.96 ≤ G(X̄n ) ≤ 1.96 .
Si vede subito che considerando ad esempio la seconda espressione, con-

siderando il campione osservato xoss , dato l = 1.96 √σn ,
µ ∈ IC(0.05) = (x̄oss − l, x̄oss + l)
con probabilità 0.95.

Se invece θ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene
(n − 1)S 2
G(S 2 ) = ∼ χ2(n)
σ2
dove S 2 è la v.a. varianza campionaria corretta

n
1 �
S2 = (Xi − µ)2 .
n − 1 i=1
Inoltre
G(S 2 ) ∼ χ2(n−1)
se µ non è nota e la v.a. varianza campionaria diventa
n
1 �
S2 = (Xi − X̄n )2 .
n − 1 i=1
Numerosità ottima del campione. Ricorriamo ancora alla trasfor-

mazione G vista sopra e supponiamo che sia G(·; n), sottolineando cioè
la dipendenza da n. Una simile trasformata non è certo difficile da tro-
vare poiché standardizzando è facile ricorrere a grandezze che dipendo-
no dalla numerosità campionaria n. Possiamo scegliere un θ0 per cui
G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto
ad n troveremo
n = f −1 (g1−α/2 ; θ0 , . . .).
Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , suppo-
niamo σ 2 nota, standardizziamo ed otteniamo
x̄ − µ √
G(x̄; n, σ) = n realizzazione di una N (0, 1)
σ
per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un
certo livello 1 − α ed un errore e = x̄ − µ che G(e; n, σ) = f (n) = z1−α/2
ed ancora, calcolando la funzione inversa
2
z1−α/2 σ
n= (dove considererò la parte intera se voglio che n ∈ N)
e2
si è ottenuta la numerosità ottima per cui al livello 1−α possiamo ottenere
un intervallo di stima per µ di ampiezza 2e. Osserviamo che e = x̄ − µ
può essere scelto piccolo a piacere, tale valore dipenderà dal grado di
accostamento che vogliamo ottenere essendo incognita la media µ della
popolazione. Come si è già osservato, il valore n trovato non è intero,
infatti si deve considerare il più piccolo n tra quelli che soddisfano alla
condizione richiesta. In altre parole, cerchiamo il più piccolo n per il
2
z1−α/2 σ
quale n ≥ e2 che corrisponde alla parte intera superiore
� 2 �
z1−α/2 σ
n= .
e2
Esercizio 163. Sia P la popolazione oggetto di studio, il fenomeno og-

getto di studio è ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo
stimare la media µ del fenomeno X della popolazione. In particolare, si
vuole trovare la numerosità campionaria n del campione x ∈ R n tale per
cui, con probabilità pari al 95%, si commette un errore minore di una
quantità � nella stima di µ. Trovare il minimo n.
Osservazione 48. Trovare il minimo n nel precedente esercizio significa

anche trovare il più piccolo n per cui |X̄n − µ| < � nel 95% dei casi,
cioè pensando di considerare 100 campioni, 95 di questi restituiscono una
stima che non si discosta più di � dal valore vero µ (P (|�
µ−µ| < �) = 95%).
Stima dei minimi quadrati. Supponiamo di osservare la variabile

dipendente Y e le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popo-
lazione ed otteniamo un campione di numerosità n (ossia n unità statisti-
che) della forma {(yi , xi ); yi ∈ R, xi ∈ Rk , i = 1, 2, . . . , n}. Ipotizzando
�k
una relazione lineare tra le variabili potremmo scrivere yi = j=1 aj xi,j
ed in termini matriciali Y = Xa dove X è una matrice n × k ed ovvia-
mente Y ∈ Rn (si veda il Capitolo B). Se in generale esiste tra la variabile
dipendente e le variabili esplicative una relazione del tipo Y = f (X; a)+�
dato il campione (y, x) troviamo i valori ŷ = f (x; â) in modo che
n
�
(yi − ŷi )2 = min,
i=0
in particolare
�n cerchiamo il vettore â ∈ Rk tale che per ei = yi − ŷi si possa
scrivere i=1 ei = min ed ei rappresenta l’errore che si commette ap-
2
prossimando gli yi con la relazione f (x; â), diverso quindi dal significato
di � che rappresenta una v.a. qualunque (di media nulla) e quindi il grado
di incertezza o di imprecisione inevitabile nella realtà fattuale (è interes-
sante per il confronto con la verosimiglianza il caso in cui � ∼ N (µ, σ 2 )).
È il caso di notare che il metodo dei MQ prescinde dalla conoscenza del-

le forme distributive mentre si dovrà conoscere o identificare la relazione
f (·; a) o meglio la dipendenza funzionale tra i dati. Il metodo dei MQ tro-
va la sua piú naturale applicazione nelle relazioni f (·; a) che siano lineari
o linearizzabili quindi nei modelli lineari.
Stima dei momenti. Il metodo dei momenti conduce a stimatori con-

sistenti ed è il piú semplice metodo di stima, consiste nello stimare carat-
teristiche della popolazione a partire dalle relazioni teoriche tra i momenti
e supponendole valide anche per i momenti campionari. Indichiamo un
momento di ordine r con
�
Mr = xr fX (x; θ)dx,
U
è di immediata comprensione il fatto che la relazione teorica σX

2
= M2 −
M1 porti, dato un campione x ∈ R , a stimare la quantità
2 n
n
� n
�2
2 1� 2 1�
σ̂X = m2 − m21 = x − xi
n i=1 i n i=1
�n
oppure µ̂X = m1 = n1 i=1 xi ottenute appunto dai momenti campionari
m1 e m2 in questo caso del primo e del secondo ordine rispettivamente.
In generale quindi si dovranno conoscere le relazioni teoriche tra i mo-
menti che non prescindono sempre dalla legge distributiva come invece
accade nel caso sopra illustrato. Se si devono stimare k parametri della
popolazione, diciamo θ ∈ Rk sarà possibile impostare un sistema di k
equazioni del tipo
Mr = mr , r = 1, 2, . . . , k
dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si

trova θ̂ ∈ Rk . Indichiamo lo stimatore dei momenti con il simbolo θ�M .
Osservazione 49. Si osservi che si sta impostando un sistema di k

equazioni in k incognite.
Esercizio 164. Determinare lo stimatore dei momenti per il parametro

θ = (µ, σ 2 )t da una popolazione X ∼ N (µ, σ 2 ).
6.4. VERIFICA DELLE IPOTESI STATISTICHE - 183
Esercizio 165. Dato il campione x ∈ Rn , determinare lo stimatore dei

momenti per il parametro θ caratterizzante la popolazione P nei seguenti
casi:
1. P ∼ Ber(p),
2. P ∼ P ois(λ),
3. P ∼ fX (x; θ) = (θ −x ln θ)1(0,∞) (x), x ∈ R.
Esercizio 166. Dato il campione x ∈ Rn , determinare lo stimatore

di MV per il parametro θ caratterizzante la popolazione P nei casi del
precedente Esercizio 165.
Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una

legge di probabilità iniziali π(θ) per il parametro θ ∈ Uθ ed osserva-
to il campione x ∈ Rn , possiamo calcolare la legge delle probabilità a
posteriori
π(θ|x) = c L(θ; x) π(θ)
dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e
�
−1
c = L(θ; x) π(θ)dθ.
Uθ
Sembra allora ovvio, dato x ottenere una stima θ̂ di θ dalla

�
θ̂ = h(x) = E Uθ [θ|x] = θ π(θ|x) dθ.
Uθ
Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le

π(θ|·) per successivi campioni x) un certo numero di volte e giungere a
nuove stime Bayesiane di θ.
6.4 Verifica delle ipotesi statistiche ✍

6.4.1 Test parametrici
Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore
incognito θ mentre chiameremo ipotesi funzionali quelle relative ad una
forma f (x; θ), θ ∈ Θ, ci occuperemo delle ipotesi funzionali nel para-

grafo che segue. Un ipotesi si dice semplice se specifica completamente
la f (x; θ) altrimenti si dice composta. Un ipotesi che consideri un so-
lo parametro θ può essere semplice se è della forma θ = θ0 , può essere
unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤,
può essere bilaterale se è del tipo θ �= θ0 . Possiamo dire formalizzando il
problema che un test di ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un
insieme che può essere costituito da un solo elemento, caso in cui l’ipotesi
si dice semplice oppure può essere costituito da più elementi, il caso delle
ipotesi composte. Il test di ipotesi è strutturato in modo da testare una
certa congettura, solitamente l’ipotesi detta alternativa ed indicata con
H1 mentre si descrive la situazione di base con l’ipotesi detta appunto
di base o nulla H0 . In linea di principio quindi si avrà a che fare con un
test del tipo �
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1 ,
un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popola-
zione X con densità fX (x; θ), verrà scelta una opportuna funzione dei
dati campionari che potrà essere una funzione test o uno stimatore, indi-
chiamo tale funzione con g(x) e si potrà individuare una distribuzione per
g(X) a partire dalla densità fX (·|H0 ) e quindi valida se θ ∈ Θ0 (o equi-
valentemente se è vera l’ipotesi di base) ed una distribuzione per g(X) a
partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa).
Si devono introdurre gli errori
di prima specie (I): la decisione di rifiutare l’ipotesi nulla quando que-
sta è vera,
di seconda specie (II): la decisione di rifiutare l’ipotesi alternativa quan-
do questa è vera.
Si deve notare che si stanno considerando gli oggetti Y = g(X) e
y = g(x). Indichiamo con
�
α= fg(X) (g(x)|H0 )dg, θ̂ = g(x)
R|H0
e �
β= fg(X) (g(x)|H1 )dg, θ̂ = g(x)
A|H1
le probabilità di commettere un errore di prima specie e di seconda specie

rispettivamente. Risulta anche
P (g(X) ∈ R|H0 ) = P (R|H0 ) = α
e
P (g(X) ∈ A|H1 ) = P (A|H1 ) = β
dove R ed A sono le regioni di accettazione e di rifiuto dell’ipotesi di
base (o nulla). Quindi R|H0 (R|H1 ) è la regione di rifiuto sotto l’ipotesi
di base (alternativa) ed A|H0 (A|H1 ) è la regione di accettazione sotto
l’ipotesi do base (alternativa)9 . La funzione g(x) è qui presentata nella
notazione più usuale per uno stimatore del parametro θ piuttosto che
per una funzione test, ovviamente sempre funzione dei dati campionari,
θ̂ = g(x), il valore θ � in questo caso delinea le regioni di accettazione e
di rifiuto sotto entrambe le ipotesi.
Sono importanti le probabilità P (A|H0 ) = 1−α detta livello di fiducia
dove α è detta livello di significatività e la probabilità P (R|H 1 ) = 1 − β
detta potenza del test.
Il test migliore si ottiene rendendo piccole le probabilità di ottenere
un errore (quindi α e β), di norma si fissa α essendo strutturato il test
in modo da rendere preferibile mantenere l’ipotesi di base10 e si cerca di
massimizzare la potenza del test ovvero la probabilità di non commet-
tere errori di seconda specie (la situazione ottimale può essere ottenuta
fissando entrambe le probabilità degli errori piccole a piacere o secon-
do le necessità del caso). Se le ipotesi sono composte si avranno diversi
valori di tali probabilità e fissata α avremo una funzione di potenza da
massimizzare.
Nota Bene. Si tende sempre a considerare vera l’ipotesi di base ma

ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito
9 Si considerino fissate le regioni di accettazione e di rifiuto A ed R, le probabilità
P (·|H0 ) e P (·|H1 ) sono dunque funzioni differenti che assegnano misure differenti
alle due regioni. Tali funzioni dipenderanno dai differenti parametri identificati dalle
differenti ipotesi.
10 Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso
appunto dall’ipotesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come
è proposto risulta il piú affidabile, sarà certamente meno auspicabile commettere un
errore di seconda specie perché evidentemente comporterebbe ammodernamenti nel
meccanismo di produzione e quindi delle spese che non rappresenterebbero un buon
investimento.
H0 è Vera H0 è Falsa
Accetto H0 decisione corretta errore II
(1 − α) (β)
Rifiuto H0 errore I decisione corretta
(α) (1 − β)
Tabella 6.1: Tabella delle decisioni (probabilità).

Ipotesi nulla: semplice unilaterale sx unilaterale dx bilaterale
H0 : θ = θ0 θ ≤ θ0 (θ < θ0 ) θ ≥ θ0 (θ > θ0 ) θ �= θ0
H1 : θ �= θ0 (θ = θ1 ) θ > θ0 (θ ≥ θ0 ) θ < θ0 (θ ≤ θ0 ) θ = θ0
Tabella 6.2: Tabella delle ipotesi.
che spinge quindi al test, in sostanza, è quello di poter considerare un’al-

ternativa all’ipotesi di base essendo però quest’ultima sempre preferita.
Seguendo queste considerazioni si sceglie α sempre più piccolo se si vuole
rendere difficile commettere un errore di prima specie, in questo modo se
le risultanze campionarie conducessero al rifiuto dell’ipotesi nulla, “nulla”
si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve
necessariamente essere rifiutata. Sullo stesso principio ci si basa quando
si sceglie la regione di potenza minima tra quelle ottime (o con massima
potenza), si vuole rendere meno agevole il rifiuto dell’ipotesi di base.
Ipotesi di base semplice: test bilaterale

Consideriamo solo l’ipotesi semplice sulla media H0 : µ = µ0 che po-
trebbe essere ricondotta al problema di verificare
�
H0 : µ = µ 0 ,
H1 : µ �= µ0 .
Il livello di significatività del test supponiamo sia α = 0.05. Conside-
riamo poi il caso semplice in cui P ∼ N (µ, σ 2 ) e semplifichiamo ancora
supponendo σ 2 = 2 (cioè, varianza nota). Il test riguarda la media della
popolazione P il cui stimatore è x̄, realizzazione della v.a. stimatore X̄n .
Dobbiamo quindi considerare la distribuzione della v.a. X̄n e data la
popolazione P, sappiamo che un campione x ∈ Rn (cioè, di numerosità
n) sarà una realizzazione del vettore aleatorio
X = (X1 , X2 , . . . , Xn )
dove Xj ∼ N (µ, 2) per ogni j con media� µ incognita. In sostanza,

sappiamo che X̄n ∼ N (µ, 2/n). Inoltre, X̄n �H0 ∼ N (µ0 , 2/n), quindi
X̄n − µ0 ��
√ √ H0 ∼ N (0, 1).
2/ n
La regione R va scelta in modo tale da ottenere
� � �
X̄n − µ0 �
P √ √ ∈ R��H0 = α = P (−z1−α/2 ≤ Z ≤ z1−α/2 )
2/ n
dove −z1−α/2 = zα/2 per la simmetria della legge normale. Osserviamo
anche che considerando le trasformazioni G e G−1 , si ha
� �
X̄n − µ0
α =P z1−α/2 ≤ √ √ ≤ z1−α/2
2/ n
� �
=P (µ0 − z1−α/2 2/n ≤ X̄n ≤ µ0 + z1−α/2 2/n).
�n xoss il campione osservato. La stima per la media sarà x̄oss =

Sia ora
n−1 j=1 xj che è una realizzazione della v.a. X̄n . L’intervallo di confi-
denza cercato sarà dato da
� � � �
IC(α) = x̄oss − z1−α/2 2/n, x̄oss + z1−α/2 2/n (6.7)
per α = 0.05. Si vuole sottolineare il fatto che (−z1−α/2 , +z1−α/2 ) è

�
IC(α) per la v.a. Z = (X̄n − µ0 ) n/σ 2 mentre (6.7) è l’intervallo di
confidenza per la v.a. X̄n . Entrambi si scrivono a partire dagli stessi
percentili di livello α.
Esercizio 167. Disegnare il grafico della densità f X dove X ∼ N (0, 1).
Individuare le regioni A ed R al livello α = 0.05.
Ipotesi di base semplice: test unilaterale

Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma
�
H0 : θ = θ 0
H1 : θ = θ1 , θ0 < θ1 (oppure θ0 > θ1 )
se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo

voler verificare due stime campionarie, la media θ = µ oppure la varianza
θ = σ2 .
Ipotesi sulla media, θ = µ. Il test assume la forma

�
H0 : µ = µ 0
H1 : µ = µ 1 , µ 0 < µ 1
�n 2
sappiamo che µ̂ = x̄, quindi g(x) = n1 i=1 xi ed inoltre X̄ ∼ N (µ, σn ),
quindi x̄ è una realizzazione della v.a. media campionaria X̄ = g(X).
Conosciamo la fX̄ (·) ed in particolare le distribuzioni
X̄|H0 ∼ N (µ0 , σ 2 /n), X̄|H1 ∼ N (µ1 , σ 2 /n)
condizionate alle ipotesi da verificare. Si è comunque supposto che σ 2 fos-

se noto, altrimenti
�n bisogna ricorrere ad una stima campionaria corretta,
i=1 (xi − x̄) e si ottiene
1
s2 = n−1 2
X̄|H0 ∼ N (µ0 , s2 /n), X̄|H1 ∼ N (µ1 , s2 /n).
Note le distribuzioni diciamo che x̄oss è la stima ottenuta (osservata) dal

campione, x̄oss = g(x), dobbiamo verificare se tale valore cade nella regio-
ne di accettazione o di rifiuto dell’ipotesi di base. Al fine di individuare
tali regioni fissiamo il livello di significatività α (ad esempio α = 0.05) e
standardizziamo le distribuzioni viste sopra relativamente alla sola ipotesi
nulla e al caso in sui σ 2 sia noto oppure no, si ottiene rispettivamente
X̄ − µ0 �� X̄ − µ0 ��
√ H0 ∼ N (0, 1), √ H0 ∼ t(n−1)
σ/ n s/ n
ed ancora, preso α ed x̄oss

σ s
x̄� = µ0 + z1−α √ oppure x̄� = µ0 + t(n−1), 1−α √
n n
ed A = (−∞, x̄� ), R = (x̄� , ∞) quindi
x̄oss < x̄� ⇒ acettiamo H0
x̄oss > x̄� ⇒ rifiutiamo H0 (non accettiamo!).

Conclusioni simili si otterrebbero calcolando i percentili osservati
x̄oss − µ0 x̄oss − µ0
√ = zoss , √ = t(n−1),oss
σ/ n s/ n
e successivamente le probabilità osservate
αoss = 1 − FN (zoss ) oppure αoss = 1 − FT (t(n−1),oss )
ovviamente
αoss < α ⇒ al 1 − αoss % rifiutiamo H0 (non accettiamo!)
αoss > α ⇒ accettiamo H0 .

Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si
sarebbe ovviamente giunti a regioni differenti ponendo H1 : θ < θ0 o
H1 : θ > θ0 o ancora H1 : θ �= θ0 ma sempre seguendo la stessa procedura
infatti questo è un test uniformemente più potente11 . La potenza del test
nel caso H1 : θ > θ0 è data da
P (X̄ > x̄oss |H1 )
mentre se H1 : θ < θ0 è data da
P (X̄ < x̄oss |H1 ).
Ipotesi sulla varianza, θ = σ 2 . Supponendo µ nota il test assume la

forma �
H0 : σ 2 = σ02
H1 : σ 2 = σ12
sappiamo che la varianza campionaria e la varianza campionaria corret-
ta12 sono rispettivamente date da
n n
1� 1 �
s2n = (xi − x̄)2 e s2n−1 = (xi − x̄)2
n i=1 n − 1 i=1
11 Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a.
X è completamente specificata da un solo parametro, l’ipotesi alternativa H1 è invece

composta e sia individuata da ogni ipotesi semplice H1 ∈ H1 , si dice uniformemente
più potente se per ogni ipotesi H1 ∈ H1 non variano le regioni di accettazione e
di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test non
sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi
alternativa è parametrica bilaterale.
12 L’espressione
�n � xi −ξ �2 �n
i=1 σ
∼ χ2(v) è giustificata dal fatto che 2 2
i=1 Ui ∼ χ(n)
dove le Ui sono normali standardizzate, � dobbiamo però precisare che v = n nel caso
1 n
ξ = µ ovvero è nota, se invece ξ = x̄ = n i=1 xi , funzione dei dati campionari, allora
v = n − 1 perché non si ha più una combinazione lineare dei dati indipendente.
cioè una stima corretta di σ 2 è σ̂ 2 = s2n−1 . Inoltre, sotto l’ipotesi nulla si

ha
2
nSn2 (n − 1)Sn−1
= ∼ χ2(n−1)
σ02 σ02
quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile
χ2oss , dalle tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come
sopra, fissato il livello di significatività
αoss > α oppure χ2oss < χ2α ⇒ accetto H0 .
Si sono introdotti i valori osservati x̄oss e s2oss , in realtà entrambi sono
delle stime campionarie quindi usando una notazione coerente si sarebbe
scritto µ̂ e σ̂ 2 .
Ipotesi di base composte

Lo scenario è rappresentato, nel semplice caso discreto, da una collezio-
ne di ipotesi semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 ,
sembra quindi difficile dover mantenere la porzione α per ognuna delle
H0 ∈ H0 , si ricerca allora per ogni H1 ∈ H1 l’insieme delle regioni otti-
me (di potenza massima) per ogni H0 ∈ H0 e tra le |H0 | × |H1 | regioni
(con |A| si è indicata la cardinalità dell’insieme A) si sceglie la regione di
rifiuto W 13 di potenza minima.
6.4.2 Test non parametrici

Tratteremo test su P o sulla sua densità f . In particolare, vogliamo
confrontare la distribuzione di probabilità teorica di una certa variabile
con la distribuzione di frequenze (e quindi osservate).
Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX

una successione di frequenze osservate per il fenomeno oggetto di studio.
Vogliamo vedere quanto X descriva bene tale fenomeno. Una misura
della distanza tra le distribuzioni è data da
� (fk − pk )2
χ2oss =
pk
k∈IX
13 Nel caso di ipotesi composte se tale regione non cambia al variare di H ∈ H si
1 1
tratta di una regione W che determina un test uniformemente piú potente.
che può essere vista come una realizzazione della v.a. χ2 (|IX | − 1), cioè
una χ-quadrato con |IX | − 1 gradi di libertà. Il test ci permette di indivi-
duare un p-value e quindi una regione di rifiuto/accettazione per l’ipotesi
nulla
H0 : χ2 = 0 (stesse distribuzioni) (6.8)
che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di
studio. Se χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo
individuare una soglia (il p-value) al di sotto della quale si possa ancora
accettare (con un certo livello di significatività) l’ipotesi H 0 .
È stata già introdotta la tabella di contingenza, in quel caso si voleva
studiare la dipendenza di due variabili osservate. Se si considera
� (fk,s − pk,s )2
χ2oss =
pk,s
(k,s)∈I
con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi

H0 : χ2 = 0 (variabili indipendenti). (6.9)
Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui
X e Y (e quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈
I = IX × IY ) rappresentano due caratteristiche di tale fenomeno. Allora
l’ipotesi nulla da verificare è se le due caratteristiche sono indipendenti o
meno.
Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con

i = 1, 2, . . . , n. Definiamo la funzione di ripartizione empirica
n
1�
Fn (x) = 1(−∞,x] (Xi ).
n
k=1
Il test prevede l’utilizzo della distanza

Dn = �Fn − FX �∞ = sup |Fn (x) − FX (x)|.
x
q.c.
Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte
dei grandi numeri. In maniera analoga a quanto accade per la v.a. media
campionaria, si ha che
q.c.
Fn (x) → E1(−∞,x] (X) = FX (x), x ∈ R.
Inoltre, fissato x, notiamo che

1
EFn (x) = FX (x), e V ar(Fn (x)) = FX (x) (1 − FX (x))
n
ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale
si ottiene che
� �
√ d
Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) .
6.5 Inferenza su particolari parametri

Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di sti-
ma, si adotterà sempre la regola αoss ≷ α dove αoss come sappiamo è
dato dal percentile calcolato in base ai risultati campionari ed α è il livello
di significatività dato al test di ipotesi, considereremo qui solo la indivi-
duazione dell’ αoss e della distribuzione della v.a. in questione quindi si
parlerà della sola ipotesi di base lasciando al lettore la costruzione vera
e propria del test anche in relazione alla ipotesi alternativa. Dove non
specificato si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo:
1. H0 : µ = µ0 e σ 2 nota
µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
X̄−µ0 √
σ n ∼ N (0, 1) sotto H0
x̄oss −µ0 √
σ n = zαoss
2. H0 : µ = µ0 e σ 2 non è nota
µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
σ̂ 2 = s2n , varianza campionaria corretta
2
(n−1)Sn−1
σ2 ∼ χ2(n−1)
X̄−µ0 √
s n ∼ t(n−1)
x̄oss −µ0 √
s n = t(n−1), oss
6.5. INFERENZA SU PARTICOLARI PARAMETRI 193
0.3
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Figura 6.1: La densità in grassetto è di Student mentre l’altra è normale.
Per entrambe le situazioni viste sopra possiamo generalizzare al-

la normale se la numerosità del campione e grande, otteniamo che
zα < t(n),α e per n sempre maggiore t(n),α → zα (o meglio t(n) →
N (0, 1) per n → ∞) quindi passare alla normale equivale a restrin-
gere la regione di accettazione del test se n non è sufficientemente
grande.
3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 ,

entrambe supposte normali e due campioni x1 e x2 osservati per cui
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )

µ̂1 = x̄1 e µ̂2 = x̄2
X̄1 −µ1 √ X̄2 −µ2 √
σ1 n1 ∼ N (0, 1) e σ2 n2 ∼ N (0, 1)
X̄1 −X̄2
√ ∼ N (0, 1) sotto H0
σ12 /n1 +σ22 /n2
x̄1, oss −x̄2, oss
√ 2 2
= zoss
σ1 /n1 +σ2 /n2
4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le

due varianze possono considerarsi uguali oppure no. Supponiamo
che σ12 = σ22 = σ 2 allora

(n1 − 1)s21 + (n2 − 1)s22
σ̂ 2 =
n1 + n2 − 2
e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando
(n1 − 1)s21 (n2 − 1)σ 2 s2
F(n1 −1), (n2 −1) = 2 2 = 12
(n1 − 1)σ (n2 − 1)s2 s2
che è una Fisher-Snedecor. Supposte allora uguali otteniamo
√X̄1 −X̄2 ∼ t(n1 +n2 −2)
σ̂ 1/n1 +1/n2
x̄1, oss −x̄2, oss
√ = t(n1 +n2 −2), oss
σ̂ 1/n1 +1/n2
Se invece le varianza delle due popolazioni non possono considerarsi

uguali sorgono non pochi problemi, la distribuzione della variabile
che si verrebbe a considerare è
X̄ − X̄2
� 12
s1 s22
n1 + n2
che è detta di Behrens-Fisher.

Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta
di un ipotesi alternativa composta comporta le valutazioni operative che
ora andiamo a vedere. Si è sempre arrivati a considerare una v.a. stan-
dardizzata, diciamo Q con una sua distribuzione, si è inoltre individuato
un percentile in base al quale discriminare in relazione all ’ipotesi nulla,
diciamo qα al livello di significatività α. Essendo l’ipotesi nulla semplice
e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simmetrica la
distribuzione in esame (o a valori tutti positivi dei percentili) ci avvalia-
mo di un percentile di riferimento, quello modale che indichiamo con qM
(ovviamente se la distribuzione fosse discreta si avrebbe Q(qM ) = max).
Diciamo che in generale si avranno le seguenti situazioni
a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per
cui 1 − Q(qα ) = α,
b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui
Q(qα ) = α,
6.6. LOGICHE INFERENZIALI 195
c) H1 : θ �= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e

q2, α/2 > qM tale che Q(q1, α/2 ) = α/2 e 1−Q(q2, α/2 ) = α/2 quindi,
ovviamente, Q(q2, α/2 ) − Q(q1, α/2 ) = 1 − α e rappresenta l’area
sottesa alla curva di probabilità relativa alla regione di accettazione.
Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo

Q|H0 , il caso in cui Q|H1 dovrà essere considerato al fine di investigare
sulla potenza del test.
6.6 Logiche inferenziali

Il principio della verosimiglianza
La funzione di verosimiglianza nasce dal presupposto che un evento veri-
ficatosi può considerarsi l’evento con la probabilità maggiore di verificarsi
ed infatti massimizziamo tale funzione. Il principio di base quindi è svi-
luppato attorno alla realizzazione o all’evento realizzato, al risultato della
prova o al risultato dell’esperimento
Definizione 45. Principio della verosimiglianza. Siano dati due

esperimenti e� ed e�� in cui l’ipotesi vera sia la stessa. Se per due risultati
x� e x�� le corrispondenti funzioni di verosimiglianza l � e l�� soddisfano la
condizione di equivalenza
l� (θ) = c · l�� (θ) θ∈Θ
dove c può dipendere dai risultati campionari ma non da θ, allora gli

esperimenti (e� , x� ) ed (e�� , x�� ) forniscono la stessa informazione riguar-
do alle ipotesi. In altre parole le due funzioni di verosimiglianza sono
equivalenti (equivalenza in verosimiglianza) per il parametro θ.
Il principio del campionamento ripetuto

Il principio del campionamento ripetuto si pone in modo diverso da quello
della verosimiglianza in quanto il risultato ottenuto assume qui impor-
tanza solo dopo che si siano considerati tutti i risultati possibili o meglio
la procedura statistica che meglio si adatta a tali risultati. Per procedura
intendiamo ad esempio una statistica e per miglior adattamento ai dati
intendiamo, ad esempio, miglior prestazioni della statistica:
Definizione 46. Principio del campionamento ripetuto. Le pro-

cedure statistiche devono essere valutate per il loro comportamento in
ripetizioni ipotetiche dell’esperimento che si suppongono eseguite sempre
nelle stesse condizioni.
Nei problemi di stima parametrica diciamo quindi che il risultato cam-

pionario si rende utile non appena si sappia individuare nello scenario d’a-
nalisi una statistica che sia non distorta e di varianza minima, potremmo
poi desiderare ancora delle altre proprietà.
7
Esercizi
Esercizio 168. Dato il campione x ∈ Rn con x̄ = 4/5 e n = 30, verificare

l’ipotesi che x provenga da una popolazione P in accordo con una X ∼
N (1, 1) al livello di significatività α = 0.05.
Esercizio 169. Dato il campione x ∈ Rn con x̄ = 3/5 e n = 30, verificare
l’ipotesi che x provenga da una popolazione P in accordo con una X ∼
N (1, 1) al livello di significatività α = 0.05.
Esercizio 170. 1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione prove-
niente da una popolazione P (supposta) Esponenziale di parametro
λ. Determinare lo stimatore λ̂M con il metodo dei momenti e λ̂M V
di massima verosimiglianza.
2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. De-
terminare la numerosità campionaria n per cui stimando la media
si commette un errore minore di � con probabilità P (| X̄ − µ| < �) >
86%.
Esercizio 171. Sia P una popolazione in cui il fenomeno oggetto di
studio X ha densità normale di media µX e varianza σ 2 = 1. Si supponga
inoltre di conoscere la relazione Y = aX in cui a > 0 ed Y è una seconda
variabile di interesse. Dato il campione x = (x 1 , . . . , xn )
a) si trovi una stima di MV per la media µY di Y
b) si trovi una stima della media µY di Y con il metodo dei momenti
c) si trovi il minimo n tale per cui con probabilità maggiore del 95%
si commette un errore minore di � nella stima della media di Y (si
consideri |Ȳ − µY | < �).
Esercizio 172. 1. Sia x = (1, 4, 1, 5, 2, 2, 0, 9) un campione prove-
niente da una popolazione P (supposta) di Poisson di parametro
λ. Determinare lo stimatore λ̂M con il metodo dei momenti.
197
2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge
f (xi ; θ, λ) = κ θ xi e−λxi 1(0,∞) (xi ), 0 < θ < eλ , λ > 0, i = 1, 2, . . .
– determinare κ,
√
– determinare lo stimatore θ̂M V di MV per θ se λ = log θ.
Esercizio 173. Dato il campione osservato xoss = (−1, 2, 1, −4, 1, −1)
proveniente da una popolazione P ∼ X con densità
2 √
fX (x) = e−(x−µ) / π1R (x), µ ∈ R :
• si calcoli µ̂M V , µ̂M OM ,

• si verifichi l’ipotesi H0 : µ = 0 al livello di significatività α = 0.05.
Esercizio 174. Dato il campione osservato xoss = (0, 1, 1, 0, 0, 1, 0, 1)
proveniente da una popolazione P ∼ Ber(p) :
1. si calcoli p̂M V ,
2. si calcoli p̂M OM ,
Dato il campione osservato xoss con x̄oss = 2 proveniente da una popo-
lazione normale con varianza σ 2 = 1:
3. si verifichi l’ipotesi H0 : µ = 1 al livello di significatività α = 0.05.
Esercizio 175. 1. Sia P ∼ fX la popolazione oggetto di studio dove
fX (x) = θ−x ln(θ) 1(0,∞) (x), x ∈ R, θ ≥ 0.
Determinare lo stimatore θ̂M V di MV e lo stimatore θ̂M con il

metodo dei momenti per parametro θ.
2. Sia x = (−3, −1, 2, 0, 2, 6, −2, 0) il campione osservato da una popo-
lazione P ∼ N (µ, σ 2 ) dove σ 2 = 3/4. Verificare, al livello α = 5%,
l’potesi H0 : µ = 0.
Esercizio 176. 1. Sia P ∼ fX la popolazione oggetto di studio con
fX (x; θ) = (θ 4 /6)e−θx x3 1(0,∞) (x), x ∈ R, θ > 0. Determinare lo
stimatore θ̂M V di MV e lo stimatore θ̂M con il metodo dei momenti
per parametro θ.
199
2. Sia x̄oss = 3/2 (con n = 10) la media campionaria osservata da

una popolazione P ∼ N (µ, σ 2 ) dove σ 2 = 1/2. Verificare, al livello
α = 5%, l’ipotesi H0 : µ = 1.
3. Si considerino i dati del precedente punto. Determinare l’intervallo
di confidenza per la media µ al livello α = 0.06
Esercizio 177. Sia P la popolazione oggetto di studio dove si vuole
studiare il fenomeno caratterizzato dalla v.a. X con densità
� 2
x −x
fX (x; θ) = θe
2θ , x ≥ 0, θ > 0
0, x<0
Dato il campione x = (x1 , x2 , . . . , xn ),
1. determinare lo stimatore θ̂M V di MV per θ

2. determinare lo stimatore θ̂M OM per θ con il metodo dei momenti
Se X ∼ N (µ, 1/3), dato il campione x = (x1 , x2 , . . . , xn )
3. determinare un intervallo di confidenza per µ al livello α = 5%
4. verificare H0 : µ = 2/5 con α = 3% se da un campione di numero-
sità 25 si è ottenuto x̄oss = 3/4
5. determinare n tale che si commetta un errore � ≤ 0.01 con proba-
bilià pari al 90% nella stima della media µ.
Esercizio 178. Data X ∼ fX con fX (x) = θxθ−1 1(0,1) (x), x ∈ R e
θ > 0:
1. determinare θ̂M V ,
Sia X ∼ N (µ, 1), si è osservato il campione xoss con x̄oss = 3/4
2. verificare H0 : µ = 2 con α = 0.05,
3. determinare IC con α = 0.05.
Esercizio 179. Sia X ∼ (ln θ)θ −x 1(0,∞) (x), x ∈ R. La popolazione P
oggetto di studio è ben rappresentata dalla v.a. X. Determinare:
1. θ�M V
2. θ�M OM
3. Se X ∼ N (θ, 1), determinare l’intervallo di confidenza per la media
di P al livello α = 0.05 sapendo che dalle n = 50 osservazioni
risulta x̄ = 3.
Esercizio 180. La√popolazione P oggetto di studio è ben rappresentata

x
dalla v.a. X ∼ (ln θ)θ − 2 1(0,∞) (x), x ∈ R con θ > 0. Vogliamo carat-
terizzare P determinando stime del parametro θ. In particolare, si vuole
calcolare:
1. θ�M V
2. θ�M OM
3. Se X ∼ N (θ, 1), determinare l’intervallo di confidenza per la media
di P al livello α = 0.05 sapendo che dalle n = 25 osservazioni
risulta x̄ = 3/25.
8
Distribuzioni elementari
8.1 Variabili discrete ✍

Ricordiamo che una v.a. discreta X è caratterizzata dalla coppia
(xk , pk ), k ∈ IX
dove, per comodità, spesso potremo scrivere xk = k per ogni k in un

opportuno insieme di indici IX . Ricordiamo che se X è discreta, allo-
ra esiste un insieme di valori distinti che denotiamo con spet(X) ed è
l’insieme dei valori che X puo’ assumere. Tale insieme è numerabile (o
infinito numerabile) ed esiste una applicazione k �→ xk che mette in cor-
rispondenza biunivoca l’insieme IX (sottoinsieme di N o Z) con l’insieme
spet(X).
Uniforme. Sia X ∼ U nif (θ) con θ = {1, 2, . . . , n}, n ∈ N. La distri-

buzione di probabilità della v.a. X è
1
pk = P (X = k) = , k ∈ IX = {1, 2, . . . , n}. (8.1)
n
Si vede subito che
1. pk ≥ 0,
�n 1
2. k=1 n = n.
n
La funzione di ripartizione è data da



 0, x<1
 � x
FX (x) = p k = , x ∈ [1, n] ∩ N
 n

 {k≥1 : k≤x}
1, x≥n
201
202 CAPITOLO 8. DISTRIBUZIONI ELEMENTARI
Esercizio 181. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥

Y . Calcolare la f.r. FZ della v.a. Z = X + Y .
Esercizio 182. Calcolare la funzione caratteristica di X.
Osservazione 50. Sia X ∼ U nif (0, n). Osserviamo che
µ� ({1, 2, n − 1}) |{1, 2, n − 1}|

P (X ∈ {1, 2, n − 1}) = =
n n
cioè numero di casi favorevoli su numero di casi possibili.
Zeta o Zipf. Se X ∼ Zipf , si definisce la successione

C
pk = P (X = k) = , k≥1
k α+1
detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente
legata alla funzione Zeta di Riemann.
Esercizio 183. Determinare C.
Esercizio 184. Determinare P (X > 4).
Geometrica. Sia X ∼ Geo(θ) con θ = p ∈ [0, 1]. La distribuzione delle

probabilità di X è data da
pk = P (X = k) = (1 − p)k−1 p, k ∈ IX = {1, 2, . . .} = N.
La v.a. X rappresenta la probabilità di avere il primo successo esattamen-

te alla k-esima prova, cioè dopo k − 1 insuccessi (con prove indipendenti).
Ogni insuccesso ha probabilità (1 − p) di verificarsi. Se indichiamo con S
il successo, P (S) = p e ovviamente P (S̄) = 1 − p. Allora,
(X = k) ="primo successo alla k-esima prova" = S̄

� ∩ S̄ ∩
��· · · ∩ S̄� ∩S
k−1 volte
ed essendo le prove indipendenti,

� �k−1
P (X = k) = P (S̄) · · · P (S̄) ·P (S) = P (S̄) · P (S) = (1 − p)k−1 p.
� ��
k−1 volte
8.1. VARIABILI DISCRETE - 203
Possiamo quindi associare alla distribuzione di probabilità Geometrica la

v.a.
X = "istante di primo successo" se P (S) = p
oppure la v.a.
X = "istante di primo insuccesso" se P (S̄) = p.
Verifichiamo che pk sia effettivamente una distribuzione di probabilità.

Dobbiamo verificare
1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1,
2.
� ∞
� ∞
�
pk =p (1 − p)k−1 = p (1 − p)s (si è posto s = k − 1)
k≥1 k=1 s=0
1
=p =1 (somma notevole, serie geometrica).
1 − (1 − p)
Si vede che
∞
� ∞
� d k
EX =p kq k−1 = p q (q = 1 − p)
dq
k=1 k=1
∞
d � k
=p q (derivazione per serie)
dq
k=1
�∞ � � �
d � k d 1 1
=p q −1 =p −1 = .
dq dq 1 − q p
k=0
Esercizio 186. Calcolare V ar(X) se X ∼ Geo(p) definita sopra.


 � 0, x<1
FX (x) = pk , x≥1

{k≥1 : k≤x}
Esercizio 187. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipen-

denti. Caratterizzare Z = X1 + X2 .

È utile ricordare che l’ istante di primo successo in uno schema di
prove indipendenti ripetute può essere associato ad una v.a. Geometrica
di parametro p = P (successo in ogni singola prova). Il primo successo si
può avere alla prima prova o in seguito.
Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ = p ∈ [0, 1]

una v.a. di Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli
è data da
P (X = x) = px (1 − p)1−x , x ∈ {0, 1}.
Notiamo che X è dicotomica, può assumere solo due valori con pro-
babilità P (X = 1) = p e P (X = 0) = 1 − p. Quindi, se sceglia-
mo IX = {1, 2} potremmo scrivere x1 = 0 e x2 = 1 con le rispettive
probabilità. Otteniamo
2
EX = p, σX = M2 − M12 = p(1 − p).
Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernullia-

ne indipendenti, diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza
delle v.a.)
�n �n
xi
P (X1 = x1 , . . . , Xn = xn ) = p i=1 (1 − p)n− i=1 xi
e se volessimo che esattamente k tra di loro rappresentino un successo

(Xi = 1)
�� n � �n�
P Xi = k = P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n
i=1
k
ovvero, per le probabilità totali, basta che si osservi uno degli

� �
n n!
=
k k!(n − k)!
campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente
con probabilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a.
n
�
K= Xi ∼ Bin(n, p)
i=1
che è una Binomiale di parametri n e p dove le Xi ∼ Ber(p) sono

indipendenti (le Xi sono i.i.d.). Otteniamo
n
� n
�
2
EK = E[Xi ] = np, V ar(K) = σX i
= np(1 − p)
i=1 i=1
ed ovviamente per ogni Xi vale Xi ∼ Bin(1, p).

Si può considerare una v.a. Q costruita a partire da Q = K
n e per cui
EK 1 2 q(1 − q)
EQ = = p, V ar(Q) = σ = .
n n2 K n
Se K rappresenta il numero di successi in n prove indipendenti, allora Q
rappresenta la frequenza dei successi.
Concludiamo ricordando che se X ∼ Bin(θ) con θ = (n, p), p ∈ [0, 1]
e n ∈ N, allora il parametro vettoriale θ caratterizza la densità discreta
� �
n k
pk = P (X = k) = p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n}
k
(8.2)
e la distribuzione Binomiale può essere associata alla v.a.
X = "numero di successi in n prove " se P (Successo) = p.
Si vede subito che

1. pk ≥ 0,
�n
2. k=0 pk = 1.
Per verificare la somma ad uno si è usata una somma notevole, la formula

del binomio di Newton
�n � �
n k n−k
a b = (a + b)n .
k
k=0



 � 0, x<0

FX (x) = p k, 0≤x≤n

 0≤k≤n : k≤x

1, x≥n
Osservazione 51. Lo schema detto Bernoulliano è uno schema in cui

si prevedono prove (esperimenti, lanci, estrazioni, selezioni o campiona-
menti) indipendenti.
Esempio 52. Se un determinato pezzo prodotto da un macchinario è
difettoso con probabilità p = 0.03, come possiamo determinare la proba-
bilità che una scatola di 10 pezzi ne contenga esattamente k difettosi con
k ∈ N ∪ {0}.
Si deve considerare
" numero di pezzi difettosi in una scatola" = X ∼ Bin(10, 0.03)
quindi, segue che

 � �
 10
(0.03)k (0.97)n−k , k ∈ IX = {0, 1, 2, . . . , 10}
P (X = k) = k

0, k∈
/ IX .
Esercizio 189. Dimostrare che la Binomiale è chiusa rispetto alla som-

ma. Cioè, se X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼
Bin(n + m, p).
È utile ricordare che il numero di successi su n prove in uno
schema di prove indipendenti ripetute può essere associato ad una v.a.
Binomiale di parametri n e p = P (successo in ogni singola prova). Il
numero di successi può variare da 0 a n.
Multinomiale. Sia X ∼ M N om(θ) dove θ = (N, p1 , p2 , . . . , pn ), N ∈

N e le pi , i = 1, 2, . . . , n sono probabilità tali che p1 + p2 + . . . + pn = 1.
Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni
i = 1, 2, . . . , n, si ha

 0, xi < 0 per qualche i
 N! �n
x1 xn
P (X = x) = p1 · · · p n , i=1 xi = N

 x1 ! · · · xn !
0, xi ≥ N per qualche i
La Multinomiale generalizza la Binomiale (potremmo dire che una Bi-

nomiale a più alternative) e l’evento che si vuole considerare prevede la
realizzazione di xi volte la caratteristica i-esima per ottenere N caratte-

ristiche totali su n prove totali. Nello schema Binomiale si avevano k e
n − k realizzazioni delle caratteristiche "successo" ed "insuccesso" su un
totale di n prove. Si pensi ad un vettore
V = (�(X1 ), �(X2 ), . . . , �(Xn ))
in cui le variabili Xi sono i.i.d. dove �(Xi ) ="il numero di volte che
si è verificato Xi " e la v.a Xi si verifica con probabilità pi . L’evento
(�(Xi ) = xi ) = "Xi si verifica xi volte" ha probabilità pxi i di verificarsi
(oppure P (�(Xi ) = k) = pki ). La probabilità di ottenere la n-upla x =
(x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto
n
�
P (V = x) = pxi i .
i=1
Di tutte
�n le n-uple che si possono ottenere, vogliamo tenere solo quelle per
cui i=1 xi = N . Allora la v.a. X si può ottenere considerando
P (X = x) = P (V = x, |V | = N )
�n �n
dove |V | = i=1 �(Xi ) = i=1 xi . In quanti modi si può ottenere |V | =
N ? In
N!
= |PxN1 ,...,xn |
x1 ! · · · xn !
modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi man-
tenendo però lo stesso numero di ripetizioni per ogni caratteristica x i .
Ogni permutazione ha la stessa probabilità di realizzarsi e quindi
�n
N!
P (X = x) =P (V = (x1 , . . . , xn ), |V | = N ) = px i .
x1 ! · · · xn ! i=1 i
Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi

� �
N ! x1 x2 N x1
P (X = x) = p 1 p2 = p (1 − p1 )N −x1
x1 !x2 ! x1 1
=P (V1 = x1 , V2 = N − x1 )
con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ).
È utile ricordare che se la Binomiale è associata ad un esperimen-

to, allora il numero di successi in ogni esperimento su n espe-
rimenti in uno schema di prove indipendenti ripetute (in ogni singolo
esperimento) può essere associato ad una v.a. Multinomiale di parametri
pi = P (successo in ogni singola prova relativa all’esperimento i-esimo) e
N =numero totale di successi. Il numero totale di successi si può ottenere
in un solo esperimento o come somma dei successi ottenuti in tutti gli
esperimenti.
Ipergeometrica. Sia X ∼ Iperg(θ) con θ = (M1 , M2 ) ∈ N2 ,

�M1 ��M2 �
pm1 ,m2 = �m 1 m2
M1 +M2
�
m1 +m2
è la probabilità di estrarre (ad esempio da una scatola) un gruppo di

m1 + m2 oggetti prendendone m1 dal gruppo di M1 ed m2 dal gruppo di
M2 . Possiamo semplificare scrivendo X ∼ Iperg(K, N − K) e
�K ��N −K �
k
pk,n−k = �Nn−k
� = pk .
n
Esercizio 191. Si consideri X ∼ Iperg(K, N −K). Determinare spet(X).
La v.a. Ipergeometrica viene utilizzata negli schemi di campiona-

mento (o scelta) in blocco, dove cioè non è previsto il reimbussolamento
(schema senza ripetizione). Inoltre, rappresenta la probabilità di estrarre
da un urna in cui sono inseriti oggetti divisi in gruppi (due in questo caso,
n nel caso delle Ipergeometrica a n alternative). Se in un scatola ci sono
K palline rosse e N − K palline nere per un totale di N palline, allora
estraendo n palline a caso,
P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk .
Osservazione 52. Lo schema detto in blocco è uno schema in cui le

prove (esperimenti, lanci, estrazioni, selezioni o campionamenti) sono
dipendenti.
Nella Ipergeometrica a più alternative si considerano n gruppi di nu-

merosità M = M1 + M2 + . . . + Mn , di ogni gruppo si vogliono estrarre
mi oggetti (con i = 1, 2, . . . , n) per un totale di m = m1 + m2 + . . . + mn
oggetti (la cardinalità degli oggetti estratti, ad esempio da una scatola).
La probabilità di effettuare una simile estrazione è data da
� n �M i �
i=1 mi
�M �
m
che è la densità discreta di una Ipergeometrica a n alternative. Per n = 2

si ottiene pm1 ,m2 introdotta sopra.
È utile ricordare che la v.a. Ipergeometrica è associata allo schema di

prove ripetute non indipendenti.
Poisson. Sia X ∼ P ois(θ) con θ = λ > 0. Allora
λk −λ
pk = P (X = k) = e , k ∈ IX = N ∪ {0}.
k!
Notiamo che si sta usando la scrittura xk = k con k ∈ IX = N ∪ {0} per
pura comodità, in generale avremmo scritto
λxk −λ
pk = P (X = xk ) = e , k ∈ IX = N ∪ {0}.
xk !
Verifichiamo che sia una distribuzione di probabilità:
1. pk ≥ 0,
2.
� ∞
�
−λ λk
pk =e =1 (espansione di Maclaurin)
k!
k≥0 k=0
Si ottiene
�
EX = x k pk
k≥0
∞
� λk
=e−λ (per k = 0 il primo addendo è nullo)
(k − 1)!
k=1
∞
� �∞
λk−1 λs
=λe−λ = λe−λ
(k − 1)! s=0
s!
k=1
=λ (espansione in serie della funzione esponenziale).
V ar(X) = EX 2 − (EX)2 = λ.
Infatti,
∞
� � λk−1+1∞
λk
EX 2 =e−λ k2 = e−λ k
k! (k − 1)!
k=0 k=1
�∞ s+1
λ
=e−λ (s + 1) = λEX + λ.
s=0
s!


 � 0, x<0
FX (x) = pk , x≥0

k≥0 : k≤x
Esercizio 192. Dimostrare che una v.a. di Poisson è chiusa rispetto

alla somma, che vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 )
e X2 ∼ P ois(λ2 ).
La differenza di due v.a. di Poisson segue una legge detta di Skellam,
e−(λ1 +λ2 ) ��
Z = X1 − X 2 ∼ I |z| λ 1 λ 2 , z∈Z
(λ2 /λ1 )z/2
dove Iν è la funzione di Bessel del primo tipo modificata.
La v.a. di Poisson viene anche detta legge degli eventi rari perché,
fissato λ, si ha la convergenza in legge
Bin(n, λ/n) → P ois(λ) per n → ∞
partendo quindi da successi legati alla probabilità p = λ/n che decresce

al crescere delle prove.
8.2. VARIABILI CONTINUE - 211
8.2 Variabili continue ✍

Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per
le quali possiamo calcolare la corrispondente legge di densità fX .
Uniforme. Sia X ∼ U nif (θ1 , θ2 ) con θ = (a, b) ∈ R2 , a < b. Allora,
1
fX (x) = 1[a,b] (x), x ∈ R.
b−a
Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di

Lebesgue dell’insieme (a, x] ⊂ (0, 1).
1 b 2 − a2 a+b
EX = =
b−a 2 2
che è la media aritmetica di a e b,
(b − a)2
V ar(X) =
12

 0, x≤a
FX (x) = (x − a)/(b − a), a≤x≤b .

1, x≥b
Esercizio 194. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z =

X +Y.
Esercizio 195. Una v.a. Uniforme è continua o assolutamente conti-

nua?
Osservazione 53. Siano X1 , X2 due v.a. indipendenti e uniformi in

(0, 1), allora X = (X1 , X2 ) è uniforme in Q = (0, 1) × (0, 1) e scriveremo
X ∼ U nif (Q). Se invece R = (0, a) × (0, b) è un rettangolo con a, b > 0
e X ∼ U nif (R), cioè il vettore X è uniforme in R, allora
1 1
fX (x) = fX1 ,X2 (x1 , x2 ) = 1R (x1 , x2 ) = 1R (x), x = (x1 , x2 )
|R| |R|
dove |R| = area(R) = ab. Si vede subito che

1 1 1
1R (x1 , x2 ) = 1(0,a) (x1 ) · 1(0,b) (x2 ).
|R| a b
Inoltre, vale una forma continua di impostazione classica della probabili-
tà, cioè se X ∼ U nif (R), per ogni A ⊆ R, si ha
|A|
P (X ∈ A) = .
|R|
Esponenziale. Sia X ∼ Exp(θ) con θ = λ > 0. Allora
fX (x) = λe−λx 1[0,∞) (x), x ∈ R.
1 1
EX = , V ar(X) =
λ λ2
�
0, x≤0
FX (x) = λ > 0.
1 − e−λ x , x≥0
Esercizio 197. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y .
Calcolare fZ dove Z = X + Y .
Gamma. Sia X ∼ Gamma(θ) con θ = (λ, ν) ∈ R2+ . Allora,
λν ν−1 −λx
fX (x) = x e 1[0,∞) (x), x∈R
Γ(ν)
dove � ∞
Γ(z) = uz−1 e−u du, z>0 (8.3)
0
è la funzione Gamma. Si ottiene che
ν ν
EX = , V ar(X) = 2
λ λ
�
0, x≤0
FX (x) =
Γ(x, λ, ν), x > 0
dove
� x
λν ν−1 −λu
Γ(x, λ, ν) = u e du
0 Γ(ν)
è la Gamma incompleta.
Esercizio 199. Dimostrare che la Gamma è chiusa rispetto alla somma.
Diamo alcune proprietà molto importanti della funzione Gamma:
• (la formula di duplicazione) per m ∈ N, z > 0, si ha che
�m � �
k−1 m−1 1
Γ z+ = (2π) 2 m 2 −mz Γ(mz). (8.4)
m
k=1
• (la formula di riflessione) per z > 0, si ha che

π
Γ(z)Γ(1 − z) = . (8.5)
sin πz
• (la funzione fattoriale) per z > 0, si ha che
Γ(z + 1) = z!, per z ∈ N, (8.6)
Γ(z + 1) = zΓ(z), per z ∈ R.
Dalle proprietà del fattoriale,

Γ(1) = Γ(2) = 1.
Inoltre, per m = 2, si ottiene
� � √
1 4π
Γ(z)Γ z + = z Γ(2z)
2 4
dalla quale si vede subito che
� � � �
1 √ 3 1√
Γ = π, Γ = π, ... .
2 2 2
Esercizio 201. Dimostrare che Γ(z) = (z − 1)! se z ∈ N.
Esercizio 202. Calcolare limz→−1 Γ(z) utilizzando le proprietà della fun-
zione Gamma.
Cauchy. Se X ∼ Cauchy,
1
fX (x) = , x ∈ R.
π(1 + x2 )
EX =∞
1 1
FX (x) = + arctan(x), x ∈ R.
2 π
Esercizio 203. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞).
Esercizio 204. Quale trasformata associamo ai momenti della Cauchy

e per quali valori è definita?
La funzione caratteristica di una Cauchy è data da
φX (ξ) = e−|ξ| , ξ ∈ R.
Normale e Normale standard (Gaussiana). Sia X ∼ N (θ) con

θ = (µ, σ 2 ) e µ ∈ R, σ 2 > 0. Allora
1 (x−µ)2
fX (x) = √ e− 2σ 2 , x∈R
2πσ 2
EX = µ, V ar(X) = σ 2
� �
1 x−µ
FX (x) = √ Φ √ , x∈R
2σ 2 2σ 2
dove
 � x 2
e−u


� x −u2 √ du,
 x≤0
e −∞ π
Φ(x) = √ du = � x −u2
−∞ π  1
 e
 + √ du, x≥0
2 0 π
è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta

Normale standard. Se X ∼ N (0, 1) e Y = aX +b, si ottiene Y ∼ N (b, a2 ).
Inoltre, se X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per

ogni i, allora
� �
� � �
2 2
a+ bi Xi ∼ N a + bi µ i , bi σi .
i i i
La funzione caratteristica di una Normale standard è data da

ξ2
φX (ξ) = e− 2 , ξ ∈ R. (8.7)
Infatti,
∞
� (iξ)r
φX (ξ) = Mr (X)
r=0
r!
dove
�
EX 2k , r = 2k
Mr (X) = k∈N
EX 2k+1 = 0, r = 2k + 1
e
� 2
− x2 � ∞ − x2
2
2k 2k e 2k e Γ(k + 1/2)
EX = x √ dx = 2 x √ dx = 2k √
R 2π 0 2π π
√
dove si è posto x = y (ricordiamo anche che Γ(1/2) = π 1/2 ). Dalla
formula di duplicazione della Gamma, si ottiene per r = 2k
√
k 1 4π Γ(2k) 1 2k Γ(2k) 1 Γ(2k + 1) 1 (2k)!
Mr (X) = 2 √ k
= k = k = k
π 4 Γ(k) 2 k Γ(k) 2 Γ(k + 1) 2 (k)!
e Mr (X) = 0 per r = 2k + 1. Si ottiene la (8.7) dalla serie

∞
� (iξ)2k 1 (2k)!
φX (ξ) = , ξ∈R
(2k)! 2k (k)!
k=0
e ricordando che i2 = −1.

Esercizio 205. Dimostrare che Mr (X) = 0 per r = 2k + 1, k ∈ N.
Esercizio 206. Calcolare la funzione caratteristica di Y ∼ N (µ, σ 2 ).
Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di

v.a. Gaussiane (non necessariamente indipendenti!!), allora X è detta
v.a. Normale (o v.a. Gaussiana) multidimensionale. La densità di X è
la densità multidimensionale
� �
1 1 −1 T
fX (x) = � exp − (x − µ)Σ (x − µ)
(2π)n |Σ| 2
dove x = (x1 , . . . , xn ) ∈ Rn , µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore

(x − µ) trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la
matrice inversa di
 
σ1,1 σ1,2 . . . σ1,n
 σ2,1 σ2,2 . . . σ2,n 
 
Σ= . .. .. ..  = {σi,j } con 1 ≤ i, j ≤ n.
 .. . . . 
σn,1 σn,2 . . . σn,n
La matrice Σ è la matrice di varianze e covarianze (o semplicemente, delle

covarianze) di X e
σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i
per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi
la diagonale di Σ è costituita dalle varianze degli elementi del vettore X.
Ovviamente se le componenti sono indipendenti si ottiene
Σ = diag{σi,i }1≤i≤n
mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per

ogni i, Σ = σ 2 I dove I è la matrice identità.
Scriveremo X ∼ N (θ) dove θ = (µ, Σ) ha dimensione n × (n + 1).
Weibull. Sia X ∼ W eibull(θ) con θ = (λ, n) e λ > 0, n ∈ N. Allora,

λn
fX (x) = xn−1 e−λx 1[0,∞) (x), x∈R
(n − 1)!
che è quindi una Gamma con ν� = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ)
n
sono v.a. indipendenti, allora i=1 Xi ∼ W eibull(λ, n). Inoltre, per
quanto
�n appena
�m detto, la Weibull è chiusa rispetto alla somma, infatti
i=1 X i + j=1 X j ∼ W eibull(λ, n + m).
Beta. Sia X ∼ Beta(θ) con θ = (α, γ) ∈ R2+ . Allora,
1
fX (x) = xα−1 (1 − x)γ−1 1[0,1] (x), x∈R
B(α, γ)
Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero)

sono detti gradi di libertà. Allora
� ν � ν ��−1 ν x
fX (x) = 2 2 Γ x 2 −1 e− 2 x ≥ 0, ν > 0
2
e si ha EX = ν e V ar(X) = 2ν. Inoltre:

�n
se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora i=1 Ni2 ∼ χ2 (n),
�n �n
se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora i=1 X i ∼ χ2 ( i=1 νi ),
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1

X1 +X2 ∼ Beta(ν1 /2, ν2 /2),
X1 /ν1
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X2 /ν2 ∼ F (ν1 , ν2 ).
T di Student. La variabile prende il nome da Gosset, ingegnere presso

Guinnes che si firmava come Student. Se X ∼ T ,
1 1
fX (x) = �1 ν
�√ � � ν+1 x ∈ R, ν > 0
B 2, 2 ν 1− x2 2
ν
che è simmetrica e tende alla normale al crescere di n, si ha:

�ν � √
se Z ∼ N (0, 1) e G ∼ Gamma ν
2, 2 , Z ⊥ G, allora Z/ G ∼ T (ν).
La variabile F. La variabile di Fisher-Snedecor ha legge di densità

µ ν µ
µ2ν2 x 2 −1
fX (x) = �µ ν � µ+ν , x ≥ 0, µ, ν > 0
B 2 , 2 (µx + ν) 2
Quartile, decile, centile

Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R
sappiamo che P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli
disgiunti Dj tali che D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si
definiscono quartili, quei valori per cui α = 1/4 ed in particolare
Dj = [dj , dj+1 ), j = 0, 1, 2, 3
dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui
α = 1/10 e
Dj = [dj , dj+1 ), j = 0, 1, . . . , 9
dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei

valori per cui α = 1/100 e
Dj = [dj , dj+1 ), j = 0, 1, . . . , 99
dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i

quantili di ordine α = 1/n. Il quantile di ordine 1/2 è la mediana.
Inoltre, possiamo dire che il quantile di ordine α con α ∈ (0, 1), di
una v.a. X è l’estremo inferiore zα tale che
zα = inf{x : P (X ≤ x) ≥ α}.
Notiamo che FX (x) = P (X ≤ x) è continua da destra quindi zα è un

minimo.
Come si legge una tavola? Se voglio trovare z tale che
P (Z ≤ z) = Φ(z) = 0.95
devo cercare 0.9500 nella tavola (se non c’è, posso considerare il valore
più vicino. Si dovrebbe procedere in modo diverso ma il valore più
vicino è sufficiente per il momento). Tale valore corrisponde alla riga 1.6
e alla colonna 0.05. Allora, z = 1.6 + 0.05 = 1.65 è il valore cercato.
Tabella 8.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1).
z 0.00 0.01 0.02 0.03 0.04
0.0 0.50000 0.50399 0.50798 0.51197 0.51595
0.1 0.53983 0.54380 0.54776 0.55172 0.55567
0.2 0.57926 0.58317 0.58706 0.59095 0.59483
0.3 0.61791 0.62172 0.62552 0.62930 0.63307
0.4 0.65542 0.65910 0.66276 0.66640 0.67003
0.5 0.69146 0.69497 0.69847 0.70194 0.70540
0.6 0.72575 0.72907 0.73237 0.73565 0.73891
0.7 0.75804 0.76115 0.76424 0.76730 0.77035
0.8 0.78814 0.79103 0.79389 0.79673 0.79955
0.9 0.81594 0.81859 0.82121 0.82381 0.82639
1.0 0.84134 0.84375 0.84614 0.84849 0.85083
1.1 0.86433 0.86650 0.86864 0.87076 0.87286
1.2 0.88493 0.88686 0.88877 0.89065 0.89251
1.3 0.90320 0.90490 0.90658 0.90824 0.90988
1.4 0.91924 0.92073 0.92220 0.92364 0.92507
1.5 0.93319 0.93448 0.93574 0.93699 0.93822
1.6 0.94520 0.94630 0.94738 0.94845 0.94950
1.7 0.95543 0.95637 0.95728 0.95818 0.95907
1.8 0.96407 0.96485 0.96562 0.96638 0.96712
1.9 0.97128 0.97193 0.97257 0.97320 0.97381
2.0 0.97725 0.97778 0.97831 0.97882 0.97932
2.1 0.98214 0.98257 0.98300 0.98341 0.98382
2.2 0.98610 0.98645 0.98679 0.98713 0.98745
2.3 0.98928 0.98956 0.98983 0.99010 0.99036
2.4 0.99180 0.99202 0.99224 0.99245 0.99266
2.5 0.99379 0.99396 0.99413 0.99430 0.99446
2.6 0.99534 0.99547 0.99560 0.99573 0.99585
2.7 0.99653 0.99664 0.99674 0.99683 0.99693
2.8 0.99744 0.99752 0.99760 0.99767 0.99774
2.9 0.99813 0.99819 0.99825 0.99831 0.99836
3.0 0.99865 0.99869 0.99874 0.99878 0.99882
3.1 0.99903 0.99906 0.99910 0.99913 0.99916
3.2 0.99931 0.99934 0.99936 0.99938 0.99940
3.3 0.99952 0.99953 0.99955 0.99957 0.99958
3.4 0.99966 0.99968 0.99969 0.99970 0.99971
3.5 0.99977 0.99978 0.99978 0.99979 0.99980
3.6 0.99984 0.99985 0.99985 0.99986 0.99986
3.7 0.99989 0.99990 0.99990 0.99990 0.99991
3.8 0.99993 0.99993 0.99993 0.99994 0.99994
3.9 0.99995 0.99995 0.99996 0.99996 0.99996
Tabella 8.2: Tavola della funzione di ripartizione Φ(z) di una N (0, 1).
z 0.05 0.06 0.07 0.08 0.09
0.0 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.91149 0.91308 0.91466 0.91621 0.91774
1.4 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99991 0.99992 0.99992 0.99992 0.99992
3.8 0.99994 0.99994 0.99995 0.99995 0.99995
3.9 0.99996 0.99996 0.99996 0.99997 0.99997
A
Somme Notevoli
n
� n
�
1. c=c+ c = c(n + 1) (banale!)
k=0 k=1
�n n
� n(n + 1)
2. k= k= (somma dei primi n numeri)
k=0 k=1
2
�n �n
n(n + 1)(2n + 1)
3. k2 = k2 = (somma dei primi n quadrati)
k=0 k=1
6
�n �n � �
n(n + 1) 2
4. k3 = k3 = (somma dei primi n cubi)
k=0 k=1
2
n
�
5. (2k − 1) = n2 (verificare!)
k=1
n �
� n�
6. = 2n (verificare!)
k=0
k
�∞
1
7. =e (verificare!)
k=0
k!
�∞
(−1)k 1
8. = (verificare!)
k=0
k! e
�∞
k
9. =1 (verificare!)
k=1
(k + 1)!
n−1
� xm − x n
10. xk = (verificare!)
k=m
1−x
11. calcolare 10. per m = 0
12. calcolare 10. per m = 0 e n → ∞ se |x| < 1
� n �2 n n n
� � � � �
13. xk = xk xs = x2k + xk xs (verificare!)
k=1 k=1 s=1 k=1 0≤k≤n
0≤s≤n
k�=s
B
I modelli lineari
Il modello lineare generale

Il modello lineare o qualunque modello linearizzabile assume la forma
matriciale
Y = Xβ + �
dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i
vettori Y, � ∈ Rn e il secondo è costituito da componenti aleatorie, β ∈
Rk+1 è il vettore dei coefficienti da stimare, le assunzioni di base che si
fanno sono
1. E[�] = 0,
2. Σ� = E[��t ] = σ�2 In
dette anche ipotesi interne e determinano appunto il modello lineare ge-
nerale (MLG). Tale modello prende il nome di modello lineare normale
se in aggiunta a tali ipotesi si assume
� ∼ M N (0, Σ� ).
Bisogna notare che in generale tra le Y e le X (qui intendiamo X =
{X1 , X2 , . . .} variabili osservate) si ipotizza una relazione del tipo
Y = f (X) + �
in cui � è comunque un termine residuale aleatorio mentre la forma della
f (·) dipenderà dalla natura delle X, sia per quanto riguarda la lineariz-
zabilità che la trasformazione necessaria nel caso si passi da variabili a
mutabili (vedi modelli anova ad esempio). In breve si otterrà
E[Y|X] = f (X) = Aβ
dove A è una matrice strutturale del modello e β è ancora un vettore dei
coefficienti, entrambi saranno individuati diversamente nei tre casi in cui
Appendice B. I modelli lineari
• le X sono tutte quantitative ⇒ si ha un modello di regressione,

• le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza,
• le X sono in parte quantitative ed in parte qualitative ⇒ si ha un
modello di analisi della covarianza
e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’a-
nalisi è quello di studiare la dipendenza tra la variabile dipendente Y e
le variabili esplicative X.
Stima dei parametri

Stima dei minimi quadrati
Il modello da identificare è il MLG (a rango pieno, detto così per questioni
chiarite sotto) quindi senza assunzioni sulla forma distributiva di �, le
stime sono date da Ŷ = Xβ̂ e l’idea è quella di minimizzare la forma
quadratica
M Q(β̂) = (Y − Xβ̂)t (Y − Xβ̂) = et e.
La soluzione è data dal vettore β̂ = (Xt X)−1 Xt Y.
Teorema 35. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra
specificate per � v.a. qualunque si ha che β̂ è l’unica stima lineare non
distorta di β di varianza minima nella classe degli stimatori lineari non
distorti.
Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere
det(Xt X) �= 0,
deve essere cioè rango(Xt X) = k + 1 (rango pieno). Una tale condizione

è verificata se non ci sono colonne di X correlate tra loro (per cui quindi
ρ2 � 1, massima correlazione) cosa che risulta anche scomoda sul piano
logico visto che una forte correlazione tra due variabili indurrebbe ad
escludere dal modello una di esse (essendo di pari informazione) stando
però di fatto molto attenti agli effetti finali. La stima della varianza di �
è data dalla formula
1 et e
σ̂�2 = (Y − Xβ̂)t (Y − Xβ̂) = .
n−k−1 n−k−1
Elenchiamo alcune proprietà:
1. gli stimatori dei MQ β̂ e σ̂�2 sono corretti,
2. lo stimatore dei MQ β̂ ha varianza uniformemente minima nella

classe degli stimatori lineari di β,
3. la varianza dello stimatore è σβ̂2 = σ 2 (Xt X)−1 ,
� �
4. si ha il vettore dei residui e = In − X(Xt X)−1 Xt � ed inoltre
- E[e] = 0
- E[et e] = σ 2 (n − k − 1)
5. si ha σ 2 = σY2 = σ�2 .
Riguardo alle proprietà appena elencate osserviamo soltato che
E β̂ =E[(Xt X)−1 Xt Y]
=E[(Xt X)−1 Xt (Xβ + �)]
=E[(Xt X)−1 Xt Xβ] + E[(Xt X)−1 Xt �]
=E[β] + (Xt X)−1 Xt E[�]
=β,
σβ̂2 =E[(β̂ − β)(β̂ − β)t ]

�� t �
=E (Xt X)−1 Xt � (Xt X)−1 Xt �
� � � �
= (Xt X)−1 Xt E[��t ] X(Xt X)−1
=σ 2 (Xt X)−1
dove si è usato il fatto che E[��t ] = σ 2 In .

Notiamo che e rappresenta l’errore osservato mentre � è una v.a. che
rappresenta il modello non deterministico (possiamo dire che e è una
possibile realizzazione del vettore aleatorio �).
Stima di massima verosimiglianza

Sappiamo che gli stimatori di massima verosimiglianza possono non es-
sere corretti o unici comunque risultano legati attraverso la sufficienza a
molte proprietà importanti tanto da poter dire che se esiste uno stimato-
re corretto ed efficiente, allora è di massima verosimiglianza. Resta poi
aperta la questione riguardante la forma distributiva dei dati (o meglio
degli errori) dalla quale non si può prescindere nella verosimiglianza come
invece avviene nei minimi quadrati, in generale le due stime coincidono
ma assumendo che gli errori � si distribuiscano normalmente otteniamo
che le stime dei minimi quadrati non saranno piú non distorti di varianza
minima (corretti ed efficienti) nella classe degli stimatori (corretti) lineari
ma nella classe di tutte le stime possibili. Notiamo che lo stimatore di
massima verosimiglianza
1
σ̃�2 = (Y − Xβ̂)t (Y − Xβ̂)
n
non è corretto mentre lo è β̃ che coincide con lo stimatore dei MQ (β̃ = β̂),
scriviamo allora
n
σ̂�2 = σ̃ 2
n−k−1 �
e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i
seguenti fatti:
1. β̂ e σ̂�2 sono corretti,
2. β̂ e σ̂�2 sono congiuntamente sufficienti per β e σ�2 quindi sono di

varianza uniformemente minima nella classe degli stimatori di β e
σ�2 ,
3. β̂ ∼ M N (β, σ�2 (Xt X)−1 ),

(n−k−1)σ̂�2
4. σ�2 ∼ χ2(n−k−1) ,
5. β̂ e σ̂�2 sono stocasticamente indipendenti.

Ricordiamo che parleremo di modello lineare normale nel caso la forma
distributiva di � sia nota e Normale mentre parleremo di modello lineare
generale quando non si fanno assunzioni sulla forma distributiva della �
tranne quelle fatte nel teorema di Gauss-Markov.
Il caso di una variabile esplicativa
Riprendiamo dalla Sezione 3.3.2. Sia osservato un campione del tipo
(y, x) con y, x ∈ Rn , il modello lineare (detto modello lineare semplice)
sia
y i = β 0 + β 1 x i + �i
con �i ∼ N (0, σ�2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono
date da
�XY
σ
β̂0 = ȳ − β̂1 x̄, β̂1 = 2 ,
�X
σ
e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono
corretti. Si ottiene poi
� 2
2 2 � xi 2 σ�2
σ β0 = σ � , σ β = �
n (xi − x̄)2 1
n (xi − x̄)2
dalla matrice della varianza (o delle covarianze)

� �
E β̂02 E β̂0 β̂1
σ 2 (Xt X)−1 = .
E β̂1 β̂0 E β̂12
Uno stimatore corretto della varianza σ�2 è dato da

�
(yi − ŷi )2
σ̂�2 =
n−2
ed infine, ricordando che �i ∼ N (0, σ�2 ), si ha
(n − 2)σ̂�2
β̂0 ∼ N (β0 , σβ20 ), β̂1 ∼ N (β1 , σβ21 ), ∼ χ2(n−2)
σ�2
se σ�2 è nota quindi possiamo dire che la standardizzazione dei coefficienti

porta alla distribuzione N (0, 1) altrimenti si ha
β̂0 − β0 β̂1 − β0
∼ t(n−2) , ∼ t(n−2) .
σ̂β0 σ̂β0
Tornando alla formulazione matriciale scriviamo
σβ̂2 = σ�2 (Xt X)−1 , β̂j ∼ N (βj , σ�2 [(Xt X−1 )]j+1,j+1 )
La devianza totale campionaria (DT) può essere così decomposta

n
� n
� n
�
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
i=1 i=1 i=1
i cui addendi a secondo membro corrispondono rispettivamente alla DR

(devianza di regressione) e alla DE (devianza dell’errore), quindi
DT = DR + DE
ed è possibile esplicitare una misura della bontà di adattamento del
modello attraverso il coefficiente di determinazione così definito
DR DE
R2 = =1− .
DT DT
Si vede subito che:
1. 0 ≤ R2 ≤ 1,
2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione,
3. R2 = 0: non vi è relazione lineare tra x e y,
4. tanto più R2 → 1, tanto più l’accostamento è migliore,
5. R2 è il quadrato del coefficiente di Bravais-Pearson.
Modelli lineari generalizzati

Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈
Rn , allora il modello postula l’uguaglianza E[Yi |Xi ] = µi ed in generale
µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione
lineare interveniamo su µi attraverso la riparametrizzazione indotta da
una funzione link g(·) che ammette la funzione inversa g(µi ) = xti β e µi =
g −1 (xti β), al variare di tale funzione otterremo modelli diversi, lineari
generalizzati. Alcuni esempi sono dati dalle seguenti funzioni:
1. funzione identità: g(µi ) = µi ,
E[Yi |Xi ] = xti β
ed è il caso del modello lineare generale,

2. funzione logit: g(µi ) = logit(µi ),
exp{xti β}
E[Yi |Xi ] =
1 + exp{xti β}
dove la funzione link è data da
� �
µi
logit(µi ) = ln
1 − µi
ed è il caso del modello logistico lineare,
3. funzione logaritmo: g(µi ) = ln(µi ),
E[Yi |Xi ] = exp{xti β}
ed otteniamo un modello loglineare.
Il modello logistico lineare

A differenza del modello lineare classico nel quale si studia la dipendenza
di una variabile quantitativa da un insieme di variabili quantitative e/o
qualitative, il modello logistico lineare costituisce uno strumento utile per
lo studio della dipendenza tra una variabile qualitativa e un insieme di
variabili quantitative e/o qualitative. La variabile dipendente non è più
quantitativa ma qualitativa, può essere dicotomica o no. Assumiamo che
la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed in
particolare dato il campione x di dimensione n si ha P (Y = 1|X = x) =
π(x) mentre il rapporto odds è dato da
P (Y = 1|X = x) π(x)
odds(x) = = .
P (Y = 0|X = x)) 1 − π(x)
Considerata la probabilità
exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
π(x) =
1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
si ottiene odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ), il modello logit,

ossia il logaritmo dell’odds, diventa allora una funzione lineare
logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk
e possiamo dire che βj rappresenta l’influenza della variabile Xj finaliz-

zato ad ottenere Y = 1. È evidente ora che se P (Y = y) = θ y (1 − θ)1−y
( quindi se Y è Bernoulliana ) si ha E[Y ] = θ e se Y = {Y1 , . . . , Yn } e
θ = {θ1 , . . . , θn } si ha
n
�
P (Y|θ) = θiYi (1 − θi )1−Yi
i=1
e molto importante V ar(Yi ) = θi (1 − θi ) quindi non si possono fare le

assunzioni di omoschedasticità. La riparametrizzazione che adottiamo è
E[Yi ] = θi = π(xi ), i = 1, . . . , n e
� � � �
θi π(xi )
logit(θi ) = ln = logit(xi ) = ln
1 − θi 1 − π(xi )
= β0 + β1 xi1 + β2 xi2 + . . . + βk xik = xti β
C
Svolgimenti, Tracce, Soluzioni
Esercizio 4. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) rica-
viamo media x̄ e varianza σ̄ 2 . La stima puntuale del prezzo medio è la
media campionaria. Non interviene la varianza campionaria che invece
risulta essere un informazione importante. Per tale motivo cerchiamo
una stima intervallare e rispondiamo al secondo punto. Supponiamo che
X ="prezzo" si distribuisce come una normale di media µ e varianza σ 2 ,
le stime trovate sono µ̂ = x̄ e σ̂ 2 = σ̄ 2 quindi la variabile standardizzata
X −µ
Z= per cui si ha X = µ + σZ
σ
ci consente di definire gli estremi di interesse per l’intervallo che stiamo
cercando. La variabile Z è la normale standard, le quantità zα codifi-
cati nelle tavole dei percentili della Z secondo la relazione P (z α2 < Z ≤
z1− α2 ) = 1 − α ci consentono di trovare x1 , x2 tale che P (x1 < X ≤ x2 ) =
1 − α dalle relazioni
x1 = x̄ + σ̄z α2 e x2 = x̄ + σ̄z1− α2 . (C.1)
Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i per-
centili che ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica
e centrata in zero. Si osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ).
Esercizio ??. Le misure considerate sono del tipo µ : A �→ [0, 1] do-

ve A = B(A) è la σ−algebra di Borel costruita da A ⊂ R, cioè tutti i
Boreliani su A dove A è dato dai diversi supporti delle diverse misure.
Quindi µ prende sempre valori in B(A). Dalla funzione f (x) = x2 otte-
niamo otteniamo sempre controimmagini f −1 ((α, ∞]) ∈ B(A), quindi f
è misurabile.
Esercizio ??.
Appendice C. Svolgimenti, Tracce, Soluzioni
1. {f > 1} = {x ∈ R : log x > 1} = {x ∈ R : x > e} = (e, +∞);

2. {f > 0} = (−∞, −1).
Esercizio 11. Dato Ω = B ∪ B̄, si ottiene
P (A ∩ Ω) = P (A ∩ B) + P (A ∩ B̄) = P (A)P (B) + P (A ∩ B̄)
dove si sono considerate l’intersezione con un evento e l’indipendenza di

A e B. Allora,
� �
P (A ∩ B̄) = P (A) 1 − P (B) = P (A)P (B̄).
Esercizio 21.
a) per n = 1, 2, . . . , 13
n!(13 − n)! 1
P (tutte minori o uguali ad n) = = �13�
13! n
b) �13−n�
P (tutte maggiori di n) = �13
n
� , n ≤ 13 − n (C.2)
n
e
P (tutte maggiori di n) = 0, n > 13 − n (C.3)
c)
1
P (tutte di cuori) =
4
Esercizio 22.
1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4
2. (5/9)2 · (4/9)2
3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅}
� �
4. 2 · (5/9)2 · (4/9)2 − 2 · 0
5. 2 · (5/9)2 · (4/9)2
Esercizio 23. Si possono considerare 9 oggetti da riporre in 3 scatole,
allora in quanti modi posso disporli? I numeri da 1 a 9 indicano come un
etichetta l’oggetto che metto in una scatola (o lo squalo che attraversa il
tunnel). In particolare,
1. se considero la scatola A e la scatola BC con P (A) = 1/3 e P (BC) =

2/3, ottengo
� � � �3 � �6
9 1 2
;
3 3 3
2. se considero le scatole A, B, C ottengo

� � � �2 � �7 � � � �4 � �3
9 1 2 7 1 1
· · 1;
2 3 3 4 2 2
3. se considero tutte le permutazioni delle tre scatole,

� � � �3 � �6
9 1 2
3! .
3 3 3
Esercizio 23, alternativo. Come sopra considero le scatole, se metto

un oggetto nella scatola A, scrivo A. Se metto un oggetto nella scatola
B, scrivo B. Lo stesso con C. Alla fine degli oggetti (o quando tutti
gli squali avranno attraversato il tratto di mare) avrò una sequenza di 9
lettere data da A, B, C. Allora,
1. devo avere AAA e tutti Ac (cioè B o C) in |P3,6

9
| modi ognuno con
probabilità (1/3) (2/3) ;
3 6
2. devo avere AA, BBBB e CCC in uno dei modi in cui possono
comparire in una sequenza di nove lettere e con le probabilità ri-
spettivamente date da (1/3)2 , (1/3)4 e (1/3)3 . Si hanno |P2,4,3
9
|
modi possibili;
3. come sopra, considero 3! = |P3 | volte la probabilità del primo punto.

�1��48�
Esercizio 24. 1) p = /|C49,5 |; 2) p; 3) (1 − p)7 ; 4) p; 5) 0; 6)
� ��25� 1 4
p2 ; 7) 24
2 3 /|C49,5 |
�1��68�
Esercizio 25. 1) p = /|C69,5 |; 2) p; 3) (1 − p)17 ; 4) p; 5) 0; 6)
� ��35� 1 4
p2 ; 7) 34
2 3 /|C69,5 |
Esercizio 26.
1. 0, evento impossibile
2. L’estrazione è senza reimmissione, dunque il numero di palline rosse

estratte è dato dalla legge ipergeometrica. Allora
�5��5�
P (fare 4 lanci) = P (estrarre 4 palline rosse) = 4
�10�2 .
6
3. Gli eventi Ei := (fare i lanci), i = 1, · · · , 5, costituiscono una par-

tizione di Ω poiché ∪5i=1 Ei = Ω mentre Ei ∩ Ej = ∅ per ogni i �= j.
Dunque per legge delle probabilità totali
5
�
P (2 teste) = P (2 teste | Ei )P (Ei ). (C.4)
i=1
È chiaro che P (2 teste | E1 ) = 0 mentre per i = 2, · · · , 5 la

probabilità è data dalla legge binomiale
� �
i 1 2 1 i−2
P (2 teste | Ei ) = ( ) ( ) .
2 2 2
Infine, equivalentemente al punto 1) abbiamo che P (Ei ) è data dalla

legge ipergeometrica
�5�� 5
�
i 6−i
P (Ei ) = �10� .
6
Sostituendo nella (C.4) abbiamo la probabilità richiesta
5 � �
�5�� 5
�
� i 1 i i
P (2 teste) = ( ) �106−i
� .
i=2
2 2 6
4. La probabilità richiesta può essere ottenuta mediante il teorema di
Bayes
P (1 teste | E2 )P (E2 )
P (E2 | 1 testa) = �5
i=1 P (1 testa | Ei )P (Ei )
�2� 1 2 (52)(54)
1 ( 2 ) (10)
6
=� � i � 1 (5i )(6−i
5
5 i )
i=1 1 ( 2 ) 10
(6)
1
= �5 � i � � �� 5 � .
2 i=1 1 (1/2)i 5i 6−i
5. La probabilità richiesta può essere ottenuta semplicemente grazie

alla definizione di probabilità condizionata
� � �5��5�
2 1 2 4
P (1 testa ∩ E2 ) = P (1 testa | E2 )P (E2 ) = � � .
1 22 10
6
Esercizio 39. Si deve considerare

� ∞ � ∞
P (X > x)µ(dx) = P (X ∈ (x, ∞))µ(dx)
�0 ∞ 0
� ∞
= E1(x,∞) (X)µ(dx) = E1(0,X) (x)µ(dx)
0 0
�� ∞ �
=E 1(0,X) (x)µ(dx)
0
(linearità media/intergale)
��
X
=E µ(dx) = EX
0
infatti
� X � X
dx = X e µδ (dx, spet(X)) = X ∈ spet(X).
0 0
Esercizio 47.
1. Passando alle coordinate polari si ha che
x ρ cos θ
lim = lim = 0 uniformemente
z→∞ x2 +y 2 ρ→∞ ρ2
cioè per ogni angolo θ. Quindi il limite è 0.
2. Passando alle coordinate polari e considerando che la funzione è

positiva si trova che diverge positivamente (verificare!!). Inoltre, si
poteva osservare che
2
3x2 + 2y 2 3 xy2 + 2 1
= y2
(x2 + y 2 )2 x2
+2+ x2
y2 x2
e quindi
3x2 + 2y 2 5 1
lim = lim = +∞.
(x,y)→(0,0) (x2 + y 2 )2 x→0 4 x2
3. Si può passare alle coordinate polari, vedere che si ottiene una forma
indeterminata (ma non uniformemente e questo già è sufficiente)
e quindi usare la regola di de l’Hôpital per vedere che il limite
diverge ma non per tutti i valori di θ (non per θ = π/4). Oppure si
può vedere cosa succede sulle rette, basta considerare y = mx per
ottenere
x2 (1 + m2 )(1 − m) + (1 − m)
lim =∞
x→0 2x(1 + m2 )
ma non uniformemente (cioè, non per m = 1). Il limite non esiste,

la funzione in (0, 0) non ammette limite.
2 2 2 2
Esercizio 45. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere
la normale multidimensionale. Quindi κ = 1/π e
2
e−xj
fXj (xj ) = √ , j = 1, 2.
π
Esercizio 51. Sia y = (y1 , . . . , yn )t il vettore da stimare e y� = xβ� una
stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità
� 2 rispetto al vettore β� = (β�0 , β�1 ), ovvero β� tale che
(y − y�)2 = (y − xβ)
� = min dove Q(β)
Q(β) � = �n (yi − β�0 − β�1 xi )2 . Si arriva al sistema
i=1
1 dQ
− = ȳ − β�1 x̄ − β�0 = 0
2n dβ�0
n
1 dQ 1�
− = xi yi − β�1 x̄2 − β�0 x̄ = 0
2n dβ�1 n i=1
che è un sistema di due equazioni in due incognite. La soluzione è unica

ed è quella cercata. Infatti dalla prima equazione si ricava subito β�0 .
Sostituendo nella seconda ed osservando che 2
� x̄2 − x̄ = σ �X2
(è la varianza
campionaria, cioè una stima di σX ) e che i xi yi − x̄ȳ = σ
2
�XY (una stima
della covarianza σXY ), si ricava β�1 . Si verifica poi che il punto trovato è
effettivamente un punto di minimo per Q.
Esercizio 52. p1,2 = 1/3, p2,1 = 1/6, p·,1 = p·,2 = 1/2.
Esercizio 55. Conosco la v.a. X e la sua legge di densità definita su

supp(X), devo trovare la densità della v.a. Y = g(X). Se g è invertibile,
allora X = g −1 (Y ) e posso usare le informazioni in mio possesso, i dati
del problema. Essendo g(x) = x2 continua e X v.a. continua, allora
Y è continua e supp(Y ) = supp(X 2 ). In particolare vale il teorema
fondamentale del calcolo integrale e fY (y) = FY� (y). Dalla f.r.
√
FY (y) =P (Y ≤ y) = P (X 2 ≤ y) = P (|X| ≤ y)
√ √
=P (− y ≤ X ≤ y)
� √y
= √ fX (x)dx
− y
e dalla formula (55), ricaviamo

� �
1 √ √
fY (y) = √ fX ( y) + fX (− y) 1supp(X 2 ) (y).
2 y
Esercizio 57. Conosco fX e fY , voglio trovare fZ . Le v.a. X, Y

sono continue, la funzione g(x, y) = x/y è continua, la composizione di
funzioni continue Z = g(X, Y ) è continua, allora fZ = FZ� . Il supporto
della v.a. Z può essere ricostruito a partire dai limiti
lim g(x, y0 ), lim g(x, y0 ), fissato y0 ∈ (0, 1)

x→0+ x→∞
lim g(x0 , y), lim g(x0 , y), fissato x0 ∈ (0, ∞)

y→0+ x→1−
e si ottiene supp(Z) = (0, ∞). Inoltre la coppia (Y, X) ∈ D dove il

dominio D = (0, 1)×(0, ∞) è una striscia infinita e rappresenta la regione
del piano ammissibile per il problema dato, posso considerare solo i punti
in D ⊂ R2 . La f.r. si ottiene considerando la probabilità
FZ (z) =P (Z ≤ z) = P (X ≤ zY )
(moltiplico per Y ≥ 0 e non cambio il verso della dis.)
e quindi tutti i punti
Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z).
Si vede subito che per ogni z ∈ (0, ∞), Az ∩ D è una regione del piano
che identifica sempre la stessa figura geometrica, ho una sola figura e un
solo caso per z, cioè z > 0. Considerando un riferimento cartesiano (di
assi y, x invertiti), rappresentando Az ∩ D e quindi la retta X = zY , vedo
che per ogni z > 0
� 1 � zy
P (X ≤ zY ) = dy dxf(Y,X) (y, x)
0 0
dove f(Y,X) (y, x) = fX (x)fY (y) per il fatto che X ⊥ Y . Sostituendo si

ottiene
� 1 � zy
P (X ≤ zY ) = dy1(0,1) (y) dxλe−λx
0 0
� 1 � −λzy
� 1 − e−λz
= dy 1 − e =1− , z>0
0 λz
ed avendo una sola figura geometrica,
�
0, z<0
FZ (z) =
P (Z ≤ zY ), z > 0.
Si vede che
1 − e−λz λe−λz
lim FZ (z) = 0, lim FZ (z) = lim 1 − = lim 1 − =0
z↑0 z↓0 z→0 λz z→0 λ
e scriviamo

 0, z≤0
FZ (z) = 1 − e−λz
 1− , z > 0.
λz
Inoltre, limz→∞ FZ (z) = 1. Derivando la f.r. si ottiene la densità
1 � �
fZ (z) = 2
1 − e−λz − λze−λz 1(0,∞) (z), z ∈ R.
λz
Esercizio 61.
1. x ∈ R, x2 − y 2 �= 0 ⇒ def (f ) = {(x, y) ∈ R2 : x �= y},
2. potremmo distinguere i tre casi:
• y − x = 0 ⇒ {(x, y) ∈ R2 : y = x};
• y − x > 0, y ∈ R, x > 0 ⇒ {(x, y) ∈ R2 : y > x > 0};
• y − x < 0, y �= 0, x �= 1 ⇒ {(x, y) ∈ R2 : y < x, x �= 1, y �=
0};
ma def (f ) è più facilmente definito dalle relazioni y ln x > 0 (perché
base di potenza) e x > 0 (perché argomento del logaritmo). Inoltre
con potenza positiva y − x > 0 ha senso considerare anche la base
nulla, y ln x = 0. Quindi:
• y ln x > 0, x > 0 ⇒ def1 = A ∪ B dove
A = {(x, y) ∈ R2 : y < 0, x ∈ (0, 1)},
B = {(x, y) ∈ R2 : y > 0, x > 1}

• y − x > 0, y ln x > 0 ⇒ def2 = C ∪ D dove

C = {(x, y) ∈ R2 : y = 0, y > x},
D = {(x, y) ∈ R2 : ln x = 0, y > x}
con unica informazione di interesse data da x = 1, y > 1. Si
ottiene def (f ) = def1 ∪ def2 .
3. y = 0 ⇒ f = 1 per ogni x, quindi è sempre definita. Resta da
considerare:
√
• y ∈ R, |x| − x − y > 0, x − y > 0 per la quale, dal modulo, si
deve distinguere x ≥ 0 e x ≤ 0. Dal primo sistema si ottiene
x2 > x − y ≥ 0, x ≥ 0
⇒ def1 = {(x, y) ∈ R : x ≤ y < x − x2 , x ≥ 0}
mentre dal secondo sistema si ottiene
x2 > x − y ≥ 0, x ≤ 0
⇒ def2 = {(x, y) ∈ R : x ≤ y < x − x2 , x ≤ 0};
√
• y > 0, |x| − x − y > 0 dove il sistema di interesse (solo per
x > 0) porta a
def3 = {(x, y) ∈ R2 : x > 0, y > 0, y = x − x2 }.
Quindi def (f ) = def1 ∪ def2 ∪ def3 .
4. si deve considerare y �= 0, x2 − y 2 > 0.
5. si deve considerare y − ln x ≥ 0, x > 0.
Esercizio 62. Si consideri il precedente esercizio:

1. supp(f ) = {(x, y) ∈ def (f ) : x �= 0},
2. supp(f ) = {(x, y) ∈ def (f ) : x �= 1}, cioè supp(f ) = def1 ,
3. supp(f ) = {(x, y) ∈ def (f ) : y �= x − x2 }, cioè
supp(f ) = def1 ∪ def2 ,
4. supp(f ) = def (f ),
5. supp(f ) = {(x, y) ∈ def (f ) : y �= ln x}.
Esercizio 65.
1. κ = θ/aθ e θ > 0
2. si ottiene V ∈ (0, log(1 + a)1/2 ) e

 0, v<0
 � �θ
2v
FV (v) = 1 − 1 + 1−e , 0 ≤ v ≤ log(1 + a)1/2


a
1, v > log(1 + a)1/2
3.
� �θ−1
θ 1 1
fZ (z) = a− 1(1/a,∞) (z)
aθ z 2 z
Esercizio 66. Si vede subito che supp(Z) = (0, +∞). Passiamo al

secondo punto dell’ Esempio ??: si vede che D = (0, +∞) × (0, +∞) =
D1 , non occorre costruire una partizione di D che identifichi diverse forme
geometriche per D1 ∩ Az , z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre
un triangolo. Si noti che Az è costituito da tutti i punti (x, y) del piano
tali che x + y ≤ z, cioè anche dai punti con x e y negativi. Invece,
D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0 (si ricordi
che z > 0). Si ottiene la f.r.

 0, z≤0
FZ (z) = P (T ), z ∈ (0, ∞)

1, z = ∞ (in questo caso non va considerato)
dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 =

(0, z), T3 = (z, 0). L’evento certo, non va considerato perché, in casi come
questo, può essere ricondotto a P (T ) con z → ∞. Si costruisca il grafico
e si verifichi quanto appena detto. Dal grafico se vede che
� z � z−x
P (T ) = P ((X, Y ) ∈ T ) = dx dyfX (x)fY (y)dxdy
0 0
e quindi
� z � �
P (T ) = dxλe−λx 1 − e−µ(z−x) dx
0
λ � −µz �
=1 − e−λz − e − e−λz = P (Z ≤ z).
λ−µ
Si ottiene la densità

 λ � −λz �
λe−λz − λe − µe−µz , z ∈ (0, ∞),
fZ (z) = λ−µ
 0, z∈
/ (0, ∞).
Esercizio 69. Si disegni il grafico.
a)
P (Z < z) =P (X + Y < z) = P (Y < z − X)
Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre

0 < X < 1 se X + Y = z > 1. Quindi si ottiene

 0, z≤0



 �
z � z−x −λy
P (Z < z) = 0
dx 0 λe dy, z ∈ (0, 1]




 � 1 � z−x −λy
0
dx 0 λe dy, z > 1
La legge di densità è quindi

 −λz
 1−e


, z ∈ (0, 1]


fZ (z) = e−λz (eλ − 1), z>1





0, altrove
b)
FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ).
c) La somma di due esponenziali di parametro λ è una gamma di

parametri (2, λ), quindi
fZ (z) = λ2 ze−λz 1(0,∞) (z)

Esercizio 71.
1. Si vede che f > 0 se κ > 0. Inoltre
� �
1 θ
1= f (x)dx se θ = 2
≥0 κ= ≥0
R 2σ π
Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞).
2. X ∼ N (0, 1/2θ)
3. Volendo fissare due valori (per√semplificare i conti) si può scegliere
θ = 1 e di conseguenza κ = 1/ π. Si ottiene
e−y y 1/2−1 −y
fY (y) = √ = e , y≥0
yπ Γ(1/2)
che è una Gamma(1/2, 1).

4. Z ∼ Gamma(n/2, 1), quindi
z n/2−1 −z
fZ (z) = e , z≥0
Γ(n/2)
Esercizio 75. Si consideri Ω = (X1 ≤ X2 ) ∪ (X1 > X2 ).
Esercizio 78. Si deve considerare che la somma di k Bernoulliane

indipendenti di parametro p è una Bin(k, p).
Esercizio 85. Si consideri la serie geometrica.
Esercizio 86. Dallo sviluppo in serie della funzione caratteristica e

dal fatto che
� � �
= +
r r pari r dispari
si vede che (ponendo r = 2k con k ∈ N, cioè r pari)

∞
� ∞
�
(iξ)r r! (−ξ 2 a)k 2
ar 1(r pari) = = e−aξ = φX (ξ).
r=0
r! (r/2)! k!
k=0
Esercizio 87. Si sta considerando una v.a. continua per cui

�
Eg(X) = g(x)fX (x)dx
R
dove la densità si può ottenere come inversa della funzione caratteristica

di X,
�
1
fX (x) = e−iξx φX (ξ)dξ, x ∈ supp(X).
2π R
Quindi, si ottiene
� � � �
1 −iξx
Eg(X) = g(x) e φX (ξ)dξ dx
R 2π R
�
1
= ĝ(ξ)φX (ξ)dξ
2π R
dove ĝ è la trasformata di Fourier di g (si consideri che ξ ∈ R).
Esercizio 89. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X =

n
1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω)) → 0 e si ha
q.c.
convergenza puntuale in Ω. Si conclude che Zn → 0.
Esercizio 90. Come nel precedente Esercizio 89 X ∈ (0, 1) q.c., cioè

q.c.
P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0.
Esercizio 91. Un occhio attento vede subito che non conviene consi-
derare altre forme (più deboli) di convergenza, si può verificare subito la
convergenza quasi certa. In particolare, Y ∈ D è una v.a. finita e
1
∀ω ∈ Ω Zn (ω) = X(ω) + Y (ω) → X(ω)
n
q.c.
(convergenza puntuale in Ω) e quindi Zn → X.
Esercizio 92. Si vede subito che fXn → 0 uniformemente mentre la

f.r.

 0,
 x < −n
x+n
FXn (x) = , x ∈ [−n, +n)

 2n
1, x≥n
converge a FX (x) = 12 per ogni x ∈ R (puntualmente). Diciamo allora
che Xn non converge in R1 .
Esercizio 93. Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e

la f.r.

 0, x<0
FXn (x) = n2 x2 , x ∈ [0, n1 )

1, x ≥ n1
converge a
�
0, x<0
FX (x) =
1, x ≥ 0.
Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità.
Esercizio 94. Si deve sfruttare

∞
� (iξ)k
EeiξX = EX k
k!
k=0
per una v.a. X e i2 = −1. Allora si ha che
ξ2
1. φXj (ξ) = 1 − 2n
� �n
ξ2
2. φZn (ξ) = 1 − 2n
ξ2
3. φZ∞ (ξ) = e− 2 e quindi
x2
e− 2
fZ∞ (x) = √ , x ∈ R.
2π
1 Potremmo dire però che X diverge con probabilità 1 (q.c.) ad X ”degenere” ed
n
in particolare P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove
R∗ = R ∪ {−∞} ∪ {+∞} è l’estensione di R (il completamento dei reali).
Esercizio 96.
1. 0,
�∞
2. Bisogna osservare che l’integrale si riduce a 12 0 ye−y dy e quindi
la soluzione MC è data da
n
1 �
Xj , Xj ∼ Exp(1),
2n j=1
3. Si vede che � � √
1 1 + x2
√ dx = 2
dx
R 1+x
1+x 2
R
e quindi una soluzione MC è
π ��
n
1 + Xj2 , Xj ∼ Cauchy.
n j=1
In alternativa, si può considerare che

� ∞
1 1 1 2
√ = u 2 −1 e−u(1+x ) du
1 + x2 Γ(1/2) 0
e quindi
� � � ∞
1 1 1 2
√ dx = u 2 −1 e−u(1+x ) du dx
R 1 + x2 R Γ(1/2) 0
��
−x2 Y
=E e dx
R
dove Y ∼ Gamma(1, 1/2). Osservando che (integrale della densità

N (0, (2a)−1 ))
� � � �
2 1 x2
e−x a dx = π/a � e− 1/a dx = π/a
R R π/a
si ottiene
� �
1
√ dx = E π/Y
R 1 + x2
che introduce una soluzione MC per il problema dato, cioè
√ � n
π 1
, Yk ∼ Gamma(1, 1/2).
n Yk
k=1
Esercizio 97.
� � �n �
yα α
P (Yn ≤ y) =P X≥ 1− → P (X ≥ e−y )
n
da cui si ricava
�
0, y≤0
FY (y) = α .
1 − e−y , y>0
d
Si noti che per α = 1, Yn → Y ∼ Exp(1).
Esercizio 98.
fXk (x) = n1(0,1/n) (x), x ∈ R,

 0, x≤0
FXn (x) = nx, 0 < x ≤ 1/n

1, x > 1/n
si vede che
�
0, x<0
lim FXn (x) =
n→∞ 1, x≥0
e Xn → 0 in distribuzione (e quindi anche in probabilità). Inoltre, Yn → 0

in distribuzione essendo il massimo di una successione infinitesima (e
quindi anche in probabilità).
�n 100. EXk = 0 e V ar(Xk ) = 2/3 per ogni k allora data

Esercizio
Sn = k=1 Xk si ottiene ESn = 0 e V ar(Sn ) = n2/3. Si può applicare
il teorema del limite centrale alla successione Sn come segue, per n → ∞
�
Sn − 0 3
� = Zn → N (0, 1)
n 2 2
3
in distribuzione. In definitiva, si ottiene il limite in distribuzione

�
2
2
Zn → N (0, σ ) con σ = 2
.
3
Esercizio 101. EXk = λ e EYk = 0, V ar(Yk ) = V ar(Xk ) = λ.

Inoltre, V ar(Ȳn ) = λ/n. Posso applicare il teorema del limite centrale
considerando che
Ȳn − 0
Zn = � .
λ/n
�n
Esercizio
�n 102. EYk = 0 e E[ k=1 Yk ] = 0, V ar(Yk ) = 1/λ2 e
V ar( k=1 Yk ) = n/λ2 , quindi
Ȳn 1 Ȳn − 0
Zn = =
√1 λ λ√ 1
n n
e applicando il teorema del limite centrale

1
Zn → Z ∼ N (0, 1/λ2 )
λ
in distribuzione.
Esercizio 105. Si può rispondere a tutti i punti considerando un solo

caso alla volta, vediamo come. Ricordiamo che le 52 carte sono divise
in 13 carte per 4 semi. Consideriamo le 13 carte in corrispondenza con i
primi 13 numeri (al numero 1 corrisponde un asso, etc.).
1. Per ottenere una coppia devo avere due carte dello stesso numero.
Mi devo chiedere quante coppie posso ottenere? Notiamo che l’e-
vento di interesse non è ”ottengo almeno una coppia”. Fissiamo un
numero, ad esempio uno (che equivale a dire, asso). Quante coppie
posso formare con 4 uno? Sono |C4,2 |. Quindi, la probabilità di
ottenere una coppia di uno (di assi) si ottiene considerando i ca-
si possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle
possibili e le restanti 3 carte prese a caso. In quanti modi posso
scegliere le restanti 3 carte? In |C50,3 | modi di cui solo |C48,3 | mi
interessano? No! Se voglio una coppia, devo considerare
�13��4��12��4��4��4� �13��4��12��48�
1 2
�352�1 1 1
�= 1 2
�52�3 3
5 5
per via delle ripetizioni possibili nelle tre carte rimanenti

2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognu-
no considero le coppie possibili, poi moltiplico per il numero di
combinazioni di classe uno possibili per le restanti carte,
�13��4��4��11��4� �13��4��4��44�
2 2 2
�52 � 1 1
o anche 2 2
�52�2 1
5 5
3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi
moltiplico per 13 e per le combinazioni relative alla quinta carta,
�13��4��12��4� �13��4��48�
1 4
�52� 1 1
o anche 1 4
�52 � 1
5 5
4. per fare un poker di assi, devo considerare solo gli assi, quindi
�4��12��4� �4��48�
4 1
�52 � 1 o anche 4
�52�1
5 5
5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un

seme e ottengo
�4��13�
1
�52�5
5
Svolgimento Esercizio 107. Indichiamo con A ="a è difettoso" e

B ="b è difettoso" gli eventi di interesse. Ovviamente P (A) = 0.03 e
P (B) = 0.04.
1. P (A ∩ B) = P (A)P (B),
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B)2 ,
4. P (B)/P (A ∪ B).
2 dove P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A)
Esercizio 108. Indichiamo con M ="persona malata" e E ="persona

con esame positivo" gli eventi di interesse. I casi possibili sono:
Veri Positivi, Veri Negativi, Falsi Positivi, Falsi Negativi
(eventi incompatibili) corrispondenti agli eventi
(E ∩ M ) ∪ (E c ∩ M c ) ∪ (E ∩ M c ) ∪ (E c ∩ M ) = Ω
infatti
(E c ∩ M c ) ∪ (E ∩ M c ) = M c e (E ∩ M ) ∪ (E c ∩ M ) = M
con P (M ∪ M c ) = 1 oppure
(E ∩ M ) ∪ (E ∩ M c ) = E e (E c ∩ M ) ∪ (E c ∩ M c ) = E c
con P (E) + P (E c ) = 1. Inoltre P (M c ) = 1 − P (M ) = 0.94. La proba-

bilità di ottenere un vero positivo è P (E ∩ M ), cioè una persona verifica
entrambi gli eventi E e M . Dai dati del problema
P (E|M c ) = 0.01 e P (E ∩ M ) + P (E c ∩ M c ) = 0.95
si ricava
P (E ∩ M c ) = 0.01 · P (M c ) = 0.0094
0.94 = P (M c ) = P (E ∩ M c ) + P (E c ∩ M c )
da cui P (E c ∩M c ) = 0.94−0.0094 = 0.9306, P (E ∩M ) = 0.95−0.9306 =

0.0194. Si vede subito che
0.0194 0.0094
P (E|M ) = , P (E|M c ) =
0.06 0.94
e la probabilità cercata è
P (E|M )P (M )
P (M |E) =
P (E)
dove P (E) = P (E|M )P (M ) + P (E|M c )P (M c ) = 0.0288. Otteniamo
P (M |E) ≈ 67%
e quindi con esame positivo nel 67% dei casi circa la persona è effettiva-
mente malata.
Rispondiamo al secondo problema osservando che P (M ∩E c ) = 0.0406
e P (E c ) = 0.9712 quindi
0.0406
P (M |E c ) = ≈ 0.042
0.9712
che sembra essere confortante per il paziente.
Esercizio 109. Le visite effettuate dal primo medico evidenziano una

distribuzione di frequenze relative:
• il 10% delle persone è affetto da crioglobulinemia,
• il 90% delle persone non è affetto da crioglobulinemia.
Il medico ha osservato ed ha ottenute delle frequenze. Il secondo medico

sceglie a caso, quindi per gli eventi
• A ="persona affetta da crioglobulinemia",
• Ac ="persona non affetta da crioglobulinemia",
si ha
P (A) = 0.1 P (Ac ) = 0.9
che sono probabilità.
Esercizio 110. Se sceglie 3 pazienti,
10 9 8
P (A, A, A) = .
100 99 98
Esercizio 111. Se indichiamo che A ="Agenzia con perdita maggiore

del 5%", allora sappiamo che presa una agenzia a caso, P (A) = 0.03.
Inoltre, se B ="almeno una delle sue 20 agenzie è in perdita",
P (B) = 1 − P (B c )
dove B c =" nessuna agenzia della società è in perdita". Considerando i

due eventi, otteniamo
� �
20
1− (0.03)0 (0.97)20−0 = 1 − (0.97)20
0
che è la probabilità cercata. Infatti, se
Ak = "k agenzie su 20 registrano una perdita maggiore del 5% "
allora
� �
20
P (Ak ) = (0.03)k (0.97)20−k , k = 0, 1, . . . , 20
k
e Ak ∼ Binom(n, p) con n = 20 e p = 0.03.
Esercizio 112.
�
�
20
1− (0.97)0 (0.03)20−0 = 1 − (0.03)20 .
0
Si deve considerare
Ack = "k agenzie su 20 registrano una perdita minore del 5% ".
Allora
� �
20
P (Ack ) = (0.97)k (0.03)20−k , k = 0, 1, . . . , 20
k
e Ack ∼ Binom(n, p) con n = 20 e p = 0.97.
Esercizio 113. Indichiamo con Di l’evento "telefono i-esimo difettoso"

con i = 1, 2. Allora
1 1 1 6
P (Di ) = P (Di ∩ A) + P (Di ∩ B) = P (Di |A) + P (Di |B) =
2 2 2 100
e P (D1 ) è la probabilità di acquistare un telefono difettoso (il primo!).
Si deve ora calcolare
P (D1 ∩ D2 )
P (D2 |D1 ) =
P (D1 )
dove
P (D1 ∩ D2 ) =P (D1 ∩ D2 ∩ A) + P (D1 ∩ D2 ∩ B)

=P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B)
� �2 � �2
5 1 1 1 1 26
= + = .
100 2 100 2 2 1002
Quindi si ottiene
2 26 100 13
P (D2 |D1 ) = 2
= .
2 100 6 300
Esercizio 114. Dai dati del problema si evince che

60 20
P (A) = P (B) , P (A) + P (B) =
100 100
e risolvendo (sistema di due equazioni in due incognite, la soluzione è
unica!)
12 20
P (A) = , P (B) = .
160 160
Seguendo la linea del precedente esercizio,
P (D1 ) =P (D1 ∩ A) + P (D1 ∩ B) + P (D1 ∩ (A ∪ B)c )

=P (D1 |A)P (A) + P (D1 |B)P (B) + P (D1 ∩ (A ∪ B)c )
12 5 20 1
= + +x
160 100 160 100
80
= + x,
160 · 100
con x ∈ (0, 1) variabile incognita,
P (D1 ∩ D2 ) =P (D1 ∩ D2 |A)P (A)

+P (D1 ∩ D2 |B)P (B)
+P (D1 ∩ D2 ∩ (A ∪ B)c )
� �2 � �2
5 12 1 20
= + +y
100 160 100 160
con y ∈ (0, 1) variabile incognita. Osserviamo che
x = P (D1 ∩ (A ∪ B)c ) = P (D1 |(A ∪ B)c ) P ((A ∪ B)c ),
y =P (D1 ∩ D2 ∩ (A ∪ B)c )
=P (D1 ∩ D2 |(A ∪ B)c ) P ((A ∪ B)c )
=P (D1 |(A ∪ B)c ) P (D2 |(A ∪ B)c ) P ((A ∪ B)c )
e ponendo z = P (D|(A ∪ B)c ), otteniamo

128 128 2
x= z, y= z .
160 160
Allora,
1 + 4000z 2
P (D2 |D1 ) = , z ∈ (0, 1).
25 + 4000z
Se P (D|(A ∪ B)c ) = 0 (cioè per z → 0), P (D2 |D1 ) = 0.04 mentre per
P (D|(A ∪ B)c ) ≈ 1, P (D2 |D1 ) ≈ 0.99 è prossima ad uno.
Esercizio 115.
1. Sia D =”il sensore è difettoso”. Si ha che
P (A) = 0.3 P (B) = 1 − P (A) = 0.7

P (D|A) = 0.15 P (D|B) = 0.12
Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle

probabilità totali e composta si ottiene P (D) = P (D ∩ (A ∪ B)) =
P ((D ∩ A) ∪ (D ∩ B)) = P (D|A)P (A) + P (D|B)P (B)
2. Si utilizza la formula di Bayes
P (D|A)P (A) P (D|A)P (A)

P (A|D) = =
P (D|A)P (A) + P (D|B)P (B) P (D)
3. e 4. I sensori sono difettosi in maniera indipendente quindi
P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi)

� �
10 k
= p (1 − pA )10−k
k A
dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso
modo si considera Bin(10, pB ) dove pB = P (D|B) per calcolare
P (k su 10|B). Quindi si usa la formula di Bayes e si ottiene
P (k su 10|A)P (A)
P (A|k su 10) =
P (T )
P (k su 10|B)P (B)
P (B|k su 10) =
P (T )
dove P (T ) = P (k su 10|A)P (A)+P (k su 10|B)P (B) = P (k su 10).
Esercizio 116. Sia p = P (vincere) = 0.1, allora

P (vincere per la prima volta al decimo tentativo) = (0.9)9 (0.1)
mentre
� �
10
P (vincere 10 euro) = (0.1)(0.9)9 .
1
Esercizio 117. Come già visto nel precedente Esercizio 57 la f.r. è

individuata dalla probabilità
FZ (z) = P (X ≤ zY ), z > 0.
1. Il dominio della coppia (Y, X) è D = (0, 2) × (0, 1) è un rettangolo.
Disegnando il rettangolo in un sistema (Y, X) e disegnando la retta
X = zY si deve identificare
Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z) = (0, ∞)
e la f.r. si deve ottenere considerando la probabilità
P (X ≤ zY ) = P (D ∩ Az ) z > 0.
L’insieme D∩Az identifica due figure geometriche distinte al variare
di z ∈ (0, 1/2) e z ∈ (1/2, ∞) quindi, se z < 1/2
� 2 � zy
P (X ≤ zY ) = dy dxf(X,Y ) (x, y)
0 0
mentre per z > 1/2

� 1/z � zy
P (X ≤ zY ) = dy dyf(X,Y ) (x, y)
0 0
� 2 � 1
+ dy dxf(X,Y ) (x, y)
1/z 0
dove il punto 1/z dell’asse Y è il punto in cui la retta di equazione

X = 1 interseca la retta di equazione X = zY (e quindi 1 = zy).
La densità congiunta si fattorizza per il fatto che X ⊥ Y e quindi
si ottiene
� � zy
1 2
P (X ≤ zY ) = dy dx, z ∈ (0, 1/2)
2 0 0
e
� 1/z � zy � 2 � 1
1 1
P (X ≤ zY ) = dy dx + dy dx, z > 1/2.
2 0 0 2 1/z 0
Quindi
�
z, 0 < z < 1/2
P (X ≤ zY ) = 1 1
1− + 2, 1/2 < z < ∞
2z 4z
che è continua nel punto z = 1/2 (e nel punto z = 0)
1
lim P (X ≤ zY ) = lim P (X ≤ zY ) =
z↑1/2 z↓1/2 2
(come ci si aspettava, infatti Z è una v.a. continua) e la f.r. diventa

 0,
 z≤0
FZ (z) = z, 0 < z ≤ 1/2
 1 − 1 , z > 1/2

4z
Si osservi che
|Az ∩ D|
P (X ≤ zY ) = P (U ∈ Az ∩ D) =
|D|
dove U ∼ U nif (D) e |A| = area(A).
2. Il dominio della coppia (Y, X) è D = (0, ∞) × (0, 1), basta invertire
gli assi nell’Esercizio 57.
3. Il dominio D = R2+ è dato da tutto il primo quadrante e Az ∩ D

identifica una sola figura geometrica (un triangolo) per ogni valore
di z > 0. Si deve calcolare
� ∞ � zy
P (X ≤ zY ) = dy dxf(X,Y ) (x, y),
0 0
con z ∈ supp(Z) = (0, ∞) e per il fatto che X ⊥ Y ,

� ∞ � zy
P (X ≤ zY ) = dyλe−λy dxλe−λx ,
0 0
� ∞ � �
= dyλe−λy 1 − e−λzy
�0 ∞ � ∞
−λy
= dyλe − dyλe−λy−λzy
0 0
�
λ ∞ � −λ� y
=1 − � λe
λ 0
dove si è posto λ� = λ(1 + z)
1
=1 − , z > 0.
1+z
Quindi
�
0, z<0
FZ (z) = 1
1− , z>0
1+z
I controlli da fare sono
lim FZ (z) = lim FZ (z) = 0, lim FZ (z) = 1.

z↑0 z↓0 z↑∞
La densità è data da
fZ (z) = (1 + z)−2 1(0,∞) (z), z ∈ R.

Esercizio 118. Si deve calcolare la f.r.
FZ (z) = P (XY ≤ z) = P (Y ≤ z/Y )

non cambio il verso della dis. perché Y > 0.
1. la coppia (X, Y ) varia in D = (0, 1) × (0, 2), la f.r. si ricava dalla

probabilità
P (D ∩ Az ), z ∈ supp(Z) = (0, 2)
dove
Az = {(x, y) ∈ R2 : y ≤ z/x}.
Dal grafico della funzione Y = z/X si vede subito che D ∩ Az

identifica una sola figura geometrica al variare di z e allora si deve
calcolare, per z fissato,
� z/2 � 2
P (D ∩ Az ) = dx dyf(X,Y ) (x, y)
0 0
� 1 � z/x
+ dx dyf(X,Y ) (x, y)
z/2 0
dove il punto z/2 sull’asse X è il punto in cui la retta Y = 2

interseca la curva Y = z/X (cioè 2 = z/X). Per il fatto che X ⊥ Y
la congiunta è data dal prodotto delle marginali,
� z/2 � �2 � z/x
1 1 1
P (D ∩ Az ) = dx dy + dx dy
2 0 0 2 z/2 0
� z/2 �
z 1 dx
= dx +
0 2 z/2 x
�x=1
z z � z� z�
= + log x�� = 1 − log , z ∈ (0, 2).
2 2 x=z/2 2 2
Inoltre,
−2/z
lim P (D ∩ Az ) = lim = 0, lim P (D ∩ Az ) = 1.
z↓0 z→0 −2/z 2 z↑2
Quindi,

 0, z≤0
FZ (z) = P (D ∩ Az ), z ∈ (0, 2]

1, z>2
dove si sono considerati i limiti
lim FZ (z) = 0, lim FZ (z) = 1.

z↑0 z↓2
Derivando la f.r. si ottiene

� �
1 z
fZ (z) = − log 1(0,2) (z), z ∈ R.
2 2
Si osservi che fZ (z) ≥ 0 per ogni z ∈ (0, 2).

2. Si ha (X, Y ) ∈ D = (0, 1) × (0, ∞) e
Az = {(x, y) ∈ R2 : y ≤ z/x}, z ∈ supp(Z) = (0, ∞).
Come si vede dal grafico, Az ∩D identifica una sola figura geometrica

e quindi, per ogni z > 0,
� 1 � z/x
FZ (z) = P (Az ∩ D) = dx dyf(X,Y ) (x, y)
0 0
dove (X ⊥ Y )
f(X,Y ) (x, y) = fX (x)fY (y) = 1(0,1) (x)λe−λy 1(0,∞) (y).
Quindi, per ogni z > 0

� 1 � z/x
P (Az ∩ D) = dx λe−λy
0 0
� 1 � 1
� z � z
= dx 1 − e−λ x = 1 − dx e−λ x
0 0
e
�
0, z≤0
FZ (z) =
P (Az ∩ D), z>0
con
� 1 � � � 1
d −λ z z dx
fZ (z) = − dx e x =λ e−λ x .
0 dz 0 x
Inoltre, FZ (0+ ) = 0, limz→∞ FZ (z) = 1.

3. Si ha che (X, Y ) ∈ D = (0, ∞) × (0, 1) e Az = {(x, y) ∈ R2 : y ≤
z/x} con Az ∩ D che identifica sempre una sola figura geometrica al
crescere di z ∈ supp(Z) = (0, ∞). Si deve fare attenzione al punto
di intersezione della retta Y = 1 con la curva Y = z/X, cioè nel
punto z della retta X (1 = z/X), infatti
� z � 1
P (Az ∩ D) = dx dyf(X,Y ) (x, y)
0 0
� ∞ � z/x
+ dx dyf(X,Y ) (x, y).
z 0
Utilizzando l’indipendenza delle v.a. ed esplicitando

� z � ∞
z
P (Az ∩ D) = dxλe−λx + dxλe−λx
x
�0 z �z ∞
−λx dy
= dxλe + λze−λzy
0 1 y
(dove si è posto x = zy nel secondo integrale) e per z ∈ R
�
0, z≤0
FZ (z) = .
P (Az ∩ D), z > 0
Si vede che
� ∞ � � dy
lim FZ (z) = 0, lim FZ (z) = 1 + lim λze−λzy =1
z→0 z→∞ 1 z→∞ y
dove si è usata la convergenza dell’integrale ed il limite uniforme in
y (per ogni y, la funzione esponenziale decresce più velocemente di
ogni polinomio come z → ∞). Inoltre, si ricava
� ∞
� dx 1
FZ (z) =fX (z) + λe−λx − z fX (z)
z x z
e
�� ∞ �
−λx dx
fZ (z) = λe 1(0,∞) (z), z ∈ R.
z x
4. si veda l’Esercizio 66 per µ = λ, in particolare
λ � −λz � λ � �
lim λe − µe−µz = lim µze−µz − e−µz
µ→λ λ − µ µ→λ −1
=λe−λz − λ2 ze−λz
λ2 2−1 −λz
fZ (z) = λ2 ze−λz 1(0,∞) (z) = z e 1(0,∞) (z), z ∈ R.
Γ(2)
Quindi Z ∼ Gamma(λ, 2).
Esercizio 120. La v.a. Y ∈ supp(Y ) = (1, ∞) è continua quindi

consideriamo la f.r.
FY (y) =P (|X − 1|−1 ≤ y) tutte quantità positive

� �
1
=P ≤ |X − 1|
y
� �
1 1
=P (X − 1 ≤ − ) ∪ (X − 1 ≥ )
y y
� �
1 1
=P (X ≤ 1 − ) ∪ (X ≥ 1 + )
y y
� � � �
1 1
=P X ≤ 1 − +P X ≥1+
y y
� �
1 1
=P X ≤ 1 − + P (∅) = 1 − , y > 1.
y y
Si vede subito che FY (y) → 0 se y → 1 e FY (y) → ∞ se y → 0. Inoltre
fY (y) = FY� (y) 1(1,∞) (y), y ∈ R.

Esercizio 121. Si deve considerare la f.r. di Z e l’evento certo ΩX =

(X ≤ Y ) ∪ (X > Y ). Otteniamo
FZ (z) =P (|X − Y | ≤ z)
� �
=P (|X − Y | ≤ z) ∩ [(X ≤ Y ) ∪ (X > Y )]
� �
=P [(|X − Y | ≤ z) ∩ (X ≤ Y )] ∪ [(|X − Y | ≤ z) ∩ (X > Y )]
= [gli eventi sono incompatibili, legge delle prob. totali]
� � � �
=P (|X − Y | ≤ z) ∩ (X ≤ Y ) + P (|X − Y | ≤ z) ∩ (X > Y )
= [utilizzo le informazioni X ≤ Y e X > Y ]
� � � �
=P (Y − X ≤ z) ∩ (X ≤ Y ) + P (X − Y ≤ z) ∩ (X > Y )
� � � �
=P (Y ≤ z + X) ∩ (X ≤ Y ) + P (X ≤ z + Y ) ∩ (Y < X)
� � � �
=P X ≤ Y ≤ z + X + P Y < X ≤ z + Y
� �
=2P X ≤ Y ≤ z + X (entrambe le v.a. sono uniformi).
Dal grafico sul piano (X, Y ) si vede quindi che per z ∈ supp(|X − Y |) =
(0, 1),
� 1−z � z+x � 1 � 1
FZ (z) =2 dx dy + dx dy = 2z − z 2
0 x 1−z x
e quindi fZ (z) = FZ� (z)1(0,1) (z), z ∈ R. Per verificare che FZ sia una
f.r. basta osservare che fZ ≥ 0 (la f.r. è non decrescente) e FZ (z) → 0
se z → 0, FZ (z) → 1 se z → 1. Inoltre, potevamo ricavare la f.r. FZ
considerando le aree del quadrato unitario sopra e sotto la retta Y =
z + X, ovvero il triangolo superiore del quadrato ha area 1/2 mentre il
triangolo sopra la retta Y = z + X ha area (1 − z)2 /2. Quindi tra le due
rette troviamo un area pari a
1 (1 − z)2 z2
− =z− .
2 2 2
Dovendo calcolare due aree uguali, si moltiplica per 2 e si ottiene il
risultato cercato.
Esercizio 122. La v.a Y è continua e quindi studiamo la f.r.
FY (y) = P (Y ≤ y), y ∈ supp(g(X, U ))

dove ��
� 1 �
g(x, u) = �x − ln u��,
� x ≥ 0, 0 ≤ u ≤ 1.
λ
In particolare, supp(Y ) = (0, ∞). Si può procedere in diversi modi, ad
esempio
� �
1
FY (y) =P − y 2 ≤ X − ln U ≤ y 2
λ
� �
1 1
=P − y 2 ≤ X − ln U, X − ln U ≤ y 2
λ λ
� �
1 1
=P X ≥ −y 2 + ln U, X ≤ y 2 + ln U
λ λ
� �
1
= essendo ln u < 0 per ogni u ∈ (0, 1)
λ
� �
1
=P X ≥ 0, X ≤ y 2 + ln U
λ
= [essendo (X ≥ 0) = ΩX ]
� �
1
=P X ≤ y 2 + ln U .
λ
Dal grafico si ottiene
� 1 � y2 + λ
1
ln u
FY (y) = du dxλe−λx .
e−λy2 0
Vogliamo mostrare un procedimento più immediato, si deve notare

che
� �
1
P − ln U ≤ z = P (U ≥ e−λz ) = 1 − e−λz , z > 0.
λ
Quindi la v.a. Z = 1/λ ln U è una esponenziale di parametro λ > 0 e Z ⊥
X per il fatto che U ⊥ X. Sappiamo che la somma di due esponenziali di
parametro λ è una Gamma, in particolare Z + X ∼ Gamma(λ, 2), quindi
|X + Z| = X + Z e
� y2
FY (y) = P (X + Z ≤ y ) = 2
λ2 w2−1 e−λw dw, y > 0.
0
Si ricava,
2
fY (y) = 2λ2 y 3 e−λy 1(0,∞) (y), y ∈ R.
�n
Esercizio 123. Sia λ = k=1 λk . Per il minimo di v.a. si ha
n
� n
�
P (X(1) > z) = P (Xk > z) = e−λk z = e−λz
k=1 k=1
quindi X(1) ∼ Exp(λ). Inoltre,

n
� n
�
P (Z ≤ z) = P (Xk ≤ z) = FXk (z), z>0
k=1 k=1
per cui
n
� �
fZ (z) = fXk (z) FXs (z)1(0,∞) (z), z ∈ R.
k=1 s�=k
Esercizio 124.
�� 1 �n
1 − FZn (z) =P (Zn > z) = P (X1 > z, . . . , Xn > z) = 1(0,1) (u)du
z
da cui si ricava

 0, z≤0
FZn (z) = 1 − (1 − z)n , 0<z≤1

1, z>1
che tende, per n → ∞,

�
0, z<0
FZ (z) =
1, z≥0
Diciamo che Zn → 0 in distribuzione che implica Zn → 0 in probabilità

perché Z = 0 è una v.a. degenere. Inoltre si vede che il minimo di v.a.
in (0, 1) converge q.c. a 0.
Esercizio 125. La v.a. Zn è stata studiata nel precedente esercizio.
Si vede inoltre che

 0, y≤0
FYn (y) = 1 − (1 − y/n)n , 0 < y ≤ n

1, y>n
da cui Yn → Exp(1) in distribuzione.
Esercizio 126. Dalla probabilità P (Z ≤ nx) = 1 − e−λnx si ottiene

�
0, x < 0
lim FXn (x) = FX (x) = .
n→∞ 1, x ≥ 0
d P
La convergenza Xn → 0 implica Xn → 0. Inoltre si poteva considerare la
disuguaglianza di Cebicev e la definizione di convergenza in Probabilità
lim P (|Xn − 0| > �) = 0

n→∞
per ogni � piccolo a piacere. Infatti,

EZ
P (|Xn | > �) = P (Z > n�) ≤ → 0.
n�
Esercizio 127. Si deve considerare il Teorema 20 e il limite centrale

per la v.a. media campionaria. Infatti
� n
�2 � n
�2 � �2
1 � 1 � X̄n
Zn = √ Xk = √ Xk = √ .
n n 1/ n
k=1 k=1
Osservando che E X̄n = 0 e V ar(X̄n ) = 1/n, si ottiene

d 2
Zn → (N (0, 1)) ∼ χ21
che è una v.a. Chi-quarato con un grado di libertà (o una Gamma(1/2, 1)).
Esercizio 136.
� �
1. n3 p3 q n−3 nella seconda come nelle altre sequenze
� n ∗ �n ∗ � ∗
2. s=2 s pn q dove n∗ = min{n − 2, 5} oppure 1 − P (0 su n∗ ) −
−s s
∗
P (1 su n )
3. Dato che p = q possiamo considerare una scatola unica
S = {S1 , S1 , S1 , S1 , S1 , S2 , S2 , S2 , S2 , S2 }
da dove si estrare con ripetizione (infatti si poteva considerare anche

S = {S1 , S2 }) e supponendo vuota la scatola delle lettere, stiamo
supponendo di aver già estratto 5 elementi S1 da S, allora
� �
10 − k 1 1
P (k palline in S2 |S1 è vuota) = , k = 1, 2, 3, 4, 5.
5 25 25−k
4. Si indichi con S ="il dispositivo sbaglia", L ="il dispositivo è della

linea XW50". Allora
3 2 5 8
P (S) = P (S|L)P (L) + P (S|Lc )P (Lc ) = + = 10%
10 10 100 10
5. Si ha che
3 2
P (S|L)P (L) 10 10
P (L|S) = = 10 = 60%
P (S) 100
Esercizio 137.
Y =1 Y =2
X=1 1/4 1/4 1/2
1.
X=2 1/4 1/4 1/2
1/2 1/2 1
2. No
3. FZ (z) = P (X > 1/z), z ∈ (−∞, ∞) (verifica della continuità,
2 √
evento impossibile e certo), fZ (z) = z −2 e−1/2z / 2π1R (z)
4. calcolo FW , verifico continuità, e. impossibile, e. certo , calcolo fW
oppure X − Y + µ ∼ N (µ, 2) quindi FW (w) = P (N (µ, 2) > 1/w),
2 √
w ∈ R e fW (w) = w−2 e−(µ−1/w) /4 / 4π1R (w)
5. 5. X − ν ∼ N (−ν, 1), Y + γ ∼ N (γ, 1), S ∼ N (µ − ν, 2), fS (s) =
2 √
e−(γ−ν−s) /4 / 4π1R (s).
Esercizio 138.
Y =1 Y =2
X=1 1/4 1/4 1/2
1.
X=2 1/4 1/4 1/2
1/2 1/2 1
2. sia pk = P (U = k) con k ∈ IU = {1, 2, 3, 4} e spet(U ) = {1, 2, 4},
si ha che p1 = p4 = 1/4, p2 = 1/2, p3 = 0
3. FZ (z) = e−8/z , z ∈ (0, ∞) (verifica della continuità, evento impos-
sibile e certo), fZ (z) = 8z −2 e−8/z
4. calcolo FW , verifico continuità, e. impossibile, e. certo , calcolo fW
 8/w
 1−e

, w≤0
FW (w) = 8 8
 1 7
 + e−8/w , w > 0
8 8
e quindi
e8/w e−8/w
fw (w) = 2
1(−∞,0) (w) + 7 1(0,∞) (w), w ∈ R
w w2
82 2−1 −8s
5. fS (s) = Γ(2) s e 1(0,∞) (s), s∈R
Esercizio 139. Si deve identificare
Ω = {tutte le collezzioni possibili di n numeri },
la scatola S1 con |S1 | = m1 e la scatola S2 con |S2 | = m2 :

� �
2. nk (1/2)n , k ∈ {0, 1, . . . , n} e 0 se k ∈
/ {0, 1, . . . , n}
n n
3. P (1, 1, . . . , 1) = (P�(1)) �= (P (1|S1 )P (S1 ) + P (1|S2 )P (S2 )) =
n
n
(P (1|S2 )P (S2 )) = m12 12
4. P (1, 1, 2) = P (1)P (1)P (2) = P (1|S2 )P (S2 )P (1|S2 )P (S2 )P (2|S1 )P (S1 ) =
� �2
1 1 1 1
m2 2 m1 2
� �� m2 � �m1 +m2 �
5. P (k pari) = mk1 n−k / n 1(0≤k≤m1 ) , posso considerare m1 +
m2 palline in una sola scatola perché la scelta delle scatole S1 , S2 è
casuale
� �� 2 � �m1 +m2 �
6. P (2k dispari, k pari) = mk1 m 2k / n 1(n=3k,k≤m1 ,2k≤m2 ) ,
Esercizio 140.
�n
1. kXk ∼ N (0, k 2 ) quindi Zn ∼ N (0, σn2 ) dove σn2 = k=1 k2 =
n(n+1)(2n+1)
6
2. P (V ≤ v) = P (|X1 | ≤ v|X2 |) , si ottiene


 0,
 v≤0
 v
FV (v) = , 0<v≤1
 2

 1− , v >11
2v
e
lim FV (v) = lim FV (v) = 0, lim FV (v) = lim FV (v) = 1/2

v↑0 v↓0 v↑1 v↓1
Inoltre, FV (v) → 1 se v → ∞ (evento certo per V ). Si ottiene

fV (v) = 12 1(0,1] (v) + 2v12 1(1,∞) (v), v ∈ R (si potevano considerare
le aree)
3. FW (w) = P (X1 ≤ w/X2 ), si ottiene


 0, w≤0
 � 1 � z/x2
FW (w) = w+ dx2 dx1 , 0<w≤1


 w 0
1, w>1

 0, w≤0
FW (w) = w − w ln w, 0<w≤1

1, w>1
Si vede che:
limw↑0 FW (w) = limw↓0 FW (w) = limw→0 (−1/w)/(−1/w 2 ) = 0.
La f.r. è continua in 0,
limw↑1 FW (w) = limw↓1 FW (w) = 1. La f.r. è continua in 1.
Esercizio 141.
1. Xk → X degenere in 0, P (X = 0) = 1
p d
2. EXk = 1 per ogni k e quindi X n → 1 (⇔ X n → 1) per la L.D.G.N.
3. si vede che
�
sin(x) 1
3 1(0,3) dx = 3E [g(X)]
R sin(x2 ) 3
sin(X)
dove X ∼ U nif (0, 3) e g(X) = sin(X 2 ) . Allora, data la successione
Xk , k ∈ N tale che Xk ∼ X per ogni k, si ottiene

n � 3
3� sin(x)
g(Xk ) → 2
dx, n → ∞
n 0 sin(x )
k=1
Esercizio 142.
1. P (nessuna chiamata in 3 munuti) = (1/4)3 ,
2. P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) = 32 /43 dove
P � 1 ) = P (12 volta una chiamata e 2 volte nessuna chiamata) =
�3(A
1 (1/2)(1/4) ,
P � 2 ) = P (12 volta due chiamate e 2 volte nessuna chiamata)=
�3(A
1 (1/4)(1/4)
��
3. P (1 volta due chiamate e 2 volte una o zero chiamate) = 31 (1/4)(1/2+
1/4)2
��
4. P (2 volte due chiamate e 3 volte una o zero chiamate) = 52 (1/4)2 (1/2+
1/4)3
5. P (1, 1, 1) = p3
��
6. 43 p3 q
7. [P ((1, 1, 1, 0) ∪ (1, 1, 0, 1)]/P (1, 1) = 2pq = P ((1, 0) ∪ (0, 1)) = P (2
chiamate in 2 minuti di servizio)
Esercizio 143.
1. dipende da λk . Se λk = λ per ogni k, SI.
2. Zn ∼ Gamma(ν = n, λ = 1) quindi siamo in grado di scrivere fZn

√
3. si ricava fV (v) = 2√
1
f ( v) dove G ∼ Gamma(ν = 2, λ) conside-
v G
rando che X1 + X2 ∼ G
√
4. spett(W ) = √{0, 1}, P (W = 0 = 0) = P (Y = 0) = 1 − p e
P (W = 1 = 1) = P (Y = 1) = p. Quindi W ∼ Bin(1, p).
Esercizio 144.
12. X n → 1
2 per n → ∞ in probabilità
13. Y n → −1 per n → ∞
�1
14. I = 0 ln(x) dx
Esercizio 145. Data f (x) = x−1 1[1,∞) (x), x ∈ R, si vede subito che
� � ∞ �∞
x1−p ��
|f (x)|p dx = x−p dx =
R 1 1 − p �1
è una quantità finita solo se p > 1. Quindi f ∈ Lp (R) con p > 1. Si noti
che per p = 1 si ha
� �∞
�
|f (x)|dx = log x��
R 1
che non è una quantità finita, infatti f ∈

/ L1 (R).
Esercizio 147. µ è la misura di Lebesgue, applicando la definizione di

conv. in misura, per un � > 0 piccolo a piacere, si ottiene
µ({x ∈ [0, 1] : |xn − 1| ≥ �}) =µ({x ∈ [0, 1] : 1 − xn ≥ �})

=µ({x ∈ [0, 1] : x ≤ (1 − �)1/n })
→µ({x ∈ [0, 1] : x ≤ 1}) = 1 − 0
mentre
µ({x ∈ [0, 1] : |xn − 0| ≥ �}) =µ({x ∈ [0, 1] : x ≥ �1/n })
→µ({x ∈ [0, 1] : x ≥ 1}) = µ({1}) = 0.
Quindi fn (x) = xn → 0 in misura (di Lebesgue) per ogni x ∈ [0, 1]
essendo {1} di misura nulla.
Esercizio 151. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè

sono n copie di una stessa variabile X che rappresenta la popolazione di
interesse. La v.a. varianza campionaria è data dalla somma
n
1�
(Xk − µ + µ − X̄)2
n
k=1
n
1 ��
= (Xk − µ)2 − 2(Xk − µ)(X̄ − µ) + (X̄ − µ)2
n
k=1
�n
1
= (Xk − µ)2 − (X̄ − µ)2 .
n
k=1
Passando al valor medio si vede che

� n � n
1� 2 1�
E (Xk − µ) = E(Xk − µ)2 (linearità della media)
n n
k=1 k=1
�n
1
= V ar(Xk )
n
k=1
2
=σX (le v.a. sono identicamente distribuite)
e E(X̄ − µ)2 = V ar(X̄) = σX
2
/n. Infatti,
n
1 � 2 1 �
X̄ 2 = Xk + 2 Xk Xs
n2 n
k=1 0≤k,s≤n
k�=s
dove EXk2 = σX2

per ogni k e Cov(Xk , Xs ) = 0 per ogni k �= s. Quindi
E X̄ = σX /n. Si ottiene che
2 2
� n �
1� 2 n−1 2
E (Xk − X̄) = σX
n n
k=1
e lo stimatore non è corretto. Si vede però che è asintoticamente corretto.
Esercizio 152. Dal precedente Esercizio 151 si vede che

� n �
n 1 �
2
ESn−1 = E (Xk − X̄)2 = σX 2
n−1 n
k=1
quindi lo stimatore è corretto.
Esercizio 153. La v.a. media campionaria

n n
1� 1�
X̄n = Xk ha media E X̄n = EXk
n n
k=1 k=1
per la linearità della media. Le variabili Xk , per ogni k, sono supposte

essere copie (indipendenti, ma in questo caso non importa) di una v.a. X
che descrive una certa popolazione oggetto di studio. Quindi, se Xk ∼ X
per ogni k (sono i.d.), allora EXk = EX per ogni k. sia µ = EX la
media vera della popolazione. Otteniamo che µ � = x̄ è lo stimatore per il
parametro µ, X̄ (o X̄n ) è la v.a. stimatore per µ e E X̄ = µ. Lo stimatore
X̄ è corretto.
Esercizio 154. Si ottinene lo stimatore θ̂ = x̄, la media campionaria.

Quindi la v.a. stimatore è data da Θ̂ = X̄n , la v.a. media campionaria.
Si può procedere nei seguenti modi alternativi:
1. utilizzando la linearità della media, per cui
n
1�
E[Θ̂] = E[Xk ] = (1/θ)−1 = θ
n
k=1
2. utilizzando il fatto che la somma di esponenziali si distribuisce come

una v.a. gamma, in particolare
n
�
1
Θ̂ = Sn dove Sn = Xk ∼ Gamma(ν = n, λ = 1/θ).
n
k=1
Quindi si deve ricordare (o calcolare) che E[Sn ] = ν/λ, ∀ n.

Esercizio 155. Si ottiene la v.a. stimatore Θ̂ = (X̄n )−1 . Non pos-
siamo sfruttare la linearità della media come nel precedente esercizio.
Sappiamo che
n
Θ̂ = dove Sn ∼ Gamma(ν = n, λ = θ).
Sn
Inoltre, sia Y = g(Sn ) = n/Sn , otteniamo che
P (Y ≤ y) = P (Gamma(n, θ) > n/y)
e quindi
1 (nθ) − nθ
fY (y) = e y 1(0,∞) (y), y ∈ R.
Γ(n) y n+1
Andiamo a verificare la correttezza dello stimatore calcolando
� ∞
(nθ)n Γ(n − 1) n
E[Θ̂] = E[Y ] = y fY (y) dy = n−1
= θ.
0 Γ(n) (nθ) n − 1
Si deve ricordare che Γ(n) = (n − 1)Γ(n − 1). Risulta che lo stimatore è
distorto ma asintoticamente corretto.
Esercizio 157. Si è già visto che la v.a. X̄ è uno stimatore corretto,

calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno
al suo valore centrale (cioè, il valore medio) è dato da
2
σX̄ = E(X̄ − µ)2 = E X̄ 2 − µ2
dove (si veda Appendice A per la linearità della media ed il quadrato di
una somma)
n n
1 ��
E X̄ 2 = E[Xk Xs ].
n2 s=1
k=1
A questo punto è importante ricordare che le osservazioni sono realiz-

zazione di v.a. supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e
quindi di covarianza nulla. Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si
ottiene
n n
1 �� 2 �
E X̄ 2 = σXk 1(s=k) + µ2
n2 s=1
k=1
n
1 � 2 n2 σ2
= 2
σX + 2 µ2 = X + µ2 .
n n n
k=1
La varianza cercata è 2
σX̄= σX2
/n cioè la varianza teorica (finita) della
popolazione caratterizzata dalla v.a. X diviso la numerosità campionaria
n. Come al solito, volendo sottolineare la dipendenza da n scriviamo X̄n
invece di X̄. Si vede subito che (X̄ = X̄n , dipende da n)
2
2 σX
σX̄ = →0 quando n → ∞.
n
n
Esercizio 159. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui

componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti
(sono i.i.d.). La realizzazione di X è il campione x. La densità della v.a.
multidimensionale X, essendo le componenti i.i.d., è data dal prodotto
�n 2
n
� 1
e− 2σ2 k=1 (xk −µ)
fX (x) = fXk (xk ) = �
k=1
(2πσ 2 )n
dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a
noi interessa, in questo caso, sottolineare il fatto che dipende da µ. La
funzione di verosimiglianza è data dalla relazione L(µ; x) = fX (x; µ) ed
il suo logaritmo restituisce la funzione
n
n 1 �
log L(µ; x) = − log(2πσ 2 ) − 2 (xk − µ)2 .
2 2σ
k=1
Si ottiene µ
�M V = x̄.
Esercizio 160. Dalla log-verosimiglianza calcolata nel precedente eser-

cizio
n
n 1 �
log L(µ; x) = − log(2πσ 2 ) − 2 (xk − µ)2
2 2σ
k=1
si ottiene subito che

n
2 1�
�M
σ V = (xk − µ)2 ,
n
k=1
la varianza campionaria è stimatore di MV per la varianza della popola-

zione.
Esercizio 161. Si veda il precedente Esercizio 151.
Esercizio 162. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ)

per ogni j (variabili i.i.d.) si ha che
�n
1
fX (x) = 1[0,θ] (xj )
j=1
θ
con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si

ottiene come al solito dalla relazione L(θ; x) = fX (x; θ) e quindi
n
1 �
L(θ; x) = 1[x ,∞) (θ)
θn j=1 j
ed ovviamente
n
�
log L(θ; x) = −n log θ + log 1[xj ,∞ (θ).
j=1
Esercizio 163. Si deve considerare

� � �
� � |X̄ − µ| � �√ �
P |X̄ − µ| ≤ � = P ≤ = P |N (0, 1)| ≤ n .
σX̄ σX̄ σ
Osservando che
P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95 ⇔ z = z0.975 ,
cioè 1.96 è il percentile z0.975 della tavola in Tabella 8.1 (si noti che
0.975 = 0.95 + 0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo
a questo punto sfruttare l’identità
�√ � �
n = 1.96 ⇒ n = (1.96σ/�)2 oppure n ≥ (1.96σ/�)2 .
σ
Ovviamente, nella relazione

� n ≥ (1.96σ/�)
�
2
sceglierò il più piccolo n, cioè
la parte intera superiore (1.96σ/�) .
2
Esercizio 164. Si deve impostare un sistema di due equazioni nelle

due incognite µ, σ 2 (θ ∈ R2 ),
EX = x̄, EX 2 = x̄2
dal quale si ottiene,
� = x̄
µ e �2 = x̄2 − (x̄)2 .
σ
Lo stimatore dei momenti è quindi dato dal vettore θ�M = (� � 2 )t .

µ, σ
Esercizio 168. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e

quindi H1 : µ �= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva
della X. Ci interessa solo H0 . In particolare, per la v.a. media cam-
pionaria sotto l’ipotesi nulla si ha che X̄n |H0 ∼ N (1, 1/n) con n = 30,
quindi P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95 dove la v.a. (standardizzata) in
questione è
X̄n − 1
Z|H0 = √ ∼ N (0, 1)
1/ n
si ottiene dai percentili a = z0.025 = −1.96 e b = z0.975 = 1.96 ottenuti

dalla Tabella 8.1. Dal campione osservato si ha che
x̄ − 1 1√
−1.96 < √ = 30 < 1.96
1/ 30 5
e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade

nella regione di accettazione per H0 : µ = 1. Possiamo accettare, al 95%
(o al livello di significatività α = 0.05), l’ipotesi che X ∼ N (1, 1).
Esercizio 169. Riprendiamo quanto visto nell’Esercizio 168. In questo

caso si deve considerare un valore zoss diverso e per quale
x̄ − 1 2√
zoss = √ = 30 > 1.96
1/ 30 5
e si conclude che il valore stimato standardizzato sotto H0 cade nella

regione di rifiuto per H0 . Non possiamo accettare l’ipotesi nulla.
Esercizio 170.
1. λ̂M = 1/x̄ = λ̂M V . Infatti, il sistema di una sola equazione da
risolvere è EX = x̄ mentre lo stimatore di massima verosimiglianza
si calcola dalla
L(λ; x) = λn e−λnx̄ e log L(λ; x) = −λnx̄ + n log λ
2. si deve osservare che
P (|X̄ − µ| ≤ �) = P (−� ≤ |X̄ − µ| ≤ �)
dove X̄ ∼ N (µ, 1/n) quindi

√ √ √
P (−� ≤ |X̄ − µ| ≤ �) =P (−� n ≤ n|X̄ − µ| ≤ � n)
√ √
=P (−� n ≤ Z < � n)
dove Z ∼ N (0, 1) e dalle tavole si vede che
P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48.

√
Quindi � n > 1.48 e n > (1.48/�)2 .
Esercizio 171.
a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 )
quindi la stima per µY è la media campionaria del vettore y = ax =
(ax1 , . . . , axn ). Ovvero µ
�X = ȳ = ax̄ essendo x̄ uno stimatore di
massima verosimiglianza per µX .
b) Con il metodo dei momenti otteniamo ȳ = EY = aEX e x̄ = EX
quindi µ
�X = x̄ ⇒ µ�Y = ax̄.
c) Si deve calcolare la probabilità P (|Ȳ − µY | < �) ≥ 0.95. Quindi
� � � �√
|Ȳ − µX | √ �√ �√ �
P n< n =P − n < N (0, 1) < n
a a a a
=0.95
dove P (N (0, 1) < z) ≥ 0.975 per z ≥ 1.96 ed otteniamo

�√ �a �2
n ≥ 1.96 ⇒ n ≥ 1.96 .
a �
Esercizio 172.
�n
1. λ̂ = x̄ = 1
n i=1 xi = conti
2. κ = λ − log θ > 0, basta osservare che θ x = ex log θ . Inoltre θ̂M V =

exp(−2/x̄) ∈ (0, 1)
Esercizio 173.
• µ̂M V = µ̂M OM = x̄ = −1/3

√
• sotto l’ipotesi nulla si ha che X|H0 ∼ N (0, 1/2), P ((X̄
√ − 0) 12 ∈
A) = .95 ⇒ A = (−1.96, +1.96); x̄oss = − 13 e (− 13 −0) 12 ∈ A ⇒
non posso rifiutare H0 al livello α = 5%.
Esercizio 174.
1. p̂M V = x̄,
2. p̂M OM = x̄,
X̄n −µ
3. σ |H0 ∼ N (0, 1) quindi si deve verificare se 2−1
√
1/ 8
∈ A dove per
α = .05, si ha A = (−1.96, +1.96).
Esercizio 176.
1. θ̂M V = 4/x̄ = θ̂M
X̄n√−µ
�
X̄n√−1 �
2. X̄n ∼ N (µ, σ 2 /10) ⇒ 1/ 20
∼ N (0, 1) ⇒ 1/ 20
H0 ∼ N (0, 1) ⇒
3/2−1
√
1/ 20
∈ A? dove al livello α = 0.05 con Φ(1.97) = 0.975 si ottiene
A = (−1.97, +1.97). Quindi NON posso accettare H0
3. Al livello α = 0.06 con Φ(1.89) = 0.97 si ottiene IC = ( 32 − √

1.89 3
, +
20 2
1.89
√
20
)
Esercizio 177.
�n �n
1. da d
log L(θ, x) = 2θ12 k=1 x2k − nθ = 0 si ricava θ̂M V =
dθ
1
2n k=1 x2k
� �n �2
2. θ̂M OM = π2 n1 k=1 xk
3. (x̄ − l, x̄ + l) dove l = 1.96
√
3n
√
4. Sotto l’ipotesi nulla, Ȳn = (X̄n − 2/5) 3n|H0 ∼ N (0, 1), al livello
α = 0.03 si trova A = (2/5 − l, 2/5 + l) per X̄n dove l = √ 2.17
75
.
Quindi non posso accettare l’potesi nulla, infatti 3.03 = ȳoss ∈ /
(−2.17, 2.17) o 3/4 = x̄oss ∈ / (0.149, 0.65)
� �2 1
5. n ≥ 1.65
0.01 3 , il minimo n è 3 × 55 .
2
Esercizio 178.
� �n �−1
1. θ̂M V = − n1 k=1 ln xk
√
2. (3/4 − 2) n ∈ (−1.96, +1.96) per n ≤ 2
3. (3/4 − 1.96
√ , 3/4
n
+ 1.96
√ )
n
Esercizio 179.
1. θ�M V = e1/x̄
2. θ�M OM = e1/x̄
3. IC(α) = (x̄ − l, x̄ + l) dove l = z1−α/2 √150 e z0.975 = 1.96
Esercizio 180.
12. θ�M V = e2/x̄
13. θ�M OM = e2/x̄
14. IC(α) = (x̄ − l, x̄ + l) dove l = z1−α/2 √125 e z0.975 = 1.96
Esercizio 182.
n
1 � iξk eiξn 1 − eiξ
φX (ξ) = e = , ξ ∈ R.
n n 1 − eiξn
k=1
Esercizio 185.
∞
�
φX (ξ) = C k −α−1 eiξk , ξ ∈ R.
k=1
Esercizio 186. V ar(X) = q/p2 .
Esercizio 188.
∞
� � �k pqeiξ
φX (ξ) = q peiξ = , ξ ∈ R.
1 − eiξ
k=1
Esercizio 190.
n � �
� n � �k � �n
φX (ξ) = peiξ q n−k = q + peiξ , ξ ∈ R.
k
k=0
Esercizio 191. Dai coefficienti binomiali si ricava
0 ≤ k ≤ K,
0 ≤ n − k ≤ N − K,
0 ≤ n ≤ N,
per N, K ∈ N dati e n, k ∈ N.
Esercizio 193.
∞
� 1 � iξ �k iξ
φX (ξ) = e−λ λe = e−λ(1−e ) , ξ ∈ R.
k!
k=0
Esercizio 196.
φX (ξ) = (eibξ − eiaξ )(ibξ − iaξ)−1 , ξ ∈ R.
Esercizio 198.
φX (ξ) = λ(λ − iξ)−1 , ξ ∈ R.

Esercizio 200.
φX (ξ) = λν (λ − iξ)−ν , ξ ∈ R.
Esercizio 206.
σ 2 ξ2
φY (ξ) = Eeiξµ+iξσX = eiξµ EeiξσX = eiξµ− 2 , ξ ∈ R.
Bibliografia
[1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011.

[2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000.
[3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994.
[4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996.
[5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and

products. Academic Press, Elsevier Inc., 2007.
[6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle
nozioni fondamentali alle applicazioni. Carocci editore, 2009.
[7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione.

[8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze.
Apogeo, ultima versione.
[9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987.
[10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997.

[11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University
Press., 2006.
Indice analitico
approssimazioni stabile, 126

di integrali, 132 uniforme, 156
di v.a., 101 convergenze, 155
per grandi campioni, 101 convoluzione, 93
correlazione, 76
binomio di Newton, 204 covarianza, 64, 66
calcolo combinatorio, 34 decile, 217

campione dipendenza, 82
grande, approssimazioni, 101 dipendenza
numerosità ottima, 180 lineare, 78
cardinalità, 17 disposizioni
centile, 217 con ripetizione, 42
combinazioni semplici, 42
con ripetizione, 43 disuguaglianza
semplici, 36 di Boole, 32
continuità di Chebyshev, 111
di P , 33 di Cramer-Rao, 172
di funzioni, 54 di Hölder, 160
separata, 74 di Jensen, 159
convergenza di Markov, 111
in Lp , 124, 156 di Minkowski, 160
in distribuzione, in legge, divergenza di v.a., 129
debole, 120
in media, 123, 124 estremo essenziale superiore, 155
in media quadratica, 124 eventi
in misura, 156 compatibili, 26
in probabilità, in misura, 122 complementari, 25
pointwise, 156 incompatibili, 25
puntuale, 156 indipendenti, 27
quasi certa, forte, 124 evento
quasi completa, 126 certo, 25
quasi ovunque, q.o., 156 impossibile, 25
INDICE ANALITICO
famiglia misurabile, 19
chiusa rispetto alla somma, numerabile, 18
100
di densità, 99 legge
formula debole dei grandi numeri, 130
di Bayes, 30 delle pr. composte a più
di duplicazione, 212 alternative, 30
di riflessione, 212 delle probabilità composte, 26
funzione delle probabilità totali, 26
caratteristica, 112 forte dei grandi numeri, 131
caratteristica di un insieme, limite
17 centrale, 135
codominio, 91 livello
continua, 54 di fiducia, 185
convessa, 159 di significatività, 185
dei momenti generalizzati, 119 mancanza di memoria, 76
di Lipschitz (o Lipshitziana), matrice
60 delle covarianze, 79
di verosimiglianza, 166, 177 media, 64
dominio, 91 media
Gamma, 211, 212 campionaria, 2
generatrice dei momenti, 118 memoria, 76
generatrice delle probabilità, metodo
119 dei minimi quadrati, 181
immagine, 91 dei momenti, 181
insieme di definizione, 91 di massima verosimiglianza,
limitata, 60 177
supporto, 91 Monte Carlo, 131
uniformemente limitata, 60 misura
funzione caratteristica di conteggio, 21
di un insieme, 17 di Dirac, 21
di Lebesgue, 20
identità di Wald, 103 modello
indice aleatorio, 62
di Bravais-Pearson, 77 deterministico, 62
di correlazione, 77 lineare, 69, 76, 78
insieme modulo
limitato, 60 proprietà, 160
INDICE ANALITICO
momenti, 64 somme
aleatorie, 102
numeri casuali di v.a., 93
generatori, 109 spettro, 50, 53, 57
statistica
passeggiata aleatoria, 102 descrittiva, 1
percentile, 217 funzione, 1
permutazioni inferenziale, 9, 164
con ripetizione, 41 stima
semplici, 35 dei minimi quadrati, 181
popolazione dei momenti, 181
finita, 164 di Bayes, 183
virtuale, 165 di massima verosimiglianza,
potenza del test, 185 177
principio di induzione, 32 per intervalli, 178
problema MMC, 134 successioni
monotone di insiemi, 16
quantile, 217 monotone di v.a., 106
quartile, 217 supporto, 53, 56, 57
random walk, 102 tabella di contingenza, 80
regola del tavola dei percentili, 217
ne fisso uno, 37 tempi di attesa, 106
procedo per iterazioni Teorema
successive, 39 del limite centrale, 135
di Blackwell-Rao, 175
serie di Cesàro, 130
armonica, 160 di Helly-Bray, 120
di funzioni, 161 di Lévy, 127
di Maclaurin, 162 di Scheffé, 128
di potenze, 163 fondamentale del calcolo
di Taylor, 162 integrale, 55
geometrica, 163 test
numerica, 160 del χ2 , 190
telescopica, 161 di Kolmogorov-Smirnov, 191
simulazione, 109
soluzione MMC, 134 valore
somma atteso, 64
famiglia chiusa, 100 medio, 64
INDICE ANALITICO
variabile
χ-quadrato, 84
aleatoria, 5
Beta, 216
Binomiale, 203
Chi-quadrato, 216
degenere, 122
deterministica, 5
di Bernoulli, 203
di Cauchy, 213
di Fisher-Snedecor, 216
di Poisson, 208
di Student, 216
di Weibull, 215
Esponenziale, 211
Gamma, 211
Geometrica, 201
Ipergeometrica, 207
media campionaria, 7
Multinomiale, 205
Normale, 213
Normale Multidimensionale,
215
Uniforme continua, 210
Uniforme discreta, 200
varianza campionaria
corretta, 84
Zipf, 201
variabili
i.i.d., 70
indipendenti, 71
ordinate, 103, 106
varianza, 64, 66
varianza
campionaria, 2
campionaria corretta, 84

Appunti Di Probabilit e Statistica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Probabilit e Statistica

Caricato da

Copyright:

Formati disponibili

Appunti di Probabilità e Statistica

Appunti di Probabilità e Statistica

First Printing: 2015 2016 2017 2018 (2020)

The things one feels absolutely

Il materiale riportato in queste note è stato selezionato in modo da

Alcuni concetti sono trattati in maniera più approfondita, possono

✍ : il simbolo indica gli argomenti importanti. Il resto degli appunti è

3.5.6 Teoremi limite ✍ . . . . . . . . . . . . . . . . . . . 129

6 Inferenza statistica 164

8 Distribuzioni elementari 201

C Svolgimenti, Tracce, Soluzioni

Nelle scienze applicate si procede sempre allo stesso modo, si osserva,

• Matematica applicata: costruire modelli (governati da equazioni a

• Teoria dei segnali: si studia la variazione nel tempo di una gran-

• Inferenza Statistica: problemi di stima per parametri di un modello

Obiettivi del corso. Acquisire competenza e abilità nel trattare:

1.1 Statistica descrittiva

sembra chiaro che possiamo considerare tutte le funzione con supporto

in Rn . Ovviamente, volendo ricavare delle informazioni (riguardanti la

Le due quantità x̄ e s2 dipendono da n e nei casi in si vorrà sottolinea-

dove, per r = 1, si ottiene la media campionaria m1 = x̄. Infatti,

dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notia-

Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato

e calcolare media e varianza campionarie. (Suggerimento: f 2 = 4/11).

Data una successione ﬁnita di valori xk , k = 1, . . . , n si deﬁniscono:

In base al fenomeno oggetto di studio può essere scelta una diversa

La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro

(X62 , X69 , X124 , X1402 , X9239 ),

(X632 , X1989 , X2014 , X4201 , X9719 )

(Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ). (1.6)

La scelta degli studenti da intervistare è del tutto casuale, dipende dagli

{Xi }i∈I (1.7)

dove I è un insieme di indici (di cardinalità 5) i cui elementi sono le

variabile deterministica e variabile aleatoria.

Diciamo che una variabile è deterministica se “possiamo prevedere il suo

Se lancio un dado, non possiamo semplicemente dire “esce 4” ma pos-

P (X = 4) = P (esce 4) = P (lancio il dado ed esce 4).

P (X ∈ Ω) = P (lancio il dado ed esce una faccia) = 1

e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente

x la realizzazione della variabile aleatoria X. Quindi x è la nostra osser-

P (X = x), P (X ≤ x), P (X < x), P (X ≥ x), P (X > x) (1.8)

oppure, se x1 ≤ x2 , P (x1 ≤ X ≤ x2 ). Si noti che se x1 , x2 ∈ R, la (1.8)

ii) X =“estraggo una pallina da un urna”;

iii) X =“estraggo k palline con ripetizione”;

iv) X =“estraggo k palline in blocco”;

altri possono rappresentare delle sempliﬁcazioni di modelli molto più

ii) X =“pressione sistolica”;

iii) X =“livello di reddito”;

iv) X =“numero di sinistri”;

v) X =“misurazioni relative alla radiazione cosmica di fondo”;

vi) X =“precipitazioni in una regione”;

vii) X =“concentrazione di un inquinante”.

Se Xi =“età della persona i” come nell’esempio sopra, allora possiamo

di 5 etichette rappresentanti gli studenti intervistati. Volendo generaliz-

e cn è un insieme di etichette che rappresenta un gruppo di n studenti

D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti

Esempio 1. Supponiamo che Mario chieda al fratello Moreno di essere

fi = f req{ pazienti con la malattia xi }, i = 1, 2, . . . .

Sulla base delle frequenze appena ricostruite, arriva a dire che

e scartando le malattie con probabilità più basse, restringe la rosa di

Esempio 2. Si consideri una classe di 100 studenti. Alcuni indossano

quindi conosco la distribuzione di frequenze, allora posso selezionare dal-

Spazi di Probabilità uniformi (prime considerazioni)

Figura 1.1: Grafo con 8 nodi e 9 archi.