Sei sulla pagina 1di 107

Università degli Studi di Perugia

Facoltà di Economia
Corso di Laurea in Finanza e Metodi Quantitativi per l’economia

Bayesian Computing

Appunti delle lezioni

Studente: Professore:
Veronica Alagia F. Bartolucci
Matricola 292792

Anno Accademico 2017-2018


Indice
1 Inferenza Classica (o Frequentista) e Inferenza Bayesiana a confronto 1

2 Distribuzione coniugata 4

3 Metodi alternativi per sintetizzare la distribuzione a posteriori 7


3.1 Gli intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 La verifica delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Definizioni di probabilità 13

5 Il teorema di Bayes 14

6 Approccio Bayesiano alla modellizzazone (ripetizione) 17

7 Subjective & Objective Bayesians 18

8 Motivazioni dietro l’approccio bayesiano 19

9 Altre distribuzioni coniugate notevoli 23


9.1 Caso Multinomiale-Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
9.2 Caso Multinomiale-Dirichlet (segue) . . . . . . . . . . . . . . . . . . . . . . . 25
9.3 Caso Poisson-Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

10 Distribuzioni a priori coniugate Normali 30


10.1 Inferenza sulla media con varianza nota . . . . . . . . . . . . . . . . . . . . . 30
10.2 Inferenza sulla varianza con media nota . . . . . . . . . . . . . . . . . . . . . 31
10.3 Inferenza su entrambi i parametri ignoti . . . . . . . . . . . . . . . . . . . . 33

11 La Regressione lineare in versione bayesiana.


Come si formula e come si stima 35

12 La famiglia esponenziale 37
12.1 La statistica sufficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

13 Objective prior 43
13.1 Jeffreys’ prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

14 Prediction 49

15 Verifica delle ipotesi 50


15.1 Il Bayes Factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

16 BAYESIAN COMPUTATION 57

17 La Quadratura 57
17.1 UNIPARAMETRIC CASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
17.1.1 Esempio1: caso Beta-Binomiale . . . . . . . . . . . . . . . . . . . . . 60
17.1.2 Esempio2: caso non coniugato . . . . . . . . . . . . . . . . . . . . . . 60
17.2 MULTIPARAMETRIC CASE . . . . . . . . . . . . . . . . . . . . . . . . . . 62
18 L’approssimazione di Laplace 62
18.1 Caso uniparametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
18.1.1 Esempio di un caso coniugato (Beta-Binomiale) . . . . . . . . . . . . 65
18.1.2 Esempio di un caso non coniugato . . . . . . . . . . . . . . . . . . . . 66
18.2 Caso multiparametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
18.2.1 Esempio: modello logistico . . . . . . . . . . . . . . . . . . . . . . . . 69
18.3 Previsione in ambito deterministico . . . . . . . . . . . . . . . . . . . . . . . 71
18.3.1 Univariate case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
18.3.2 Multivariate case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
18.4 Trovare il massimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
18.4.1 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

19 Il Monte Carlo Standard 77


19.1 Utilizzo alternativo del metodo Monte Carlo . . . . . . . . . . . . . . . . . . 80

20 Importance Sampling 83

21 Markov Chain Monte Carlo 85


21.1 Le Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
21.1.1 L’algoritmo di Metropolis-Hastings (MH) . . . . . . . . . . . . . . . . 90
21.1.2 L’algoritmo di Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
21.1.3 Reversible Jump . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

2
Lezione del 19/02/2018

1 Inferenza Classica (o Frequentista) e Inferenza Baye-


siana a confronto
Data una v.a. X per la quale si assume una distribuzione di probabilità f (x; θ) che dipen-
de dal parametro θ, nell’approccio classico si fa inferenza sul parametro sulla base di un
campione: indichiamo con X1 , X2 , . . . , Xn il campione casuale e con x1 , x2 , . . . , xn il cam-
pione osservato dal quale traiamo informazioni su θ. L’inferenza può consistere nella stima
puntuale del parametro o nella stima per intervallo e nella verifica di un test di ipotesi. In
questo modo θ è considerato come una quantità fissa, un numero che esiste ma che noi non
conosciamo, nel senso che potrebbe essere calcolato solo se conoscessimo tutti i suoi possi-
bili valori (a titolo esemplificativo θ potrebbe essere il reddito medio di un certo numero di
individui).
Nell’inferenza bayesiana, che deriva dal teorema di Bayes, tipico del calcolo delle pro-
babilità, il punto chiave consiste nel voler incorporare nelle conclusioni su θ non solo le
informazioni del campione ma anche un’opinione a priori del parametro stesso (prior belief );
ad esempio, nella stima del reddito medio si tiene conto sia delle informazioni del campio-
ne, ossia della media campionaria del reddito, e sia della propria ipotesi formulata a priori
sul valore più plausibile per il reddito medio di quegli individui. L’aspetto di sostanziale
differenza rispetto all’inferenza frequentista riguarda θ, che in ambito bayesiano non è più
considerato una quantità fissa ma una v.a. con una sua distribuzione di probabilità π(θ) e,
operativamente, l’informazione a priori viene incorporata proprio tramite questa distribuzio-
ne.

Figura 1: Distribuzione a priori al variare dell’opinione a priori

1
A seconda dell’intensità dell’opinione formulata la distribuzione a priori avrà una forma
differente (vedi Fig. 1); se l’opinione è molto forte allora si utilizza una distribuzione a priori
che è molto concentrata intorno al valore ipotizzato, altrimenti si utilizza una distribuzione
più piatta, ammettendo che ci sia molta dispersione attorno al valore ipotizzato a priori.
Se non abbiamo idea di quale sia un valore plausibile per θ la distribuzione a priori sarà
una retta parallela all’asse delle ascisse e si parla in tal caso di objective bayesian inference.
Sostanzialmente, possiamo concludere che, assumere che θ sia una v.a., può essere considerato
solo un espediente per poter formulare in modo semplice un’opinione a priori, tenendo conto
che il punto in cui è centrata la sua distribuzione indica il valore che -a priori- riteniamo
più plausibile per θ e che la concentrazione in questo valore (opposto della varianza) ci dice
quanto è forte l’opinione a priori.
Il metodo della verosimiglianza è quello che nella pratica ci permette di unire le informa-
zioni del campione e l’opinione a priori, per poi ottenere la stima. Indichiamo la funzione di
verosimiglianza, ovvero la distribuzione del campione dato θ, con:
n
Y
L(θ; x) = f (x; θ) = f (xi ; θ),
i=1

dove x = (x1 , x2 , . . . , xn ) è il vettore dei dati osservati nel campione; a questo punto, per
incorporare l’opinione a priori, calcoliamo la distribuzione a posteriori del parametro una
volta osservati i dati:
π(θ)f (x; θ)
π(θ|x) = (1)
f (x)
R
dove f (x) = π(θ)f (x; θ) dθ.
Come si può osservare, la distribuzione a posteriori si ottiene moltiplicando la distribuzione
a priori per la verosimiglianza e dividendo per la verosimiglianza marginale (marginalizzata
rispetto a θ) in modo tale che π(θ|x) sia normalizzata e integri a 1. In altre parole, se
θ ∼ π(θ) indica quanto è plausibile ogni valore di θ secondo la propria opinione personale
e se L(θ; x) indica quanto è plausibile ogni valore di θ sulla base dei dati del campione,
allora calcolando il prodotto π(θ)L(θ; x) si uniscono le due informazioni. In questo modo,
si aggiorna il parametro sulla base del campione osservato e si passa dalla distribuzione a
priori a una nuova distribuzione aggiornata alla luce dei dati osservati.
D’altra parte, è necessario che questa nuova distribuzione sia sintetizzata per arrivare alla
stima di θ; generalmente si utilizza il valore atteso a posteriori:
Z
E(θ|x) = θπ(θ|x) dθ. (2)

Graficamente, riprendendo l’esempio del reddito medio, 20 è il valore del reddito medio
secondo l’opinione a priori mentre 22 è la stima puntuale a posteriori, cioè E(θ|x) (Fig. 2).

2
Figura 2: Valore atteso aposteriori

Il problema principale dell’inferenza bayesiana consiste nel calcolo della verosimiglianza mar-
ginale, in quanto nei modelli realistici è intrattabile e non esiste una formula per il calcolo in
forma chiusa, quindi sono necessarie tecniche di integrazione Monte Carlo o di quadratura;
per questo motivo, in passato l’inferenza bayesiana era sviluppata quasi esclusivamente su
casi trattabili analiticamente.

3
2 Distribuzione coniugata
Definito il modello per la variabile di interesse X ∼ f (x; θ) e ipotizzata la distribuzione
a priori π(θ) per θ, quest’ultima distribuzione è detta coniugata se quella aposteriori ap-
partiene alla stessa famiglia distributiva; questo è molto vantaggioso perché non richiede il
R
calcolo espicito di π(θ|x) e quindi dell’integrale π(θ)f (x; θ) dθ.

Esempio 1 Si consideri la v.a. X=reddito e si ipotizzi che sia normalmente distribuita


con media θ ignota e varianza σ 2 nota, X ∼ N (θ; σ 2 ). Dovendo assumere una distribuzione
per θ che rispecchi la propria opinione a priori, per semplicità, possiamo assumere che sia
a sua volta normale, in quanto la distribuzione normale è conigata per la normale. In
particolare si assume θ ∼ N (µ; τ 2 ), dove i parametri µ e τ 2 devono essere fissati affinchè
riflettano l’opinione personale; µ indica il valore ipotizzato per il reddito medio, mentre τ 2
indica quanto può oscillare questo valore ovvero con quanta certezza ci si aspetta il valore
µ. Dunque, potendo affermare che la distribuzione a priori è coniugata per quella di X, la
distribuzione a posteriori sarà ancora normale con parametri µ̃ e τ̃ 2 , θ|x ∼ N (µ̃, τ̃ 2 ).
Esistono delle formule chiuse per µ̃ e τ̃ 2 , le quali dimostrano che la stima finale tiene in
considerazione tutte le informazioni a dispozione.

nτ 2 σ2
µ̃ = x̄ + µ (3)
σ 2 + nτ 2 σ 2 + nτ 2

dove: x̄ = 1/n ni=1 xi è la media campionaria che rappresenta l’evidenza fornita dai dati e
P

µ è la media a priori che evidenzia, invece, l’opinione a priori.


2 σ2
Si può notare che ponendo σ2nτ
P
+nτ 2 = w1 e 2
σ +nτ 2 = w 2 , tali che i wi = 1, con i = 1, 2, si
ha:

µ̃ = w1 x̄ + w2 µ = E[θ|x]

ossia µ̃ è proprio la stima bayesiana ottenuta come media ponderata tra stima classica e
opinione a priori e può essere vitsa come l’opinione a priori corretta con la media campionaria
o, viceversa, come la media campionaria corretta per l’opinione a priori.
É utile osservare come varia µ̃ al variare delle quantità coinvolte:

• se n aumenta, sostanzialmente, si osservano più dati e quindi si da più peso all’evidenza


empirica (media campionaria);

• se τ 2 è piccolo indica un’opinione a priori sicura, quindi al diminuire di τ 2 si da più


peso all’opinione a priori. Se per assurdo τ 2 = 0 ∀n si ignorano completamente le
informazioni nei dati;

• se σ 2 , ossia la variabilità dei dati, aumenta allora diminuisce il peso dato alla media
campionaria in quanto aumenta l’incertezza (il "rumore") nei dati osservati.

4
σ2τ 2
τ̃ 2 = . (4)
σ 2 + nτ 2
τ̃ 2 può essere visto come una misura della precisione della distribuzione a posteriori.
In questo caso, se n aumenta τ̃ 2 dinuisce, ovvero aumenta la precisione, dato che n è al
denominatore.
Graficamente:

Figura 3: Distribuzione a potsriori al variare dei parametri

la distribuzione a posteriori è centrata in un punto intermedio tra µ e x̄; se n è alto µ̃ → x̄, se,
invece, n è basso µ̃ → µ. Anche la concentrazione dipende da n, infatti all’aumentare di n la
distribuzione si sposta verso destra e diventa più appuntita, e quindi per n → ∞ =⇒ µ̃ = x̄,
il che significa che l’informazione a priori viene completamente trascurata, dato che la stima
bayesiana coincide com la stima classica.

Esempio 2 Si consideri la v.a. X=decisione di acquisto di un prodotto che assume


valore 1 in caso di acquisto e 0 altrimenti, ossia una variabile Bernoulliana con parametro
ignoto p, X ∼ Bern(p), e con funzione di probabilità di massa f (x) = px (1 − p)(1−x) . La
coniugata in questo caso è la distribuzione Beta, p ∼ Beta(α, β) con densità:

Γ(α + β) (α−1)
π(p) = p (1 − p)(β−1) ,
Γ(α)Γ(β)
dove Γ(.) è la funzione gamma. π(p) è una distribuzione per quantità che, come la probabilità,
assumono valori in (0, 1).
É in realtà una famiglia di distribuzioni che ci permette di esprimere diverse opinioni a
priori.
Include la distribuzione uniforme (quando α = β = 1) che esprime un’opinione di totale
incertezza (vedi Fig.4).
La distribuzione Beta ha:

5
Figura 4: Distribuzione Beta

α
E(p) = α+β

αβ
V ar(p) = (α+β 2 )(α+β+1)

α−1
moda = (α+β−2)
.

Dato che X ∼ Bern(p) e p ∼ Beta(α, β) allora π(p) è coniugata per f (x) e dunque anche la
distribuzione a posteriori è una Beta; si può dimostrare che, per i = 1, . . . , n:
 X X 
p|x ∼ Beta α + xi ; β + (1 − xi ) (5)
i i

e che:
P P P
α + i xi α + i xi α + i xi
p̃ = E[p|x] = P P = P P P = .
α + i xi + β + i (1 − xi ) α + β + i x1 − i xi + i 1 α+β+n
(6)
Anche in questo caso per n grande si ha E[p|x] ≈ x̄, ossia la frequenza relativa di successi,
infatti, dato che le quantità α e β sono fisse, il limn→+∞ E[p|x] = x̄.
Graficamente:

Figura 5: Distribuzione Beta

6
Lezione del 21/02/2018

3 Metodi alternativi per sintetizzare la distribuzione a


posteriori
Una prima alternativa al valore atteso, per sintetizzare la distribuzione a posteriori attraverso
una stima puntuale, consiste nel caloclo della moda, quel punto che massimizza la densi-
tà della distribuzione a posteriori (punto di massima probabilità), perchè questo stimatore
è quello che più somiglia alla massima verosimiglianza, tenuto conto del fatto che in que-
sto caso si massimizza il prodotto tra la distribuzione a priori e la funzione di verosimiglianza:

π(θ|x) ∝ π(θ)f (x; θ)

quindi anche in questo caso teniamo conto delle informazioni del campione, sintetizzate nella
verosimiglianza, e dell’informazione a priori.
Altri modi, diversi dalla stima puntuale, per sintetizzare la distibuzione a posteriori sono:

1. Costruzione di intervalli di confidenza;

2. Verifica delle ipotesi.

3.1 Gli intervalli di confidenza


Nella statistica frequentista l’intervallo di confidenza è un concentto un po’ "strano" e la
stranezza riguarda il concetto di probabilità, in conseguenza del fatto che in questo ambito
si distinguono gli stimatori dalle stime.
In generale, dato il campione x = (x! , . . . , xn ) applicando un modello si ottine l’intervallo
(l1 , l2 ); tuttavia, non è possibile affermare quanto segue:

P (l1 < θ < l2 ) = 1 − α;

ossia è sbagliato parlare di probabilità perchè, quando il campione viene osservato, (l1 , l2 )
è un intervallo numerico, ma anche θ è un numero fisso, quindi non ha senso parlare di
probabilità; si dice, infatti, che 1 − α è il livello di fiducia.
É corretto, invece, scrivere

P (L1 < θ < L2 ) = 1 − α

quando cioè calcoliamo gli esrtremi dell’intervallo di confidenza su un campione casuale


Li (X1 , . . . , Xn ), i = 1, 2, ossia come variabili casuali; questo perchè i metodi vengono gene-
ralmente definiti per un campione potenziale ed è garantito che nell’universo dei possibili

7
campioni, con una probabilità di copertura di 1 − α, l’intervallo contiene il parametro.
Una volta osservato il campione, invece, gli estremi dell’intervallo sono defini e l’intervallo
conterrà o meno il parametro con una certo fiducia/confidenza.
Nella statistica bayesiana, invece questa differenza non è più valida e anche per un singolo
campione è valida l’espressione P (l1 < θ < l2 ) = 1 − α perchè in questo caso θ è una v.a.
quindi anche per un campione dato ha senso scrivere che vi è una probabilità di 1 − α che
la v.a. θ sia contenuta nell’intervallo osservato.
Graficamente:

Figura 6: Intervallo di confidenza

data la distribuzione a posteriori di θ dobbiamo trovare i due estremi (quantili) che conten-
gono θ con probabilità 1 − α, ossia tsli che l’area al centro sia 1 − α.
In ambito bayesiano l’intervallo ottenuto in questo modo è detto credible interval o inter-
vallo di credibilità, il quale ci fornisce informazioni sull’incertezza/precisione della stima,
tramite la sua ampiezza: un intervallo stretto implica una forte informazione sia apriori che
su base campionaria, viceversa, un intervallo più ampio implica un’informazione finale più
vaga.

Esempio: Riprendiamo il caso della distribuzione normale, per cui:


X ∼ N (θ, σ 2 ) (distribuzione dei dati)
θ ∼ N (µ, τ 2 ) (distribuzione a priori)
θ|x ∼ N (µ̃, τ˜2 ) (distribuzione a posteriori), dove µ̃ = nτ 2
σ 2 +nτ 2
x̄ + σ2
σ 2 +nτ 2
µ e τ̃ 2 = σ2 τ 2
σ 2 +nτ 2
.
L’intervallo di credibilità si costruisce in maniera molto simile ad un intervallo di confidenza
classico, in particolare l’intervallo è centrato intorno alla stima bayesiana:

Figura 7: Intervallo di credibilità

8
√ √ √
l1 = µ̃ − zα/2 τ̃ 2 e l2 = µ̃ + zα/2 τ̃ 2 , quindi ha ampiezza A = 2zα/2 τ̃ 2 , dove zα/2 è il
quantile della N (0, 1) al livello α/2.
Naturalmente l’ampiezza risente delle quantità in gioco; in particolare n ha un’influenza
diretta sulla certezza (incertezza) della stima, ovvero se n aumenta la varianza a posteriori
V ar[θ|x] dimunuisce e, pertanto, diminuisce anche l’ampiezza.
Ricordando che per n → ∞ =⇒ µ̃ = x̄ e τ̃ 2 ≈ σ 2 /n, possiamo notare che per n grande l’in-

tervallo di credibilità diventa x̄±zα/2 τ̃ 2 ossia coincide con l’intervallo di confidenza; perciò,
differenze sostanziali rispetto all’intervallo classico si osservano solo per piccoli campioni.
Dato che la distribuzione a posteriori in esame è normale, per definizione è simmetrica; di-
retta consegenza della simmetria della distribuzione è l’analoga simmetria dell’intervallo: la
stima puntuale è al centro dello stesso e per costruirlo basta trovare uno dei due quantili in
quanto l’altro sarà semplicemente l’opposto.
Si presentano, però, casi in cui la posterior è asimmetrica (es. Bernoulli); in tal caso può
diventare problematica la scelta dei quantili. La soluzione più semplice consiste nel prendere
due quantili tali che l’area alla sinistra del primo e alla destra del secondo sia α/2 ovvero
che l’area al centro sia 1 − α.

Figura 8: Intervallo per distribuzione asimmetrica

D’altra parte questa tecnica funziona se l’assimetria non è molto elevata altrimenti si pone
un problema, nel senso che l’intervallo così creato non è ottimale, ovvero possiamo trovare
altri due quantili tali che l’intervallo è meno ampio ma garantisce comunque la probabilità
di copertura.
Ad esempio, se si vuole costruire un intervallo tale che P (l1 < θ < l2 ) = 0.95 una prima
scelta potrebbe ricadere su quei quantili inferiore e superore che lasciano, rispettivamente,
a sinistra e a destra un’area dello 0.025; tuttavia se si trovano altri due qunatili l10 e l20 tali
che P (l10 < θ < l20 ) = 0.95 e l20 − l10 < l2 − l1 allora l’intervallo iniziale non è ottimale, perchè
a parità di probabilità se ne può trovare uno più informativo (meno ampio).
C’è una regola, basata sul teorema del calcolo delle probabilità, che ci permette di individuare
l’intervallo meno ampio possibile a parità di probabilità di copertura 1 − α: sotto certe
condizioni, l’intervallo ad ampiezza minore possibile è ottimale se la densità nell’estremo di

9
destra è uguale alla densità nell’estremo di sinistra. Ora, se la distribuzione della posterior
è simmetrica questo risultato è raggiunto automaticamente, mentre se è asimmetrica vi sono
comunque degli algoritmi numerici che permettono di soddisfare la regola base. Ad esempio
se è asimmetrica verso destra, gli estremi l1 e l2 dell’intervallo si spostano verso sinistra
ma, mentre l1 si sposta di poco, uno spostamento maggiore è richiesto per l2 e per questo
l’intervallo avrà un’ampiezza minore. un intervallo di questo tipo è detto highest posterior
density (Figura4).

Figura 9: Distribuzione asimmetrica verso destra

Esempio: Un caso in cui questa tecnica è necessaria è quello della distribuzione a


posteriori beta, per cui:
X ∼ Bern(p) (distribuzione dei dati)
p ∼ Beta(α, β) (distribuzione a priori)
 
P P
p|x ∼ Beta α + i xi ; β + i (1 − xi ) (distribuzione a posteriori)

essendo tipicamente asimmetrica, se volessimo trovare l’intervallo di credibilità in modo più


"sbrigativo" prenderemmo i quantili lower e upper al livelllo α/2; se, invece, vogliamo un
intervallo migliore dobbiamo prendere due quantili tali che la densità sia la stessa.

3.2 La verifica delle ipotesi


In generale si fa un test su un’ipotesi che si considera vera fino ad evidenza del contrario,
detta ipotesi nulla e indicata con H0 . Indicando con:
X ∼ f (x; θ) la distribuzione dei dati
θ ∼ π(θ) la distribuzione a priori
θ|x ∼ π(θ; x) la distribuzione a posteriori

10
tipicamente si verifica il seguente sistema di ipotesi:
(
H0 : θ ∈ Θ0 ⊂ Θ
H1 : θ ∈ Θ̄0 ⊂ Θ

dove H1 è dette ipotesi alternativa e Θ indica lo spazio dei parametri.


Generalmente, occorre decidere quale delle due ipotesi è più attendibile; nell’inferenza baye-
siana si sceglie l’ipotesi con distribuzione a posteriori maggiore, ovvero data la distribuzione
a posteriori se la distribuzione sotto H0 è maggiore di quella sotto H1 si sceglie H0 , altrimenti
H1 . Per calcolare la distribuzione a posteriori si calcola l’area sotto la curva che soddisfa
l’ipotesi:

Figura 10: Calcolo della distribuzione a posteriori

ragionando in termini di regola di rifiuto si confronta la probabilità di due eventi, RH0 se


P (Θ̄0 |x) > P (Θ0 |x) ossia se c’è più evidenza a favore dell’ipotesi alternativa, il che equivale
a calcolare la P (Θ̄0 |x) > 12 , dato che la somma delle due probabilità devve essere pari a 1;
viceversa AH0 .

Esempio: Caso Normale data θ|x ∼ N (µ̃, τ̃ 2 ) verifichiamo:


(
H0 : θ ≤ θ0
H1 : θ > θ0

Innanzitutto, si rappresenta la curva della posterior centrata su µ̃ con variabilità τ̃ 2 e si osser-


va dov’è θ0 ; se ad esempio si verifica il caso della Figura 6 si AH0 perchè l’area (probabilità)

11
sotto H0 è maggiore di quella sotto H1 ed è pari a:
  
θ0 − µ̃
P Θ0 |x = Φ √
τ̃ 2

Figura 11: Esempio caso normale

In generale, la regola di accettazione può essere espressa come AH0 se θ0 ≥ µ̃, altrimenti
RH0 .
Possiamo sviluppare questa regola per vedere come si differenzia dall’inferenza classica:

µ̃ ≤ θ0
(sostituisco a µ̃ la sua espressione)
nτ 2 +x̄+σ 2 µ
≤ θ0
nτ 2 +σ 2
(moltiplico per nτ 2 + σ 2 )
nτ 2 + x̄ + σ 2 µ ≤ nτ 2 θ0 + θ0 σ 2
(ricavo x̄)
2
x̄ ≤ θ0 + σ (θnτ02−µ)
e si ottiene dunque una regola di accettazione rispetto alla media campionaria.

Notiamo che la regola di accettazione diventa banale se il valore ipotizzaro sotoo H0 è pari a
µ, in quanto diventa x̄ ≤ θ0 ; ma anche al crescere di n il fattore correttivo diventa irrilevante
0 −µ)
perchè σ 2 (θnτ 2 −→ 0 e il risultato è vicino a uello dell’inferenza classica; possiamo quindi
concludere che l’inferenza bayesiana ha un’influenza significativa quanfo il valore ipotizzato
θ0 è distante dal valore a priori oppure in piccoli campioni.

12
Lezione del 28/02/2018

4 Definizioni di probabilità
Storicamente, la teoria della probabilità non stata in grado di produrre una definizione
univoca, accettata da tutti, per cui quando parliamo di probabilità possiamo riferirci a
differenti approcci/paradigmi.

Definizione classica La probabilità di un evento è pari al rapporto tra il numero di


casi favorevoli e il numero di casi possibili, ammesso che gli eventi dsiano equiprobabili. Si
tratta di una definizione tautologica, che consente di calcolare effettivamente la probabilità
in molte situazioni ma presenta, tuttavia, diversi aspetti negativi non irrilevanti:

• dal punto di vista formale, è una definizione circolare: richiede che i casi possiedano
tutti la medesima probabilità, nota a priori, che è però ciò che si vuole definire;

• non definisce la probabilità in caso di eventi non equiprobabili;

• presuppone un numero finito di risultati possibili e di conseguenza non è utilizzabile


nel continuo.

Definizione frequentista La probabilità è il limite della frequenza relativa dell’evento,


al crescere del numero degli esperimenti:

P (A) = lim f (A)


n→∞

La definizione frequentista si applica ad esperimenti casuali i cui eventi elementari non siano
ritenuti ugualmente possibili, ma assume che l’esperimento sia ripetibile più volte, idealmente
infinite, sotto le stesse condizioni. Anche tale definizione consente di calcolare la probabilità
di molti eventi; tuttavia:

• il "limite" delle frequenze relative non è paragonabile all’analogo concetto matematico;

• non tutti gli esperimenti sono fsicamente ripetibili (es. elezioni);

Le definizioni classica e frequentista sono entrambi molto limitate, dato che non si possono
applicare in modo semplice alla realtà. Per questo motivo, in ambito matematico sono stati
sviluppati gli approcci soggettivisti.

13
Definizione soggettivista Secondo il paradigma soggettivista, la probabilità è il grado
di fiducia, espresso soggettivamente, rispetto al verificarsi di un evento, quindi ognuno espri-
me una sua probabilità e non esiste una regola condivisa, l’importante è che siano rispettati
gli assiomi di Kolmogorov (un evento non è più o meno probabile: sono io che giudico più
o meno probabile un evento). Rifacendosi al gioco delle scommesse, De Finetti e Savage
hanno proposto una definizione di probabilità applicabile ad esperimenti casuali i cui eventi
elementari non siano ritenuti ugualmente possibili e che non siano necessariamente ripetibili
più volte sotto le stesse condizioni: la probabilità di un evento è il prezzo che un individuo
ritiene equo pagare per ricevere 1 se l’evento si verifica, 0 se l’evento non si verifica. Dun-
que, il grado di fiducia dipende da "quanto si è disposti a scommetere". Al fine di rendere
concretamente applicabile la definizione, si aggiunge un criterio di coerenza: le probabilità
degli eventi devono essere attribuite in modo tale che non sia possibile ottenere una vincita
o una perdita certa. La definizione soggettiva consente quindi di calcolare la probabilità di
eventi anche quando gli eventi elementari non sono equiprobabili e quando l’esperimento non
può essere ripetuto. Rimane fondata, tuttavia, sull’opinione di singoli individui, che potreb-
bero presentare diverse propensioni al rischio. Basta pensare che molti sarebbero disposti a
giocare 1 euro per vincerne 1000, ma pochi giocherebbero un milione di euro per vincerne
un miliardo.

Definizione assiomatica Si tratta, sostanzialmente, di un’enunciazione delle proprie-


tà che la probabilità deve possedere nel ripsetto di alcuni assiomi.
L’impostazione assiomatica della probabilità venne proposta da A. N. Kolmogorov nel 1933,
il quale fissò tre nozioni "intuitive", non dimostrabili, che fossero accettate da tutti a prescin-
dere dalla concezione probabilistica. Infatti, la definizione assiomatica non è una definizione
operativa e non fornisce indicazioni su come calcolare la probabilità. È quindi una definizio-
ne utilizzabile sia nell’ambito di un approccio oggettivista che nell’ambito di un approccio
soggettivista.

L’inferenza bayesiana presuppone -anche se non è strettamente necessario- che il para-


digma di probabilità sai quello soggettivista, dato che la distribuzione a priori deve riflettere
la personale belief su un parametro e formalizzata attraverso una distribuzione.

5 Il teorema di Bayes
Il teorema di Bayes o teorema della probabilità delle cause è un concetto cardine
dell’inferenza bayesiana. É storicamente attribuito a Thomas Bayes (1702-1761), monaco di
Londra che fu menbro della Royal Society. Bayes ha pubblicato solo due lavori in cui ha
accennato al suo teorema che, però, non ha mai formalizzato. sono stati altri autori, tra i
quali Richard Price, che lo hanno sviluppato e attribuito a lui.

14
Il teorema di Bayes deriva a sua volta da altri due teoremi fondamentali delle probabilità: il
teorema della probabilità congiunta o (composta) e il teorema della probabilità totale.

Teorema della probabilità congiunta Deriva a sua volta dalla probabilità condizio-
nata, un concetto cruciale in ambito bayesiano; condizionare vuol dire aggiungere informa-
zione, la probabilità condizionata è la probabilità di un certo evento (o distribuzione di un
certo parametro) avendo aggiunto dell’informazione e può essere utilizzata per aggiornare
un’opinione a priori.
Dati due eventi A e B, se P (B) > 0 ossia se c’è una probabilità purchè minima che l’evento
B si verifichi, allora P (A) è la probabilità che si verifichi A con il set di informazioni di
partenza (es. la probabilità che ci sia un nuovo governo), P (A|B) è invece la probabilità che
si verifichi A sapendo che si sia verificato B (che B si è verificato è l’informazione aggiunta)
(es. probabilità che ci sia un nuovo governo sapendo che nessuno ha ottenuto la maggioran-
za). Matematicamente:

P (A∩B)
P (A|B) = P (B)

quindi, la probabilità condizionata è data dal rapporto tra la probabilità dell’intersezione


(probabilità congiunta) e la probabilità dell’evento condizionante (ecco perche deve essere
P (B) > 0). Si ricava facilmente che la probabilità che si verifichino entrambi gli eventi è pari
alla probabilità dell’evento condizionante per la probabilità condizionata dell’altro evento:
P (A ∩ B) = P (B)P (A|B).
Quando si verifica un cambiamento nel passaggio dalla probabilità a priori a quella a posterio-
ri (condizionata/dopo aver aggiunto l’informazione) si dice che i due eventi sono dipendenti,
dato che il verificarsi di un evento modifica la probabilità dell’altro; infatti nel caso di indi-
pendenza stocastica si ottiene che la probabilità congiunta è pari al prodotto delle probabilità
marginali, P (A ∩ B) = P (B)P (A).

Legge della probabilità totale Dati due eventi A e B, supponiamo di poter calcolare
P (A|B) e P (A|B̄) e di conoscere P (B) e P (B̄); ad esempio, se A =istituzione di un nuovo
governo e B =vince il partito XY, allora P (A|B) è la probabilità che ci sia un nuovo governo
sapendo che ha vinto il partito, P (A|B̄) è la probabilità che ci sia un nuovo governo sapendo
che non ha vinto quel partito, P (B) è la probabilità che vinca il partito e P (B̄) è la probabilità
che il partito non vinca.
La legge della probabilità totale ci permette di calcolare la probabilità che si verifichi l’evento
A:

P (A) = P (A|B)P (B) + P (A|B̄)P (B̄)

dove P (A|B)P (B) è la probabilità congiunta di A e B, P (A ∩ B), e P (A|B̄)P (B̄) è la pro-


babilità congiunta di A e B̄, P (A ∩ B̄). Come si può osservare, la probabilità totale è data

15
dalla somma delle probabilità congiunte, ossia è una sorta di media ponderata tra le pro-
babilità condizionate dell’evento A pesate per la probabilità marginale del rispettivo evento
condizionante.
La legge della total probability si usa perchè a volte a livello soggettivista è più semplice po-
ter esprimere una probabilità condizionata, per poi passare a quella marginale. Ad esempio,
consideriamo una compagnia di assicurazione che affitta delle auto da due dverse agenzie;
conoscendo la probabilità che le auto, provenienti dall’una e dall’altra agenzia, si rompano,
possiamo calcolare la probabilità che un auto si rompa senza sapere da quale agenzia pro-
viene.

TEOREMA DI BAYES Viene, generalmente, impiegato per calcolare la probabilità


di una causa che ha scatenato l’evento d’interesse verificatosi. Consideriamo un insieme di
eventi possibili {B1 , B2 , . . . , Bk }, con P (Bk ) > 0 ∀k, che partizionano lo spazio campionario
S, ossia Bj ∩ Bk = ∅ ∀j 6= k e ∪ki=1 Bk = S (Figura 1). Sapendo che si verifica un certo
evento A, possiamo calcolare la probabilità condizionata (al verificarsi di A) di ciascuno dei
possibli eventi Bk :

P (A|Bk )P (Bk ) P (A ∩ Bk )
P (Bk |A) = Pk = (7)
i=1 P (A|Bk )P (Bk )
P (A)

dove P (Bk ) è la probabilità a priori di ciascun possibile evento cioè che non tiene conto di
nessuna informazione su A, P (A|Bk ) è la probabilità condizionata dell’evento A noto Bk e
P (A) è la probabilità marginale di A che funge da costante di normalizzazione.

Figura 12: Diagramma di Venn

Con riferimento alla Figura 1, possiamo notare che, essendo P (Bk ) l’area della k-esima
partizione e P (Bk |A) l’area in comune tra la partizione Bk e A riproporzionata rispetto ad
A si ha:
P (B1 |A) = 0
P (B2 |A) = 0
P (B3 |A) = AA3
P (B4 |A) = AA4

Sostanzialmente, calcolando P (Bk |A) si va a ridimensionare lo spazio campionario S.

16
Esempio1
Una scatola contiene 7 palline rosse e 13 blu. Si supponga di estrarre casualmente prima due
palline senza vedere il colore e poi una terza di colore rosso. Sapendo che la terza è rossa,
qual è la probabilità che le prime due siano blu?

P (R|BB)P (BB)
P (BB|R) = =
P (R|BB)P (BB) + P (R|BR)P (BR) + P (R|RB)P (RB) + P (R|RR)P (RR)

7 13 12
18
+ 20
∗ 19
)
= 7 13 12
 6 13 7
 6 7 13
 5 7 6
 = 0, 3426
18
+ 20
∗ 19
+ 18
+ 20
∗ 19
+ 18
+ 20
∗ 19
+ 18
+ 20
∗ 19

Esempio2
Il teorema di Bayes può essere impiegato per calcolare la probabilità che una certa persona
soffra di una malattia, per la quale ha eseguito un test diagnostico, conoscendo la frequenza
con la quale si presenta la malattia e la percentuale di efficacia del test diagnostico.
Ad esempio, il cancro viene scoperto in una persona su 2000 (=probabilità marginale di avere
la malattia) e il test relativo risulta molto attendibile, in quanto P (testPositivo|malattia) =
90% e P (testPositivo|sano) = 1%.
Possiamo, dunque, calcolare la probabilità della malattia (causa) sapendo che il test è posi-
tivo (evento verificatosi, scatenato dalla malattia):

P (testPositivo|malattia)P (malattia)
P (malattia|testPositivo) = =
P (testPositivo|malattia)P (malattia) + P (testPositivo|sano)P (sano)

1
0.90 ∗ 2000
= 1 1999 = 0.04308 ≈ 4, 3%
0.90 ∗ 2000 + 0.01 ∗ 2000

Come si osserva, si passa dalla P (testPositivo|malattia) = 90% alla P (malattia|testPositivo) =


4, 3%, il che significa che il test è molto fedele ma dato che le persone che hanno il cancro
sono molto poche la probabilità di avere effettivamente la malattia dato un test positivo è
più bassa.

6 Approccio Bayesiano alla modellizzazone (ripetizione)


P (θ) è detta prior. Per calcolare la distribuzione a posteriori di θ applichiamo il teorema di
Bayes:

P (y|θ)P (θ)
P (θ|y) =
P (y)

17
P (θ|y) è detta posterior, P (y|θ)P (θ) è la probabilità congiunta dove P (y|θ) è la distribuzione
dei dati osservati dato θ (Likelyhood ), P (y) è pari alla somma o all’integrale, nel caso discreto
e continuo rispettivamente, estesa a tutti i possibili valori di θ secondo la legge della total
probability.

7 Subjective & Objective Bayesians


Nella realtà vi sono due filoni di statistici bayesiani

• subjective bayesians

• objective bayesians

18
Lezione del 7/03/2018

8 Motivazioni dietro l’approccio bayesiano


I) Ci permette di tenere in considerazione l’opinione a priori
Si tratta di una motivazione a livello pratico/sostanziale, sappiamo cioè che abbiamo una
distribuzione a priori π(θ), una distribuzione dei dati dato il parametro f (x|θ) e la distribu-
zione a posteriori del parametro π(θ|x), che incorpora sia l’informazione sui dati sia quella
a priori.

II) É coerente con il Teorema di rappresentazione


La seconda motivazione si fonda sul teorema di rappresentazione di De Finetti il quale si basa,
a sua volta, sulla definizione di scambiabilità, un requisito di una una distribuzione di va-
riabili congiunte, che ha a che fare con quella di indipendenza ma è meno rigorosa/stringente;
data una sequenza di v.a. X1 , X2 , . . . , Xn , esse sono scambiabili se:

P (x1 , x2 , . . . , xn ) = P (xπ1 , xπ2 , . . . , xπn ),

dove le πi rappresentano una permutazione qualsiasi degli indici, per cui l’ordine con il quale
si introducono i valori delle v.a. è indifferente, in quanto la probabilità congiunta non cambia.

É una definizione meno forte dell’indipendenza P (x1 , x2 , . . . , xn ) = P (x1 )P (x2 ) . . . P (xn ) ,
in quanto l’indipendenza implica scambiabilità ma non vale il viceversa:

Figura 13: Indipendenza e Scambiabilità

Esempio Supponiamo di avere le v.a. IID Z1 , Z2 , . . . , Zn ; se indichiamo con Z0 una


nuova variabile tale che:
{Xi = Z0 + Zi }ni=1

la sequenza di variabili Xi non è più indipendente, in quanto hanno tutte in comune Z0


(questo significa che nessuna delle variabili Xi può essere prevista a prescindere dalle altre);
è però una sequenza scambiabile.

Secondo il teorema di rappresentazione, data una sequenza di v.a. IID X1 , X2 , . . . , Xn che


soddisfano il requisito della scambiabilità, è sempre possibile scrivere la loro probabilità

19
congiunta usando una formula alla base del teorema di Bayes:
Z Y
P (x1 , x2 , . . . , xn ) = f (xi |θ)π(θ)dθ
i

Q
dove i f (xi |θ) = f (x|θ) è la funzione di verosimiglianza e π(θ) è la distribuzione a priori;
per cui, l’integrale in cui, condizionatamente a un parametro con una certa distribuzione,
le variabili sono indipendenti altro non è che la distribuzione dei dati o verosimiglianza
marginale, ossia il denominatore del teorema di Bayes.
Questo motivazione spiega quindi che l’inferenza bayesiana è importante perchè coerente con
il teorema di rappresentazione.

III) Si può ragionare in termini di Funzioni di Perdita e Funzioni di


Rischio
In generale, una funzione di perdita rappresenta il costa/perdita che si subisce compuendo

una determinata azione, data la reltà dei fatti; viene indicata con: l θ, δ(x) , dove δ è l’azione
che si compie, mentre θ rappresenta la realtà. Nella pratica θ è il parametro d’interesse e δ
la sua stima.
Le funzioni di perdita più utilizzate sono:

- l θ, δ(x) = (θ − δ)2 → scarto quadratico medio

- l θ, δ(x) = |θ − δ| → scarto in valore assoluto

 0
- l θ, δ(x) = → funzione che assume solo i valori 0 e 1
1
(ad esempio nel valutare la qualità di un test statistico, se l = 0 vuol dire che il test
ha riconosciuto l’ipotesi correttamente)

In ambito frequentista una funzione di perdita viene utilizzata tramite una trasformazione,
la funzione di richio, che rappresenta la media su tutte le azioni che si possono compiere
  
e su tutti i possibili campioni ed è indicata con R θ, δ(X) = E l θ, δ(X) , e cioè, dato che
l’azione da compiere dipende dai dati osservati (campone casuale X estratto dalla popola-
zione), per non riferirsi ad uno specifico campione, si calcola il valore atteso rispetto a tutti
i possibili campioni.
Una funzione di rischio deve essere sempre minimizzata, dato che la funzione di base è quella

di perdita l θ, δ(x) .
 2 
Un caso specifico di funzione di rischio è il mean square error : M SE = E δ(X) − θ ,
una quantità che ci permette di giudicare la qualità dello stimatore sulla base della distanza
media al quadrato tra la stima e la quantità da stimare; in pratica, non volendosi soffermare
su uno specifico campione, dato che ex-ante il campione non è stato ancora osservato, si
calcola la media della distanza al quadrato su tutti i possibili campioni.

20
L’MSE è una funzione del parametro incognito e a seconda di come quest’ultimo viene de-
finito si ottiene un diverso valore dell’MSE, per cui graficamente si rappresenta rispetto al
parametro stesso (in sostanza nella f. di perdita sono due gli elementi che non conosciamo:
campione e parametro; per il primo se ne prende il valore atteso, per il secondo si rappresenta
la funzione rispetto a tutti i suoi possibili valori).
Procedendo il tal modo è possibile, peraltro, scegliere tra metodi di stima diversi. Difatti,
l’MSE è una funzione di rischio quadratica per cui, dati due metodi alternativi, rappresen-
tandolo rispetto a tutti i possibili valori del parametro si sceglie il metodo che comporta
l’errore più basso.
In particolare, quando un metodo di stima domina l’altro, per qualsiasi valore del parametro
θ, si dice che è uniformemente (∀θ) migliore.

Questo costituisce il tipico approccio frequentista perchè è come se si andasse a valutre la


frequenza di tutte le possibili stime che si possono ottenere di un certo parametro. Tuttavia,
è un metodo molto criticato e sono proprio queste critiche che fondano la terza motivazione
a sostegno dell’approccio bayesiano. Infatti, solo raramente accade che un metodo sia uni-
formemente migliore; tipicamente, si incontrano situazioni nelle quali, a seconda dei valori
di θ, entrambi i metodi possono essere dominanti.

21
Sono due le soluzioni proposte per affrontare queste situazioni:

• restringere la classe dei metodi confrontabili tra loro.


Ad esempio si confrontano solo gli stimatori non distorti (Nota: uno stimatore è non
distorto quando E[δ(X)] = θ, altrimenti lo stimatore è distorto e la distorsione o bias
è pari a B = E[δ(X)] − θ ≷ 0)

• scegliere il metodo che ha il minimo massimo (metodo Min-Max ).


É un criterio di prudenza perchè si sceglie il metodo con il più basso rischio massimo.
( graph )

Nonostante le soluzioni proposte, l’approccio frequentista rimane criticato dai bayesiani, in


quanto si tratta di metodi che vengono valutati sull’universo di tutti i possibili campioni,
mentre nella pratica se ne osserva solo uno.

Sulla base della stessa funzione di perdita, in ambito bayesiano la funzione di rischio viene
ridefinita in modo da focalizzarsi su un singolo campione:

ρ(δ) = E[l(θ, δ(x))]

dove θ è una variabile casuale e x è il campione osservato (una quantità fissa). ρ(δ) è detto
rischio a posteriori ed è pari a:
Z
ρ(δ) = l(θ, δ(x))π(θ|x)dθ

dove π(θ|x) è la distribuzione a posteriori ottenuta con il teorema di Bayes.


In poche parole, per il frequentista θ è un parametro fisso di cui non si conosce il valore ma
il campione è casuale, per cui si calcola il valore atteso rispetto a tutti i possibili campioni
e si sceglie il metodo che minimizza questo valore atteso. Per il baysiano il parametro è una
v.a., riflettendo il fatto che è una quantità ignota, mentre il campione è osservato, quindi il
valore atteso si calcola come integrale rispetto a θ, e sotto la sua distribuzione a posteriori,
e si sceglie comunque il metodo che lo minimizza; in pratica:
- assunta una prior π(θ) per il parametro,
- assunto un modello f (x|θ) per i dati,
- si formula la ditribuzione a posteriori π(θ|x) = π(θ)f (x|θ)
f (x)
,
R
- si definisce una funzione di perdita, ad esempio quadratica per cui ρ(δ) = (θ − δ)2 π(θ|x)dθ,
- si minimizza il rischio a posteriori rispetto a δ: min ρ(δ).
δ
Si può dimostare che, se la funzione di perdità è quadratica, lo stimatore che la minimizza
è il valore atteso: Z
δ = E[θ|x] = θπ(θ|x)dθ.

Quindi, il parametro si stima mediante la sua distribuzione a posteriori prendendone la


media.

22
Definendo opportunamente la funzione di perdita si può, invece, ottenere la moda:

δ = max π(θ|x).
θ

Naturalmente, questo approccio presuppone l’assunzione di una distribuzione a priori, la


quale entra direttamente nella funzione di rischio tramite la posterior.

9 Altre distribuzioni coniugate notevoli


In precedenza sono stati presentati i casi: Beta-Binomiale e Normale con media ignota e
varianza nota.

9.1 Caso Multinomiale-Dirichlet


La distribuzione Multinomiale è un’estensione della binomiale: mentre una variabile bino-
miale può assumere solo due possibili valori (variabile discreta con due categorie, binaria),
una variabile multinomiale può eassumere un numero arbitrario k ad ogni estrazione (varia-
bile con k categorie/livelli).
Più specificamente, una variabile Y può essere vista come la somma di n v.a. Bernoulline:

Y = X1 + X2 + · · · + Xn = #(Xi = 1) (#: "frequenza/numero delle volte che..")



1, p
dove Xi = , i = 1, 2, . . . , n.
0, (1-p)

Di conseguenza Y ha distribuzione binomiale con parametri n e p, Y ∼ Bin(n, p), con pro-


babilità f (y) = np y!(n−y)!
 n!
py (1 − p)n−p .
La distribuzione binomiale trova applicazione ogni qual volta si può codificare la presenza
di un determinato attributo (ad esempio nel marketing 1=cliente soddisfatto 0=non soddi-
sfatto, in finanza 1=borsa al rialzo e 0= al ribasso).
La distribuzione multinomiale, invece trova applicazione quando occore codificare una varia-
bile con più di due livelli (ad esempio nel marketing si intervistano dei soggetti che devono
rispondere 0=non soddisfatto, 1=poco soddisfatto, 2=soddisfatto, 3=molto soddisfatto).
Come si è detto la distribuzione multinomiale si ottiene estendendo quella binomiale. Sup-
poniamo di avere una n-upla di v.a:



 1 p1


2

p2
Xi = . , i = 1, 2, . . . , n.
..





k pk

23
Introduciamo le variabili Y1 , Y2 , . . . , Yk definite come:

Yj = #(Xi = j), j = 1, 2, . . . , k.

e otteniamo di fatto una distribuzione di frequenza. Se indichiamo con:


 
Y1
 Y2 
 
Y=
 .. 

 .
Yk

allora, il vettore Y ha probabilità calcolata secondo il modello multinomiale, Y ∼ M ult(n, p),


con p = (p1 , p2 , . . . , pk )0 .
Per calcolare la probabilità si estende la formula della binomiale, per cui si:

n! n! Y yj
f (y) = py11 py22 . . . pykk = Q pj
y1 !y2 ! . . . yk ! j yj ! j

dove y1 !y2n!!...yk ! è detto fattore multinomiale (per k = 2 è il fattore binomiale) che indica le
diverse configurazioni di risposta compatibili con la somma osservata, ossia le conbinazioni
possibili di k caratteristiche.

La distribuzione del parametro p, coniugata per la multinomiale, è la distribuzione Dirichlet:

π(p) ∝ pα1 1 −1 pα2 2 −1 . . . pαk k −1



Y α −1
pj j (8)
j

Dato che si tratta di una distribuzione coniugata, la distribuzione a posteriori è ancora una
Dirichlet ma con parametri modificati:

α̃j = αj + yj (si aggiunge la frequenza della j -esima categoria),

α
per cui se a priori la media è E[pj ] = P jαh , a posteriori viene modificata includendo i dati e si
h
α +yj
ha E[pj |x] = P jαh +n valore che, per n → +∞, tende alla stima di massima verosimiglianza
h
y
p̂j = nj .

24
Lezione del 12/03/2018

9.2 Caso Multinomiale-Dirichlet (segue)


(Ripetizione) La variabile di interesse X non assume solo due valori ma k possibili categorie
ognuna con una sua probabilità (es. risposte a un questionario sul livello di soddisfazione):



 1 p1


2

p2
Xi = . , i = 1, 2, . . . , n.

 ..




k pk

Naturalmente le categorie sono mutualmente esclusive, ossia le probabilità riguardano eventi


P
disgiunti, per cui pk = 1.
Il campione casuale è, duqnue, una sequenza di n risposte e ogni risposta è una categoria da
1 a k : X1 , X2 , . . . , Xn . I dati vengono memorizzati tramote delle frequenze (numero di volte
che si presenta ciascuna categoria):
n
X
Yj = #(Xi = j) = I(Xi = j), j = 1, 2, . . . , k
i

dove I(Xi = j) è una funzione indicatrice che converte una qualsiasi variabili in binaria, dato
che assume valore 1 se Xi = j e 0 altrimenti; sommando tante variabili binarie si ottengono
le k frequenze.
Per semplificare la notazione introduciamo due vettori:

- p = (p1 , p2 , . . . , pk )0 che è il vettore delle probabilità che un singolo soggetto risponda


con le k categorie;

- Y = (Y1 , Y2 , . . . , Yk )0 che è il vettore delle frequenze.

Ne consegue che la distribuzione del vettore Y è Multinomiale con parametri n e p, Y ∼


M ult(n, p), e funzione di probabilità della distribuzione:

n! Y Yj
f (Y|p) = Q pj
j Yj ! j

la quale costituisce un’estensione della distribuzione binomiale e, difatti, Q n!Yj ! è detto fattore
j
multinomiale quale estensione del fattore binomiale.
Per fare inferenza, occorre, chiaramente, assumere una distribuzione a priori coniugata per
i paraemtri pj . La distribuzione coniugata per la Multinomiale è la Dirichlet, p ∼ Dir(α),
con iperparametri (parametri della distribuzione sul parametro di interesse, cioè della prior,
cosiddetti per distinguerli dai parametri del modello) α = (α1 , α2 , . . . , αk ) e con funzione di

25
densità di probabilità :
Γ(α) Y αj −1
π(p) = Q pj ,
j Γ(αj ) j

Q α −1
dove QΓ(α)
Γ(α j )
è la costante di normalizzazione e j pj j la parte kernel che coinvolge il pa-
j
rametro d’interesse.
Come la Multinomiale estende la distribuzione Binomiale, la Dirichlet estende la distribu-
P
zione Beta, ovvero pj ∼ Beta(αj , h6=j αh ).
Media, moda e varianza a priori sono i seguenti:

αj
E[pj ] = P
j αj

αj − 1
moda(pj ) = P
j αj − k

(α − αj )αj X
V ar[αj ] = , α= αj
α2 (α + 1) j

La varianza decresce con α, quanto più questo è elevato tanto più la prior è precisa.

Es.:
αj = 1∀j → E1 (pj ) = 1/k
αj = 10∀j → E2 (pj ) = 1/k
ma V ar2 (pj ) < V ar1 (pj )
quindi dire che gli αj sono tutti pari a 1 o pari a 10 ha la stessa implicazione in termidi
valore atteso (a priori) ma nel secondo caso si da più peso alla prior rispetto ai dati perchè
la varianza è più bassa.
La covarianza tra le probabilità di due categorie è invece pari a:

αj αj0
Cov(pj , p0j ) = −
α2 (α + 1)

Gli elementi di α forniscono la propria credenza a priori sugli elementi di p; infatti, il


parametro di interesse è la probabilità della j -esima categoria, pj , e per esprimere a priori
un valore plausibile per pj usiamo αj : ad esempio, se si crede che le categorie hanno tutte le
stessa probabilità pari a pj si pone αj = 1∀j.
Essendo la distribuzione Dirichlet coniugata per la Multinomiale, la distribuzione a posteriori
è ancora una Dirichlet con iperparametri modificati andando a sommare a ciascun αj la
rispettiva categoria Yj (così come nella Beta si sommano i successi), per cui: p|Y ∼ Dir(α+
Y), con valore atteso a posteriori:

αj + Yj
E[α|Y] = , dove n è la somma delle frequenze totali
α+n

26
e moda a posteriori:
αj + Yj − 1
moda[α|Y] =
α+n−k
Il valore atteso a posteriori altro non è che la media ponderata tra stima (credenza) a priori
e stima frequentista, infatti può essere riscritto come:

αj α Yj n
E[α|Y] = +
α α+n n α+n
α n
dove w1 = α+n e w2 = α+n rappresentano i pesi della stima a priori e a frequentista rispet-
tivamente; i pesi variano con α (forza dell’opinione a priori) e n (importanza dei dati): se
α aumenta il peso si sposta sull’opinione a priori, vicenversa se aumenta n si da più peso
alla stima frequentista e, in particolare, se n è molto grande la stima bayesiana tende a
quella frequentista. Questo spostamento della stima bayesiana verso quella frequentista -
o viceversa - è noto come shrinkage, o regolarizzazione/normalizzazione, operazione che
rende più stabili le stime e, quindi, risulta molto utile in piccoli campioni in cui le stime sono
generalmente molto instabili.

Dimostrazione

Si dimostra che posterior è una Dirichlet, ovvero che la distribuzione Dirichlet è coniugata
per la Multinomiale.
In applicazione del th. di Bayes:

π(p)f (Y|p)
π(p|Y) = ,
f (Y)

ossia secondo questa espessione la posterior viene definita includendo la costante di normaliz-
R
zazione che è la verosimiglianza marginale f (Y) = π(p)f (Y|p)dp, tale che la distribuzione
a posteriori π(p|Y) integri a 1.
Se si trascura la costante di normalizzazione, si ricorre alla definizione di proporzionalità.
Si consideri, dunque, la relazione di proporzionalità tra la distribuzione a posteriori e il
prodotto tra distribuzione a priori e funzione di verosimiglianza, considerando solo la par-
te kernel di ciascuna distribuzione e traslasciando le costanti di normalizzazione (funzione
P
che non dipende dai parametri di interesse e che serve solo a far si che Y f (Y|p) = 1 o
R
f (Y|p)dY = 1 ):

π(p|Y) ∝ π(p)f (Y|p)


Y α −1 Y [
∝ pj j p j Yj ] =
j j
(αj +Yj )−1
Y
= pJ
j

27
Riconosciamo che è una disrtibuzione Dirichlet in quanto, a meno della costante di norma-
lizzazione, cambia solo l’esponente della probabilità, quindi:

π(p|Y) ∼ Dir α + Y c.v.d., (9)

o anche:

π(pj |Yj ) ∼ Dir αj + Yj .

9.3 Caso Poisson-Gamma


La distribuzione di Poisson è una distribuzone per variabili di conteggio senza un limite
superiore (es. numero di clienti che visitano un negozio, numero di accessi a un server).
Consideriamo una v.a. con distribuzione di Poisson e parametro λ, X ∼ P ois(λ); questa
avrà distribuzione di probabilità:
λx −λ
f (x) = e
x!
dove il parametro λ > 0 corrisponde al valore atteso e alla varianza di X e λx e−λ è il kernel
della distribuzione.
La probabilità dei dati (cioè la verosimiglianza: produttoria della distribuzione per tutte le
osservazioni) è: P
λ i xi −nλ
f (x|λ) = Q e .
i xi !

La prior del parametro coniugata per la Poisson è la distribuzione Gamma caratterizzata dai
parametri α (shape) e β (rate), λ ∼ Gam(α, β), con densità:

β α α−1 −βλ
π(λ) = λ e ,
Γ(α)
α
β
dove Γ(α) è la costante di normalizzazione e la restante parte il kernel.
Il valore atteso a priori è pari a:
α
E[λ] =
β
e rappresenta l’opinione a priori su λ (ad esempio il numero di accessi che mediamente ci
si aspetta sul server), per cui α e β devono essere tarati in modo da riflettere la propria
opinione a priori. La moda a priori è, invece, pari a:

α−1
moda(λ) = , con α≥1
β

e la varianza è:
λ
V ar(λ) =
β2
e, come al solito, quanto più bassa è la varianza tanto maggiore è la forza dell’opinione a
priori.

28
Es.:
E(λ) = 100 V ar(λ) = 10  α = 1000 β = 10
E(λ) = 100 V ar(λ) = 1  α = 10000 β = 10
(Nelle analisi empiriche di solito si conduce un’analisi di sensitività e robustezza, cioè si
provano diversi valori dei parametri per vedere come cambiano i risultati e come sono in-
fluenzati.)

Essendo la distribuzione Gamma coniugata per la Poisson, la distribuzione a posteriori è


P
ancora una Gamma con iperparametri modificati: λ|x ∼ Gam(α + t, β + n), dove t = i xi ,
e con valore atteso a posteriori:
α + +t
E[λ|x] = ,
β+n
moda a posteriori:
α+t−1
moda(λ|x) =
β+n
e varianza a posteriori:
α+t
V ar[λ|x] =
(β + n)2
la quale si riduce al crescere della dimensione campionaria n.

Dimostrazione

Si consideri la relazione di proporzionalità tra la distribuzione a posteriori e il prodotto tra


distribuzione a priori e funzione di verosimiglianza, considerando solo la parte kernel:

π(λ|x) ∝ π(λ)f (x|λ)


P
∝ λ(α−1) e−βλ λ i xi −nλ
e =
P
xi −1 −λ(β+n)
= λα+ i e

quindi:  
X
λ|x ∼ Gam α + xi − 1, β + n c.v.d.. (10)
i

29
Lezione 14/03/2018

10 Distribuzioni a priori coniugate Normali


Casi particolari

10.1 Inferenza sulla media con varianza nota


Si consideri per i dati una distribuzione X ∼ N (θ, σ 2 ) con media θ incognita e varianza σ 2
nota. Se per θ si assume una distribuzione a priori normale, θ ∼ N (µ, τ 2 ), che è coniugata
per la normale, possiamo dimostrare che la distribuzione a posteriori di θ è ancora normale
con iperparametri µ̃ e τ̃ 2 :
θ|x ∼ N (µ̃, τ̃ 2 ),

dove:
−1
nτ 2 σ2 σ2τ 2

2 1 n
µ̃ = 2 x̄ + 2 µ e τ̃ = 2 = + 2 .
σ + nτ 2 σ + nτ 2 σ + nτ 2 τ 2 σ

La stima bayesiana µ̃ è ottenuta come media ponderata tra stima frequentista e opinione a
2 σ2
priori; i pesi w1 = σ2nτ
+nτ 2
e w2 = σ2 +nτ 2
2 dipendono dalla varianza dei dati σ , dalla varianza

della prior τ 2 e dalla dimensione campionaria n (quantità che rappresentano misure di pre-
cisione delle informazioni), in particolare:
- all’aumentare di n e τ 2 si da più peso ai dati,
- all’aumentare di σ 2 si da più peso all’opinione a priori.

2
L’iperparametro τ̃ 2 riflette la precisione della stima; per n → ∞ è simile a σn della stima
frequentista, tendendo però conto di τ 2 . Inoltre si deve avere τ̃ 2 < τ 2 in quanto se si aggiunge
informazione la precisione aumenta.

Dimostrazione

Si consideri la relazione di proporzionalità tra la distribuzione a posteriori e il prodotto tra


distribuzione a priori e funzione di verosimiglianza, considerando solo la parte kernel:

π(θ|x) ∝ π(θ)f (x; θ)

ossia:
1 2 1 2 1 2 −2µθ+θ 2 )− 1 ( x2i −nθ2 )
P P
π(θ|x) ∝ e− 2τ 2 (θ−µ) e− 2σ2 i (xi −θ) = e− 2τ 2 (µ 2σ 2 i ,

per cui, eliminando i termini che non dipendono da θ, si ragiona nuovamente in termini di
proporzionalità, ed evidenziando i termini che moltiplicano θ2 e θ si ha:
2 µ−nτ 2 x̄

σ 2 +nτ 2
 
− 1
θ2 (σ 2 +nτ 2 )−2θ(σ 2 µ+nτ 2 x̄) θ2 −2θ σ
π(θ|x) ∝ e 2τ 2 σ 2 =e 2τ 2 σ 2 σ 2 +nτ 2

30
2 2 2 2
dove il termine σ τ+nτ
2 σ2 non è altro che l’inverso della varianza a posteriori e il termine σσµ−nτ
2 +nτ 2

è la media a posteriori, ovvero si è ottenuto il kernel della distribuzione a posteriori, dunque


aggiungendo la costante di normalizzazione per ottenere una distribuzione valida si ha:

σ 2 µ − nτ 2 x̄ τ 2σ2
 
µ|x ∼ N , c.v.d. (11)
σ 2 + nτ 2 σ 2 + nτ 2

10.2 Inferenza sulla varianza con media nota


Si consideri per i dati una distribuzione X ∼ N (θ, σ 2 ) con media θ nota e varianza σ 2
incognita. Quando la varianza è ignota bisogna introdurre una nuova distribuzione che
si chiama Inverse Gamma. In generale, se definiamo una quantità che ha distribuzione
Gam(α, β) la Inverse Gamma è la distribuzione del suo reciproco, infatti anch’essa dipende
dai due parametri α e β.
Ipotizziamo dunque che la distribuzione a priori della varianza incognita sia:

σ 2 ∼ IG(α, β),

che è equivalente a:
1
ψ= ∼ Gam(α, β),
σ2
Il reciproco ψ della varianza σ 2 è in realtà un parametro, che si chiama precisione proprio
perchè si muove all’opposto della varianza: se la varianza aumenta la precisione diminuisce,
se la varianza diminuisce, diminuisce l’oscillazione di quello che osserviamo e quindi aumenta
la precisione.
L’Inverse Gamma ha densità pari a:

βα β
π(σ 2 ) = (σ 2 )(−α−1) e− σ2 ,
Γ(α)

α β
β
dove Γ(α) è la costante di normalizzazione, mentre (σ 2 )(−α−1) e− σ2 è la parte principale della
distribuzione (kernel).
La f.d.p. della Inverse Gamma si ottiene trasformando la f.d.p. della Gamma:

βα β
π(ψ) = (ψ)(α−1) e− ψ con ψ = 1/σ 2 ,
Γ(α)

secondo la regola generale di trasformazione delle v.a.

REGOLA GENERALE DI TRASORMAZIONE Si supponga di avere una v.a.


X con distribuzione f (x) e si consideri una sua trasformazione Y = g(x); sotto certe
condizioni la sua distribuzione sarà:
 d[g −1 (y)]

−1
fY (y) = fX g (y)
dy

31
dove g −1 (·) è la funzione inversa di g(·).

Esempio1 Data X ∼ f (x), sia y = g(x) = X1 con X > 0 allora sarà g −1 (y) = 1
Y
e
quindi:   −1  
1 d[g (y)] 1 1
fY (y) = fX = fX
Y dy Y Y2
che rappresenta la densità sulla scala del reciproco.

Esempio2 Si supponga di avere una trasformazione di scala Y = aX + b, allora sarà


g (y) = Y a−b (ricorda una standardizzazione) e quindi:
−1

 
Y −b 1
fY (y) = fX
a a

Ritornando alla distribuzione Inverse Gamma, si esprima innanzitutto la densità della Gam-
ma nella scala dell’inversa:
 α−1
βα
   
1 2 1 − β2 1
π = π(σ ) = e σ
ψ Γ(α) σ 2 (σ 2 )2

dove:  α−1 1
βα d[ 2 ]
   
1 − β2 1 1
2
e σ = fψ 2 e = σ 2 ,
Γ(α) σ σ (σ 2 )2 dσ
e svolgendo i calcoli si ottiene:

βα βα βα
  
2 1 1 − β2
 β
2 −α+1−2 − σ2
β
2 −α−1 − σ2
π(σ ) = e σ = (σ ) e = (σ ) e
Γ(α) (σ 2 )α−1 (σ 2 )2 Γ(α) Γ(α)

Tale distribuzione Inverse Gamma ha le seguenti caratteristiche:

β
E(σ 2 ) =
α−1

β
moda(σ 2 ) =
α+1
2 β2
V ar(σ ) = , α>2
(α − 1)2 (α − 2)
Dato che l’IG è coniugata per la normale si può dimostrare che la distribuzione a posteriori
è ancora Inverse Gamma:
 
2 n 1X 2
σ |x ∼ IG α + , β + (xi − θ)
2 2 i

con valore atteso a posteriori:


1
θ)2
P
2 β+ 2 i (xi −
E(σ |x) = n .
α+ 2
−1

32
Si può notare che per n → ∞ il valore atteso a posteriori tende alla stima frequentista
2
P
i (xi −θ)
n
.

Dimostrazione

Si consideri la relazione di proporzionalità tra la distribuzione a posteriori e il prodotto tra


distribuzione a priori e funzione di verosimiglianza, considerando solo la parte kernel:

π(σ 2 |x) ∝ π(σ 2 )f (x|σ 2 )

ossia:
 n
1

β 1 2
2 −(α+n/2)−1 − σ12 β+ 21 2
P P
2 −α−1 − σ2
π(θ|x) ∝ (σ ) e √ −
e 2σ 2 i (xi −θ) = (σ ) e i (xi −θ)

σ2

quindi:  
2 n 1X 2
σ |x ∼ IG α + , β + (xi − θ) c.v.d. (12)
2 2 i

10.3 Inferenza su entrambi i parametri ignoti


É il caso più complesso ma anche il più realistico, per la definizione del quale si ricorre
a un modello gerarchico il quale ha il vantaggio che le quantità vengono definite in modo
sequenziale, passo passo: una prior su un parametro dipende da un’altra prior su un altro
parametro.
Si consideri per i dati una distribuzione X ∼ N (θ, σ 2 ) con media θ e varianza σ 2 incognite.
É necessario, quindi, definire due distribuzioni a priori.
Per il parametro σ 2 si assume una Inverse Gamma con iperparametri α e β:

σ 2 ∼ IG(α, β).

Per il parametro θ si assume una prior subordinata a σ 2 (cioè definita condizionatamente a


σ 2 ) e di tipo Normale:
θ ∼ N (µ, σ 2 /m),

dove m è detta relative confidence in prior belief ovvero esprime la fiducia sull’opinione a
priori relativa al parametro θ; in particolare, a parità di σ 2 , un m grande implica un’elevata
fiducia sull’opinione apriori perchè si traduce in una varianza piccola dato che si trova a
denominatore (in un certo senso, m può essere considerato il reciproco di τ 2 ). Quindi, m
deve essere impostato in modo da riflettere la precisione e solitamente si sceglie un numero
intero. Queste due distribuzioni a priori insieme influenzano la distribuzione dei dati:

33
Si può dimostrare che si ottengono le seguenti distribuzioni a posteriori:
- per σ 2 :  
2 n 1X 2 nm (x̄ − µ)
σ |x ∼ IG α + , β + (xi − θ) + (13)
2 2 i n+m 2

- per θ:
nx̄ + mµ σ 2
 
2
θ|σ , x ∼ N , (14)
n+m n+m
dove nx̄+mµ
n+m
è la media ponderata tra media campionaria e media a priori, con pesi che di-
σ2 2
pendono dalla precisione dei dai dati, n, e della priori, m, e n+m è la varianza che ricorda σn
il che ci permette di dire che possiamo considerare m come una sorta di numerosità/dimen-
sione campionaria ideale.
Tuttavia, la (4) non è la distribuzione a posteriori marginale di θ perchè è condizionata a
σ 2 ; per ottenere la marginale un metodo utile a tal fine consiste nel campionare da σ 2 |x e
da θ|σ 2 , x tramite tecniche Monte Carlo, nel modo seguente:

• si imposta un numero di simulazioni pari a M,


n
• si campiona ψ (m) da una distribuzione Gamma con parametri α̃ = α + 2
e β̃ =
nm (x̄−µ)
β + 21 i (xi − θ)2 + n+m
P
2
,
1
• si pone σ (m) = ψ

nx̄+mµ σ2

• si genera θ(m) ∼ N µ̃, τ̃ 2 (σ 2 ) , dove µ̃ = n+m
e τ̃ 2 (σ 2 ) = n+m
.

Quindi si calcola lo stimatore MC:

M
1 X (m)
E[θ|x] ≈ θ ,
M m=1

la cui precisione è misurata dalla varianza a posteriori MC:

M  2
1 X (m)
V ar[θ|x] ≈ θ − E[θ|x] .
M m=1

Per controllare che lo schema di simulazione sia corretto è utile confrontare il valore atteso
PM (σ 2 )(m)
a posteriori E[σ 2 |x] di σ 2 con la sua stima MC E[(σ 2 )(m) |x] ≈ M1 m=1 θ : se sono
vicini la simulazione ha dato risultati attendibili dunque anche E[θ|x] è attendibile, se non
lo sono è necessario rivedere lo schema di simulazione aumentando, ad esempio, il numero
M di campioni generati.

34
Lezione del 19/03/2018

11 La Regressione lineare in versione bayesiana.


Come si formula e come si stima
Assunzione di base in forma vettoriale:

yi = x0i β + i , i = 2, . . . , n, (15)

dove i è il termine di errore assunto normalmente distribuito con media 0 e varianza costante
e pari a σ 2 e xi = (1, xi2 , xi3 , . . . , xik )0 è il vettore delle covariate riferito alla i -esima unità
(profilo delle caretteristiche dell’unità).
In forma più compatta, la specificazione del modello può essere espressa in forma matriciale:

y = Xβ + , (16)

dove:
 
Y1
 Y2 
 
y=
 .. 
 è il vettore delle risposte
.
Yn
 
1 x11 x12 . . . . . . x1k
 .. 
1 . 
 ..
 
X = . .. è la matrice del disegno
.


 .. ..
 
. .


1 xn1 xn2 . . . . . . xnk
 
β1
β2 
 
β=
 .. 
 è il vettore dei coefficienti
.
βk
 
1
 2 
 
=
 .. 
 è il vettore dei termini di errore
.
n

In ambito frequestista, sulla base delle ipotesi alla base del modello, la stima del modello si
riduce alla stima dei coefficienti in β; applicando il metodo dei minimi quadrati (Ordinary
Least Squares) si ottiene la stima:

βb = (X0 X)−1 X0 y

35
la quale coincide con la stima di massima verosimiglianza (Maximum Likelihood Estimation).
Una stima non distorta della varianza dei termini di errore si ottiene, invece, dividendo la
somma dei residui al quadrato per i rispettivi gradi di libertà:

2 bb0 (y − Xβ)(y
b − Xβ)b0
σ
bOLS = =
n − (K + 1) n − (K + 1)

questa, però, non coicide con la stima MLE:

2 bb0 (y − Xβ)(y
b b0
− Xβ)
σ
bM LE = =
n n

INFERENZA BAYESIANA
Abbiamo due set di parametri per i quali si formulano delle assunzioni a priori:

§ la varianza dei termini di errore con distribuzione Inverse Gamma con parametri a e
b, σ 2 ∼ IG(a, b)

§ i coefficienti da stimare distribuiti come una normale multivariata di ordine K + 1,


con vettore µ di medie e matrice di varianza-covarianza σ 2 Λ−1 , β|σ 2 ∼ Nm (µ, σ 2 Λ−1 ),
dove Λ è detta matrice di precisione.

Lavorando nell’ambito delle distribuzioni coniugate, la distribuzione a posteriori è della stessa


famiglia di quella a priori ma con parametri modificati, per cui, assumentoche le covariate
in X siano note, si ha:

§ σ 2 |y ∼ IG e
a, eb con iperparametri:
a = a + n2
e
eb = b + 1 yy0 + µΛµ0 − µΛ e0

2
e µ
e = (X0 X + Λ)−1 (X−1 y + Λµ)

dove µ

§ µ
e è la media a posteriori di β (la stima puntuale dei parametri), per cui a posteriori
si ha:
β|σ 2 , y ∼ Nm (µ, e −1 ), dove Λ
e σ2Λ e −1 = X0 X + Λ.

e = (X0 X + Λ)−1 (X−1 y + Λµ) con la stima OLS



Confrontando la stima bayesiana µ
βb = (X0 X)−1 X0 y si evince che a X0 X si aggiunge Λ mentre a X0 y si somma Λµ; si realizza
in questo modo lo shrinkage di µ e ossia si stima β con la massima verosimiglianza e shrika
(regolarizza) verso l’opinione a priori, dato che la stima bayesiana µ
e è ottenuta come media
ponderata ra ka stima frequentista βb e la congettura a priori µ. In realtà, questo effetto
di attrazione verso µ dipende da vari fattori, e in particolare da n, per n → ∞, si avrà al
contrario che la stima bayesiana tende a quella frequentista ovvero µ e → β.b

Per quanto riguarda la varianza dello stimatore si ha:

b = σ 2 (X0 X)−1 in ambito frequentista;


§ V ar(β)

36
e −1 = σ 2 (X0 X + Λ)−1 in ambito bayesiano.
§ V ar(β|σ 2 , y) = σ 2 Λ

Anche in questo caso alla stima frequentista si aggiunge la matrice di precisione Λ, la quale
riflette la propria convinzione circa l’opinione a priori; dato che Λ entra con l’inversa se ha
elementi molto grandi vuol dire che si è molto convinti dell’informazione a priori, viceversa se
ha elementi molto piccoli, e se avesse elementi tendenti a zero (molta indecisione sull’apriori)
si ritorna alla soluzione di massima verosimilginaza; quindi, anche se il paradigma è diverso,
per grandi campioni si ritorna alla stima MLE. Tuttavia, l’interpretazione rimane diversa
(ad es. il CI viene interpretato in modo diverso anche se si ottengono gli stessi valori degli
estremi). (vedi wikipedia Bayesian Linear Regression)

12 La famiglia esponenziale
Abbiamo visto che, per casi particolari, dato il modello per i dati, riusciamo a trovare la
distribuzione coniugata; esiste, infatti, una regola generale che è quella della famiglia espo-
nenziale. I modelli che appartengono alla famiglia esponenziale hanno molte proprietà e
vantaggi sia in ambito frequentista e sia in quello bayesiano; nel primo caso si riesce a torvare
stimatori ottimali in modo molto semplice, nel secondo caso, dato un modello per i dati, se
si riesce a ricondurlo alla famiglia esponenziale, ovvero se appartiene alla stessa, allora è
sempre possibile trovare la coniugata in modo semplice.
In generale dato il modello X ∼ f (x|θ) possiamo dire che appartiene alla famiglia espo-
nenziale se, definite oppurtunamente le funzioni A(·), Ψ(·) e h(·), la funzione di densità di
probabilità condizionata al parametro può essere scritta come:

f (x|θ) = e[A(θ)+θΨ(x)+h(x)] , (17)

ossia come l’esponenziale della somma di: una funzione che dipende solo da θ, una funzione
data dal prodotto tra θ e una funzione dei dati e una funzione che dipende solo dai dati,
dove θ è detto parametro canonico.

R
Proprietà Dato che f (x|θ)dx = 1 e sapendo che f (x|θ) appartiene alla famiglia
esponenziale, possiamo calcolare direttamente il valore atteso.
Calcoliamo innanzitutto la derivata:
Z
δ δ
f (x|θ)dx = [1] = 0.
δθ δθ

Dato che gli estremi di integrazione non dipendono dalla variabile rispetto alla quale cal-
coliamo la derivata, cioè il supporto della funzione non dipende dal parametro, possiamo
portare la derivata dentro l’integrale:

δe[A(θ)+θΨ(x)+h(x)]
Z  
δf (x|θ)
Z
dx = 0 → dx = 0
δθ δθ

37

Z
 0
A (θ) + Ψ(x) e[A(θ)+θΨ(x)+h(x)] dx = 0



Z Z
A0 (θ)e[A(θ)+θΨ(x)+h(x)] dx + Ψ(x)e[A(θ)+θΨ(x)+h(x)] dx = 0


Z Z
[A(θ)+θΨ(x)+h(x)] 0
Ψ(x)e dx = −A (θ) e[A(θ)+θΨ(x)+h(x)] dx.

Il membro di sinistra non è altro che il E[Ψ], mentre il membro di destra è pari a −A0 (θ)
R
dato che e[A(θ)+θΨ(x)+h(x)] dx = 1, per cui si ha

E[Ψ] = −A0 (θ). (18)

Questo risultato rappresenta un vantaggio enorme perchè se si riesce a dimostrare che la di-
stribuzione appartiene alla famiglia esponenziale, dato che spesso Ψ(·) è la funzione identià,
si riesce a ricavare immediatamente il valore atteso della distribuzione.

Esempio: Verificare se la distribuzione di Bernoulli appartiene alla famiglia esponenziale.


Data X ∼ Bin(1, p), consideriamo la trasformazione logit del parametro p, ottenendo il
p eθ
parametro canonico θ = log 1−p che è la funzione logit, la cui inversa p = 1+e θ e la funzione

logistica.
Sappiamo che la distribuzione di probabilità della variabile bernoulliana è:

f (x) = px (1 − p)1−x
 x
p
= (1 − p) applichiamo esponenziale e logaritmo
1−p
 
p
log ( 1−p )x (1−p)
=e
 
p
= e xlog( 1−p )+log(1−p)
= e[xθ−log(1−p)]

eθ 1−eθ −eθ
sapendo che p = 1+eθ
da cui 1−p = 1−eθ
→ log(1−p = −log(1−eθ )) = −log(1)−log(eθ ),
quindi si ha:
θ )+xθ
f (x|θ) = e−log(1+e

per cui la distribuzione Bernoulliana appartiene alla famiglia esponenziale in quanto: A(θ) =
−log(1 + eθ ), θΨ(x) = θx e h(x) = 0; infatti se calcoliamo il valore atteso si ha:

δlog(1 − eθ ) 1 θ eθ
E[Ψ] = E[x] = − =− (−e ) = =p
δθ 1 + eθ 1 + eθ

Una distribuzione che non appartiene alla famiglia esponenziale è l’Uniforme, X ∼ U nif (0, θ),

38
con densità f (x) = 1θ I(0 < x < θ), dato che I(0 < x < θ) è una condizione che non si può
scrivere come prodotto e quindi non possiamo ottenere il termine θΨ(x). Per lo stesso motivo
il supporto, S : {x : f (x) > 0}, della distribuzione dipende dal parametro, per cui a seconda
di come varia θ la funzione assume valori positivi o negativi, e questo implica che gran parte
delle procedure inferenziali non funzionano o risultano computazionalmente dispendiose.

39
Lezione del 21/03/2018

12.1 La statistica sufficiente


Un’altra funzione utile per arrivare alla distribuzione a priori coniugata è la statistica
sufficiente.
Quando esaminiamo un campione di lunghezza n, X = {Xi }ni=1 , la cui funzione di densità di
probabilità dei dati (verosimiglianza) appartiene alla famiglia esponenziale, si può dimostrare
che: n
X
T = Ψ(Xi )
i=1

è una statistica sufficiente per θ.


Ma cosa si intende per sufficienza?
In statistica, la sufficienza di un’analisi statistica (intesa come funzione di un campione di
osservazioni) definisce formalmente la capacità di tale funzione di rappresentare in manie-
ra sintetica l’informazione contenuta nel campione. La sufficienza è, dunque, connessa al
problema della beta reduction dei big data, che consiste nel sintetizzare l’informazione con-
tenuta nei dati senza perdere informazioni rilevanti su un certo parametro di interesse. In
altre parole, se facciamo inferenza sul campione o solo sulla base della statistica sufficiente
arriviamo alle stesse conclusioni.
Ad esempio, supponiamo di voler stimare X = spesa media in un supermercato e X ∼
N (θ, σ 2 ), con σ 2 nota, una statistica sufficiente è semplicemente T =
P
i Xi , ossia basta
memorizzare solo la "spesa cumulata" per poi calcolare la media campionare come X̄ = Tn .
Se la varianza σ 2 invece non è nota, dato che solitamente il numero di statistiche sufficienti
necessarie è pari al numero di parametri di stimare, basta calcolare due statistiche sufficienti,
T1 = i Xi e T2 = i Xi2 , per poi stimare la spesa media con la media campionaria e la sua
P P

variabilità con la varianza campionaria.


In entrambi i casi, si perviene alle stesse stime che si potrebbero calcolare registrando la
spesa di ogni singolo cliente; è ragionevole, però, pensare di registrare una sola quantità e di
aggiornarla man mano, soprattutto in presenza di una considerevole mole di dati.

Formalmente, una statistica (che può essere un singolo scalare o un vettore) si dice sufficiente
quando la distribuzione dei dati condizionata alla stessa statistica sufficiente è indipendente
(nel senso della probabilità) dal parametro θ:

X|T ⊥
⊥θ

quindi dato che "condizionare" significa "conoscere", questo significa che una volta nota T,
conoscere anche i dati non apporta nessuna informazione aggiuntiva rilevante su θ.

Esempio Nel caso di una v.a. bernoulliana si riconosce immediatamente qual è la


statistica sufficiente ed è molto semplice ricavarla.

40
P
Assunto il modello per i dati, X ∼ Bin(1, p), si ha T = i Xi , dove T ∼ Bin(n, p), per cui:
Y
f (x) = px (1 − p)1−x verosimiglianza
i

e  
n t
f (T ) = p (1 − p)n−t distribuzione di probabilità della statistica,
t
dove t è #(Xi = 1) Per dimostrare che T è la statistica sufficiente occorre lavorare con la
distribuzione dei dati condizionata:
P
xi
P  −1
p i(p) i (1−xi ) pt (1 − p)n−t n
f (x|t) = n t
 = n t
 =
t
p (1 − p)n−t t
p (1 − p)n−t t

che è il reciproco del fattore binomiale che ci dice il numero di combinazioni di n elementi di
classe t; per cui, la probabilità dei campioni che hanno tutti lunghezza n e totale t, f (x|t),
è pari al reciproco del numero di questi possibili campioni, quindi conoscere t è sufficiente e
T è una statistica sufficiente per p.
Per esemplificare, poniamo n = 5 e t = 3; i campioni di lunghezza 5 e totale 3 sono 53 =

5!
(5−3)!3!
= 120
10
= 10:

i Xi X i X i Xi Xi

1 1 1 1 0 0
2 1 1 0 1 0
3 1 1 0 0 1
4 1 0 1 1 0
5 1 0 1 0 1
6 1 0 0 1 1
7 0 1 1 1 0
8 0 1 1 0 1
9 0 1 0 1 1
10 0 0 1 1 1

condizionatamente al loro totale t, questi campioni hanno tutti la stessa probabilità, f (x|t),
−1
che è pari al reciproco del numero di tutti i possibili campioni, f (x|t) = 53 1
= 10 , dato
che tutta l’informazione rilevante è stata assorbita da t.

Come detto inizialmente, si può dimostrare che, se stiamo trattando un modello che appartie-
ne alla famiglia esponenziale, una statistica sufficiente per i dati è T = ni=1 Ψ(Xi ). Difatti,
P

sempre nel caso, X ∼ Bin(1, p), sappiamo che A(θ) = −log(1 + eθ ), θΨ(x) = θx e h(x) = 0,
per cui, dato che Ψ(·) è la funzione identità (Ψ(x) = x), si ha T = ni=1 Ψ(Xi ) = i Xi che
P P

41
è sufficiente per θ e per p.

Questo risultato è valido per tutte le distribuzioni appartenenti alla famiglia esponenziale e
questo ci permette, peraltro, di ricavare immediatamente le distribuzione a priori coniugata
e quindi la distribuzione a posteriori. In particolare:

π(θ) = cemA(θ)+θS (19)

è la distribuzione a priori, dove m e S sono i relativi iperparametri, c è la costante di


 R mA(θ)+θS −1
normalizzazione pari al reciproco dell’integrale del kernel, c = e dθ , è a(θ) è
la funzione del solo parametro θ. m è il parametro di precisione (può essere visto come il
reciproco della varianza della prior) quindi quanto più è forte tanto più incide sulle conslusioni
finali circa la prior (cioè aumenta la precisione). Per quanto riguarda S, sapendo che il valore
atteso a priori è E[−A0 (θ)] = m S
, dove −A0 (θ) = E[Ψ] è la media dei dati dato che spesso
Ψ(·) coincide con i dati, possiamo dire che influisce sul valore atteso per la media dei dati,
dato che ms è il valore che mi aspetto per la media dei dati.
Nell’ambito delle distribuzioni coniugate, la distribuzione a priori è della stessa famiglia di
quella a priori, in particolare è:

π(θ|x) = c0 e(m+n)A(θ)+θ(S+t) (20)

dove t è la statistica sufficiente e n la dimensione del campione.Si evince, quindi, che la


distribuzione a posteriori dipende dai dati solo tramite la statistica sufficiente. m quantifica
quanto è forte l’opinione a priori e si combina con n in quanto sono quantità commensurabili
perchè espressi nella stessa unità di misura (m può essere interpretata come la dimensione
del campione ipotetico sulla quale si basa l’opinione a priori); mentre t si combina con S. c0
è la costante di normalizzazione opportunamente modificata.
Il valore atteso a posteriori sarà quindi pari a:

m S n t (S + t)
E[−A(θ)|x] = + = (21)
(m + n) m (m + n) n m+n

ossia, come al solito è ottenuto come media ponderata tra l’opinione a priori e la stima
m n
frequentista. I pesi (m+n) e (m+n) riflettono la precisione della prior e dei dati: se n è molto
grande si da più peso ai dati e quindi alla stima frequentista, se m è predominante il valore
atteso a posteriori tende alla stima a priori.

Esempio Consideriamo un campione normalmente distribuito con media θ incognita e


1 2
varianza unitaria, X ∼ N (θ, 1). La funzione di di densità è: f (x|θ) = √12π e− 2 (x−θ) .

42
Dimostriamo, innanzitutto che questa distribuzione appartiene alla famiglia esponenziale:
2
  1

log √1 e− 2 (x−θ)
f (x|θ) = e 2π applichiamo esponenziale e logaritmo
2
    1 
log √1 +log e− 2 (x−θ)
=e 2π semplifichiamo ed espandiamo il quadrato
 
− 12 log(2π)− 12 x2 − 21 θ2 +xθ − 12 θ2 +xθ− 12 log(2π)− 21 x2
=e =e

quindi questa distribuzione appartiene alla famiglia esponenziale con A(θ) = − 12 θ2 , Ψ(x) =
xθ e h(x) = − 21 log(2π) − 21 x2 .
Dato che Ψ(x) = x, si ha T = i Ψ(x) = i xi e E[Ψ(x)] = −A0 (θ =) = −[− 12 2θ] = θ.
P P

Ovviamente, se includiamo in A(θ) la parte che non di pende da θ il risultato non cambia,
ad es.: A(θ) = − 12 θ2 − 21 log(2π) → E[X] = −[− 12 2θ] + 0 = θ.

Calcoliamo quindi la distribuzione a priori:


1 2
π(θ) = ce−m 2 θ +θS
si può riconoscere che è una distribuzione normale
−m S
(θ2 −2θ m )
= ce 2 mettiamo a fattor comune -m/2
m 2 −2θ S + S 2 −+ S 2 )
= ce− 2 (θ m m2 m2 riconosciamo xhe è un quadrato di un binomio se lo completiamo
2
−m S 2
(θ2 − m ) + S2
= ce 2 2m

S2 m 2 − S )2
= ce 2m2 e− 2 (θ m

S2 m 2 S 2
dove ce 2m2 è una costante e e− 2 (θ − m ) è il kernel di una distribuzione normale con media
S
m
e varianza m1  π(θ) ∼ N ( mS 1
, m ).

La distribuzione a posteriori sarà:


1 2
−θ(S+t)
π(θ|x) = ce(−m+n) 2 θ
m+n 2 S+t
= ce− 2
(θ −θ m+n )

S+t 1 S+t

e con gli stessi passaggi di prima si arriva a π(θ|x) ∼ N m+n , m+n , dove m+n è la stima
P
S+t m S n x
bayesiana, infatti E[θ|x] = m+n = m+n m
+ m+n x̄, con x̄ = n i = Tn , e m+n1
è una misu-
1
ra dell’incertezza che è < m dato che a posteriori, logicamente, c’è meno incertezza sulle
concliusioni.

13 Objective prior
Possiamo fare una distinzione tra due tipologie di bayesiani.
I primi bayesiani erano oggettivi, ossia in accordo con il paradigma bayesiano e, in partico-
lare, sul considerare θ una v.a. e sul fare un’inferenza basata sul rischio a posteriori (funzione
di rischio in cui la stima è in pratica una decisione da prendere e per questo si minimizza il
valore atteso della funzione di perdita); tuttavia, non esprimevano alcuna opinione a priori

43
su θ, in modo tale che il risultato dipendesse solo dai dati del campione. Questi bayesiani
si distinguono, comunque, dai frequentisti, anche se numericamente pervengono allo stesso
risultato, perchè interpretano le stime in modo diverso (in particolare gli intervalli di confi-
denza).
I bayesiani soggettivisti sono quelli che, invece, esprimono un’opinione a priori che vuo-
gliono far pesare sulla stima del parametro e quindi calibrano gli iperparametri della prior
in modo coerente alle loro aspettative.
Finora abbiamo ragionato dal punto di vista soggettivista, perchè abbia formulato delle prior
che incidevano in modo più o meno forte sui risultati.
In genere, il modo più naturale per non esprimere alcuna opinione a priori sul θ è assume-
re che questo abbia una distribuzione uniforme in un certo intervallo (natural objective
prior on θ for model f (x|θ)): θ ∼ U nif (a, b).
Senza porre limiti si avrà che π(θ) ∝ c; questo tuttavia può causa due ordini di problemi:

• se il parametro è una costante su R, θ ∈ R, non integra a 1 perchè è una costante (o


meglio una costante è una distribuzione che integra a 1 solo se ha un supporto limitato)
R
per cui la prior è impropria: R cdθ 6= ∞. Nella pratica non è questo il problema se
R
la posterior è però una distribuzione propria, cioè se π(θ)f (x|θ)dθ < ∞. Infatti la
posterior la ricaviamo applicando il th. di Bayes:

π(θ)f (x|θ)
π(θ|x) = R ,
Θ
π(θ0 )f (x|θ0 dθ0

ore se il denominatore è finito, Θ π(θ0 )f (x|θ0 dθ0 < ∞, si avrà che Θ π(θ|x)dθ = 1 ossia
R R

la posterior è propria.
Quindi è possibile utilizzare una prior costante su tutto l’insieme dei numeri reali solo
se si ∃π(θ|x) ed integra a 1.

• Una distribuzione a priori uniforme non è invariante rispetto a riparametrizzazioni.


Riparametrizzare significa passare da un parametro iniziale θ a un nuovo parametro
ottenuto tramite una trasformazione di scala o altra trasformazione e che indichiamo
con η = g(θ); questo è possibile ad es. nel caso di una distribuzione Bernoulliana che
ci permette di lavorare sia nella scala della probabilità che nella scala del logit.
Tuttavia utilizzare il parametro originario o la sua trasformazionie non porta agli stessi
risultati, ovvero l’uniforme su θ, π(θ) ∝ c, non è compatibile con l’uniforme su η,
π(η) ∝ d.

44
Lezione del 26/03/2018

Esempio sulla riparametrizzazione


Data una v.a. X ∼ Bin(1, p) possiamo parametrizzarla in due modi: 1) in temini di proba-
bilità di successo p, 2) in termini di logit o log-odds (logaritmo del rapporto tra la probabilità
di successo e insuccesso).

1)
θ = p è un parametro continuo con un campo di variazione limitato nell’intervallo [0, 1]. É
natuale quindi assumere per θ una prior Uniforme nel medesimo intervallo: p ∼ U nif (0, 1) →
π(p) = 1 con (0 < p < 1).

2)
p
Il parametro è η = log 1−p ; al parametro originario si ritorna applicando la trasformazione

logistica inversa al logit, p = 1+e η.

Dato che a seguito di riparametrizzazione cambia la distribuzione a priori, per ricavare la


prior su η indotta dalla distribuzione uniforme ipotizzata per p occorre calcolare:

δp eη (1 + eη ) − eη (eη ) eη
π(η) = = = .
δη (1 + eη )2 (1 + eη )2

π(η) è una funzione di densità che non è più uniforme ma è una trasformata matematica del
log-odds, detta f.d.p. logistica (6=f.logistica).

Figura 14: Confronto densità normale e logistica

La funzione di densità logistica è simile alla normale standard in quanto è centrata intorno
2
allo zero ma ha una varianza maggiore e pari a V ar(η) = π3 .

Questo dimostra che se cambiamo parametrizzazione, anche se abbiamo assunto inizialmente


una prior oggettiva e anche propria, non otteniamo necessariamente un’altra prior uniforme.

45
Quindi se ci fossero due ricercatori ognuno dei quali fa inferenza oggettiva, su p e η rispetti-
vamente, assumendo un’uniforme, arriverebbe a conclusioni diverse, a due stime incoerenti
tra di loro.
La soluzione a questo problema è stata proposta da Jeffreys solo nel 1946, sebbene il problema
si sia posto molto tempo prima.

13.1 Jeffreys’ prior


Jeffreys ha proposto di usare una prior oggettiva, e quindi non-informativa, che è propor-
zionale alla radice dell’informazione di η (intesa come funzione), se questo è uno scalare,
ovvero alla radice del determinante della matrice dell’informazione se η è un vettore:
p p
π(θ) ∝ I(θ) o π(θ) ∝ |I(θ)|

in quanto la caratteristica fondamentale di una distribuzione a priori di questo tipo è che è


invariante rispetto a riparametrizzazioni.
L’infomazione di Fisher, I(θ), può essere definita in due modi:

• varianza dello score associato a una data funzione di verosimiglianza, ossia il valore
atteso della sua derivata logaritmica al quadrato:
 2 
d
I(θ) = EX logf (x|θ)

e poiché il valore atteso dello score è nullo, la sua varianza coincide con il momento del
secondo ordine.

• valore atteso della derivata seconda della funzione di verosimiglianza, cambiato di


segno:  2 
d
I(θ) = −EX logf (x|θ) .

Si può dimostrare che, sotto condizioni di regolarità, le due espressioni coincidono quando il
supporto della X non dipende dal parametro.

Esempio1 Ipotizziamo di avere un modello normale per i dati e di voler fare inferenza
oggettiva sulla media, X ∼ N (θ, σ 2 ), con σ 2 noto, per cui:

1 1 2
fX = √ e− 2σ2 (x−θ)
σ 2π

per ricavare l’informazione calcoliamo il logaritmo della verosimiglianza e lo score rispetto a


θ, riferito ad una sola osservazione:

1 1 1 1 1
logf (x|θ) = − log(2πσ 2 ) − 2 (x − θ)2 = − log(2π) − log(σ 2 ) − 2 (x − θ)2
2 2σ 2 2 2σ

46
δlogf (x|θ) 1
= 2 (x − θ)
δθ σ
L’informazione di Fisher di X rispetto al parametro ignoto è quindi pari a:
 2   2 
δlogf (x|θ) 1 1 2 1 1
= 4 (σ 2 ) = 2
 
I(θ) = E = EX 2
(x − θ) = 4
EX (x − θ)
δθ σ σ σ σ
q
1
Per cui la prior di Jeffreys in questo caso è: π(θ) ∝ σ2
= σ1 .

Esempio2 Ipotizziamo in questo caso che vogliamo fare inferenza sulla varianza ignota.
Calcoliamo il logaritmo della verosimiglianza e lo score rispetto a σ 2 riferito ad una sola
osservazione:

1 1 1 1 1
logf (x|σ 2 ) = − log(2πσ 2 ) − 2 (x − µ)2 = − log(2π) − log(σ 2 ) − 2 (x − µ)2
2 2σ 2 2 2σ

δlogf (x|σ 2 ) 1 2
2
= − 2
+ 4
(x − µ)2
δσ 2σ 4σ
Per calcolare l’informazione di Fisher applichiamo la seconda definizione, quindi calcoliamo
anche la derivata seconda:

δ 2 logf (x|σ 2 ) −2 −2σ 2


2 2
= − 4
+ 8
(x − µ)2
δσ δσ 4σ 2σ

quidni si ha:
 
2 1 σ 2
I(σ ) = −EX − (x − µ)
2σ 4 σ 8
 
1 1 2
=− + EX [(x − µ) ]
2σ 4 σ6
1 1 1
=− 4 + 4 = 4
2σ σ 2σ

Per cui la prior di Jeffreys in questo caso èqun’iperbole (valori della varianza via via più
grandi diventano più improbabili): π(σ 2 ) ∝ 2σ1 4 = σ21√2 .

Esempio3 Ipotizziamo di avere un modello per una variabile di Bernoulli, X ∼ Bin(1, p),
e lavoriamo inizialmente sul parametro originario, per cui la logverosimiglianza è la seguente:

logf (x|p) = xlogp + (1 − x)log(1 − p)

Calcoliamo lo score ripetto a p e poi la derivata seconda per applicare la seconda definizione
dell’informazione:
δlogf (x|p) x 1−x
= −
δp p 1−p

δ 2 logf (x|p) x 1−x


2
=− 2 −
δp p (1 − p)2

47
Quindi:
 
x 1−x E[X] E[1 − X] p 1−p 1−p+p 1
I(p) = −EX − 2− 2
= 2
+ 2
= 2+ 2
= =
p (1 − p) p (1 − p) p (1 − p) p(1 − p) p(1 − p)

Per cui la prior di Jeffreys in questo caso è:

1
π(p) ∝ p
p(1 − p)

e si può dimopstrare che è anche una coniugata, π(p) ∼ Beta( 21 , 21 )

p

Se, invece, lavoriamo sul logit il parametro è θ = log 1−p
: e la log verosimiglianza è:

logf (x|θ) = xθ − log(1 + eθ )

Anche in questo caso applichiamo la seconda definizione quindi calcoliamo le derivate:

δlogf (x|θ) eθ
=x−
δθ (1 + eθ )

δ 2 logf (x|θ) eθ (1 + eθ ) − eθ eθ eθ + e2θ − e2θ eθ


= − = − = −
δθ2 (1 − eθ )2 (1 − eθ ) (1 − eθ )2
e infine ricaviamo l’informazione rispetto a θ:

eθ eθ
 
I(θ) = −EX − =
(1 − eθ )2 (1 − eθ )2

Per cui la prior di Jeffreys in questo caso è:




π(θ) ∝
(1 − eθ )

N.B. Dato che la prior di Jeffreys risolve il problema dell’incoerenza, in questo caso assumere

θ
una prior su p proporzionale a √ 1 o su θ proporzionale a (1−ee θ ) porta allo stesso risultato.
p(1−p)

Esempio4 Ipotizziamo di avere una variabile di Poisson con parametro λ, X ∼ P ois(λ),


per cui la verosimiglianza del modello è:

λx
f (x|λ) = e−λ −→ logf (x|λ) = −λ + xlogλ − logx!
x!

Applichiamo la seconda definizione, quindi calcoliamo le derivate:

δlogf (x|λ) x
= −1 +
δλ λ

δ 2 logf (x|λ) x
= −
δλ2 λ2

48
e infine ricaviamo l’informazione rispetto a λ:
 
X E[X] λ 1
I(λ) = −EX − 2 = 2
= 2 = .
λ λ λ λ

Per cui la prior di Jeffreys in questo caso è:

1
π(λ) ∝ √ .
λ

Ora, per fare inferenza occorre naturalmente conoscere la posterior ma le prior di Jeffreys
hanno il vantaggio di essere direttamente distribuzioni coniugate alcune volte, altre volte sono
limiti di distribuzioni coniugate al tendere a zero di alcuni parametri, per cui la posterior si
ricava facilmente. Nell’Esempio3, il valore atteso a posteriori:
1
P
xi +
i 2
pe = E[p|x] =
n + 12 + 1
2

non è altro che P


è il valore atteso a posteriori della distribuzione Beta che è coniugata per la
i xi +α
Bernoulli, pe = n+α+β . Nell’Esempio1, invece, abbiamo dimostrato che per X ∼ N (θ, σ 2 ),
con σ 2 noto, la Jeffreys’ prior è proporzionale a σ1 , mentre sappiamo che la coniugata è
una distribuzione normale con media µ e varianza τ 2 ; si può dimostrare che in relatà la
distribuzione uniforme di Jeffreys in questo caso è:

lim N (µ, τ 2 ) ∝ costant.


τ 2 →∞

14 Prediction
Anche quando si fa inferenza bayesiana è interessanre la predizione, ossia la previsione di
una ipotetica ulteriore osservazione, E[xn+1 ], sulla base delle n già osservate, x1 , . . . , xn ; in
particolare, in questo ambito, date n osservazioni si vuole ricare la distribuzione di una nuova
osservazione condizionata ai dati osservati, che è pari a:
Z
f (xn+1 |x) = f (xn+1 |θ)π(θ|xdθ) (22)

ossia all’integrale della distribuzione della nuova osservazione condizionata al parametro


marginalizzata rispetto allo stesso (ossia moltiplicata per la distribuzione a posterori del pa-
rametro). La distribuzione della nuova osservazione viene definita direttamente dal modello,
θ viene stimato facendo inferenza sulla base del campione.
Il principio generale, quando occorre prevedere una nuova osservazione, è quindi di usare
una distribuzione che tenga conto dell’incertezza del modello sia sull’osservazione e sia sulla
stima di θ.

49
Esempi in cui è possibile ricavare f (xn+1 |x)

Es. 1 Beta-Binomiale
Xn+1 ∼ Bern(e
p) dove pe è la stima bayesiana della probabilità di successo −→ Xn+1 |x ∼ Beta
P
xi + α
i
E[Xn+1 |x] =
n+α+β

Es. 2 Multinomiale-Dirichlet
Xn+1 ∼ M ult −→ Xn+1 |x ∼ Dir. Si osservano dapprima n soggetti con categorie di risposta
(frequenze) y1 , y2 , . . . , yk , dopo m nuovi soggetti di cui si vuole prevedere la frequenza yj

αj + yj
E[yj ∗ |y] = m P
n + j αj

Es. 3 Poisson-Gamma
Xn+1 ∼ P ois −→ Xn+1 |x ∼ Gamma.
P
( i xi + α)(β + n)
E[Xn+1 |x] = 1
1 − β+n

Es. 4 Normale con σ 2 noto


X ∼ N (θ, σ 2 ) −→ Xn+1 ∼ N −→ Xn+1 |x ∼ N (e
µ, σ 2 + τe2 ), cioè all’incertezza sul parametro
τ 2 ) si somma la varianza σ 2 .
θ (e

Es. 5 Normale con µ ignoto


É una distribuzione molto complessa, quale una t-Student non centrata. Per questo spesso
si ricorre alle simulazioni di Montecarlo, campionando dapprima θ dalla posterior e poi si
genera la nuova osservazione condizionatamente al θ simulato.

15 Verifica delle ipotesi


Data una v.a. X ∼ f (x|θ) e definita una distribuzione a priori sul parametro d’interesse, θ ∼
π(θ), si vogliono confrontare due ipotesi sull’appartenenza del parametro a due insieme (spazi
dei parametri) incompatibili, che cioè non hanno elementi in comune (la loro intersezione è
l’insieme vuoto): 
H : θ ∈ Θ
0 0
, Θ0 ∩ Θ1 = ∅.
H : θ ∈ Θ
1 1

Per fare inferenza calcoliamo il posterior odds ratio, dato dal rapporto tra due probabilità
a posteriori:
P (Θ0 |x)
0< T1 (23)
P (Θ1 |x)

50
- se > 1 NRH0 in quanto, alla luce dei dati, cioè aposteriori, H0 è più probabile di H1 ,
- se < 1 RH0 .
La probabilità dello spazio che corrisponde all’ipotesi i -esima è definita come l’integrale, sul
corrispondente spazio, della posterior:
Z
P (Θi |x) = π(θ|x)dθ , i = 0, 1.
Θi

Tuttavia, si pone un problema se sotto l’ipotesi nulla si assume che il parametro θ corrisponde
a un singolo punto, H0 : θ = θ0 , in particolare il posterior odds ratio risulterebbe sempre
< 1 e quindi si rifiuterebbe sempre H0 . La soluzione a questo problema consiste nel definire
un intervallo intorno al punto.
Ad esempio, se vogliamo verificare il seguente sistema di ipotesi:

H : µ = µ
0 0
H : µ =
6 µ0
1

modifichiamo queste ipotesi in modo tale che nessuna delle due ipotesi coindida con un
punto: 
H : µ −  < µ < µ + 
0
H : µ ∈ [µ − , µ + ]
1

0 |x)
Occorrerebbe però fissare ; quello che in genere si fa è calcolare lim PP (Θ ma anche questo
→0 (Θ1 |x)
risulta complicato quando non ci sono formule esplicie per P (·) perchè le probabilità an-
drebbero calcolate numericamente; risulta conveniente in questo caso ragionare in termini di
mistura, ossia definendo due diverse prior, valide sotto H0 e H1 , rispettivamente, a seconda
dello spazio cui θ può appartenere, e le indichiamo con: π00 (θ) e π10 (θ).
Queste due prior godono della proprietà di integrare a 1 sotto la relativa ipotesi:
Z
πi0 (θ)dθ = 1 , i = 0, 1.
Θi

Definiamo inoltre le due probabilità a priori (prima di aver osservato i dati) che l’i -esima
ipotesi sia vera (i = 0, 1):
- λ0 = P (Θ0 ) prior belief per H0 ,
- λ1 = P (Θ1 ) prior belief per H1 .
Ad esmpio se poniamo λ0 = λ1 = 1/2 stiamo esprimendo una situazione di indifferenza; se,
invece, λ0 = 0.9 e λ1 = 0.1 vuol dire che a priori l’ipotesi nulla è molto più probabile.
Si definisce, quindi, la prior su tutto la spazio come mistura, che è una funzione di densità
definita per casi a seconda di dove è collocato θ:

λ π 0 (θ) se θ ∈ Θ
0 0 0
π(θ) =
λ π 0 (θ) se θ ∈ Θ
1 1 1

51
π(θ) è una f.d.p propria, in particolare, l’integrale su tutto lo spazio (unione) è 1:
Z
π(θ)dθ = 1 , Θ0 ∪ Θ1 = Θ
Θ0 ∪Θ1

Dimostrazione Z Z Z
π(θ)dθ = λ0 π00 (θ)dθ + λ1 π10 (θ)dθ = 1
Θ Θ0 Θ1

questa somma è pari a 1 dato che ognugno dei due integrali è pari a 1 e λ0 + λ1 = 1 (è in
sostanza una media ponderata tra due densità).
La posterior si ricava applicando il th. di Bayes:

λi πi0 (θ)f (x|θ)


π(θ|x) =
m(x)
R
per i = 1, 0 a seconda di dove è collocato il parametro e dove m(x) = Θ π(θ)f (x|θ)dθ =
λ0 Θ0 π00 (θ)f (x|θ)dθ + λ1 Θ1 π10 (θ)f (x|θ)dθ è la verosimiglianza marginale.
R R

A questo punto è possibile verificare il test, calcolando il posterior odds ratio, dove le
probabilità sono ottenute come:

πi0 (θ)f (x|θ)dθ


R
λi Θi
P (Θi |x) = .
m(x)

52
Lezione del 16/04/2018
Verifica delle ipotesi (segue)
(Ripetizione) In ambito bayesiano partiamo da un modello per i dati, X ∼ f (x|θ), e dalla
distribuzione del parametro, θ ∼ π(θ) e abbiamo due ipotesi che corrispondono a due insiemi
disgiunti dello spazio dei parametri: a differenza dell’approccio frequentista, le due ipotesi
a priori sono sullo stesso piano , non c’è un livello di significatività o la potenza del test,
occorre valutare solo quale delle due ipotesi è preferibile. Per la verifica del test si calcola il
posterior odds ratio:
- se > 1 si preferisce H0 ,
- se < 1 si preferisce H1 ,
- se = 1 situazione di ideale indifferenza (solo teorica).
Se l’ipotesi nulla corrisponde a un singolo punto possono verificarsi dei problemi; la soluzione
migliore in questo caso consiste nel nel modificare le ipotesi, defininendo un intervallo intorno
a quel punto, si pone però l’ulteriore problema di definirne anche l’ampiezza.
Si preferisce, quindi, il c.d. approccio mistura che consiste nel definire due prior completa-
mente separate, valide una sotto l’ipotesi nulla e l’altra sotto l’ipotesi alternativa e indicate,
rispettivamente, con: π00 (θ) e π10 (θ); sono distribuzioni anche appartenenti a famiglie diverse,
definite ognuna nel relativo spazio, a condizione in esso integrino a 1.
Aggiungiamo altri due parametri, le probabilità a priori:
- λ0 = P (Θ0 ) prior belief che sia vera H0 ,
- λ1 = P (Θ1 ) prior belief che sia vera H1 .
La distribuzione a priori complessiva, definita su tutto lo spazio dei parametri, è ottenuta,
appunto come mistura: 
λ π 0 (θ) se θ ∈ Θ
0 0 0
π(θ) =
λ π 0 (θ) se θ ∈ Θ
1 1 1

N.B. π(θ) deve essere una funzione propria.

Esempio

Data X ∼ N (θ, σ 2 ), con σ 2 noto, verificare il seguente


sistema di ipotesi:
 
H : θ ≤ θ Θ = {θ : θ ≤ θ }
0 0 0 0
−→
H : θ ≥ θ Θ = {θ : θ ≥ θ }
1 0 1 0

A priori, ipotizziamo due distribuzioni a seconda che


θ appartenga allo spazio dei parametri sotto H0 o a
Figura 15: Mistura quello sotto H1 . Se defininiamo anche le probabilità
a priori, ad es. λ0 = 0.75 e λ1 = 0.25, possiamo cal-
colare π(θ).

53
Per verificare il sistema di ipotesi occorre calcolare il posterior odds ratio; quindi, vediamo
com’è fatta la posterior:

λi πi0 (θ)f (x|θ) 0 : θ ∈ Θ
0
π(θ|x) = , i=
m(x) 1 : θ ∈ Θ
0

dove m(x) = Θ π(θ)f (x|θ)dθ = λ0 Θ0 π00 (θ)f (x|θ)dθ + λ1 Θ1 π10 (θ)f (x|θ)dθ è la verosimi-
R R R

glianza marginale.
λi Θ πi0 (θ)f (x|θ)dθ
R
Quindi si può calcolare il p-o-r sapendo che P (Θi |x) = i
m(x)
.

15.1 Il Bayes Factor


Un’alternativa al calcolo del posterior odds ratio è il Bayes Factor, indicato con BF01
(il primo indice rappresenta l’ipotesi che considero al numeratore, il secondo l’ipotesi del
denominatore):
π00 (θ)f (x|θ)dθ
R
BF01 = RΘ0 0 (24)
π (θ)f (x|θ)dθ
Θ1 1

ossia è pari al rapporto tra le due verosimiglianze marginali definite in cuascuno spazio.
Il Bayes factor può essere interpretato, innanzitutto, come il rapporto di verosimiglianza
frequentista; tuttavia, mentre in ambito frequentista si confronta il massimo della verosimi-
glianza in due punti, ff (x|
(x|θ̂0 )
θ̂1 )
nel bayes factor si confronta la media della verosimiglianza nei
due spazi calcolate con le distribuzioni a priori in essi definite (vedi figura).
Inoltre, si può dimostrare che, se λ0 6= λ1 6= 12 , il Bayes factor può essere scritto come il
rapporto tra la probabilità a posteriori e a priori sotto H0 tutto diviso per lo stesso rapporto
sotto H1 : 
P (Θ0 |x)/P (Θ0 ) P (Θ0 |x) P (Θ0 )
BF01 = =
P (Θ1 |x)/P (Θ1 ) P (Θ1 |x) P (Θ1 )
e, quindi, può essere interpretato come il rapporto tra l’odds ratio a posteriori e quello a
priori.
Infine un’ultima interpretazione del BF01 si può dare quando λ0 = λ1 = 21 , cioè quando a
priori c’è indifferenza tra le due ipotesi diventa l’odds ratio a posteriori.

In generale 0 < BF01 < ∞:


- se BF01 > 1 vuol dire che, condizionando ai dati, l’odds a posteriori risulta maggiore e
dunque i dati hanno formito più evidenza a favore dell’ipotesi nulla rispetto a quello che si
pensava a priori,
- se BF01 < vuol dire che i dati hanno formito una minore evidenza rispetto a quello che si
pensava inizialmente.
Oggi, il Bayes factor è molto utilizzato per confrontare due ipotesi o modelli (se vediamo le
ipotesi come modelli separati).

54
BF01 Forza dell’evidenza a favore di H0 rispetto ad H1

<1 Negativa, non c’è evidenza a favore di H0



da 1 a 10 Evidenza minima

da 10 a 10 Evidenza sostanziale a favore di H0

da 10 a 10 10 Evidenza forte

da 10 10 a 100 Evidenza molto forte
> 100 Evidenza decisiva

Tabella 1: Tabella di Jeffreys sull’interpretazione del valore del BF01

In generale da valori superiori a 3 si propende a favore di H0


.
−1
Chairamente se calcoliamo BF10 = BF01 = BF101 otteniamo una misura di evidenza di H1
rispetto ad H0 .

Tutto questo può essere molto difficile da calcolare nella pratica, perchè ci sono integrali
molto complessi. Per questo si preferisce calcolare il Bayesian Information Criterion o
BIC con il quale poi approssimare il Bayes factor (viene usato anche dai non bayesiani in
ambito di selezione del modello).

Esempio
Supponiamo di dover confrontare due modelli (ipotesi) in base ai quali i dati hanno una
certa distribuzione: 
M : x ∼ f (x|θ ), θ ∈ Θ
0 0 0 0 0
M : x ∼ f (x|θ ), θ ∈ Θ
1 1 1 1 1

In questo caso, ancora più generale, si assume che non solo le prior sul parametro possono
essere diverse ma anche che i dati possono seguire distribuzioni diverse.
m0 (x)
Secondo la teoria del Bayes factor occorre calcolare BF01 = m 1 (x)
, dove:
Z
mi (x) = πi0 (θi )fi (x|θi )dθi ,
Θi

per i = 0, 1. Il problema è calcolare mi (x) per i due modelli e per questo il Bayes factor
viene approssimato utilizzando in BIC.
Innanzitutto, si calcola il massimo della verosimiglianza sotto i due modelli:

θ̂i = MLE di θi sotto Mi ,


P P
indicando la verosimiglianza del modello con l(θi ) = i li (θi ) = i logf (x|θi ) e massimiz-
zandola una volta quando i = 0 e una volta quando i = 1 si ottengono θ̂0 e θ̂1 . A questo

55
punto, si può dimostrare che:

2logBF01 ≈ 2(l0 (θ̂0 ) − l1 (θ̂1 )) − (p0 − p1 )log(n)

dove li è il massimo della verosimiglianza sotto ciascun modello, pi è la dimensione di θi e


quindi (p0 − p1 ) è la differenza tra il numero dei parametri nei due modelli.
Definendo il BIC per ciascun modello come :

BICi = −2li (θ̂i ) + pi log(n),

a patto che n sia abbastanza grande, si ha:

2log(BF01 ) ≈ BIC1 − BIC0 ,

da cui si ricava l’espressione per giudicare il livello del Bayes factor:

1
BF01 = e 2 (BIC1 −BIC0 ) > 0.

Un indice collegato al BIC è l’Aikaike Information Criterion o AIC che è stato svilup-
pato in ambito frequentista ma l’idea è sempre la stessa, quella di penalizzare la massima
verosimiglianza del modello:
AICi = −2li (θ̂i ) + 2pi .

Rispetto al BIC cambia il termine di penalità, in particolare in questo caso si tiene conto
solo della complessità del modello, mentre nel BIC si tiene conto anche della dimensione
del campione come log(n). La penalità del BIC risulta quindi più forte, per questo è gene-
ralmente preferito all’AIC, in quanto tende a selezionare modelli con un minor numero di
parametri ovvero di componenti e quindi più parsimoniosi.

56
16 BAYESIAN COMPUTATION
Tutto quello visto finora è matematicamente molto complesso ma ha suscitato un notevole
interesse per moltissimi anni; tuttavia, l’inferenza bayesiana, fino a non molto tempo fa si
era arenata per la parte computazionale, perchè non si riuscivano a risolvere problemi molto
complessi. Con lo sviluppo dei metodi informatici di calcolo però l’inferenza bayesiana è
riemersa.

Tutta l’inferenza bayesiana viene riassunta nella distribuzione a posteriori, che in forma più
generale si può scrivere come:
π(θ)f (D|θ)
π(θ|D) = (25)
m(D)
R
dove m(D) = π(θ)f (D|θ)dθ, ossia come il prodotto tra la distribuzione a posteriori e la
distribuzione dei dati diviso la verosimiglianza marginale.
A parte i casi di distribuzioni coniugate (per lo più didattici), non esiste un modo semplice
per calcolare m(D) in forma esplicita e in modo semplice nelle applicazioni reali. Da qui la
necessità di sviluppare metodologie/algoritmi di calcolo più sofisticate.
Distinguiamo due approcci per l’appossimazione di m(D):
1. Deterministico, che utilizza la quadratura e il metodo di Laplace,

2. Stocastico, che utilizza la simulazione MC e in particolare le Markov Chain Monte-


carlo, le quali permetto di risolvere non risolvibili con il MC standard.
A parità di dati e modello i metodi deterministici forniscono sempre lo stesso risultato ap-
prossimato, mentre i metodi stocastici non riproducono il risultato in modo esatto, dato che
è simulato, e per questo motivo sono oggetto di critica; tuttavia questo aspetto può essere
attenuato aumento notevolmente il numero di repliche.

I metodi Deterministici

17 La Quadratura
La quadratura è il metodo deterministico più semplice e intuitivo e, in generale, consiste
nell’approssimare un integrale con una somma calcolabile.
Ad esempio, se consideriamo un generico integrale di una funzone g(·) sotto una funzione
f (·) questo sarà pari a:

Z Q
X
g(x)f (x)dx = g(xq )wq (Q*)
q=1

ossia, a livello probabilistico è il valore atteso di g(·) sotto f (·).


xq sono detti nodi della quadratura, sono dei numeri plausibili/rappresentativi, wq è il re-
lativo peso. Se nodi e pesi sono definiti in modo corretto l’integrale può essere calcolato

57
esattamente come una somma.
A seconda di come vengono defini nodi e pesi e del metodo utilizzato, è possibile distinguere
diversiti tipi di quadratura.
Nella Quadratura Uniforme data una distribuzione f (x) (ad es. distribuzione norma-
le)(grafico), per determinare i nodi si costruisce una griglia di punti sull’asse reale, in un
certo intervallo, cioè i punti xq tra gli estremi dell’intervallo considerato sono equidistanzia-
ti. Per ogni punti si defnisce un peso pari alla densità calcolata nel punto e rinormalizzata,
in modo tale da ottenere pesi che sommino a 1:

f (xq )
w q = PQ
r=1 f (xr )

e quindi si applica la formula Q*.


La precisione/correttenza del risultato aumenta con i punti di quadratura.

Ma perchè si parla di quadratura?


Abbiamo una distribuzione g(·) di cui vogliamo
calcolare l’integrale sotto f (·). Definendo i pun-
ti di quadratura è come se stessimo approssiman-
do la curva con una serie di rettangoli, ognuno
dei quali è centrato su un nodo e i pesi ne rap-
presentano l’altezza; quindi quadratura perchè si
sta quadrando la curva. Man mano che Q au-
menta i rettangoli diventano più sottili, per que-
sto all’aumentare di Q migliora l’approssimazio-
Figura 16: Quadratura ne.

La quadratura è stata sviluppata soprattutto sotto la distribuzione Normale, nell’ambito


della teoria di Gauss-Hermite; essi hanno definito dei punti di quadratura che non sono
equidistanziati, ma tali che con Q punti, la somma è esattamente all’integrale, per funzioni
che sono dei polinomi fino all’ordine Q − 1 (ad es. per Q = 3 la somma è uguale all’integrale
per funzioni di primo grado e quadratiche) -in R è dipsonibile il pacchetto Gaussquad-.

58
Lezione del 18/04/2018
La Quadratura nell’inferenza bayesiana (Ripetizione)
R
In generale dato un integrale g(x)f (x)dx, che altro non è che il valore atteso di una
funzione g(·) sotto un’altra funzione f (·), questo può essere approssimato, con il metodo
della quadratura, mediante una somma:

Z Q
X
g(x)f (x)dx = g(xq )wq ,
q=1

dove g(xq ) sono detti nodi o punti di quadratura e wq sono i pesi.

17.1 UNIPARAMETRIC CASE


In questo caso θ è in singolo parametro (uno scalare).
L’idea di base è che una certa distribuzione a posteriori π(θ|D) può essere sintetizzata tramite
degli indicatori di posizione e di variabilità, quali media e varianza; in generale, questi
indicatori possono essere espressi attraverso un valore atteso, E[g(θ)|D], che per definizione
è pari a: Z
E[g(θ)|D] = g(x)π(θ|D)dθ, (26)

che rappresenta il valore atteso sotto la distribuzione a posteriori.


Infatti se:
- g(θ) = θ si ottiene la media ossia il valore atteso a posteriori condizionato ai dati, E[θ|D];
- g(θ) = [θ − E(θ)]2 si ottenie la varianza a posteriori condizionata ai dati, Var[θ|D].

Tuttavia, la distribuzione π(θ|D) è difficile da trattare analiticamente perchè non esiste una
formula esplicita (o se esiste è difficile da calcolare) ma, data l’uguaglianza (12), possiamo
R
ricorrere alla quadratura, approssimando l’integrale g(x)π(θ|D)dθ, e quindi il valore atteso
sotto la distribuzione a posteriori E[g(θ)|D], con una somma.
Definiamo, dunque, una griglia di punti sullo spazio del parametro unidimensionale (retta-
segmento), cioè i nodi θ1 , θ2 , . . . , θQ ; per ogni nodo occorre calcolare il relativo peso wq dato
dal prodotto tra la prior e la verosimiglianza dei dati, normalizzato per il totale dei pesi (in
modo tale che sommino a 1):
π(θq )f (D|θq )
wq = P .
r π(θr )f (D|θr )

Quindi calcoliamo il valore atteso sotto la disribuzione a posteriori come:

Q
X
E[g(θ)|D] ≈ g(θq )wq .
q=1

59
17.1.1 Esempio1: caso Beta-Binomiale

Consideriamo dapprima il caso in cui abbiamo una distribuzione a priori coniugata, cioè
tale per cui la distribuzione a posteriori appartiene alla stessa famiglia distributiva; così,
conoscendo la soluzione possiamo confrontare i risultati ottenuti attraverso la quadratura con
quelli esatti. Sia X una v.a. bernoullina, X ∼ Bin(1, p), il cui parametro p ha distribuzione
Beta, p ∼ Beta(α, β). Sotto questo modello la distribuzione dei dati (verosimiglianza dei
P P
dati condizionata al parametro) è f (D|θ) = p i xi (1 − p)n− i xi cioè la verosimiglianza della
distribuzione di Bernoulli.
Per calcolare la distribuzione a posteriori sfruttiamo il fatto che il parametro ha un supporto
limitato p ∈ (0, 1), quindi consideriamo come nodi pq = 0.01, · · · , 0.99 e calcoliamo i pesi wq
(N.B. consideriamo solo il kernel della prior):
P
x P
pα−1
q (1 − pq )β−1 pq i i (1 − pq )n− i xi
wq = P P .
α−1 (1 − p )β−1 p i xi (1 − p )n− i xi
P
p
r r r r r

A questo punto, possiamo calcolare le proprietà della distribuzione a posteriori in seguito


alla quadratura:

Q Q
X X
E[p|D] ≈ pq w q Var[p|D] ≈ [pq − E(p|D)]2 wq .
q=1 q=1

Come si è detto, i risultati ottenuti in seguito alla quadratura possono essere confrontati con
quelli veri ricavati tramite le formule:

α̃ α̃β̃
E[p|D] = Var[p|D] =
α̃ + β̃ (α̃ + β̃)2 (α̃ + β̃ + 1)
P P
dove α̃ = α + i xi e β̃ = β + n − i xi .

17.1.2 Esempio2: caso non coniugato


x
Consideriamo, ora, una v.a. X ∼ P ois(λ), che ha densità f (x) = λx! e−λ , ma non utilizziamo
la distribzione Gamma che è la prior coniugata per la Poisson; ipotizziamo, invece, che
il parametro ignoto abbia una distribuzione lognormale con una certa media e varianza,
λ ∼ logN (µ, τ 2 ). In generale data una v.a. X ∼ N (µ, τ 2 ) la distribuzione dell’esponenziale
di X è lognormale, eX ∼ logN (µ, τ 2 ). La lognormale è una distribuzione che viene molto
utilizzata per dati che assumo solo valori positivi; si dice che è una distribuzione per eventi
estremi, che implicano cioè un valore della X molto grande ma che si verificano raramente
(presenta una coda molto pesante):

60
Figura 17: Distribuzione lognormale

La distribuzione lognormale ha funzione di densità:

1 1 2
π(λ) = √ e− 2τ 2 (logλ−µ) ,
λ 2πτ 2

che si ottiene sulla


−1base della regola di trasformazione delle v.a.: data X ∼ f (x) se Y = g(X)
∂g (y) −1

allora fY (y) = ∂y fX g (y) ; nel nostro caso, se X ∼ N (µ, τ 2 ), f (X) è la funzione di
densità normale e Y = g(X) = eX , da cui si ricava g −1 (y) = logY , quindi:

∂logy 1 1 2 1 1 1 2 1 1 2
fY (y) = √ e− 2σ2 (logy−µ) = √ e− 2σ2 (logy−µ) = √ e− 2σ2 (logy−µ)
∂y 2πσ 2 y 2πσ 2 y 2πσ 2

Ritornando all’esempio, dire che il parametro λ ha distribuzione lognormale, λ ∼ logN (µ, τ 2 ),


è dunque equivalente ad affermare che il suo logaritmo ha distribuzione normale, logλ ∼
N (µ, τ 2 ).
In questo caso non conoscendo la distribuzione a posteriori, fissato il numero di punti di
quadratura Q, per λq prendiamo una griglia tra due valori a e b, λq ∈ [a, aδ, a + 2δ, . . . , b],
e wq = Pπ(λ q )f (D|λq )
come corrispondenti pesi. Per scegliere i valori a e b, scelti due valori
r π(λr )f (D|λr )
iniziali rappresentiamo il grafico λq vs wq e procediamo per tentativi in modo tale che i pesi
wq
wq iniziale e finale (w1 e wQ ) siano vicini a zero ossia tali che max wq
≤ 10−6 .
q

61
17.2 MULTIPARAMETRIC CASE
In questo caso il parametro θ è un vettore. In teoria è possibile applicare la stessa tecnica,
ossia:
Z Q
X
g(θ)π(θ|D)dθ ≈ g(θq )wq ,
q=1

dove π(θ|D) è la distribuzione a posteriori dei parametri dato i dati, g(·) è una funzione
vettoriale che può restituire più argomenti, dato che è calcolata in θq vettori di nodi con
q = 1, . . . , Q, e wq sono i pesi (scalari).
Inoltre se:
- g(θ) = θ otteniamo direttamente il vettore dei valori attesi a posteriori E(θ|D),
- g(θ) = [θ − E(θ|D)][θ − E(θ|D)]0 otteniamo la matrice quadrata di varianza e covarianza.
Di fatto però questa tecnica non funziona perchè, se il numero di parametri è grande, il
numero di punti di quadratura diventa troppo elevato e non si riesce ad ottenere un risultato
(neanche la somma); ad esempio con 5 parametri, fissato il numero di nodi Q = 11, 21, 41, . . .
del caso unidimensionale il numero, di nodi effettivo diventa 115 , 215 , 415 , . . . .
Per risolvere il problema a livello computazionale si utilizza un altro metodo deterministico,
più avanzato della quadratura e che consente di risolvere in modo approssimato casi anche
molto complessi: l’approssimazione di Laplace.

18 L’approssimazione di Laplace
L’obiettivo del metodo, se θ è un parametro continuo, è quello di approssimare la distribu-
zione a posteriori con una normale che vi si avvicina il più possibile, dato che la gaussiana
è quella distribuzione che sotto certe condizioni riesce ad approssimare quasi tutte le altre
distribuzioni (è la scelta più naturale quando si deve approssimare una distribuzione non
nota): π(θ|D) ≈ N (µ̃, τ˜2 ) (la distribuzione approssimata è una normale con parametri µ̃ e
τ˜2 ).

18.1 Caso uniparametrico


Per capire, consideriamo dapprima il caso scalare.
Per trovare la distribuzione normale che meglio approssima la posterior, occorre definire i
parametri µ̃ e τ˜2 . A tal fine partiamo dalla distribuzione congiunta del parametro e dei
dati, data dal prodotto tra la prior e la funzione di verosimiglianza, f (θ, D) = π(θ)f (D|θ) e
cerchiamo di approssimarla, dato che la congiunta è in realtà il numeratore della distribuzione
a posteriori che non sappiamo calcolare, π(θ|D) = ff(θ,D)
(D)
.
Consideriamo quindi il logaritmo della funzione congiunta:

logf (θ, D) = log[π(θ)f (D|θ)] = log(π(θ)) + log(f (D|θ))

62
e lo approssimiamo con una serie di Taylor del secondo ordine (cioè si arriva fino alla derivata
seconda) intorno al punto θb che massimizza il logaritmo della distribuzione congiunta:

θb = argmax logf (θ, D).


θ

Supponendo di riuscire a calcolare la funzione congiunta e di poterla rappresentare, la ap-


prossimiamo intorno al suo massimo con una parabola (in generale, questo è possibile anche
se non conosciamo la funzione).
Graficamente:

Figura 18: Approssimazione della distribuzione congiunta (in scala logaritmica) intorno al
suo massimo θb

Il motivo per il quale scegliamo di approssimare la funzione intorno al suo massimo θb è


che un massimo ha delle proprietà semplificatrici, infatti, dato che la derivata prima di una
funzione nel suo punto di massimo è pari a zero, la serie di Taylor si semplifica:
   2 
∂logf (θ, D) 1 ∂ logf (θ, D)
b2
logf (θ, D) ≈ logf (θ,
b D) + (θ − b +
θ) 2
(θ − θ)
∂θ
θ=θb 2 ∂θ
θ=θb

 
∂logf (θ,D)

dove il termine ∂θ è nullo.
θ=θb

Semplificando e tornando alla funzione originaria, e quindi alla scala iniziale, (cioè applichia-
mo l’esponenziale a entrambi i menbri dell’ultima espressione) si ha:

∂ 2 logf (θ,D)

1
f (θ, D) ≈ e logf (θ,D)+
b
2 ∂θ 2

θ=θ
b b D)e− 12 h(θ)(θ−
≈ f (θ,
b b2
θ)

 
∂ 2 logf (θ,D)

dove: h(θ) = −
b
∂θ2 θ=θb
è la derivata seconda cambiata di segno (espediente utiliz-
zato per avere il meno che c’è nella densità della normale).
Ne consegue che, rinormalizzando opportunamente, si ottiene la normale che approssima
meglio la distribuzione a posteriori ignota, cioè:

µ, τe2 )
π(θ, D) ≈ N (e (27)

63
con:
e = θb
µ e b −1
τe2 = h(θ)

cioè la distribuzione normale approssimante ha media pari al punto θb che massimazza


logf (θ, D) e varianza, che risente della curvatura, pari all’inversa della derivata seconda
calcolata nel punto di massimo.

64
Lezione del 23/04/2018
(Ripetizione) La quadratura è un metodo molto intuitivo che funziona bene in un numero
limitati di casi, in particolare quando ci sono pochi parametri; negli altri casi si ricorre ad
un altro metodo deterministico, l’approssimazione di Laplace, il cui obiettivo è quello di
approssimare la posterior che ha al numeratore la congiuntamtra tra i parametri e i dati,
ne prendiamo il logaritmo e ne facciamo un’espansione di Taylor del II ordine attorno al
massimo della logaritmo della funzione congiunta, che è sempre calcolabile, e poi ritorniamo
alla scala originaria. La posterior viene così approssimata con una distribuzione Normale,
µ, τe2 ), molto simile ad uno stimatore MLE centrato intorno al massimo e con varianza
N (e
pari all’inversa dell’informazione.

18.1.1 Esempio di un caso coniugato (Beta-Binomiale)

Assunta una distribuzione per i dati, X ∼ Bin(1, p), e una prior per il parametro d’interesse,
p ∼ Beta(α, β), la verosimiglianza dei dati è pari a:
P P
xi
f (D|p) = p i (1 − p)n− i xi
.

Calcoliamo, quindi, la distribuzione congiunta dei dati e del parametro come il prodotto tra
la prior sul parametro e la veorsimiglianza:

1 P P
f (p, D) = (α, β)pα−1 (1 − p)β−1 p i xi (1 − p)n− i xi .
B(α, β)

Ne prendiamo il logaritmo (considerando solo il kernel delle distribuzioni):


X X
logf (p, D) = (α + xi − 1)log(p) + (β + n − xi − 1)log(1 − p) + costant.
i i

P P
Riconosciamo che αe) = α + i xi e βe = (β + n − i xi sono gli iperparametri della distribu-
zione Beta a posteriori; mentre nel termine costante (rispetto a p) sono inclusi tutti i termini
che non dipendono dal parametro e che, quindi, nel prosieguo posso essere trascurati.
Calcoliamo le derivate:
δlogf (p, D) (e
α − 1) (βe − 1)
= − ,
δp p 1−p
δ 2 logf (p, D) (e
α − 1) (βe − 1)
= − − .
δp2 p2 (1 − p)2
Per massimizzare logf (p, D) uguaglaimo a 0 la derivata prima:

(e
α − 1) (βe − 1) (e
α − 1)(1 − p) − p(βe − 1)
− = 0 −→ =0
p 1−p p(1 − p)

65
poichè p(1 − p) > 0∀p, si ha:

e − 1 − (e
α α − 1)p − (βe − 1)p = 0
e − 1 − P (e
α α − 1 + βe − 1) = 0
e − 1 − P (e
α α + βe − 2) = 0


e−1
α
p̂ =
e + βe − 2
α
Abbiamo ricavato, in questo modo, in punto intorno al quale fare l’approssimazione di taylor
e che coincide con la moda della distribuzione Beta a posteriori.
Possiamo infine approssimare la posterior con una distribuzione Normale, N (eµ, τe2 ), dove:

e = p̂
_ µ
e−1
α β−1
−1
_ τe2 = + è l’inversa della derivata seconda cambiata di segno e calcolata
e
p̂2 (1−p̂)2

in p̂.

18.1.2 Esempio di un caso non coniugato

Assumiamo che i dati abbiano una distribuzione di Poisson, X ∼ P ois(λ), e che il relativo
parametro λ abbia distribuzione Lognormale, λ ∼ LogN .
Anzichè lavorare con λ, per semplificare i calcoli, lavoriamo con il parametro canonico θ =
log(λ), per cui la funzione di verosimiglianza dei dati può essere scritta come:
P P
xi
λ i eθ i xi
θ
f (D|θ) = Q e−nλ = Q e−ne .
i xi ! i xi !

Dato che, se λ ∼ logN , θ ∼ N (µ, τ 2 ), la distribuzione a priori del parametro θ è la funzione


di densità di probabilità della normale:

1 1 2
π(θ) = √ e− 2τ 2 (θ−µ)
2πτ 2

e la logaritmica della funzione congiunta di θ e dei dati è:


X 1
logf (θ, D) = θ xi − neθ − 2
(θ − µ)2 .
i

Ne calcoliamo le derivate:

δlogf (θ, D) X 1
= xi − neθ − 2(θ − µ) 2 ,
δθ i

δ 2 logf (θ, D) 1
2
= −neθ − 2 .
δθ 2τ

66
Occorrerebbe a questo punto trovare il massimo θ̂ azzerando la derivata prima; tuttavia, in
questo caso non c’è una soluzione esplicita (c’è il termine eθ che è sempre > 0), anche se
possiamo calcolare le derivate.
Per massimizzare logf (θ, D) è possibile utilizzare l’algoritmo Newton-Raphson, l’algoritmo
di ottimizzazione migliore quando lavoriamo con una funzione sufficientemente regolare e
differenziabile. Questo algoritmo parte da un valore iniziale (initial guess) θ(0) = logx̄
(logaritmo della media perchè stiamo lavorando in scala logaritmica e perche la media è
una stima di λ), calcola le derivate della funzione e trova un nuovo punto aggiustando il
precedente per il rapporto tra la derivata prima e la derivata seconda; al generico passo t:

δlogf (θ(t−1) ,D)


(t) (t−1) δθ
θ =θ − δ 2 logf (θ(t−1) ,D)
δθ2

prendiamo la soluzione trovata al passo precedente e sottraiamo il rapporto tra la derivata


prima e seconda valutate nella soluzione trovata in t − 1.

67
Lezione del 02/05/2018

18.2 Caso multiparametrico


Multiparametrico perchè, in realtà, il parametro è un vettore di parametri. Segue la teoria
con un solo parametro ma con un’opportuna estensione dell’espansione in serie di Taylor.
L’obittivo è dunque quello di approssimare la distribuzione a posteriori del parametro con-
dizionata ai dati con una normale multivariata:

π(θ|D) ∼ Nm (µ,
e Te),

dove:
– µe è il vettore delle medie,
– Te è la matrice di varianza è covarianza.
In sostanza, il numero degli elementi di θ si riflette nel numero degli elementi di µ
e e nella
dimensione della matrice Te.
Dietro questa approssimazione ci sono gli stessi passaggi del caso uniparametrico che si basa
sulla serie di Taylor.

Partiamo, quindi, dalla distribuzione congiunta del parametro e dei dati: f (θ, D) = π(θ)f (D|θ).
Applichiamo il logaritmo: log f (θ, D) = log π(θ) + log f (D|θ). Ne facciamo un’aspansione
di Taylor del secondo ordine attorno al punto θ che massimizza la log f (θ, D), definito co-
me θb = argmax logf (θ, D), il quale spesso necessità di algoritmi iterativi per poter essere
θ
trovato:
 0
δf (θ, D) b − 1 (θ − θ)
b 0 H(θ)(θ
log f (θ, D) ≈ log f (θ,
b D) + (θ − θ) b − θ)
b
δθ
θ=θb 2
 0
δf (θ,D)

dove il termine δθ (θ − θ)
b è uno scalare ottenuto dal prodotto scalare di un
θ=θb
vettore colonna trasposto (cioè un vettore riga) e un vettore colonna ma in realtà è pari a
zero dato che la derivata prima nel punto di massimo è nulla, mentre (θ − θ) b 0 H(θ)(θ
b − θ)
b
è una forma quadratica
 costruita
 intorno alla matrice delle derivate seconde cambiata di
2
segno:H(θ) = − δ δθδθf (θ,D)

0 b ; in pratica è una matrice d’informazione.
θ=θ
Applicando l’esponenziale, ritorniamo alla scala della densità originaria:

b D)e− 12 (θ−θ)
log f (θ, D) ≈ log f (θ,
b 0 H(θ)(θ−
b θ)
b
.

Quest’iltima espressione ricorda la formula della normale multivariata:

1

− 12 (x−µ)0 Σ−1 (x−µ)
f (X) = p e .
2π|Σ|

Quindi possiamo approssimare la posterior tramite una normale multivariata che ha media

68
in θb e matrice di var-cov pari all’inversa della matrice H(θ):
b

π(θ|D) ≈ Nm (µ,
e Te), con e = θ,
µ b b −1
Te = H(θ)

(In sintesi, noi sappiamo che tramite il metodo di Laplace possiamo approssimare al meglio
la posterior con una normale; tramite questo procedimento che è in sostanza una massi-
mizzazione, simile alla massima verosimiglianza ma senza considerare la prior, troviamo le
caratteristiche della normale.)

18.2.1 Esempio: modello logistico

Il modello logistico si adatta bene al caso multiparametrico. La regressione logistica serve a


modellare variabili risposta binarie (che assumono valore 0 o 1, rispettivamente, in assenza
o in presenza di un determinato attributo).
Assunzioni di base:

– yi ∼ Bin(1, pi ) è la distribuzione della risposta per l’i-esimo soggetto;


eηi
– la probabilità di successo è modellata tramite la funzione logistica: pi = 1+eηi
;

– ηi = x0i β è il logit, una forma lineare delle covariate (predittore lineare);

– in ambito bayesiano i parametri non sono fissi, per cui bisogna assumere su essi una
distribuzione a priori: β ∼ Nm (0, τ 2 I), dunque a priori si assume che i parametri sono
distribuiti come una normale multivariata centrata intorno ad un vettore di zeri con
una matrice di covarianza diagonale ossia si assume che parametri sono indipendenti,
dato che le covarianze sono nulle; generalmente, si fissa anche un τ 2 piuttosto grande
(tipo 10) perchè a priori abbiamo un’informazione vaga sui β, nel senso che non incide
in modo molto rilevante sui risultati, dunque ci si vuole affidare di più ai dati.

Per quanto riguarda la distribuzione dei dati si tratta, in pratica, di scrivere la verosimiglianza
condizionata ai parametri β; in questo caso coincide con la funzione di verosimiglianza della
Bernoulli:
Y y Y  pi yI
1−yi
f (D|β) = pi (1 − pi )
i
= (1 − pi ).
i i
1 − p i

pi
(N.B. l’ultima espressione è utile dato che 1−p i
= odds e log odds = logit)
Date le assunzioni di base, la prior sui parametri è la densità della normale multivariata:

1

1
− β 0 (I −1 )β
π(β) = p e 2τ 2 .
2π|τ 2 I|

Impostiamo il problema per l’approssimazione di Laplace e consideriamo quindi il logaritmo


della funzione congiunta:

X 
1
log f (β, D) = yi ηi + log(1 − pi ) − 2 β 0 β + costant
i

69
pi
dove ηi = x0i β = log 1−p i
e la costante additiva comprende tutto quello che non coinvilge
0
exi β 1
direttamente β; sapendo, inoltre, che pi = 0 , da cui 1 − pi = 0 , si ha:
1+exi β 1+exi β

X 
1
x0i β
log f (β, D) = yi x0i β − log(1 − e ) − 2 β 0 β + costant
i

La f (β, D), funzione dei parametri β, è quella che dobbiamo espandere con la serie di
Taylor e possiamo osservare che si compone della logverosimiglianza del modello logistico
e del termine − 2τ12 β 0 β che costituisce un fattore correttivo che realizza lo shrinkage, ossia
avvicina la stima ML a zero e penalizza al discostarsi di β da 0.
Per procedere con l’approssimazione occorre calcolare le dirivate:
0
exi β
 
δ log f (β, D) X 1 X 1
= yi xi − x 0β x i − 2
β = (yi − pi )xi − 2 β (vettore dello score)
δβ i
1−e i τ i
τ

0 0 0 0
δ 2 log f (β, D) X xi (exi β )(1 − exi β ) − exi β (−xi exi β )
 
1
0
= x 0β
2
xi − 2
δβδβ i
(1 − e i ) τ
X xi eηi − xi e2ηi + xi e2ηi 1
= x 0β
2
xi − 2 (I)
i
(1 − e i ) τ
X eηi 1
= η 2
xi x0i − 2
i
(1 − e ) i τ
η
X ei 1 1
= η η
xi x0i − 2
i
1−e 1−e i i τ
X 1
= pi (1 − pi )xi x0i − 2
i
τ

Si ottiene una matrice quadrata di derivate seconde di dimensione (K ∗ 1)(K ∗ 1).


Infine, per trovare il punto di massimo βb attorno al quale fare l’approssimazione si usa
il Newton-Raphson, per poi approssimare la posterior con una Nm (µ, e Te) con µ e = βb e
 −1
0 1
P
Te = i pi (1 − pi )xi xi − τ 2 I

70
Lezione del 07/05/2018
Ultimi due aspetti da vedere in ambito di approssimazione deterministica:
Come si fa una previsione su nuovi dati?
Come si trova il punto di massimo di funzioni/modelli molto complesse/i
nell’approssimazione di Laplace?

18.3 Previsione in ambito deterministico


Osservati i dati si ottiene la posterior π(|D), quello che si vuole fare è ottenere un nuovo
dato indicato con D0 , di cui si vuole ottenere una distribuzione attendibile f (D0 ) (N.B.: per
maggiore precisione occorrerebbe condizionare ai dati già osservati).

18.3.1 Univariate case

La distriuzione dei nuovi dati D0 si esprime come:


Z
f (D0 ) = f (D0 |θ)π(θ|D)dθ.

Con Laplace la posterior si approssima con una distribuzione normale con parametri µ e e τe2 ,
e è il punto di massimo della posterior e τe2 è la varianza ottenuta tramite la derivata
dove µ
seconda, per cui Z
≈ e, τe2 )dθ.
f (D0 |θ)φ(θ, µ

Anche quest’ultimo integrale può essere diffcile da calcolare, per cui si applicano metodi di
quadratura (o di Monte Carlo nel caso multivariato):

Q
X
≈ f (D0 |θq )wq
q=1

dove θq sono i nodi/punti di quadratura sotto la distribuzione normale e wq i relativi pesi.

18.3.2 Multivariate case

Cosa cambia? θ è un vettore e dato che la quadratura in questo ambito non è motlo
attendibile si utilizzano le simulazioni Monte Carlo:
Z
f (D0 ) = f (D0 |θ)π(θ|D)dθ
Z
≈ f (D0 |θ)φ(θ, µ
e, Te)dθ
R
1X
≈ f (D0 |θr )
R r=1

in pratica, si generano R valori dalla normale (posterior approssimata) e poi se ne calcola la


media (integrazione di MC classica).

71
18.4 Trovare il massimo
Tutta l’approssimazione di Laplace ruota intorno alla ricerca del massimo della funzione
target:
θb = argmax log f (θ, D).
θ

La ricerca di questo massimo ha una duplice giustificazione:

– il massimo è necessario per fare l’espansione di Taylor sulla quale si basa l’approssima-
zione stessa;

– calcolare la moda per sintetizzare in modo alternativo la distribuzione a posteriori.

Ricordiamo che:
log f (θ, D) = log π(θ) + log f (D|θ)

É un problema simile alla massimizzazione della logverosimiglianza in cui però c’è solo il se-
condo addendo; nell’approccio bayesiano, invece, includiamo la logprior realizzando l’effetto
di shrinkage/regolarizzazione delle stime.
Finora, abbiamo affrontato questo problema in due modi:
– applicando formule esplicite (in esempi banali, didattici in cui non c’è neanche bisogno
dell’approssimazione);
– attraverso algoritmi numerici, quali il Newton-Raphson.
Anche questi algoritmi, tuttavia, per certi modelli non funzionano bene, soprattutto quan-
do la funzione da ottimizzare è molto irregolare. Si utilizza in tal caso l’algoritmo EM,
Expectation-Massimization, nella versione bayesiana (cioè, come si è detto, non si massimizza
la logverosimiglianza ma log f (θ, D)).

I modelli di cui si parla sono i c.d. Modelli a variabile latente (modelli mistura e
modelli a classi latenti).
In questo contesto, si ragiona in termini di dati completi C = (D, Z), dove D sono i dati
osservati inizialmente e Z le variabili latenti, variabili che non possono essere osservate
ma di cui se ne suppone l’esistenza.
Riscriviamo, dunque, la target in funzione dei dati completi:

log f (θ, D, Z) = log π(θ) + log f (Z|θ) + log f (D|Z, θ)

dove f (θ, D, Z) = π(θ)f (Z|θ)f (D|Z, θ).


Per implementare l’algoritmo EM occorre esprimere la distribuzione a posteriori delle varia-
bili latenti, che si calcola con il th. di Bayes come la congiunta tra i dati osservati e latenti
normalizzata integrando rispetto a Z :

f (Z|θ)f (D|Z, θ)
f (Z|D, θ) = .
f (D|θ)
R
dove f (D|θ) = f (Z|θ)f (D|Z, θ)dZ.

72
18.4.1 Algoritmo EM

É un algoritmo iterativo quindi bisogna fissare, secondo una certa regola deterministica
ovvero casualmente, un punto inziale (initial guess) θ (0) ; successivamente si eseguono, fino
a convergenza, due passi:

• E-step: si calcola un valore atteso opportuno dato il valore precedente θ (h−1) della
stima dei paramentri:

Q(θ|θ (h−1) ) = EZ log f (θ, C)|D, θ (h−1)


 

É un valore atteso rispetto alle variabili latenti, in quanto queste non sono osservate e
quindi devono essere imputate; questo equivale a calcolare il valore atteso della funzione
target completa, rispetto alle variabili latenti che così vengono eliminate, e condizionato
ai dati osservati e al vettore dei parametri ottenuto all’iterazione precedente. Questo
valore atteso è pari a:
Z
log f (θ, C) log f (Z|D, θ h−1 )dZ
 
Z

• M-step: si massimizza Q(θ|θ (h−1) ) rispetto a θ, aggiornando così il valore dei para-
metri.

Riepilogo: l’obiettivo è massimizzare log f (θ, D) che somma l’evidenza dell’opinione a priori
e l’evidenza fornita dai dati; come strumenti per raggiungere tale obiettivo si utilizzano il
logaritmo della funzione congiunta che si basa sui dati completi (osservati e latenti) e sulla
distribuzione a posteriori delle latenti.

Esempio: Modello a classi latenti É un modello per variabili risposta binarie, in


particolare si usa quando per ogni individuo si osserva una sequenza di variabili binarie,
le quali tipicamente corrispondo alla presenza o meno di un determinato attributo o alle
risposte di un questionario: yi = (yi1 , yi2 , . . . , yiJ , ), per i = 1, . . . , n si hanno n vettori di
risposte.
Lo scopo è quello di classificare gli individui in gruppi omogenei, per cui ad ogni individuo
viene associata una variabile zi che indica il gruppo di appartenenza: zi ∈ {1, 2, . . . , k} (in-
dicatore della classe latente).
Dunque i dati osservati coincidono con l’insieme dei vettori di risposta, D = {yi }ni=1 , e i dati
latenti con l’insieme Z = {zi }ki=1 .

Nel modello statistico ci sono due tipi di parametri:

• λz = P rob(Zi = z), la probabilità che l’individuo i-esimo appartenga alla classe z o la


perchentuale dei soggetti di una classe latente nella popolazione (es. λz = 0.2 indica
che il 20% dei soggetti appartiene alla classe z, o estraendo una persona a caso la
probabilità che appartenza alla classe latente z è pari a 0.2);

73
• pJ|Z = P rob(yij = 1|Zi = z), la probabilità di successo condizionata alla classe latente,
ossia la probabilità che un soggetto proveniente dalla classe z risponde positivamente
alla risposta j-esima. ( N.B. ce ne sono J ∗ k.)

Ovviamente, nell’approccio bayesiano occorre introdurre le distribuzioni a priori su questi


parametri:

> le probabilità di appartenenza alle classi latenti hanno distribuzione Dirichlet con
parametro α, λ = (λ1 , λ2 , . . . , λk ) ∼ Dir(α) (non possiamo formulare ipotesi sui
λz separatamente perchè devono sommare a 1), con funzione di probabilità π(λ) ∝
Qk αz −1
z=i λz ;

> le probabilità di successo hanno distribuzione Beta, pj|z ∼ Bets(a, b) (possiamo usare
la distribuzione Beta perhè queste probabilità sono svincolate tra di loro), con funzione
di probabilità π(pJ|Z ) ∝ pa−1
j|z (1 − pj|z )
b−1
.

Impostazione per algoritmo EM


Esplicitiamo innazitutto la funzione congiunta completa; assumendo indipendenza tra tutti
i parametri a priori si ha:
YY Y Y
f (θ, D, Z) = π(θ)f (Z|θ)f (D|Z, θ) = π(λ) π(pj|z ) λzi f (yi |zi , θ)
j z i i

Q yij
dove f (yi |zi , θ) = j pj|z (1 − pj|z )1−yij (espressione della distribuzione di Bernoulli condizio-
nata alla classe latente).
Al fine di semplificare l’espressione della funzione congiunta completa in logaritmo è utile
scrivere la distribuzione latente e dei dati in modo alternativo:

λz i = z λnz z dove nz = i I(Zi = z) cioè il numero di soggetti che appartengono


Q Q P
• i
alla classe z ; si passa dunque dal prodotto dei λz soggetto per soggetto al prodotto dei
λz tenedno conto dell’appartenenza alla classe z ;
Q n
f (yi |zi , θ) = j pj|zij (1 − pj|z )1−nij , dove nj z = i I(Zi = z, yij = 1) è il numero
Q P
• i
degli individui che appartengono alla classe z e contemporaneamente rispondono 1
all’item j ; anche in questo caso si passa dalla distribuzione dei dati su tutti i soggetti
alla distribuzione su tutti gli item di risposta.

Si ha dunque:
X XX 
log f (θ; D, Z) = (αz +nz −1) log λz + (a+njz −1) log pj|z +(b+nz −njz −1) log(1−pj|z )
z j z

Q
dove il primo addendo si riferisce ai termini di π(λ) e di i λzi , mentre il secondo a quelli
della doppia produttoria della prior sui pj|z e della distribuzione dei dati.

74
A questo punto possiamo calcolare la distribuzione a posteriori delle latenti per ciascun
soggetto per poi calcolare il valore atteso Q e massimizzarlo:

λz f (yi |Z, θ)
f (Z|yi , θ) = ,
f (yi |θ)
P
dove f (yi |θ) = z λz f (yi |Z, θ).

Algoritmo EM

• E-step: Dato il valore inizale θ (0) dei parametri si calcola:

– f (Z|yi , θ (h−1) ), per i = 1, 2, . . . , n e z = 1, 2, . . . , k;



bz (θ (h−1) ) = E Nz |D, θ (h−1) = i f (Z|yi , θ (h−1) ), numero ignoto (poichè non
P
– n
osservato) delle unità che appartengono alla classe latente z e quindi se ne prende
il valore atteso (ad es. se pari a 15, 5 ci spettiamo che 15.5 soggetti appartengano
alla classe z );

bjz (θ (h−1) ) = E Njz |D, θ (h−1) = i yij f (Z|yi , θ (h−1) ), numero dei soggetti in
P
– n
valore atteso che appartiene alla classe latente z e contemporaneamente risponde
1 alla domanda j (infatti, dayo che yij = 0, 1 si sommano solo i contributi dei
soggetti per cui yij = 1).

Quindi, nell’E-step andiamo a imputare ogni soggetto a una classe latente, calcolando
la probabilità che quel soggetto appartenza alla classe e le frequenze n
bz e n
bjz .

• M-step: aggiorniamo il valore dei parametri con delle soluzioni esplicite


nz (θ (h−1) )−1
αz +b P
– λz = α+ +n−k
, dove α+ = z αz
njz (θ (h−1) )−1
a+b
– pj|z = a+b+bnz (θ (h−1) )−2

Questo procedimento iterativo si ripete fino a convergenza (quando cioè viene raggiunto il
massimo della funzione target log f (θ, D)).

N.B. Se gli iperparametri, αz , a, b, sono tutti pari a 1 la distribuzione Beta coincide con
una prior Uniforme, il risultato dell’inferenza bayesiana coincide con quello frequentista e si
ottiene una stima di massima verosimiglianza; viceversa, se a 6= b 6= 1 si risente dell’effetto
della prior e si vede l’effetto di regolarizzazione.

Esspressione della funzione target (continua)


La funzione target, che non viene realmente massimizzata ma utilizzata per un controllo di
convergenza, ha la seguente espressione:

YY YX 
f (θ, D) = π(λ) π(pj|z ) λz f (yi |Z, θ) .
j z i z

75
Lezione del 09/05/2018
Esspressione della funzione target (segue)
La funzione target, anche se rappresenta il punto di partenza dell’approssimazione, non
entra direttamente nella stima ma si usa per vedere se l’algoritmo funziona e per controllare
la convergenza; la sua espressione è data dalla distribuzione congiunta in logaritmo dei
parametri e dei dati osservati:

log f (θ, D) = log π(θ) + log f (D, θ)

e nei modelli a classi latenti vi sono due prior sui parametri, su λ e su p, per cui si ha:
P P
log f (θ, D) = log π(λ) + j z log π(pj|z ) + log f (D|θ)

ed esplicitando si ottiene:
P P P P
= z (αz − 1) log λz + j z (a − 1) log π(pj|z ) + (b − 1) log π(1 − pj|z ) + i log f (yi |θ)

dove la logverosimiglianza dei dati si calcola come mistura finita:


P P Q P  Q yij 1−yjz

i log f (yi |θ) = z λz j f (y ij |p j|z ) = z λ z p
j j|z (1 − p j|z ) .
(per la logverosimiglianza, in R un ciclo for per ogni sommatoria/produttoria preceduto
dall’inizializzazione della funzione che calcola).

La funzione target viene introdotta unicamente per monitorare la convergenza; inoltre, l’o-
biettivo iniziale è massimizzare questa funzione perchè equivale a massimizzare f (yi |θ) che
è proporzionale alla posterior π(θ|D) = ff(θ,D)
(D)
e quindi equivale a massimizzare la stessa
posterior. Massimizzare la posterior è un modo per ricavare lo stimatore bayesiano (moda);
peraltro, questa massimizzazione è implementata nell’approssimazione di Laplace quando la
posterior non è nota.

I metodi Stocastici
Per superare i limti dei metodi deterministici (la quadratura funziona bene ma è molto li-
mitata, l’approssimazione di Laplace richiede il calcolo delle derivate e migliora al crescere
della dimensione campionaria sulla quale non è possibile agire direttamente perchè il cam-
pione è dato) si utilizzano metodi stocastici si approssimazione il cui principale difetto è che
se diversi utenti lanciano l’algoritmo ottengono risultati differenti; d’altro canto, è noto che
all’aumentare del numero delle iterazioni/repliche MC i risultati tendono a coincidere. Il
metodo stocastico per eccellenza è il Monte Carlo Standard.

76
19 Il Monte Carlo Standard
Questo metodo ci permette di calcolare il valore atteso di una funzione g(x) sotto un’altra
funzione f (x), il quale per definizione è pari a:
Z
Ef [g(X)] = g(x)f (x)dx

e può essere approssimato con la media campionaria:

R
1X
≈ ḡ = g(xi ),
R r=1

dove x1 , i = 1, . . . , R, è un campione Monte Carlo estratto dalla distribuzione f (·) e R è la


dimensione del campione generato.
É questo un risultato della legge debole dei grandi numeri per la quale la media campionaria
converge in probabilità alla media vera nella popolazione di riferimento.
Possiamo caclolare anche la varianza di g(X) come segue:
Z
 2
V[g(X)] = g(x) − E[g(x)] f (x)dx

che si approssima con la varianza campionaria:

1X
≈ s2g = [g(xi ) − ḡ]
R r

Notiamo che non è necessario correggere per i g.d.l., dividendo per R − 1, in quanto la
dimensione del campione generato è, in genere, così elevata da non esserci alcuna differenza.
Calcolato s2g possiamo calcolare anche il simulation error come:
r
s2g
s.e.g =
R

il quale ci da un’idea di quanto sono attnedibili/precisi i risultati ottenuti ovvero una quan-
tificazione dell’errore.
Con il simulation error è possibile costruire intervalli di confidenza attorno alla stima Monte
Carlo:
ḡ ± zα/2 s.e.g

(tipicamente ḡ ± 2s.e.g ≈ IC95%) e in questo modo non solo ci si fa un’idea del valore
dell’integrale (cioè di ḡ) ma si costruisce una banda dei possibili valori intorno ad esso: se
è troppo larga si aumentano le repliche e, in particolare, quadruplicando le estrazioni si di-
mezza l’ampiezza dell’intervallo/banda (dato che R è sotto radice quadrata al denominatore).

Come si applica il metodo MC in ambito bayesiano? (nei casi in cui è applicabile)

77
L’applicazione più diretta costituisce un caso puramente didattico in cui, formulato il modello
e cioè:
– la distribuzione dei dati, D ∼ f (D|θ),
– la prior sul vettore dei parametri, θ ∼ π(θ),
– la posterior, π(θ|D) = π(θ)f (D|θ)
f (D)
,
supponiamo di saper calcolare la posterior e soprattutto di saper estrarre/generare dei valori
da questa, per cui:

1. si generano R valori, θ1 , θ2 , . . . , θR da π(θ|D);

2. si calcola la stima bayesiana in termini di media campionaria, cioè il valore atteso a


posteriori, E(θ|, D) ≈ θ̄ = R1 r θr ;
P

3. si calcola la matrice di varianza e covarianza approssimandola con quella campionaria,


V(θ|, D) ≈ s2g = R1 r (θr − θ̄)(θr − θ̄)0 .
P

É un caso puramente didattico perchè se sappiamo campionare dalla posterior vuol dire che
sappiamo già com’è fatta e quindi sarebbe più conveniente applicare metodi deterministici.

Esempio (Beta-Binomiale)
Data una variabile binaria con distribuzione di Bernoulli, X ∼ Bin(1, p), con parametro
p distribuito come una Beta, p ∼ Beta(α, β), conosciamo com’è fatta la posterior e i suoi
P P
iperparametri: p|D ∼ Beta(e α, β),
e dove αe = α + i xi e βe = β + n − i xi . Allora, dopo
aver applicato lo schema di Monte Carlo possiamo confrontare i risultati ottenuti tramite
simulazione con quelli veri ricavati mediante le formule chiuse e calcolarne la discrepanza.

Il metodo MC risulta più utile in ambito di previsione e quando la posterior è fattorizzata,


cioè quando non sappiamo calcolarla in forma unica con il th. di Bayes ma sappiamo che si
può scrivere come il prodotto di altre due posterior (posterior a blocchi):

π(θ|D) = π1 (θ1 |D)π2 (θ2 |D)

dove π1 (θ1 |D) è la distribuzione del primo blocco di parametri e π2 (θ2 |θ1 , D) è la distribuzio-
ne del secondo blocco di parametri condizionata
! la primo, per cui possiamo anche racchiudere
θ1
i parametri in un unico vettore θ = .
θ2
Posto che non sappiamo generare valori da π(θ|D) ma sappiamo farlo da π1 e π2 :

1 - si estraggono R campioni, θ11 , . . . , θ1R , dalla prima distribuzione/termine di fattoriz-


zazione π1 (θ1 |D);

2 - si estraggono R campioni, θ21 , . . . , θ2R , dalla seconda distribuzione/termine di fat-


torizzazione π2 (θ2 |θ1 , |D), o meglio ciascun θ2r si estrae dalla seconda distribuzione
condizionata al θ1r corrispondente estratto in precedenza;

78
3 - si calcolano il valore atteso e la varianza.

In realtà i primi due passi possono essere considerati


! un unico passo di estrazioni a coppie
θ1r
che vanno a comporre il vettore θr = che poi si utilizza per calcolare E(θr |D) e
θ2r
V(θr |D).

79
Lezione del 14/05/2018

Metodo Monte Carlo (segue)


Come visto in precedenza, il metodo MC potrebbe essere utilizzato se si riuscisse a campio-
nare dalla distribuzione a posteriori; questo non significa che è inutilizzabile, si può usare ad
esempio quando è possibile dividere l’insieme dei parametri da stimare in due blocchi, cioè
quando la posterior può essere fattorizzata. I due blocchi di parametri corrispondono a due
diverse distribuzioni a posteriori dalle quale riusciamo a campionare, o meglio simuliamo il
primo blocco di parametri e poi il secondo blocco condizionatamente al precedente.

Esempio Consideraimo, a titolo esemplificativo, il caso di una distribuzione normale


con parametri θ e σ 2 entrambi ignoti. L’inferenza bayesiana classica prevede che il modello
venga formulato in modo gerarchico: esso viene formalizzato introducendo le distri-
buzioni dei parametri in modo sequenziale cosicché ciascuna distribuzione dipende dalla
precedente.
Quindi, data la distribuzione dei dati con parametri θ e σ 2 , X ∼ N (θ, σ 2 ), si formula la di-
stribuzione di σ 2 che è una Inverse Gamma con parametri α e β, σ 2 ∼ IG(α, β), e si ricava,
dunque,la distribuzione a priori di θ subordinata a σ 2 : θ|σ 2 ∼ N (µ, σ 2 /m). Graficamente:

Figura 19: Grafo del modello gerarchico

La struttura è gerarchica perchè si comincia dall’alto, dal parametro che non dipende da altri
parametri. Utilizzare questa struttura comporta un notevole vantaggio, dato che introdurre
un’assunzione alla volta risulta indubbiamente più semplice.
In questo contesto può essere utile usare il metodo MC per campionare dapprima a posteriori
da σ 2 e poi sa θ|σ 2 ottenendo così delle coppie.
La stessa logica può essere utilizzata per fare delle previsioni di un nuovo valore di una
variabile di interesse.

19.1 Utilizzo alternativo del metodo Monte Carlo


Campionamento dalla distribuzione a priori
La quantità che ci interessa a livello di stima bayesiana è il c.d. valore atteso a posteriori
del parametro dato i dati, che si può scrivere come:
Z
E(θ|D) = θπ(θ|D)dθ

80
esplicitiamo la posterior che, dal teorema di Bayes, risulta pari a:

π(θ)f (D|θ)
π(θ|D) = ,
m(D)
R
dove m(D) = π(θ)f (D|θ) dunque otteniamo:
R
θπ(θ)f (D|θ)dθ
Z
E(θ|D) = θπ(θ|D)dθ = R
π(θ)f (D|θ)dθ

A questo punto, possiamo notare che E(θ|D) si ottiene, in realtà, come il rapporto di due
valori attesi sotto la distribuzione a priori π(θ):

Eπ(θ) [θf (D|θ)]


E(θ|D) = .
Eπ(θ) [f (D|θ)]

Tuttavia, è noto dalla letteratura che questo metodo può non funzionare bene, dando ri-
sultati poco attendibili, (altrimenti non ci sarebbe bisogno di metodi più avanzati), perchè
π(θ) può essere molto diversa da π(θ|D) e in tal caso campionare dalla prior non fornisce
un’approssimazione adeguata dei valori attesi. Supponiamo per semplicità di avere un solo
parametro; intuitivamente, dato che la quantità che si dovrebbe calcolare come valore atteso
sotto la distribuzione a posteriori la si calcola, invece, sotto la prior, se le due distribuzioni
sono molto distanti, si estraggono campioni una regione che non copre la zona ad alta densità
della posterior; si parla di problema di copertura, vedi Figura 17. A livello matematico, per
n → ∞, i risultati sarebbero corretti ma non a livello pratico.

Figura 20: Problema di copertura

Ipotizzando di poter usare efficientemente questo metodo, per calcolare la quantità d’interesse
si estrae il campione θ1 , . . . , θR dalla distribuzione a priori π(θ) e si applica il Monte Carlo

81
separatamente al numeratore e al denominatore, stimando il valore atteso a posteriori come:
1
P
θr f (D|θr )
E(θ|D) ≈ 1 Pr R
,
R r f (D|θr )

notando che la quantità Pf (D|θ) = wr costituisce dei pesi normalizzati, si ottiene:


r f (D|θ)

R
X
E(θ|D) ≈ θr wr
r=1

ossia una media ponderata sui valori campionati (è un po’ quello che si fa nell’importance
sampling).

Esempio Data una variabile binaria X ∼ Bin(1, p), ossia una variabile Bernoulliana,
con parametro p avente distribuzione a priori e a posteriori Gamma, con parametri α e β e
P P
e = α + i xi e βe = β + n − i xi , rispettivamente, si estraggono i valori del parametro
α
dalla prior, ottenendo le R repliche p1 , . . . , pR ∼ Beta(α, β), e si calcola il valore atteso
approssimandolo come segue:
XR
E(p|D) = p̄ ≈ pr w r ,
r=1

dove: P
x P
pr i i (1 − pr )n− i xi
wr = P P xi P .
p i
(1 − p ) n− i xi
s s s

sono i pesi pari, sostanzialmente, alla verosimiglianza dei dati normalizzata.


Possiamo anche calcolare la varianza a posteriori che è pari a:

R
X
V ar(p|D) = s2p ≈ (pr − p̄)2 wr .
r=1

Ricapitolando, il metodo Monte Carlo standard funzionerebbe bene solo se si riuscisse a


campionare dalla distribuzione a posteriori. Potrebbe, dunque, sembrare inutile, dato che se
la posterior è nota è trattabile senza doverla approssimare. D’altra parte, ci sono altri due
casi in cui in metodo MC può essere utilizzato:
- nei modelli gerarchici in cui la posterior può essere fattorizzata in due blocchi trattabili
separatamente;
- campionando dalla distribuzione a priori, con risultati attendibili se prior e posterior
non sono molto distanti.Nella pratica ciò non è sempre verificabile, dato che non è possibile
rappresentare graficamente distribuzioni con molti parametri.
Quest’ultimo problema ha spinto la ricerca a trovare dei metodi alternativi:
1) Importance Sampling;
2) Markov Chain Monte Carlo.

82
20 Importance Sampling
Supponiamo di dover estrarre dei campioni da una v.a. per calcolare il valore atteso di una
funzione g(·) sotto una funzione f (·) del vettore casuale X:
Z
Ef [g(x)] = g(x)f (x)dx (28)

moltiplicando e dividendo per una funzione h(·) si ottiene:

f (x)
Z
Ef [g(x)] = g(x) h(x)dx
h(x)

dove h(x) è la pdf di un’altra distribuzione detta importance distribution/density.


Ponendo fh(x)
(x)
= w(x), detto peso, si ha:
Z
Ef [g(x)] ≈ Eh [g(x)] = g(x)w(x)h(x)dx. (29)

In pratica, dato che non sappiamo simulare da f (·) ma da h(·), si va a ponderare per il
peso w(·) il quale ci dice l’agreement (concordanza) tra le due distribuzioni: se w = 1 le
distribuzioni risultano molto simili e i pesi hanno un’influenza marginale. Dunque, si estrae
il campione x1 , x2 , . . . , xR dall’importance distribution h(x) e si calcola:

1X
Ef [g(x)] ≈ g(xr )w(xr ). (30)
R r

Anche in questo caso, però, può esserci un problema di copertura se l’importance density
h(x) è lontana dalla distribuzione f (x) dalla quale si vorrebbe campionare. Per essere
ragionevolmente sicuri dei risultati, si è soliti scegliere una distribuzione h(x) molto ampia
(ad alta varianza - h2 (x) nella figura 18 -), in modo tale che copra un’ampia porzione dello
spazio dei parametri anche se con densità bassa, ovvero copra la zona di alta densità della
f (·) target.

Figura 21: Problema di copertura

83
Applicando questi risultati all’inferenza bayesiana, si ottiene:
Z
π(θ|D)
E[θ|D] = θ h(θ)dθ, (31)
h(θ)

dove:
π(θ|D)
w(θ) = .
h(θ)
Si campiona, dunque, θ1 , . . . , θR da h(θ) e si calcola:

1X
E[(θ|D)] ≈ θr w(θr ). (32)
R r

Come si evince, seguendo questa impostazione, per il calcolo dei pesi w(θr ) è necessario
conoscere la posterior π(θ|D); si pone, dunque, la stessa problematica del Monte Carlo
standard.
Tuttavia, esplicitando la distribuzione a posteriori, π(θ|D) = π(θ)f (D|θ)
m(D)
, nella formula di
E[θ|D] possiamo notare che, in realtà, non è necessario conoscere completamente la posterior:

π(θ)f (D|θ)
Z
E[θ|D] = θ h(θ)dθ,
m(D)h(θ)
R
dove la verosimiglianza dei dati m(D) è pari a π(θ)f (D|θ)dθ per cui, esplicitando al
denominatore m(D) e moltiplicandola e dividendola per h(θ) si ha:
R
π(θ)f (D|θ)
θ h(θ)
h(θ)dθ
E[θ|D] = R ,
π(θ)f (D|θ)
h(θ)
h(θ)dθ

π(θ)f (D|θ)
ora, ponendo w(θ) = h(θ)
si ottiene:
R
θw(θ)h(θ)dθ
E[θ|D] = R ,
w(θ)h(θ)dθ

ossia il rapporto tra due integrali sotto l’importance distribution che possono essere calcolati
approssimando con l’Importance Sampling. Quindi, infine, si ottiene:
1
P
θr w(θr )
E[(θ|D)] ≈ 1 Pr R
. (33)
R r w(θr )

che, ponendo w0 (θr ) = Pw(θr ) , diventa:


rw(θr )

X
E[(θ|D)] ≈ θr w0 (θr ).
r

84
Esempio Data la distribuzione dei dati X ∼ Bin(1, p) il cui parametro p ∼ Beta(α, β)
e introduciamo una importance distribution h(p) uniforme nell’intervallo [0, 1] tale che, se
h(p) = 1 e p ∈ (0, 1), ogni replica sarà pr ∼ U nif (0, 1).

Figura 22

I pesi sono calcolati come:


P
x P
pr (pr ) pr i i (1 − pr )n− i xi
α−1 β−1
w0 (pr ) = P .
β−1 p i xi (1 − p )n− i xi
P α−1 P
p
s s (p s ) s s

In altre parole, i pesi sono dati dal prodotto rinormalizzato tra la prior e la densità dei dati;
quindi, in questo caso non campioniamo dalla prior ma sono i pesi ad includere la stessa.

NOTA:
- Nel MC classico, campionando dalla posterior, non è necessario alcun peso;
- Nel MC "alternativo", campionando dalla posterior, il peso è pari alla verosimiglianza
dei dati normalizzata;
- Nell’IS il peso coinvolge anche la prior.

21 Markov Chain Monte Carlo


Se riuscissimo a praticare il MC campionando dalla posterior, sarebbe l’ottimo perchè i valori
estratti sarebbero tra loro indipendenti.
Questa è una proprietà di tutti i generatori di numeri (pseudo)casuali.
Avere delle osservazioni indipendenti è ottimale perchè la stima MC è quella a varianza più
bassa possibile (l’eerore MC è quello più piccolo possibile). Tuttavia, come si è detto, con il
metodo MC non si riesce a campionare dalla posterior, se ignota.
I metodi Markov Chain Monte Carlo, invece, sono quelli più applicabili in generale, perchè
creano delle osservazioni dipendenti tra loro, e che hanno quindi una qualità minore e sono
meno precise, ma che sono sotto la distribuzione a posteriori.

85
21.1 Le Catene di Markov
Una Markov Chain è un modello per processi stocastici, ossia per sequenze, ordinate nel
tempo, di variabili aleatorie.
Data la sequenza di v.a. X1 , . . . , Xn , si definisce modello Markov Chain di ordine k quello
secondo cui, al tempo j, la v.a. Xj è indipendente dalle precedenti condizionatamente alle
variabili XJ−k , . . . , XJ−1 :

XJ ⊥
⊥ X1 , . . . , XJ−(k+1) |XJ−k , . . . , XJ−1 .

Quindi, si può affermare che se se si assume un modello Markov Chain «il presente è influen-
zato solo dal passato più recente, metrre quello più remoto non ha alcuna influenza».

Tra tutte le catene di Markov noi consideriamo quelle del primo ordine, in cui XJ ⊥

X1 , . . . , XJ−2 |XJ−1 .
Per semplificare:
- esempio catena di Markov del primo ordine:

ciascuna variabile influenza la successiva ma, se si conosce X3 , X1 e X2 non danno alcuna


informazione per prevedere X4 .
- esempio catena di Markov del secondo ordine:

è indipendente solo da X1 , condizionatamente a X3 , X3 da cui dipende.


Questo schema di catene di Markov può essere esteso a k lag ma quello del primo ordine
risulta più interessante perchè è la catena più parsimoniosa.
Le catene di Markov possono essere: a) discrete o b) continue (o meglio, il tempo solitamente
è discreto ma le variabili casuali possono essere discete, ad es. binarie, oppure continue):

a) la distribuzione del modello viene formalizzata attraverso una distribuzione di probabi-


lità di massa, si parla di probabilità di transizione, la quale ci dice qual è la probabilità
nel presente, data la situazione nei k tempi precedenti:

PJ (X|Z1 , . . . , ZK ) = P (XJ = x|XJ−k = Z1 , . . . , XJ−1 = Zk )

che è la probabilità, specifica del tempo j, che la v.a. XJ sia uguale ad un certo valore
x dato il passato Z1 , . . . , Zk

86
b) Si ha la stessa espressione vista come funzione di densità di probabilità, si parla di
densità o kernel di transizione. Il concetto è lo stesso, si modella il presente tramite il
passato.

Si evince, dunque, una caratteristica di un modello Markov Chain, la memoria limitata, dato
che non è necessario ricordare tutto il passato per fare una previsione accurata del presente.
Come si è detto l’espressione della probabilità sub a) è specifica del j-esimo tempo/iterazione;
nella pratica, tuttavia, si utilizza una semplificazione ovvero si considerano catene di Markov
time-homogeneous (omogenee nel tempo) la cui distribuzione del presente condizionata
al passato è, cioè, la stessa per tutti i tempi/iterazioni.:

PJ (X|Z1 , . . . , ZK ) = P (x|Z1 , . . . , Zk ).

Inoltre, si dice che una catena di Markov è irriducibile se è sempre possibile andare da un
stato (possibile realizzazione della variabile Markov Chain) all’altro. Supponiamo di avere
una catena di Markov di tre stati e indichiamo con una freccia la probabilità di passare da
uno stato all’altro (quando non c’è nessuna freccia vuol dire che il passaggio non è possibile).
- La catena è irriducibile se:

cioè se la probabilità di andare da 1 a 3 direttamente è nulla ma è comuqnue possibile farlo


in due passaggi.
- La catena è non irriducibile se:

cioè se vi è uno stato, detto assorbente, dal quale non è possibile uscire (lo stato 3 nell’e-
sempio).

Noi facciamo riferimento a catene di Markov del primo ordine, irriducibili, time-homogeneous
e per le quali esiste una distribuzione stazionaria, ossia la distribuzione marginale della
v.a. XJ quando J → ∞ e indicata con λ(x):

λ(x) = lim P (XJ = x).


J→∞

Una distribuzione stazionaria ha proprietà che sono molto utili nell’inferenza bayesiana.

Caso Discreto
La distribuzione stazionaria è molto semplice, dato che nelle catene del primo ordine (k = 1)

87
ci sono solo due argomenti, il presente e il passato del tempo precedente.
Quindi, abbiamo:

- una matrice di transizione P = P (x|Z) in cui ogni elemento indica la probabilità di
muoversi in uno stato condizionatamente allo stato precedente (per cui le righe sommano a
uno); ad esempio, nel caso di tre stati si ha:
 
P1|1 P2|1 P3|1
P = P1|2 P2|2 P3|2 
 

P1|3 P2|3 P3|3



- la distribuzione stazionaria λ = λ(x) (contenuta in un vettore), tale che la probabilità
marginale si può ottenere come:
X
λ(x) = P (x|Z)λ(Z).
z

In ofrma matriciale si ha:


λ = P 0 λ.

Solo quando è soddisfatta questa condizione si può dire di aver trovato la distribuzione sta-
zionaria.

Esempio (caso discreto):


Consideriamo una seuqenza di v.a. XJ ∈ {1, 2, 3}, dove gli elementi dello spazio degli stati
corrispondo a tre stati della natura non necessariamente osservati/misurati. Se la matrice
di transizione è:  
1/2 1/2 0
P =1/3 1/3 1/3
 

0 1/2 1/2

vuol dire che se in passato si era nello stato 1 c’è una probabilià di 21 di rimanere nello stato
1 e di andare nello stato 2 e pari a 0 di andare nello stato 3. Graficamente:

Possiamo trovare la distribuzione stazionaria anche come limite della matrice di transizione
P elevata ad una potenza molto grande:

lim P t .
t→∞

88
Per cui se dobbiamo campionare da un modello Markov Chain, data la matrice di transizione
P, occorre:

• cominciare da un x1 qualsiasi;

• campionare x2 |x1 con la matrice di transizione;


..
• .

• campionare xJ |xJ−1 con la matrice di transizione;


..
• .

cioè, estrarre ogni osservazione condizionatamente alla precedente.


Seguendo questo metodo, data la proprietà lim P t , dopo un certo punto si estraggono,
t→∞
sostanzialmente, campioni dalla distribuzione stazionaria. Dunque, nell’ambito bayesiano la
distribuzione stazionaria sarà la distribuzione a posteriori e i campioni estratti non sono più
indipendenti.
In particolare, esiste una Legge dei grandi numeri per le catene di Markov, in base alla
quale, seguendo questo algoritmo, la media campionaria converge al valore atteso sotto la
distribuzione stazionaria:
R
1X P
g(xr ) −
→ Eλ [g(x)]
R r

dove R è il numero delle osservazioni che non sono indipendenti. Questo valore atteso coin-
cide con:

X
g(x)λ(x) nel caso discreto;
x
Z
g(x)λ(x) nel caso continuo.

Riassumendo, nella pratica la distribuzione stazionaria è quella sotto la quale estrarre i


campioni e calcolare i valori attesi.
Se non si è in grado, si può estarre in modo sequenziale dalla matrice di transizione utilizzando
una catena di Markov.

89
Lezione del 16/05/2018

Caso Continuo
Esempio (caso continuo):
Consideriamo una seuqenza di v.a. XJ ∈ R e un modello AR(1) (autoregressivo del primo
ordine), in cui cioè la dipendenza tra le variabili è solo rispetto al tempo precedente.
É un modello tipicamente usato nelle analisi delle serie storiche in cui la distribuzione di
ogni variabile dato la precedente è una normale con media ρz e varianza 1 − ρ2 , Xj |Xj−1 =
z ∼ N (ρz, 1 − ρ2 ). Il ρ è detto parametro di auto-correlazione, dato che riguarda la stessa
variabile al tempo precedente, il quale ci da informazioni della dipendenza di un’osservazio-
ne dalla precedente (infatti è un modello AR(1)); è un parametro tale che −1 < ρ < 1 e
tipicamente i valori di interesse sono molto vicini a 1 il che implica una forte dipendenza di
una variabile dalla precedente.
Quando il tempo tende all’infinito, ossia al correre della catena all’infinito, si ha la distribu-
zione stazionaria (marginale, di ogni variabile) che è una normale standard, N (0, 1).

Questo esempio ci permette di introdurre l’algoritmo utilizzato in ambito bayesiano per


estrarre le osservazioni in modo sequenziale

21.1.1 L’algoritmo di Metropolis-Hastings (MH)

Quando vogliamo campionare dalla posterior ma non siamo in grado di farlo direttamente,
dato che, da un certo punto in poi, si va a campionare complessivamente dalla distribuzione
stazionaria, l’algoritmo parte dall’idea di creare una catena di Markov da cui possiamo
campionare in modo sequenziale e che abbia distribuzione stazionaria pari alla posterior
(che in teoria è calcolabile); sulla base di questa catena si riesce, duqnue, ad estrarre in
modo sequenziale il valore dei parametri.
Fissato un valore iniziale, arbitrariamente scelto, θ (0) del parametro di interesse, l’algoritmo
procede per passi estarendo ad ogni step un nuovo vettore di parametri; in particolare al
passo h, dato l’estrazione al passo precedente, θ (h−1) :

→ si propone un nuovo valore del parametro, indicato con θ ∗ , estratto da una distribuzione
scelta arbitrariamente, ma comunque da cui è semplice campionare, detta proposal,
e indicata con q(θ ∗ |θ (h−1) ),

→ si stabilisce se il valore proposto è coerente con la distribuzione a posteriori, o meglio


lo si accetta, ponendo θ h = θ ∗ , con probabilità:

π(θ ∗ |D)q(θ (h−1) |θ ∗ )


 
∗ (h−1)
α(θ |θ ) = min 1,
π(θ (h−1) |D)q(θ ∗ |θ (h−1) )

(si fa il min tra 1 e . . . perchè α è una probabilità e deve ricadere nell’intervallo [0, 1],
in questo modo si pone il limite superiore)

90
Accettare un valore con una certa probabilità significa estrarre un numero casuale con
tale probabilità da una Bernoulli e accettare il valore di interesse se il numero estratto
dalla Bernoulli è 1.

→ Se si rifiuta θ ∗ , si pone θ h = θ (h−1) .

Esempio

• Dato θ (0) ,

• si deve estrarre θ (1) ; si propone allora come candidato θ ∗ ∼ N (θ (0) , Σ), dove quidni
la normale è la proposal q(θ ∗ |θ (h−1) ) che abbiamo scelto (di solito l’idea è che se la
proposal è molto vicina alla posterior siamo in una situazione vantaggiosa).
Accettiamo questo valore θ ∗ come estratto dalla posterior sulla base della probabilità
α(θ ∗ |θ (h−1) ), cioè secondo la seguente regola di accettazione:

r = 1 → Accetto θ ∗ → θ h = θ ∗
Estarrre r ∼ Bin(1, α(θ ∗ |θ (h−1) )) =
r = 0 → Rifiuto θ ∗ → θ h = θ (h−1)

L’algoritmo MH crea una catena di Markov in cui lo spazio degli stati è lo spazio dei
parametri, quindi le osservazioni estratte sono, in realtà, potenziali valori dei parametri.
In particolare otteniamo una sequenza dei valori dei parametri con due caratteristiche:

→ (svantaggio) le estrazioni sono fortemente dipendenti tra loro, perchè ogni valore
estratto si basa sul precedente, la dipendenza può essere così forte che due valori
consecutivi possono coincidere (ad es. quando rifiutiamo il valore proposto);

→ (vantaggio) da un certo punto in poi, le osservazioni sono estratte dalla posterior


pur essendo dipendenti.

Apparentemente sembra che si debba conoscere la posterior per calcolare la probabilità di


accettazione α; in realtà, dato che la posterior è sia al numeratore e sia al denomitore del
secondo argomento del minimo, si ha una semplificazione. Riscriviamo, duqnue, l’espressione
di α esplicitando la posterior:
 
π(θ ∗ )f (D|θ ∗ )

m(D)
q(θ (h−1) |θ ∗ ) 
α(θ ∗ |θ (h−1) ) = min 1, π(θ (h−1) )f (D|θ (h−1) )
,

m(D)
q(θ ∗ |θ (h−1) ) 

si evince che potendo semplificare la costante di normalizzazione m(D), che è la verosimi-


glianza marginale, non è necessario conoscerla, o meglio è sufficiente conoscere la posterior
a meno della costante di normalizzazione. In questo modo α è sempre calcolabile.

Nella pratica esistono varie altre semplificazioni.

91
1a semplificazione
La proposal distribution è simmetrica, cioè quando scambiando i suoi argomenti si ottengono
gli stessi risultati, q(θ (h−1) |θ ∗ ) = q(θ ∗ |θ (h−1) ), per cui la probabilità di accettazione diventa:

π(θ ∗ )f (D|θ ∗ )
 
∗ (h−1)
α(θ |θ ) = min 1, ,
π(θ (h−1) )f (D|θ (h−1) )

da cui si evince che se θ ∗ aumenta la quantità al numeratore del secondo temrine del mi-
nimo lo accettiamo matematicamente, cioè con probabilità 1, altrimenti la probabilità di
accettazione si abbassa e la sua accettazione dipende dall’algoritmo.
Caso tipico di proposal simmetrica è la distribuzione normale, θ ∗ ∼ N (θ (0) , Σ), per cui si
ha:
1 1 ∗ (h−1) )0 Σ−1 (θ ∗ −θ (h−1) )
q(θ ∗ |θ (h−1) ) = p e− 2 (θ −θ
|2πΣ|
dove la differenza (θ ∗ − θ (h−1) ) è al quadrato, dunque se scambiamo gli addendi tra di loro
il risultato non cambia.
Spesso si cerca di utilizzare una proposal simmetrica perchè si velocizza l’algoritmo; la ve-
locità è un aspetto cruciale in tali algoritmi perchè la stessa operazione viene ripetuta un
numero elevatissimo di volte.
Occorre segnalare, peraltro, che procedendo in questo modo, l’algoritmo va verso valori del
parametro ad alta densità: come si è detto, infatti, poposto il valore θ ∗ lo accettiamo con
probabilità 1 al crescere della quantità π(θ ∗ )f (D|θ ∗ ), quantità che è proporzionale alla po-
sterior π(θ ∗ |D), per cui se θ ∗ implica che π(θ ∗ )f (D|θ ∗ ) > π(θ (h−1) )f (D|θ (h−1) ) la posterior
del nuovo valore proposto è più alta.
L’algoritmo tende dunque ad andare verso valori ad alta densità, sembra una sorta di mas-
simizzazione.
In generale, valori nuovi che aumentano la posterior vengono sempre accettati.

Si parte da θ (0) . L’algoritmo propone (il pri-


mo) θ ∗ ; come si può osservare questo ha una
densità della posterior molto più elevata di θ (0)
e quindi lo si accetta matematicamente: θ ∗ =
θ (1) .
Dato θ (1) , l’algoritmo propone un altro (il
secondo) θ ∗ che anche in questo caso vie-
ne accettato con probabilità 1 per la stes-
sa motivazione, per cui si pone θ ∗ =
θ (2) .
Per quanto riguarda l’ultimo θ ∗ , dato che la sua
densità diminuisce rispetto agli altri, sarà l’algor-
Figura 23 timo a decidere in modo casuale se accettarlo o
meno.

92
Sembra una massimizzazione perchè l’algoritmo si sposta verso valori migliorativi in termini
di densità maggiore e tenderà a ruotare attorno al punto a massima densità.

2a semplificazione (meno utilizzata)


Si propone dalla distribuzione a priori, per cui si ha:

q(θ (h−1) |θ ∗ ) = π(θ ∗ )

e la probabilità di accettazione diventa:

f (D|θ ∗ )
 
∗ (h−1)
α(θ |θ ) = min 1, ,
f (D|θ (h−1) )

dunque, l’algoritmo procede come nel caso precedente ma basandosi su un rapporto di vero-
simiglianza: se il θ ∗ proposto aumenta il rapporto lo si accetta matematicamente.
Questa semplificazione presenta, tuttavia, uno svantaggio computazionale dato che, non
sfruttando l’informazione a priori sul parametro, si riduce l’efficienza.

3a semplificazione (caso teorico)


Si propone dalla distribuzione a posteriori, per cui si ha:

π(θ ∗ )f (D|θ ∗ )
q(θ (h−1) |θ ∗ ) = = π(θ ∗ |D)
m(D)

e:
π(θ ∗ |D)π(θ (h−1) |D)
 
∗ (h−1)
α(θ |θ ) = min 1, = 1,
π(θ (h−1) |D)π(θ ∗ |D)
cioè si accetta sempre.
Questa semplificazione, che può sembrare strana e anche ovvia, ci suggerisce che in realtà il
MH è una generalizzazione del Monte Carlo standard, caso in cui si è in grado di campionare
dalla posterior. Però, a differenza del MC che genera tutti valori buoni, il MH deve valutare
di volta in volta il nuovo valore proposto.
Inoltre serve a introdurre un altro algoritmo (che è un caso particolare) che è molto utilizzato
nella pratica quando il parametro θ è composto da blocchi di parametri che possono essere
riportati separatamente:  0
θ = θ10 , θ20 .

Al fine di estrarre i valori dei parametri in modo sequenziale, si comincia dal valore iniziale
(0) (0)
θ (0) composto da blocchi θ1 e θ2 ; al generico passo h:
(h) (h−1)
• si aggiorna θ1 mediante il MH dato θ2 ,
(h) (h)
• si aggiorna θ2 mediante il MH dato θ1 ,
(h) (h)
• si ottine θ (h) unendo θ1 e θ2 .

93
Esempio: Logistic Markov Chain Monte Carlo
yi ∼ Bin(1, pi )
eηi
pi = 1+e ηi ,

dove ηi = x0i β e β ∼ Nm (θ, τ 2 I)

94
Lezione del 21/05/2018
Ripetizione: l’algoritmo di Metropolis-Hastings crea una catena di Markov in cui la di-
stribuzione stazionaria è la distribuzione target (distribuzione a posteriori del parametro
condizionata ai dati). L’algoritmo parte da un punto iniziale θ (0) dello spazio dei parametri,
che può essere scelto arbitrariamente, anche se di solito viene scelto sulla base del campione.
Ad ogni iterazione cerca di aggiornare il valore del parametro, proponendo un candidato
θ ∗ estratto da una certa distribuzione detta proposal ; esso viene accettato (o meno) con
probabilità α(θ ∗ |θ (h−1) ) calcolata con la regola di MH, cioè confrontando la posterior del
candidato con quella del parametro al passo precedente e con lo stesso rapporto rovesciato
della proposal.
Esistono varie semplificazioni per il calcolo di α. In particolare, la terza semplificazione che si
ottiene quando si propone dalla distribuzione a posteriori, ci permette di introdurre un altro
algoritmo (che costituisce un caso particolare del MH ), che si utilizza quando è possibile
decomporre il vettore dei parametri in blocchi separati e permette di estrarre valori da una
distribuzione con probabilità di accettazione pari a 1 (il che si verifica utilizzando, appunto,
come proposal la posterior).
 0
(0) (0)
Se θ = θ10 , θ20 , partendo da θ (0) con blocchi θ1 e θ2 , allo step h:
(h) (h−1)
– aggiorna θ1 mediante il MH con θ2 tenuto fisso,
(h) (h)
– aggiorna θ2 mediante il MH con θ1 tenuto fisso,
(h) (h)
– ottiene θ (h) unendo θ1 e θ2 .
(Ricorda: come nel del MC classico in questo caso si accetta sempre con la differenza che le
osservazioni estratte in questo modo sono dipendenti.)
Questo algoritmo MCMC è conosciuto come campionamento di Gibbs o Gibbs sam-
pler, tecnica già nota prima di essere applicata all’inferenza bayesiana.

21.1.2 L’algoritmo di Gibbs

É un algoritmo di MCMC per ottenere una sequenza di campioni casuali da una distribuzio-
ne di probabilità multivariata X ∼ f (x) (cioè dalla distribuzione di probabilità congiunta di
due o più variabili casuali) quando il campionamento diretto si dimostra difficoltoso. Questa
sequenza può essere usata per approssimare la distribuzione congiunta (e quindi, in ambito
bayesiano, quella a posteriori che sappiamo essere proporzionale alla congiunta), per appros-
simare la distribuzione marginale di una delle variabili, o di vari sottoinsiemi delle variabili
(per esempio, parametri sconosciuti oppure variabili latenti); oppure ancora per calcolare un
integrale (come il valore atteso di una delle variabili). Per sua natura è un algoritmo casuale
(cioè un algoritmo che fa uso di numeri casuali, e quindi può produrre risultati distinti ogni
volta che viene eseguito), ed è un’alternativa agli algoritmi deterministici impiegati nell’in-
ferenza statistica. Similmente ad altri algoritmi MCMC, il campionamento di Gibbs genera
catene di Markov di campioni, ognuno dei quali è autocorrelato a quelli generati immedia-
tamente prima e dopo di lui. Inoltre, (di nuovo, come in altri algoritmi MCMC), campioni

95
provenienti dalla parte iniziale della catena (il periodo cosiddetto di burn-in) possono non
rappresentare accuratamente la distribuzione desiderata e, perciò, è pratica comune che ven-
gano scartati.
Per implementare l’algoritmo di Gibbs, si parte da un initial guess arbitrario della sequen-
za di v.a., indicato con x(0) , di cui ad ogni passo, poi, aggiorna un elemento alla volta, in
partivolare, al passo h:
(h)
• per ciascun elemento xj di X, estrae Xj dalla distribuzione della stessa variabili ma
condizionata su tutte le altre variabili, le precedenti dello stesso passo e le successive
(h) (h) (h−1)
del passo precedente: Xj |X<j , X>j .

Caso concreto
Supponiamo di voler estrarre delle osservazioni da una normale multivariate di ordine tre,
X ∼ Nm (µ, Σ) dove X = (X1 , X2 , X3 )0 .
Fissato un x(0) iniziale, allo step h l’algoritmo:
(h) (h−1) (h−1)
# estrae X1 da X1 |X2 , X3 ,
(h) (h) (h−1)
# estrae X2 da X1 |X1 , X3 ,
(h) (h) (h)
# estrae X3 da X1 |X1 , X2 .

Dato che il campionamento di Gibbs si applica quando la distribuzione congiunta non è nota
esplicitamente oppure è difficile da campionare direttamente, per funzionare deve essere nota
in forma esplicita la distribuzione condizionata di ogni variabile, Xj |X−j , che si presuppone
essere più facile da campionare e detta distribuzione full conditional.
Nel caso della normale multivariata il Gibbs sampler può essere sempre applicato perchè la
distribuzione full conditional è sempre normale con specifiche media e varianza, Xj |X(−j) =
Z ∼ N (e ej2 ), con:
µj , σ

ej = µj + Σj,−j Σ−1
• µ j,−j (z − µj ), dove il primo addendo µj è la media marginale e il
secondo addendo è composto dalla la covarianza dell’elemento j con tutti gli altri,
Σj,−j , dall’inversa della varianza del j -esimo elemento Σ−1
j,−j e varia con una quantità
che tiene conto dello scostamento di tutti i valori dalla propria media;

ej2 = σj2 − Σj,−j Σ−1


• σ 2
j,−j Σ−j,j , dove σj = σjj è la varianza marginale.

Il Gibbs sampler può essere implementato anche a blocchi estraendo insieme blocchi di
variabili, partendo dall’idea che più se ne estraggono contemporaneamente e meglio è, dato
che in questo modo si avvicina allo schema Monte Carlo classico che è considerato l’ottimo, in
quanto che genera numeri (pseudo)casuali e presenta un errore inferiore rispetto a qualsiasi
altro algoritmo. Infatti, se generiamo dei valori X (1) , X (2) , . . . , da una certa distribuzione
f (x), in modo tale che siano indipendenti, si ha:

R
1 X (r) σ2
X̄ = X → µ, V ar(X̄) = ,
R r=1 R

96
se sono dipendenti, invece, la media è la stessa ma cambia la varianza:

R R
σ2 2 X X
V ar(X̄) = + 2 Cov(X (r) , X (s) )
R R r=1 s=r+1

ossia si aggiunge il termine di autocorrelazione positiva R22 R


P PR (r)
r=1 s=r+1 Cov(X , X (s) ), che
quindi fa accrescere la varianza ed è particolarmente elevato per osservazioni consecuitive,
mentre si abbassa per quelle lontane nel tempo. Tranne casi particolari di algoritmi antitetici,
tutti gli algoritmi sono inefficienti in termini di varianza/errore rispetto al MC calssico che
però sappiamo essere inutilizzabile nella pratica. Peraltro, l’inefficienza si riduce con il Gibbs
sampler a blocchi.

Applicazione all’inferenza bayesiana


L’obiettivo è estrarre un vettore di parametri dalla posterior. A tal fine, si divide il vettore
dei parametri in B blocchi θ = (θ10 , . . . , θB0 0
) quanto più grandi possibili – a patto che la full
conditional sia esplicita –.
(0)0 (0)0 0
Per implementare il Gibbs sampler si parte un vettore iniziale di parametri θ (0) = θ1 , . . . , θB
e allo step h:
(h) (h−1) (h−1) 0
# si estrae θ1 da π θ1 |D, θ2 , . . . , θB ,
(h) (h) (h−1) (h−1) 0
# si estrae θ2 da π θ2 |D, θ1 , θ2 , . . . , θB ,
..
# .
(h) (h) (h) (h) 0
# si estrae θB da π θB |D, θ1 , θ2 , . . . , θB−1 ,

cioè al passo h si estrae il primo blocco di parametri dalla posterior dello stesso condizionata
ai dati e agli altri blocchi di parametri del passo precedente, si estrae il secondo blocco di
parametri dalla posterior dello stesso condizionata ai dati, al primo blocco dello stesso passo
e ai blocchi successivi al valore del passo precedente e così via, il generico blocco b-esimo si
estrae dalla sua posterior condizionata ai dati, ai blocchi da 1 a b − 1 dello stesso passo e a
quelli da b + 1 a B del passo precedente.
Si crea in questo modo una struttura triangolare, che funziona a patto che la posterior di
ciascun blocco sia esplicita. Questo accade sempre nell’ambito di distribuzioni coniugate,
casi in cui il campionamento di Gibbs dunque può essere sempre implementato.

Esempio concreto
Un caso in cui il Gibbs sampler è applicabile in modo relativamente semplice è quello dei
modelli a variabile latente, quali i modelli a classi latenti per variabili binarie, general-
mente stimati con l’EM.
Indichiamo con:
– yi = (yi1 , yi2 ), . . . , yij , con i = 1, 2, . . . , h il vettore che raccoglie tutte le risposte binarie
riferito all’i -esimo soggetto,

97
– zi ∈ {1, . . . , k}, le variabili latenti discrete, gli indicatori della classe di appartenenza
dell’i -esimo soggetto.

I parametri del modello sono:


– λz = P (Zi = z), probabilità che il soggetto i appartenza alla classe z,
– pj|z = P (yij = 1|Zi = z), probabilità condizionata di successo.
Per questi paramatri si assumono a priori le seguenti distribuzioni:
– λ ∼ Dir(α), i λz sono raccolti in un unico vettore con distribuzione Dirichlet e para-
metro α = (α1 , α2 , . . . , αk ), in genere posto pari a 1, che indica indifferenza, ovvero a 2, per
avere maggiore shrinkage; tale distribuzione è proporzionale alla quantità kz=1 λαz z −1 .
Q
ind
– Pj|z ∼ Beta(a, b), le probabilità condizionate di successo sono a priori indipendenti tra
loro e con distribuzione Beta con parametri a e b proporzionale alle quantità pj|za−1 (1−pb−1 j|z ).

Si tratta di un modello gerarchico in cui a monte viene generato λ che influenza le Z e le p


dato che sono allo stesso livello e che insieme generano le risposte:

Il modello è gerarchico perchè si ragiona per blocchi a diversi livelli di gerarchia, per cui
è uno schema coerente con il Gibbs sampler e possiamo trattare λ, Z, p come re blocchi di
parametri. In pratica, ragioniamo in termini di dati completi.
Il Gibbs adattato a questo schema è chiamato agumented Gibbs in quanto aumenteno le
variabili "osservate", infatti anche consideriamo anche le variabili latenti come parametri.
In particolare il vattore dei parametri è suddiviso in tre blocchi distinti: θ = (λ0 , P0 , Z0 ).
0 0 0
→ partiamo da un vettore iniziale dei parametri θ (0) = (λ(0) , P(0) , Z(0) )0 , → allo
step h aggiorniamo un blocco di parametri alla volta dato i dati e gli altri blocchi generati
allo stesso passo o al precedente:

• si estrae λ(h) da π(λ|D, P(h−1) , Z(h−1) ),

• si estrae P(h) da π(P|D, λ(h) , Z(h−1) ),

• si estrae Z(h) da π(Z|D, λ(h) , P(h) ),


0 0 0
• si ottiene θ (h) = (λ(0h) , P(h) , Z(h) )0 .

Nell’applicazione:
→ per estrarre le probabilità a priori di appartenza alla classe z dalla Dirichlet, λ ∼
P
Dir(α), ciascun elemento λz (t.c. z λz = 1) è estratto da una distribuziona Gamma,
e = P λez , con z = 1, . . . , k.
ez ∼ Gam(αz , 1), e poi viene normalizzato, λ
λ λ
e
z0 z0

98
→ le classi latenti sono generate da una distribuzione multinomiale, zi ∼ M ultinom(1, λ)
che equivale a dire P (Zi = z) = λz .

→ le J ∗ k: probabilità condizionate di successo sono estratte in modo indipendente da di-


stribuzioni beta e racchiuse in una matrice con J righe e k colonne.

→ Le risposte sono estratte da una distribuzione di Bernoulli utilizzando le probabilità di


cui sopra, yi ∼ Bin(1, pj|z ).

Questo è possibile perchè tutte le full conditional hanno una forma esplicita e sono solita-
mente molto semplici, dato che si basano su prior coniugate dei singoli blocchi di parametri.
In particolare, si può dimostrare che:

• π(λ|D, P, Z) = Dir(α), e con parametro aggiornato, α e = (e ek )0 e α


α1 , . . . , α ez = αz + nz
P
dove nz = i I(Zi = z), cioè al parametro della prior si aggiunge la frequenza dei
soggetti della relativa classe.
La full conditional di λ è una Dirichlet perchè a priori ha la stessa distribuzione e
governa la distribuzione delle classi latenti che hanno invece distribuzione Multinomiale
e, come è noto, la Dirichlet è coniugata per la Multinomiale.

• π(pj|Z |D, λ, Z) = Beta(e aj|z , ebj|z ), dove e


aj|z = a + njz e ebj|z = b + nz − njz e njz =
P
i yij I(Zi = z) è il numero di persone che provengono dalla classe z e rispondono con
successo all’item j. Analogamente a quando visto per la full conditional precedente,
le probabilità condizionate di successo hanno full conditional Beta perchè a priori
hanno sempre distribuzione Beta e queste probabilità costituiscono il parametro della
distribuzione Bernoulliana dalla quale vengono generate le risposte, yij ∼ Bin(1, pj|z ).

• π(Zi |D, λ, P) = M ultinom(1, λei ) per assunzione, dove λ


ei = (λ eik )0 è il vet-
ei1 , . . . , λ
eiz = λz f (yi |z) , dove f (yi ) =
tore delle distribuzioni a posteriori di ogni classe e λ f (yi )
P
z λz f (yi |z).

Inoltre, per questi modelli può presentarsi il problema del label switching, ossia nella rei-
terazione dell’algoritmo le classi possono ordinarsi in un modo che non è quello desidera-
to; occorre quindi eseguire un controllo ad ogni passo sull’ordinamento e verificare che sia
quello che vogliamo. L’ordine spesso utilizzato è quello per probabilità di item crescente,
p1|1 < p1|2 < · · · < p1|k , ma la scelta è del tutto arbitraria a meno che non sia previsto un
ordine naturale delle classi.

99
Lezione del 23/05/2018

21.1.3 Reversible Jump

É un tipo di MCMC e costituisce un’evoluzione dell’algoritmo di Metropolis-Hastings.


Si usa quando occorre selezionare un modello tra diverse alternative; è un algortimo estre-
mamente complesso che non solo aggiorna i paramaetri di un certo modello ma "salta" da
un modello all’altro, per cui la catena cambia il modello durante le varie estrazioni, con la
possibilità di torniare indietro, da cui appunto il nome di reversible jump.
Per definire il RJ occorrono:

• k modelli alternativi. Ad esempio, se si deve fare una regressione è possibili stimare


diversi modelli in termini di covariate incluse nel modello, non sapendo a priori il qual
è il modello da preferire; oppure, se si deve stimare un modello a classi latenti se ne
possono stimare diversi in termini di classi latenti, appunto.

• un set di dati, D ∼ fm (D|θ), che sotto ogni modello ha una specifica distribuzione,
ognuna caratterizzata dal relativo vettore di parametri.

Per specificare ciascun modello, nell’approccio bayesiano è necessario specificare anche altre
quantità, ossia la probabilità a priori che ciascun modello sia vero/corretto per analizzare i
dati, π(m) = P (M = m). Nella pratica queste probabilità servono a preferire un modello
piuttosto che un altro; tuttavia, spesso π(m) viene scelta uniformemente uguale per tutti i
modelli e pari a k1 , il che implica nessuna preferenza per un particolare modello. Altre volte
si preferisce, invece, specificare il tipo di distribuzione; ad esempio, se m è un modello a
classi latenti con m classi si potrebbe precisare che π(m) = P ois(2) se non si vuole porre un
limite al numero delle classi ma allo stesso tempo, fissano il parametro λ pari a 2 si tende a
preferire modelli più parsimoniosi (con meno classi).

In ogni modello, inoltre, la distribuione a priori dei parametri è specifica del modello: θm ∼
πm (θ), m = 1, 2, . . . , k.

100
Il problema è, dunque, quello di scegliere sulla base dei dati qual è il modello migliore;
a tal fine si utilizza la probabilità a posteriori del modello, π(m|D), cioè la probabilità di
un modello condizionato ai dati. Nella pratica si sceglie il modello che è maggiormente
supportato dai dati, con maggiore evidenza empirica, cioè con la π(m|D) maggiore. Tra i
diversi moodi che vi sono per stimare questa probabiltà vi è appunto il RJ il quale, seppur
molto efficace, presenta una maggiore difficoltà: dato che il metodo salta tra i vari modelli,
il vettore dei parametri può avere una diversa dimensione a seconda del modello e quindi
l’algoritmo deve riuscire a cambiare la dimensione dello spazio con cui lavora.

Versione semplificata dell’algoritmo


Innanzitutto, con realizzazione dell’algoritmo indichiamo, in questo caso, estrazioni casuali
che riguardano il vettore dei parametri e il modello scelto, ossia una coppia del tipo:

(M, θ)

1, θ
3, θ
.. ..
. .

All’h-esima iterazione, il modello viene indicato con m(h) e il corrispondente vettore dei
parametri con θ (h) .
Per implementare l’algoritmo occorre scegliere il modello m(0) e vettore dei parametri θ (0)
per quel modello da cui partire.
Alla generica h-esima iterazione:

# si propone casualmente un nuovo modello m∗ da una certa distribuzione proposal


q(m∗ |m(h−1) )

# come nel MH normale, si propone un nuovo vettore di parametri θ ∗ , per m∗ , estratto


da q(θ ∗ |θ (h−1) , m(h−1) , m∗ );

in sostanza, si propone una coppia (m∗ , θ ∗ ).


Ora, come in ogni MCMC, occorre stabilire se accettare la coppia perchè apporta migliora-
menti nella posterior o se rifiutarla, per cui:

# si calcola la probabilità di accettazione del nuovo modello e dei rispettvi parametri:

fm∗ (D|θ ∗ )πm∗ (θ ∗ )q(m(h−1) |m∗ )



∗ ∗ (h−1) (h−1)

α m , θ |m ,θ = min 1, ∗
fm(h−1) (D|θ (h−1) )πm(h−1) (θ (h−1) )q(m∗ |m(h−1) )
q(m(h−1) |θ ∗ , m∗ , m(h−1) )

∗ ,
q(m∗ |θ (h−1) , m(h−1),m∗ )

101
# si estrae un numero 
r = 1 → m(h) = m∗ , θ h = θ ∗
∗ ∗ (h−1) (h−1)
r ∼ Bin(1, α(m , θ |m ,θ )=
r = 0 → m(h) = m(h−1) , θ h = θ (h−1)

Dunque si stima la probabilità a posteriori come il rapporto tra il numero di volte che si
presenta un modello e il numero di iterazioni dell’algoritmo:

#m
π(m|D)) = ,
R

cioè con la frequenza relativa del modello.


Se la catena ha soggiornato/visitato spesso su un modello sarà quello da preferire rispetto
agli altri.
Questo schema tipico, peraltro, viene affiancato da altre mosse, di cui se ne distinguono due
principali:
– within, si aggiornano i parametri nell’ambito dello stesso modello;
– between, si aggiorna il modello.
Unire queste due mosse garantisce un maggiore tasso di accettazione.

Esempio: Regressione logistica


Tre possibili mosse vengono compiute in modo probabilistico, nel senso che occorre scegliere
tra le mosse con una certa probabilità:

1. mossa within: aggiornare i parametri dello stesso modello (p = 0.5);

2. mossa between:

2a. introdurre una nuova covariata (p = 0.25),


2b. eliminare una covariata esistente (p = 0.25).

Supponiamo di avere a disposizione dati relativi a una variabile risposta binaria e ad una
covariata e di dover scegliere tra due modelli:
– il modello con la sola intercetta, m = 1;
– il modello che include la covariata, m = 2.
É utile a tal fine esplicitare i modelli (assunzioni):

m=1 m=2

yi ∼ Bin(1, pi ) yi ∼ Bin(1, pi )
eηi eηi
pi = 1+e ηi pi = 1+e ηi

ηi = β0 ηi = β0 + β1 xi
π(1) = 21 ! =2
π(2) 1

β0
β0 ∼ N (0, τ 2 ) β= ∼ Nbiv (0, τ 2 I)
β1

102
l’algoritmo quindi non solo stima i parametri ma salta tra i modelli e a posteriori ci permette
di scegliere tra m = 1 e m = 2.

Occorre poi esplicitare le proposal sui modelli e sui parametri:

• modelli:

– q(2|1) = 1, probabilità di andare nel modello 2 dato che siamo nel modello 1,
– q(1|2) = 1, probabilità di andare nel modello 1 dato che siamo nel modello 2,

queste porbabilità sono poste pari a 1 in quanto, posto che si cambia modello, non
è possibile fare altro che andare da un modello all’altro ( N.B. in questo modo si
semplifica l’espressione di α(m∗ , θ ∗ |m(h−1) , θ (h−1) )).
Esse possono essere anche zero, ad esempio, in un modello a classi latenti, ponendo:
q(m − 1|m) = q(m + 1|m) = 21 ci si sposta nel modello precedente o successivo con
probabilità 12 e se q(m0 |m) = 0, ∀m0 6= m − 1, m + 1, non è possibile fare altrimenti; in
altre parole il nuovo modello viene proposto simile al precedente o al successivo, l’unico
requisito da rispettare è la reversibilità, ossia con i passaggi necessari da qualsiasi
modello deve essere possibile passare ad un altro.

• parametri (dato che ci si trova nel modello m(h−1) come propongo i parametri del
modello m(h) ?):

– dal modello 1 al modello 2:


(h−1)
q(2|1) = 1 → β0 → (β0∗ , β1∗ )(h) , cioè nel modello 1 c’è solo β0 quindi bisogna
proporre sia una nuovo β0 che β1 ,
(h−1) 1 
β0∗ ∼ N β0 , 100 , la varianza è molto piccola, quindi la nuova intercetta viene
estratta casualmente ma simile a quella del vecchio modello,
β1∗ ∼ N 0, 1001

, il coefficiente angolare si campiona da una normale centrata
intorno allo zero e con una variabilità più accentuta.
– dal modello 2 al modello 1:
q(2|1) = 1 → (β0 , β1 )(h−1) → β0∗
(h−1) 1 
β0∗ ∼ N β0 , 100 .

103