Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Facoltà di Economia
Corso di Laurea in Finanza e Metodi Quantitativi per l’economia
Bayesian Computing
Studente: Professore:
Veronica Alagia F. Bartolucci
Matricola 292792
2 Distribuzione coniugata 4
4 Definizioni di probabilità 13
5 Il teorema di Bayes 14
12 La famiglia esponenziale 37
12.1 La statistica sufficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
13 Objective prior 43
13.1 Jeffreys’ prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
14 Prediction 49
16 BAYESIAN COMPUTATION 57
17 La Quadratura 57
17.1 UNIPARAMETRIC CASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
17.1.1 Esempio1: caso Beta-Binomiale . . . . . . . . . . . . . . . . . . . . . 60
17.1.2 Esempio2: caso non coniugato . . . . . . . . . . . . . . . . . . . . . . 60
17.2 MULTIPARAMETRIC CASE . . . . . . . . . . . . . . . . . . . . . . . . . . 62
18 L’approssimazione di Laplace 62
18.1 Caso uniparametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
18.1.1 Esempio di un caso coniugato (Beta-Binomiale) . . . . . . . . . . . . 65
18.1.2 Esempio di un caso non coniugato . . . . . . . . . . . . . . . . . . . . 66
18.2 Caso multiparametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
18.2.1 Esempio: modello logistico . . . . . . . . . . . . . . . . . . . . . . . . 69
18.3 Previsione in ambito deterministico . . . . . . . . . . . . . . . . . . . . . . . 71
18.3.1 Univariate case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
18.3.2 Multivariate case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
18.4 Trovare il massimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
18.4.1 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
20 Importance Sampling 83
2
Lezione del 19/02/2018
1
A seconda dell’intensità dell’opinione formulata la distribuzione a priori avrà una forma
differente (vedi Fig. 1); se l’opinione è molto forte allora si utilizza una distribuzione a priori
che è molto concentrata intorno al valore ipotizzato, altrimenti si utilizza una distribuzione
più piatta, ammettendo che ci sia molta dispersione attorno al valore ipotizzato a priori.
Se non abbiamo idea di quale sia un valore plausibile per θ la distribuzione a priori sarà
una retta parallela all’asse delle ascisse e si parla in tal caso di objective bayesian inference.
Sostanzialmente, possiamo concludere che, assumere che θ sia una v.a., può essere considerato
solo un espediente per poter formulare in modo semplice un’opinione a priori, tenendo conto
che il punto in cui è centrata la sua distribuzione indica il valore che -a priori- riteniamo
più plausibile per θ e che la concentrazione in questo valore (opposto della varianza) ci dice
quanto è forte l’opinione a priori.
Il metodo della verosimiglianza è quello che nella pratica ci permette di unire le informa-
zioni del campione e l’opinione a priori, per poi ottenere la stima. Indichiamo la funzione di
verosimiglianza, ovvero la distribuzione del campione dato θ, con:
n
Y
L(θ; x) = f (x; θ) = f (xi ; θ),
i=1
dove x = (x1 , x2 , . . . , xn ) è il vettore dei dati osservati nel campione; a questo punto, per
incorporare l’opinione a priori, calcoliamo la distribuzione a posteriori del parametro una
volta osservati i dati:
π(θ)f (x; θ)
π(θ|x) = (1)
f (x)
R
dove f (x) = π(θ)f (x; θ) dθ.
Come si può osservare, la distribuzione a posteriori si ottiene moltiplicando la distribuzione
a priori per la verosimiglianza e dividendo per la verosimiglianza marginale (marginalizzata
rispetto a θ) in modo tale che π(θ|x) sia normalizzata e integri a 1. In altre parole, se
θ ∼ π(θ) indica quanto è plausibile ogni valore di θ secondo la propria opinione personale
e se L(θ; x) indica quanto è plausibile ogni valore di θ sulla base dei dati del campione,
allora calcolando il prodotto π(θ)L(θ; x) si uniscono le due informazioni. In questo modo,
si aggiorna il parametro sulla base del campione osservato e si passa dalla distribuzione a
priori a una nuova distribuzione aggiornata alla luce dei dati osservati.
D’altra parte, è necessario che questa nuova distribuzione sia sintetizzata per arrivare alla
stima di θ; generalmente si utilizza il valore atteso a posteriori:
Z
E(θ|x) = θπ(θ|x) dθ. (2)
Graficamente, riprendendo l’esempio del reddito medio, 20 è il valore del reddito medio
secondo l’opinione a priori mentre 22 è la stima puntuale a posteriori, cioè E(θ|x) (Fig. 2).
2
Figura 2: Valore atteso aposteriori
Il problema principale dell’inferenza bayesiana consiste nel calcolo della verosimiglianza mar-
ginale, in quanto nei modelli realistici è intrattabile e non esiste una formula per il calcolo in
forma chiusa, quindi sono necessarie tecniche di integrazione Monte Carlo o di quadratura;
per questo motivo, in passato l’inferenza bayesiana era sviluppata quasi esclusivamente su
casi trattabili analiticamente.
3
2 Distribuzione coniugata
Definito il modello per la variabile di interesse X ∼ f (x; θ) e ipotizzata la distribuzione
a priori π(θ) per θ, quest’ultima distribuzione è detta coniugata se quella aposteriori ap-
partiene alla stessa famiglia distributiva; questo è molto vantaggioso perché non richiede il
R
calcolo espicito di π(θ|x) e quindi dell’integrale π(θ)f (x; θ) dθ.
nτ 2 σ2
µ̃ = x̄ + µ (3)
σ 2 + nτ 2 σ 2 + nτ 2
dove: x̄ = 1/n ni=1 xi è la media campionaria che rappresenta l’evidenza fornita dai dati e
P
µ̃ = w1 x̄ + w2 µ = E[θ|x]
ossia µ̃ è proprio la stima bayesiana ottenuta come media ponderata tra stima classica e
opinione a priori e può essere vitsa come l’opinione a priori corretta con la media campionaria
o, viceversa, come la media campionaria corretta per l’opinione a priori.
É utile osservare come varia µ̃ al variare delle quantità coinvolte:
• se σ 2 , ossia la variabilità dei dati, aumenta allora diminuisce il peso dato alla media
campionaria in quanto aumenta l’incertezza (il "rumore") nei dati osservati.
4
σ2τ 2
τ̃ 2 = . (4)
σ 2 + nτ 2
τ̃ 2 può essere visto come una misura della precisione della distribuzione a posteriori.
In questo caso, se n aumenta τ̃ 2 dinuisce, ovvero aumenta la precisione, dato che n è al
denominatore.
Graficamente:
la distribuzione a posteriori è centrata in un punto intermedio tra µ e x̄; se n è alto µ̃ → x̄, se,
invece, n è basso µ̃ → µ. Anche la concentrazione dipende da n, infatti all’aumentare di n la
distribuzione si sposta verso destra e diventa più appuntita, e quindi per n → ∞ =⇒ µ̃ = x̄,
il che significa che l’informazione a priori viene completamente trascurata, dato che la stima
bayesiana coincide com la stima classica.
Γ(α + β) (α−1)
π(p) = p (1 − p)(β−1) ,
Γ(α)Γ(β)
dove Γ(.) è la funzione gamma. π(p) è una distribuzione per quantità che, come la probabilità,
assumono valori in (0, 1).
É in realtà una famiglia di distribuzioni che ci permette di esprimere diverse opinioni a
priori.
Include la distribuzione uniforme (quando α = β = 1) che esprime un’opinione di totale
incertezza (vedi Fig.4).
La distribuzione Beta ha:
5
Figura 4: Distribuzione Beta
α
E(p) = α+β
αβ
V ar(p) = (α+β 2 )(α+β+1)
α−1
moda = (α+β−2)
.
Dato che X ∼ Bern(p) e p ∼ Beta(α, β) allora π(p) è coniugata per f (x) e dunque anche la
distribuzione a posteriori è una Beta; si può dimostrare che, per i = 1, . . . , n:
X X
p|x ∼ Beta α + xi ; β + (1 − xi ) (5)
i i
e che:
P P P
α + i xi α + i xi α + i xi
p̃ = E[p|x] = P P = P P P = .
α + i xi + β + i (1 − xi ) α + β + i x1 − i xi + i 1 α+β+n
(6)
Anche in questo caso per n grande si ha E[p|x] ≈ x̄, ossia la frequenza relativa di successi,
infatti, dato che le quantità α e β sono fisse, il limn→+∞ E[p|x] = x̄.
Graficamente:
6
Lezione del 21/02/2018
quindi anche in questo caso teniamo conto delle informazioni del campione, sintetizzate nella
verosimiglianza, e dell’informazione a priori.
Altri modi, diversi dalla stima puntuale, per sintetizzare la distibuzione a posteriori sono:
ossia è sbagliato parlare di probabilità perchè, quando il campione viene osservato, (l1 , l2 )
è un intervallo numerico, ma anche θ è un numero fisso, quindi non ha senso parlare di
probabilità; si dice, infatti, che 1 − α è il livello di fiducia.
É corretto, invece, scrivere
7
campioni, con una probabilità di copertura di 1 − α, l’intervallo contiene il parametro.
Una volta osservato il campione, invece, gli estremi dell’intervallo sono defini e l’intervallo
conterrà o meno il parametro con una certo fiducia/confidenza.
Nella statistica bayesiana, invece questa differenza non è più valida e anche per un singolo
campione è valida l’espressione P (l1 < θ < l2 ) = 1 − α perchè in questo caso θ è una v.a.
quindi anche per un campione dato ha senso scrivere che vi è una probabilità di 1 − α che
la v.a. θ sia contenuta nell’intervallo osservato.
Graficamente:
data la distribuzione a posteriori di θ dobbiamo trovare i due estremi (quantili) che conten-
gono θ con probabilità 1 − α, ossia tsli che l’area al centro sia 1 − α.
In ambito bayesiano l’intervallo ottenuto in questo modo è detto credible interval o inter-
vallo di credibilità, il quale ci fornisce informazioni sull’incertezza/precisione della stima,
tramite la sua ampiezza: un intervallo stretto implica una forte informazione sia apriori che
su base campionaria, viceversa, un intervallo più ampio implica un’informazione finale più
vaga.
8
√ √ √
l1 = µ̃ − zα/2 τ̃ 2 e l2 = µ̃ + zα/2 τ̃ 2 , quindi ha ampiezza A = 2zα/2 τ̃ 2 , dove zα/2 è il
quantile della N (0, 1) al livello α/2.
Naturalmente l’ampiezza risente delle quantità in gioco; in particolare n ha un’influenza
diretta sulla certezza (incertezza) della stima, ovvero se n aumenta la varianza a posteriori
V ar[θ|x] dimunuisce e, pertanto, diminuisce anche l’ampiezza.
Ricordando che per n → ∞ =⇒ µ̃ = x̄ e τ̃ 2 ≈ σ 2 /n, possiamo notare che per n grande l’in-
√
tervallo di credibilità diventa x̄±zα/2 τ̃ 2 ossia coincide con l’intervallo di confidenza; perciò,
differenze sostanziali rispetto all’intervallo classico si osservano solo per piccoli campioni.
Dato che la distribuzione a posteriori in esame è normale, per definizione è simmetrica; di-
retta consegenza della simmetria della distribuzione è l’analoga simmetria dell’intervallo: la
stima puntuale è al centro dello stesso e per costruirlo basta trovare uno dei due quantili in
quanto l’altro sarà semplicemente l’opposto.
Si presentano, però, casi in cui la posterior è asimmetrica (es. Bernoulli); in tal caso può
diventare problematica la scelta dei quantili. La soluzione più semplice consiste nel prendere
due quantili tali che l’area alla sinistra del primo e alla destra del secondo sia α/2 ovvero
che l’area al centro sia 1 − α.
D’altra parte questa tecnica funziona se l’assimetria non è molto elevata altrimenti si pone
un problema, nel senso che l’intervallo così creato non è ottimale, ovvero possiamo trovare
altri due quantili tali che l’intervallo è meno ampio ma garantisce comunque la probabilità
di copertura.
Ad esempio, se si vuole costruire un intervallo tale che P (l1 < θ < l2 ) = 0.95 una prima
scelta potrebbe ricadere su quei quantili inferiore e superore che lasciano, rispettivamente,
a sinistra e a destra un’area dello 0.025; tuttavia se si trovano altri due qunatili l10 e l20 tali
che P (l10 < θ < l20 ) = 0.95 e l20 − l10 < l2 − l1 allora l’intervallo iniziale non è ottimale, perchè
a parità di probabilità se ne può trovare uno più informativo (meno ampio).
C’è una regola, basata sul teorema del calcolo delle probabilità, che ci permette di individuare
l’intervallo meno ampio possibile a parità di probabilità di copertura 1 − α: sotto certe
condizioni, l’intervallo ad ampiezza minore possibile è ottimale se la densità nell’estremo di
9
destra è uguale alla densità nell’estremo di sinistra. Ora, se la distribuzione della posterior
è simmetrica questo risultato è raggiunto automaticamente, mentre se è asimmetrica vi sono
comunque degli algoritmi numerici che permettono di soddisfare la regola base. Ad esempio
se è asimmetrica verso destra, gli estremi l1 e l2 dell’intervallo si spostano verso sinistra
ma, mentre l1 si sposta di poco, uno spostamento maggiore è richiesto per l2 e per questo
l’intervallo avrà un’ampiezza minore. un intervallo di questo tipo è detto highest posterior
density (Figura4).
10
tipicamente si verifica il seguente sistema di ipotesi:
(
H0 : θ ∈ Θ0 ⊂ Θ
H1 : θ ∈ Θ̄0 ⊂ Θ
11
sotto H0 è maggiore di quella sotto H1 ed è pari a:
θ0 − µ̃
P Θ0 |x = Φ √
τ̃ 2
In generale, la regola di accettazione può essere espressa come AH0 se θ0 ≥ µ̃, altrimenti
RH0 .
Possiamo sviluppare questa regola per vedere come si differenzia dall’inferenza classica:
µ̃ ≤ θ0
(sostituisco a µ̃ la sua espressione)
nτ 2 +x̄+σ 2 µ
≤ θ0
nτ 2 +σ 2
(moltiplico per nτ 2 + σ 2 )
nτ 2 + x̄ + σ 2 µ ≤ nτ 2 θ0 + θ0 σ 2
(ricavo x̄)
2
x̄ ≤ θ0 + σ (θnτ02−µ)
e si ottiene dunque una regola di accettazione rispetto alla media campionaria.
Notiamo che la regola di accettazione diventa banale se il valore ipotizzaro sotoo H0 è pari a
µ, in quanto diventa x̄ ≤ θ0 ; ma anche al crescere di n il fattore correttivo diventa irrilevante
0 −µ)
perchè σ 2 (θnτ 2 −→ 0 e il risultato è vicino a uello dell’inferenza classica; possiamo quindi
concludere che l’inferenza bayesiana ha un’influenza significativa quanfo il valore ipotizzato
θ0 è distante dal valore a priori oppure in piccoli campioni.
12
Lezione del 28/02/2018
4 Definizioni di probabilità
Storicamente, la teoria della probabilità non stata in grado di produrre una definizione
univoca, accettata da tutti, per cui quando parliamo di probabilità possiamo riferirci a
differenti approcci/paradigmi.
• dal punto di vista formale, è una definizione circolare: richiede che i casi possiedano
tutti la medesima probabilità, nota a priori, che è però ciò che si vuole definire;
La definizione frequentista si applica ad esperimenti casuali i cui eventi elementari non siano
ritenuti ugualmente possibili, ma assume che l’esperimento sia ripetibile più volte, idealmente
infinite, sotto le stesse condizioni. Anche tale definizione consente di calcolare la probabilità
di molti eventi; tuttavia:
Le definizioni classica e frequentista sono entrambi molto limitate, dato che non si possono
applicare in modo semplice alla realtà. Per questo motivo, in ambito matematico sono stati
sviluppati gli approcci soggettivisti.
13
Definizione soggettivista Secondo il paradigma soggettivista, la probabilità è il grado
di fiducia, espresso soggettivamente, rispetto al verificarsi di un evento, quindi ognuno espri-
me una sua probabilità e non esiste una regola condivisa, l’importante è che siano rispettati
gli assiomi di Kolmogorov (un evento non è più o meno probabile: sono io che giudico più
o meno probabile un evento). Rifacendosi al gioco delle scommesse, De Finetti e Savage
hanno proposto una definizione di probabilità applicabile ad esperimenti casuali i cui eventi
elementari non siano ritenuti ugualmente possibili e che non siano necessariamente ripetibili
più volte sotto le stesse condizioni: la probabilità di un evento è il prezzo che un individuo
ritiene equo pagare per ricevere 1 se l’evento si verifica, 0 se l’evento non si verifica. Dun-
que, il grado di fiducia dipende da "quanto si è disposti a scommetere". Al fine di rendere
concretamente applicabile la definizione, si aggiunge un criterio di coerenza: le probabilità
degli eventi devono essere attribuite in modo tale che non sia possibile ottenere una vincita
o una perdita certa. La definizione soggettiva consente quindi di calcolare la probabilità di
eventi anche quando gli eventi elementari non sono equiprobabili e quando l’esperimento non
può essere ripetuto. Rimane fondata, tuttavia, sull’opinione di singoli individui, che potreb-
bero presentare diverse propensioni al rischio. Basta pensare che molti sarebbero disposti a
giocare 1 euro per vincerne 1000, ma pochi giocherebbero un milione di euro per vincerne
un miliardo.
5 Il teorema di Bayes
Il teorema di Bayes o teorema della probabilità delle cause è un concetto cardine
dell’inferenza bayesiana. É storicamente attribuito a Thomas Bayes (1702-1761), monaco di
Londra che fu menbro della Royal Society. Bayes ha pubblicato solo due lavori in cui ha
accennato al suo teorema che, però, non ha mai formalizzato. sono stati altri autori, tra i
quali Richard Price, che lo hanno sviluppato e attribuito a lui.
14
Il teorema di Bayes deriva a sua volta da altri due teoremi fondamentali delle probabilità: il
teorema della probabilità congiunta o (composta) e il teorema della probabilità totale.
Teorema della probabilità congiunta Deriva a sua volta dalla probabilità condizio-
nata, un concetto cruciale in ambito bayesiano; condizionare vuol dire aggiungere informa-
zione, la probabilità condizionata è la probabilità di un certo evento (o distribuzione di un
certo parametro) avendo aggiunto dell’informazione e può essere utilizzata per aggiornare
un’opinione a priori.
Dati due eventi A e B, se P (B) > 0 ossia se c’è una probabilità purchè minima che l’evento
B si verifichi, allora P (A) è la probabilità che si verifichi A con il set di informazioni di
partenza (es. la probabilità che ci sia un nuovo governo), P (A|B) è invece la probabilità che
si verifichi A sapendo che si sia verificato B (che B si è verificato è l’informazione aggiunta)
(es. probabilità che ci sia un nuovo governo sapendo che nessuno ha ottenuto la maggioran-
za). Matematicamente:
P (A∩B)
P (A|B) = P (B)
Legge della probabilità totale Dati due eventi A e B, supponiamo di poter calcolare
P (A|B) e P (A|B̄) e di conoscere P (B) e P (B̄); ad esempio, se A =istituzione di un nuovo
governo e B =vince il partito XY, allora P (A|B) è la probabilità che ci sia un nuovo governo
sapendo che ha vinto il partito, P (A|B̄) è la probabilità che ci sia un nuovo governo sapendo
che non ha vinto quel partito, P (B) è la probabilità che vinca il partito e P (B̄) è la probabilità
che il partito non vinca.
La legge della probabilità totale ci permette di calcolare la probabilità che si verifichi l’evento
A:
15
dalla somma delle probabilità congiunte, ossia è una sorta di media ponderata tra le pro-
babilità condizionate dell’evento A pesate per la probabilità marginale del rispettivo evento
condizionante.
La legge della total probability si usa perchè a volte a livello soggettivista è più semplice po-
ter esprimere una probabilità condizionata, per poi passare a quella marginale. Ad esempio,
consideriamo una compagnia di assicurazione che affitta delle auto da due dverse agenzie;
conoscendo la probabilità che le auto, provenienti dall’una e dall’altra agenzia, si rompano,
possiamo calcolare la probabilità che un auto si rompa senza sapere da quale agenzia pro-
viene.
P (A|Bk )P (Bk ) P (A ∩ Bk )
P (Bk |A) = Pk = (7)
i=1 P (A|Bk )P (Bk )
P (A)
dove P (Bk ) è la probabilità a priori di ciascun possibile evento cioè che non tiene conto di
nessuna informazione su A, P (A|Bk ) è la probabilità condizionata dell’evento A noto Bk e
P (A) è la probabilità marginale di A che funge da costante di normalizzazione.
Con riferimento alla Figura 1, possiamo notare che, essendo P (Bk ) l’area della k-esima
partizione e P (Bk |A) l’area in comune tra la partizione Bk e A riproporzionata rispetto ad
A si ha:
P (B1 |A) = 0
P (B2 |A) = 0
P (B3 |A) = AA3
P (B4 |A) = AA4
16
Esempio1
Una scatola contiene 7 palline rosse e 13 blu. Si supponga di estrarre casualmente prima due
palline senza vedere il colore e poi una terza di colore rosso. Sapendo che la terza è rossa,
qual è la probabilità che le prime due siano blu?
P (R|BB)P (BB)
P (BB|R) = =
P (R|BB)P (BB) + P (R|BR)P (BR) + P (R|RB)P (RB) + P (R|RR)P (RR)
7 13 12
18
+ 20
∗ 19
)
= 7 13 12
6 13 7
6 7 13
5 7 6
= 0, 3426
18
+ 20
∗ 19
+ 18
+ 20
∗ 19
+ 18
+ 20
∗ 19
+ 18
+ 20
∗ 19
Esempio2
Il teorema di Bayes può essere impiegato per calcolare la probabilità che una certa persona
soffra di una malattia, per la quale ha eseguito un test diagnostico, conoscendo la frequenza
con la quale si presenta la malattia e la percentuale di efficacia del test diagnostico.
Ad esempio, il cancro viene scoperto in una persona su 2000 (=probabilità marginale di avere
la malattia) e il test relativo risulta molto attendibile, in quanto P (testPositivo|malattia) =
90% e P (testPositivo|sano) = 1%.
Possiamo, dunque, calcolare la probabilità della malattia (causa) sapendo che il test è posi-
tivo (evento verificatosi, scatenato dalla malattia):
P (testPositivo|malattia)P (malattia)
P (malattia|testPositivo) = =
P (testPositivo|malattia)P (malattia) + P (testPositivo|sano)P (sano)
1
0.90 ∗ 2000
= 1 1999 = 0.04308 ≈ 4, 3%
0.90 ∗ 2000 + 0.01 ∗ 2000
P (y|θ)P (θ)
P (θ|y) =
P (y)
17
P (θ|y) è detta posterior, P (y|θ)P (θ) è la probabilità congiunta dove P (y|θ) è la distribuzione
dei dati osservati dato θ (Likelyhood ), P (y) è pari alla somma o all’integrale, nel caso discreto
e continuo rispettivamente, estesa a tutti i possibili valori di θ secondo la legge della total
probability.
• subjective bayesians
• objective bayesians
18
Lezione del 7/03/2018
dove le πi rappresentano una permutazione qualsiasi degli indici, per cui l’ordine con il quale
si introducono i valori delle v.a. è indifferente, in quanto la probabilità congiunta non cambia.
É una definizione meno forte dell’indipendenza P (x1 , x2 , . . . , xn ) = P (x1 )P (x2 ) . . . P (xn ) ,
in quanto l’indipendenza implica scambiabilità ma non vale il viceversa:
19
congiunta usando una formula alla base del teorema di Bayes:
Z Y
P (x1 , x2 , . . . , xn ) = f (xi |θ)π(θ)dθ
i
Q
dove i f (xi |θ) = f (x|θ) è la funzione di verosimiglianza e π(θ) è la distribuzione a priori;
per cui, l’integrale in cui, condizionatamente a un parametro con una certa distribuzione,
le variabili sono indipendenti altro non è che la distribuzione dei dati o verosimiglianza
marginale, ossia il denominatore del teorema di Bayes.
Questo motivazione spiega quindi che l’inferenza bayesiana è importante perchè coerente con
il teorema di rappresentazione.
In ambito frequentista una funzione di perdita viene utilizzata tramite una trasformazione,
la funzione di richio, che rappresenta la media su tutte le azioni che si possono compiere
e su tutti i possibili campioni ed è indicata con R θ, δ(X) = E l θ, δ(X) , e cioè, dato che
l’azione da compiere dipende dai dati osservati (campone casuale X estratto dalla popola-
zione), per non riferirsi ad uno specifico campione, si calcola il valore atteso rispetto a tutti
i possibili campioni.
Una funzione di rischio deve essere sempre minimizzata, dato che la funzione di base è quella
di perdita l θ, δ(x) .
2
Un caso specifico di funzione di rischio è il mean square error : M SE = E δ(X) − θ ,
una quantità che ci permette di giudicare la qualità dello stimatore sulla base della distanza
media al quadrato tra la stima e la quantità da stimare; in pratica, non volendosi soffermare
su uno specifico campione, dato che ex-ante il campione non è stato ancora osservato, si
calcola la media della distanza al quadrato su tutti i possibili campioni.
20
L’MSE è una funzione del parametro incognito e a seconda di come quest’ultimo viene de-
finito si ottiene un diverso valore dell’MSE, per cui graficamente si rappresenta rispetto al
parametro stesso (in sostanza nella f. di perdita sono due gli elementi che non conosciamo:
campione e parametro; per il primo se ne prende il valore atteso, per il secondo si rappresenta
la funzione rispetto a tutti i suoi possibili valori).
Procedendo il tal modo è possibile, peraltro, scegliere tra metodi di stima diversi. Difatti,
l’MSE è una funzione di rischio quadratica per cui, dati due metodi alternativi, rappresen-
tandolo rispetto a tutti i possibili valori del parametro si sceglie il metodo che comporta
l’errore più basso.
In particolare, quando un metodo di stima domina l’altro, per qualsiasi valore del parametro
θ, si dice che è uniformemente (∀θ) migliore.
21
Sono due le soluzioni proposte per affrontare queste situazioni:
Sulla base della stessa funzione di perdita, in ambito bayesiano la funzione di rischio viene
ridefinita in modo da focalizzarsi su un singolo campione:
dove θ è una variabile casuale e x è il campione osservato (una quantità fissa). ρ(δ) è detto
rischio a posteriori ed è pari a:
Z
ρ(δ) = l(θ, δ(x))π(θ|x)dθ
22
Definendo opportunamente la funzione di perdita si può, invece, ottenere la moda:
δ = max π(θ|x).
θ
23
Introduciamo le variabili Y1 , Y2 , . . . , Yk definite come:
Yj = #(Xi = j), j = 1, 2, . . . , k.
n! n! Y yj
f (y) = py11 py22 . . . pykk = Q pj
y1 !y2 ! . . . yk ! j yj ! j
dove y1 !y2n!!...yk ! è detto fattore multinomiale (per k = 2 è il fattore binomiale) che indica le
diverse configurazioni di risposta compatibili con la somma osservata, ossia le conbinazioni
possibili di k caratteristiche.
Dato che si tratta di una distribuzione coniugata, la distribuzione a posteriori è ancora una
Dirichlet ma con parametri modificati:
α
per cui se a priori la media è E[pj ] = P jαh , a posteriori viene modificata includendo i dati e si
h
α +yj
ha E[pj |x] = P jαh +n valore che, per n → +∞, tende alla stima di massima verosimiglianza
h
y
p̂j = nj .
24
Lezione del 12/03/2018
dove I(Xi = j) è una funzione indicatrice che converte una qualsiasi variabili in binaria, dato
che assume valore 1 se Xi = j e 0 altrimenti; sommando tante variabili binarie si ottengono
le k frequenze.
Per semplificare la notazione introduciamo due vettori:
n! Y Yj
f (Y|p) = Q pj
j Yj ! j
la quale costituisce un’estensione della distribuzione binomiale e, difatti, Q n!Yj ! è detto fattore
j
multinomiale quale estensione del fattore binomiale.
Per fare inferenza, occorre, chiaramente, assumere una distribuzione a priori coniugata per
i paraemtri pj . La distribuzione coniugata per la Multinomiale è la Dirichlet, p ∼ Dir(α),
con iperparametri (parametri della distribuzione sul parametro di interesse, cioè della prior,
cosiddetti per distinguerli dai parametri del modello) α = (α1 , α2 , . . . , αk ) e con funzione di
25
densità di probabilità :
Γ(α) Y αj −1
π(p) = Q pj ,
j Γ(αj ) j
Q α −1
dove QΓ(α)
Γ(α j )
è la costante di normalizzazione e j pj j la parte kernel che coinvolge il pa-
j
rametro d’interesse.
Come la Multinomiale estende la distribuzione Binomiale, la Dirichlet estende la distribu-
P
zione Beta, ovvero pj ∼ Beta(αj , h6=j αh ).
Media, moda e varianza a priori sono i seguenti:
αj
E[pj ] = P
j αj
αj − 1
moda(pj ) = P
j αj − k
(α − αj )αj X
V ar[αj ] = , α= αj
α2 (α + 1) j
La varianza decresce con α, quanto più questo è elevato tanto più la prior è precisa.
Es.:
αj = 1∀j → E1 (pj ) = 1/k
αj = 10∀j → E2 (pj ) = 1/k
ma V ar2 (pj ) < V ar1 (pj )
quindi dire che gli αj sono tutti pari a 1 o pari a 10 ha la stessa implicazione in termidi
valore atteso (a priori) ma nel secondo caso si da più peso alla prior rispetto ai dati perchè
la varianza è più bassa.
La covarianza tra le probabilità di due categorie è invece pari a:
αj αj0
Cov(pj , p0j ) = −
α2 (α + 1)
αj + Yj
E[α|Y] = , dove n è la somma delle frequenze totali
α+n
26
e moda a posteriori:
αj + Yj − 1
moda[α|Y] =
α+n−k
Il valore atteso a posteriori altro non è che la media ponderata tra stima (credenza) a priori
e stima frequentista, infatti può essere riscritto come:
αj α Yj n
E[α|Y] = +
α α+n n α+n
α n
dove w1 = α+n e w2 = α+n rappresentano i pesi della stima a priori e a frequentista rispet-
tivamente; i pesi variano con α (forza dell’opinione a priori) e n (importanza dei dati): se
α aumenta il peso si sposta sull’opinione a priori, vicenversa se aumenta n si da più peso
alla stima frequentista e, in particolare, se n è molto grande la stima bayesiana tende a
quella frequentista. Questo spostamento della stima bayesiana verso quella frequentista -
o viceversa - è noto come shrinkage, o regolarizzazione/normalizzazione, operazione che
rende più stabili le stime e, quindi, risulta molto utile in piccoli campioni in cui le stime sono
generalmente molto instabili.
Dimostrazione
Si dimostra che posterior è una Dirichlet, ovvero che la distribuzione Dirichlet è coniugata
per la Multinomiale.
In applicazione del th. di Bayes:
π(p)f (Y|p)
π(p|Y) = ,
f (Y)
ossia secondo questa espessione la posterior viene definita includendo la costante di normaliz-
R
zazione che è la verosimiglianza marginale f (Y) = π(p)f (Y|p)dp, tale che la distribuzione
a posteriori π(p|Y) integri a 1.
Se si trascura la costante di normalizzazione, si ricorre alla definizione di proporzionalità.
Si consideri, dunque, la relazione di proporzionalità tra la distribuzione a posteriori e il
prodotto tra distribuzione a priori e funzione di verosimiglianza, considerando solo la par-
te kernel di ciascuna distribuzione e traslasciando le costanti di normalizzazione (funzione
P
che non dipende dai parametri di interesse e che serve solo a far si che Y f (Y|p) = 1 o
R
f (Y|p)dY = 1 ):
27
Riconosciamo che è una disrtibuzione Dirichlet in quanto, a meno della costante di norma-
lizzazione, cambia solo l’esponente della probabilità, quindi:
π(p|Y) ∼ Dir α + Y c.v.d., (9)
o anche:
π(pj |Yj ) ∼ Dir αj + Yj .
La prior del parametro coniugata per la Poisson è la distribuzione Gamma caratterizzata dai
parametri α (shape) e β (rate), λ ∼ Gam(α, β), con densità:
β α α−1 −βλ
π(λ) = λ e ,
Γ(α)
α
β
dove Γ(α) è la costante di normalizzazione e la restante parte il kernel.
Il valore atteso a priori è pari a:
α
E[λ] =
β
e rappresenta l’opinione a priori su λ (ad esempio il numero di accessi che mediamente ci
si aspetta sul server), per cui α e β devono essere tarati in modo da riflettere la propria
opinione a priori. La moda a priori è, invece, pari a:
α−1
moda(λ) = , con α≥1
β
e la varianza è:
λ
V ar(λ) =
β2
e, come al solito, quanto più bassa è la varianza tanto maggiore è la forza dell’opinione a
priori.
28
Es.:
E(λ) = 100 V ar(λ) = 10 α = 1000 β = 10
E(λ) = 100 V ar(λ) = 1 α = 10000 β = 10
(Nelle analisi empiriche di solito si conduce un’analisi di sensitività e robustezza, cioè si
provano diversi valori dei parametri per vedere come cambiano i risultati e come sono in-
fluenzati.)
Dimostrazione
quindi:
X
λ|x ∼ Gam α + xi − 1, β + n c.v.d.. (10)
i
29
Lezione 14/03/2018
dove:
−1
nτ 2 σ2 σ2τ 2
2 1 n
µ̃ = 2 x̄ + 2 µ e τ̃ = 2 = + 2 .
σ + nτ 2 σ + nτ 2 σ + nτ 2 τ 2 σ
La stima bayesiana µ̃ è ottenuta come media ponderata tra stima frequentista e opinione a
2 σ2
priori; i pesi w1 = σ2nτ
+nτ 2
e w2 = σ2 +nτ 2
2 dipendono dalla varianza dei dati σ , dalla varianza
della prior τ 2 e dalla dimensione campionaria n (quantità che rappresentano misure di pre-
cisione delle informazioni), in particolare:
- all’aumentare di n e τ 2 si da più peso ai dati,
- all’aumentare di σ 2 si da più peso all’opinione a priori.
2
L’iperparametro τ̃ 2 riflette la precisione della stima; per n → ∞ è simile a σn della stima
frequentista, tendendo però conto di τ 2 . Inoltre si deve avere τ̃ 2 < τ 2 in quanto se si aggiunge
informazione la precisione aumenta.
Dimostrazione
ossia:
1 2 1 2 1 2 −2µθ+θ 2 )− 1 ( x2i −nθ2 )
P P
π(θ|x) ∝ e− 2τ 2 (θ−µ) e− 2σ2 i (xi −θ) = e− 2τ 2 (µ 2σ 2 i ,
per cui, eliminando i termini che non dipendono da θ, si ragiona nuovamente in termini di
proporzionalità, ed evidenziando i termini che moltiplicano θ2 e θ si ha:
2 µ−nτ 2 x̄
σ 2 +nτ 2
− 1
θ2 (σ 2 +nτ 2 )−2θ(σ 2 µ+nτ 2 x̄) θ2 −2θ σ
π(θ|x) ∝ e 2τ 2 σ 2 =e 2τ 2 σ 2 σ 2 +nτ 2
30
2 2 2 2
dove il termine σ τ+nτ
2 σ2 non è altro che l’inverso della varianza a posteriori e il termine σσµ−nτ
2 +nτ 2
x̄
σ 2 µ − nτ 2 x̄ τ 2σ2
µ|x ∼ N , c.v.d. (11)
σ 2 + nτ 2 σ 2 + nτ 2
σ 2 ∼ IG(α, β),
che è equivalente a:
1
ψ= ∼ Gam(α, β),
σ2
Il reciproco ψ della varianza σ 2 è in realtà un parametro, che si chiama precisione proprio
perchè si muove all’opposto della varianza: se la varianza aumenta la precisione diminuisce,
se la varianza diminuisce, diminuisce l’oscillazione di quello che osserviamo e quindi aumenta
la precisione.
L’Inverse Gamma ha densità pari a:
βα β
π(σ 2 ) = (σ 2 )(−α−1) e− σ2 ,
Γ(α)
α β
β
dove Γ(α) è la costante di normalizzazione, mentre (σ 2 )(−α−1) e− σ2 è la parte principale della
distribuzione (kernel).
La f.d.p. della Inverse Gamma si ottiene trasformando la f.d.p. della Gamma:
βα β
π(ψ) = (ψ)(α−1) e− ψ con ψ = 1/σ 2 ,
Γ(α)
31
dove g −1 (·) è la funzione inversa di g(·).
Esempio1 Data X ∼ f (x), sia y = g(x) = X1 con X > 0 allora sarà g −1 (y) = 1
Y
e
quindi: −1
1 d[g (y)] 1 1
fY (y) = fX = fX
Y dy Y Y2
che rappresenta la densità sulla scala del reciproco.
Y −b 1
fY (y) = fX
a a
Ritornando alla distribuzione Inverse Gamma, si esprima innanzitutto la densità della Gam-
ma nella scala dell’inversa:
α−1
βα
1 2 1 − β2 1
π = π(σ ) = e σ
ψ Γ(α) σ 2 (σ 2 )2
dove: α−1 1
βα d[ 2 ]
1 − β2 1 1
2
e σ = fψ 2 e = σ 2 ,
Γ(α) σ σ (σ 2 )2 dσ
e svolgendo i calcoli si ottiene:
βα βα βα
2 1 1 − β2
β
2 −α+1−2 − σ2
β
2 −α−1 − σ2
π(σ ) = e σ = (σ ) e = (σ ) e
Γ(α) (σ 2 )α−1 (σ 2 )2 Γ(α) Γ(α)
β
E(σ 2 ) =
α−1
β
moda(σ 2 ) =
α+1
2 β2
V ar(σ ) = , α>2
(α − 1)2 (α − 2)
Dato che l’IG è coniugata per la normale si può dimostrare che la distribuzione a posteriori
è ancora Inverse Gamma:
2 n 1X 2
σ |x ∼ IG α + , β + (xi − θ)
2 2 i
32
Si può notare che per n → ∞ il valore atteso a posteriori tende alla stima frequentista
2
P
i (xi −θ)
n
.
Dimostrazione
ossia:
n
1
β 1 2
2 −(α+n/2)−1 − σ12 β+ 21 2
P P
2 −α−1 − σ2
π(θ|x) ∝ (σ ) e √ −
e 2σ 2 i (xi −θ) = (σ ) e i (xi −θ)
σ2
quindi:
2 n 1X 2
σ |x ∼ IG α + , β + (xi − θ) c.v.d. (12)
2 2 i
σ 2 ∼ IG(α, β).
dove m è detta relative confidence in prior belief ovvero esprime la fiducia sull’opinione a
priori relativa al parametro θ; in particolare, a parità di σ 2 , un m grande implica un’elevata
fiducia sull’opinione apriori perchè si traduce in una varianza piccola dato che si trova a
denominatore (in un certo senso, m può essere considerato il reciproco di τ 2 ). Quindi, m
deve essere impostato in modo da riflettere la precisione e solitamente si sceglie un numero
intero. Queste due distribuzioni a priori insieme influenzano la distribuzione dei dati:
33
Si può dimostrare che si ottengono le seguenti distribuzioni a posteriori:
- per σ 2 :
2 n 1X 2 nm (x̄ − µ)
σ |x ∼ IG α + , β + (xi − θ) + (13)
2 2 i n+m 2
- per θ:
nx̄ + mµ σ 2
2
θ|σ , x ∼ N , (14)
n+m n+m
dove nx̄+mµ
n+m
è la media ponderata tra media campionaria e media a priori, con pesi che di-
σ2 2
pendono dalla precisione dei dai dati, n, e della priori, m, e n+m è la varianza che ricorda σn
il che ci permette di dire che possiamo considerare m come una sorta di numerosità/dimen-
sione campionaria ideale.
Tuttavia, la (4) non è la distribuzione a posteriori marginale di θ perchè è condizionata a
σ 2 ; per ottenere la marginale un metodo utile a tal fine consiste nel campionare da σ 2 |x e
da θ|σ 2 , x tramite tecniche Monte Carlo, nel modo seguente:
nx̄+mµ σ2
• si genera θ(m) ∼ N µ̃, τ̃ 2 (σ 2 ) , dove µ̃ = n+m
e τ̃ 2 (σ 2 ) = n+m
.
M
1 X (m)
E[θ|x] ≈ θ ,
M m=1
M 2
1 X (m)
V ar[θ|x] ≈ θ − E[θ|x] .
M m=1
Per controllare che lo schema di simulazione sia corretto è utile confrontare il valore atteso
PM (σ 2 )(m)
a posteriori E[σ 2 |x] di σ 2 con la sua stima MC E[(σ 2 )(m) |x] ≈ M1 m=1 θ : se sono
vicini la simulazione ha dato risultati attendibili dunque anche E[θ|x] è attendibile, se non
lo sono è necessario rivedere lo schema di simulazione aumentando, ad esempio, il numero
M di campioni generati.
34
Lezione del 19/03/2018
yi = x0i β + i , i = 2, . . . , n, (15)
dove i è il termine di errore assunto normalmente distribuito con media 0 e varianza costante
e pari a σ 2 e xi = (1, xi2 , xi3 , . . . , xik )0 è il vettore delle covariate riferito alla i -esima unità
(profilo delle caretteristiche dell’unità).
In forma più compatta, la specificazione del modello può essere espressa in forma matriciale:
y = Xβ + , (16)
dove:
Y1
Y2
y=
..
è il vettore delle risposte
.
Yn
1 x11 x12 . . . . . . x1k
..
1 .
..
X = . .. è la matrice del disegno
.
.. ..
. .
1 xn1 xn2 . . . . . . xnk
β1
β2
β=
..
è il vettore dei coefficienti
.
βk
1
2
=
..
è il vettore dei termini di errore
.
n
In ambito frequestista, sulla base delle ipotesi alla base del modello, la stima del modello si
riduce alla stima dei coefficienti in β; applicando il metodo dei minimi quadrati (Ordinary
Least Squares) si ottiene la stima:
βb = (X0 X)−1 X0 y
35
la quale coincide con la stima di massima verosimiglianza (Maximum Likelihood Estimation).
Una stima non distorta della varianza dei termini di errore si ottiene, invece, dividendo la
somma dei residui al quadrato per i rispettivi gradi di libertà:
2 bb0 (y − Xβ)(y
b − Xβ)b0
σ
bOLS = =
n − (K + 1) n − (K + 1)
2 bb0 (y − Xβ)(y
b b0
− Xβ)
σ
bM LE = =
n n
INFERENZA BAYESIANA
Abbiamo due set di parametri per i quali si formulano delle assunzioni a priori:
§ la varianza dei termini di errore con distribuzione Inverse Gamma con parametri a e
b, σ 2 ∼ IG(a, b)
§ µ
e è la media a posteriori di β (la stima puntuale dei parametri), per cui a posteriori
si ha:
β|σ 2 , y ∼ Nm (µ, e −1 ), dove Λ
e σ2Λ e −1 = X0 X + Λ.
36
e −1 = σ 2 (X0 X + Λ)−1 in ambito bayesiano.
§ V ar(β|σ 2 , y) = σ 2 Λ
Anche in questo caso alla stima frequentista si aggiunge la matrice di precisione Λ, la quale
riflette la propria convinzione circa l’opinione a priori; dato che Λ entra con l’inversa se ha
elementi molto grandi vuol dire che si è molto convinti dell’informazione a priori, viceversa se
ha elementi molto piccoli, e se avesse elementi tendenti a zero (molta indecisione sull’apriori)
si ritorna alla soluzione di massima verosimilginaza; quindi, anche se il paradigma è diverso,
per grandi campioni si ritorna alla stima MLE. Tuttavia, l’interpretazione rimane diversa
(ad es. il CI viene interpretato in modo diverso anche se si ottengono gli stessi valori degli
estremi). (vedi wikipedia Bayesian Linear Regression)
12 La famiglia esponenziale
Abbiamo visto che, per casi particolari, dato il modello per i dati, riusciamo a trovare la
distribuzione coniugata; esiste, infatti, una regola generale che è quella della famiglia espo-
nenziale. I modelli che appartengono alla famiglia esponenziale hanno molte proprietà e
vantaggi sia in ambito frequentista e sia in quello bayesiano; nel primo caso si riesce a torvare
stimatori ottimali in modo molto semplice, nel secondo caso, dato un modello per i dati, se
si riesce a ricondurlo alla famiglia esponenziale, ovvero se appartiene alla stessa, allora è
sempre possibile trovare la coniugata in modo semplice.
In generale dato il modello X ∼ f (x|θ) possiamo dire che appartiene alla famiglia espo-
nenziale se, definite oppurtunamente le funzioni A(·), Ψ(·) e h(·), la funzione di densità di
probabilità condizionata al parametro può essere scritta come:
ossia come l’esponenziale della somma di: una funzione che dipende solo da θ, una funzione
data dal prodotto tra θ e una funzione dei dati e una funzione che dipende solo dai dati,
dove θ è detto parametro canonico.
R
Proprietà Dato che f (x|θ)dx = 1 e sapendo che f (x|θ) appartiene alla famiglia
esponenziale, possiamo calcolare direttamente il valore atteso.
Calcoliamo innanzitutto la derivata:
Z
δ δ
f (x|θ)dx = [1] = 0.
δθ δθ
Dato che gli estremi di integrazione non dipendono dalla variabile rispetto alla quale cal-
coliamo la derivata, cioè il supporto della funzione non dipende dal parametro, possiamo
portare la derivata dentro l’integrale:
δe[A(θ)+θΨ(x)+h(x)]
Z
δf (x|θ)
Z
dx = 0 → dx = 0
δθ δθ
37
↓
Z
0
A (θ) + Ψ(x) e[A(θ)+θΨ(x)+h(x)] dx = 0
↓
Z Z
A0 (θ)e[A(θ)+θΨ(x)+h(x)] dx + Ψ(x)e[A(θ)+θΨ(x)+h(x)] dx = 0
↓
Z Z
[A(θ)+θΨ(x)+h(x)] 0
Ψ(x)e dx = −A (θ) e[A(θ)+θΨ(x)+h(x)] dx.
Il membro di sinistra non è altro che il E[Ψ], mentre il membro di destra è pari a −A0 (θ)
R
dato che e[A(θ)+θΨ(x)+h(x)] dx = 1, per cui si ha
Questo risultato rappresenta un vantaggio enorme perchè se si riesce a dimostrare che la di-
stribuzione appartiene alla famiglia esponenziale, dato che spesso Ψ(·) è la funzione identià,
si riesce a ricavare immediatamente il valore atteso della distribuzione.
logistica.
Sappiamo che la distribuzione di probabilità della variabile bernoulliana è:
f (x) = px (1 − p)1−x
x
p
= (1 − p) applichiamo esponenziale e logaritmo
1−p
p
log ( 1−p )x (1−p)
=e
p
= e xlog( 1−p )+log(1−p)
= e[xθ−log(1−p)]
eθ 1−eθ −eθ
sapendo che p = 1+eθ
da cui 1−p = 1−eθ
→ log(1−p = −log(1−eθ )) = −log(1)−log(eθ ),
quindi si ha:
θ )+xθ
f (x|θ) = e−log(1+e
per cui la distribuzione Bernoulliana appartiene alla famiglia esponenziale in quanto: A(θ) =
−log(1 + eθ ), θΨ(x) = θx e h(x) = 0; infatti se calcoliamo il valore atteso si ha:
δlog(1 − eθ ) 1 θ eθ
E[Ψ] = E[x] = − =− (−e ) = =p
δθ 1 + eθ 1 + eθ
Una distribuzione che non appartiene alla famiglia esponenziale è l’Uniforme, X ∼ U nif (0, θ),
38
con densità f (x) = 1θ I(0 < x < θ), dato che I(0 < x < θ) è una condizione che non si può
scrivere come prodotto e quindi non possiamo ottenere il termine θΨ(x). Per lo stesso motivo
il supporto, S : {x : f (x) > 0}, della distribuzione dipende dal parametro, per cui a seconda
di come varia θ la funzione assume valori positivi o negativi, e questo implica che gran parte
delle procedure inferenziali non funzionano o risultano computazionalmente dispendiose.
39
Lezione del 21/03/2018
Formalmente, una statistica (che può essere un singolo scalare o un vettore) si dice sufficiente
quando la distribuzione dei dati condizionata alla stessa statistica sufficiente è indipendente
(nel senso della probabilità) dal parametro θ:
X|T ⊥
⊥θ
quindi dato che "condizionare" significa "conoscere", questo significa che una volta nota T,
conoscere anche i dati non apporta nessuna informazione aggiuntiva rilevante su θ.
40
P
Assunto il modello per i dati, X ∼ Bin(1, p), si ha T = i Xi , dove T ∼ Bin(n, p), per cui:
Y
f (x) = px (1 − p)1−x verosimiglianza
i
e
n t
f (T ) = p (1 − p)n−t distribuzione di probabilità della statistica,
t
dove t è #(Xi = 1) Per dimostrare che T è la statistica sufficiente occorre lavorare con la
distribuzione dei dati condizionata:
P
xi
P −1
p i(p) i (1−xi ) pt (1 − p)n−t n
f (x|t) = n t
= n t
=
t
p (1 − p)n−t t
p (1 − p)n−t t
che è il reciproco del fattore binomiale che ci dice il numero di combinazioni di n elementi di
classe t; per cui, la probabilità dei campioni che hanno tutti lunghezza n e totale t, f (x|t),
è pari al reciproco del numero di questi possibili campioni, quindi conoscere t è sufficiente e
T è una statistica sufficiente per p.
Per esemplificare, poniamo n = 5 e t = 3; i campioni di lunghezza 5 e totale 3 sono 53 =
5!
(5−3)!3!
= 120
10
= 10:
i Xi X i X i Xi Xi
1 1 1 1 0 0
2 1 1 0 1 0
3 1 1 0 0 1
4 1 0 1 1 0
5 1 0 1 0 1
6 1 0 0 1 1
7 0 1 1 1 0
8 0 1 1 0 1
9 0 1 0 1 1
10 0 0 1 1 1
condizionatamente al loro totale t, questi campioni hanno tutti la stessa probabilità, f (x|t),
−1
che è pari al reciproco del numero di tutti i possibili campioni, f (x|t) = 53 1
= 10 , dato
che tutta l’informazione rilevante è stata assorbita da t.
Come detto inizialmente, si può dimostrare che, se stiamo trattando un modello che appartie-
ne alla famiglia esponenziale, una statistica sufficiente per i dati è T = ni=1 Ψ(Xi ). Difatti,
P
sempre nel caso, X ∼ Bin(1, p), sappiamo che A(θ) = −log(1 + eθ ), θΨ(x) = θx e h(x) = 0,
per cui, dato che Ψ(·) è la funzione identità (Ψ(x) = x), si ha T = ni=1 Ψ(Xi ) = i Xi che
P P
41
è sufficiente per θ e per p.
Questo risultato è valido per tutte le distribuzioni appartenenti alla famiglia esponenziale e
questo ci permette, peraltro, di ricavare immediatamente le distribuzione a priori coniugata
e quindi la distribuzione a posteriori. In particolare:
m S n t (S + t)
E[−A(θ)|x] = + = (21)
(m + n) m (m + n) n m+n
ossia, come al solito è ottenuto come media ponderata tra l’opinione a priori e la stima
m n
frequentista. I pesi (m+n) e (m+n) riflettono la precisione della prior e dei dati: se n è molto
grande si da più peso ai dati e quindi alla stima frequentista, se m è predominante il valore
atteso a posteriori tende alla stima a priori.
42
Dimostriamo, innanzitutto che questa distribuzione appartiene alla famiglia esponenziale:
2
1
log √1 e− 2 (x−θ)
f (x|θ) = e 2π applichiamo esponenziale e logaritmo
2
1
log √1 +log e− 2 (x−θ)
=e 2π semplifichiamo ed espandiamo il quadrato
− 12 log(2π)− 12 x2 − 21 θ2 +xθ − 12 θ2 +xθ− 12 log(2π)− 21 x2
=e =e
quindi questa distribuzione appartiene alla famiglia esponenziale con A(θ) = − 12 θ2 , Ψ(x) =
xθ e h(x) = − 21 log(2π) − 21 x2 .
Dato che Ψ(x) = x, si ha T = i Ψ(x) = i xi e E[Ψ(x)] = −A0 (θ =) = −[− 12 2θ] = θ.
P P
Ovviamente, se includiamo in A(θ) la parte che non di pende da θ il risultato non cambia,
ad es.: A(θ) = − 12 θ2 − 21 log(2π) → E[X] = −[− 12 2θ] + 0 = θ.
S2 m 2 − S )2
= ce 2m2 e− 2 (θ m
S2 m 2 S 2
dove ce 2m2 è una costante e e− 2 (θ − m ) è il kernel di una distribuzione normale con media
S
m
e varianza m1 π(θ) ∼ N ( mS 1
, m ).
S+t 1 S+t
e con gli stessi passaggi di prima si arriva a π(θ|x) ∼ N m+n , m+n , dove m+n è la stima
P
S+t m S n x
bayesiana, infatti E[θ|x] = m+n = m+n m
+ m+n x̄, con x̄ = n i = Tn , e m+n1
è una misu-
1
ra dell’incertezza che è < m dato che a posteriori, logicamente, c’è meno incertezza sulle
concliusioni.
13 Objective prior
Possiamo fare una distinzione tra due tipologie di bayesiani.
I primi bayesiani erano oggettivi, ossia in accordo con il paradigma bayesiano e, in partico-
lare, sul considerare θ una v.a. e sul fare un’inferenza basata sul rischio a posteriori (funzione
di rischio in cui la stima è in pratica una decisione da prendere e per questo si minimizza il
valore atteso della funzione di perdita); tuttavia, non esprimevano alcuna opinione a priori
43
su θ, in modo tale che il risultato dipendesse solo dai dati del campione. Questi bayesiani
si distinguono, comunque, dai frequentisti, anche se numericamente pervengono allo stesso
risultato, perchè interpretano le stime in modo diverso (in particolare gli intervalli di confi-
denza).
I bayesiani soggettivisti sono quelli che, invece, esprimono un’opinione a priori che vuo-
gliono far pesare sulla stima del parametro e quindi calibrano gli iperparametri della prior
in modo coerente alle loro aspettative.
Finora abbiamo ragionato dal punto di vista soggettivista, perchè abbia formulato delle prior
che incidevano in modo più o meno forte sui risultati.
In genere, il modo più naturale per non esprimere alcuna opinione a priori sul θ è assume-
re che questo abbia una distribuzione uniforme in un certo intervallo (natural objective
prior on θ for model f (x|θ)): θ ∼ U nif (a, b).
Senza porre limiti si avrà che π(θ) ∝ c; questo tuttavia può causa due ordini di problemi:
π(θ)f (x|θ)
π(θ|x) = R ,
Θ
π(θ0 )f (x|θ0 dθ0
ore se il denominatore è finito, Θ π(θ0 )f (x|θ0 dθ0 < ∞, si avrà che Θ π(θ|x)dθ = 1 ossia
R R
la posterior è propria.
Quindi è possibile utilizzare una prior costante su tutto l’insieme dei numeri reali solo
se si ∃π(θ|x) ed integra a 1.
44
Lezione del 26/03/2018
1)
θ = p è un parametro continuo con un campo di variazione limitato nell’intervallo [0, 1]. É
natuale quindi assumere per θ una prior Uniforme nel medesimo intervallo: p ∼ U nif (0, 1) →
π(p) = 1 con (0 < p < 1).
2)
p
Il parametro è η = log 1−p ; al parametro originario si ritorna applicando la trasformazione
eη
logistica inversa al logit, p = 1+e η.
δp eη (1 + eη ) − eη (eη ) eη
π(η) = = = .
δη (1 + eη )2 (1 + eη )2
π(η) è una funzione di densità che non è più uniforme ma è una trasformata matematica del
log-odds, detta f.d.p. logistica (6=f.logistica).
La funzione di densità logistica è simile alla normale standard in quanto è centrata intorno
2
allo zero ma ha una varianza maggiore e pari a V ar(η) = π3 .
45
Quindi se ci fossero due ricercatori ognuno dei quali fa inferenza oggettiva, su p e η rispetti-
vamente, assumendo un’uniforme, arriverebbe a conclusioni diverse, a due stime incoerenti
tra di loro.
La soluzione a questo problema è stata proposta da Jeffreys solo nel 1946, sebbene il problema
si sia posto molto tempo prima.
• varianza dello score associato a una data funzione di verosimiglianza, ossia il valore
atteso della sua derivata logaritmica al quadrato:
2
d
I(θ) = EX logf (x|θ)
dθ
e poiché il valore atteso dello score è nullo, la sua varianza coincide con il momento del
secondo ordine.
Si può dimostrare che, sotto condizioni di regolarità, le due espressioni coincidono quando il
supporto della X non dipende dal parametro.
Esempio1 Ipotizziamo di avere un modello normale per i dati e di voler fare inferenza
oggettiva sulla media, X ∼ N (θ, σ 2 ), con σ 2 noto, per cui:
1 1 2
fX = √ e− 2σ2 (x−θ)
σ 2π
1 1 1 1 1
logf (x|θ) = − log(2πσ 2 ) − 2 (x − θ)2 = − log(2π) − log(σ 2 ) − 2 (x − θ)2
2 2σ 2 2 2σ
46
δlogf (x|θ) 1
= 2 (x − θ)
δθ σ
L’informazione di Fisher di X rispetto al parametro ignoto è quindi pari a:
2 2
δlogf (x|θ) 1 1 2 1 1
= 4 (σ 2 ) = 2
I(θ) = E = EX 2
(x − θ) = 4
EX (x − θ)
δθ σ σ σ σ
q
1
Per cui la prior di Jeffreys in questo caso è: π(θ) ∝ σ2
= σ1 .
Esempio2 Ipotizziamo in questo caso che vogliamo fare inferenza sulla varianza ignota.
Calcoliamo il logaritmo della verosimiglianza e lo score rispetto a σ 2 riferito ad una sola
osservazione:
1 1 1 1 1
logf (x|σ 2 ) = − log(2πσ 2 ) − 2 (x − µ)2 = − log(2π) − log(σ 2 ) − 2 (x − µ)2
2 2σ 2 2 2σ
δlogf (x|σ 2 ) 1 2
2
= − 2
+ 4
(x − µ)2
δσ 2σ 4σ
Per calcolare l’informazione di Fisher applichiamo la seconda definizione, quindi calcoliamo
anche la derivata seconda:
quidni si ha:
2 1 σ 2
I(σ ) = −EX − (x − µ)
2σ 4 σ 8
1 1 2
=− + EX [(x − µ) ]
2σ 4 σ6
1 1 1
=− 4 + 4 = 4
2σ σ 2σ
Per cui la prior di Jeffreys in questo caso èqun’iperbole (valori della varianza via via più
grandi diventano più improbabili): π(σ 2 ) ∝ 2σ1 4 = σ21√2 .
Esempio3 Ipotizziamo di avere un modello per una variabile di Bernoulli, X ∼ Bin(1, p),
e lavoriamo inizialmente sul parametro originario, per cui la logverosimiglianza è la seguente:
Calcoliamo lo score ripetto a p e poi la derivata seconda per applicare la seconda definizione
dell’informazione:
δlogf (x|p) x 1−x
= −
δp p 1−p
47
Quindi:
x 1−x E[X] E[1 − X] p 1−p 1−p+p 1
I(p) = −EX − 2− 2
= 2
+ 2
= 2+ 2
= =
p (1 − p) p (1 − p) p (1 − p) p(1 − p) p(1 − p)
1
π(p) ∝ p
p(1 − p)
p
Se, invece, lavoriamo sul logit il parametro è θ = log 1−p
: e la log verosimiglianza è:
δlogf (x|θ) eθ
=x−
δθ (1 + eθ )
eθ eθ
I(θ) = −EX − =
(1 − eθ )2 (1 − eθ )2
N.B. Dato che la prior di Jeffreys risolve il problema dell’incoerenza, in questo caso assumere
√
θ
una prior su p proporzionale a √ 1 o su θ proporzionale a (1−ee θ ) porta allo stesso risultato.
p(1−p)
λx
f (x|λ) = e−λ −→ logf (x|λ) = −λ + xlogλ − logx!
x!
δlogf (x|λ) x
= −1 +
δλ λ
δ 2 logf (x|λ) x
= −
δλ2 λ2
48
e infine ricaviamo l’informazione rispetto a λ:
X E[X] λ 1
I(λ) = −EX − 2 = 2
= 2 = .
λ λ λ λ
1
π(λ) ∝ √ .
λ
Ora, per fare inferenza occorre naturalmente conoscere la posterior ma le prior di Jeffreys
hanno il vantaggio di essere direttamente distribuzioni coniugate alcune volte, altre volte sono
limiti di distribuzioni coniugate al tendere a zero di alcuni parametri, per cui la posterior si
ricava facilmente. Nell’Esempio3, il valore atteso a posteriori:
1
P
xi +
i 2
pe = E[p|x] =
n + 12 + 1
2
14 Prediction
Anche quando si fa inferenza bayesiana è interessanre la predizione, ossia la previsione di
una ipotetica ulteriore osservazione, E[xn+1 ], sulla base delle n già osservate, x1 , . . . , xn ; in
particolare, in questo ambito, date n osservazioni si vuole ricare la distribuzione di una nuova
osservazione condizionata ai dati osservati, che è pari a:
Z
f (xn+1 |x) = f (xn+1 |θ)π(θ|xdθ) (22)
49
Esempi in cui è possibile ricavare f (xn+1 |x)
Es. 1 Beta-Binomiale
Xn+1 ∼ Bern(e
p) dove pe è la stima bayesiana della probabilità di successo −→ Xn+1 |x ∼ Beta
P
xi + α
i
E[Xn+1 |x] =
n+α+β
Es. 2 Multinomiale-Dirichlet
Xn+1 ∼ M ult −→ Xn+1 |x ∼ Dir. Si osservano dapprima n soggetti con categorie di risposta
(frequenze) y1 , y2 , . . . , yk , dopo m nuovi soggetti di cui si vuole prevedere la frequenza yj
αj + yj
E[yj ∗ |y] = m P
n + j αj
Es. 3 Poisson-Gamma
Xn+1 ∼ P ois −→ Xn+1 |x ∼ Gamma.
P
( i xi + α)(β + n)
E[Xn+1 |x] = 1
1 − β+n
Per fare inferenza calcoliamo il posterior odds ratio, dato dal rapporto tra due probabilità
a posteriori:
P (Θ0 |x)
0< T1 (23)
P (Θ1 |x)
50
- se > 1 NRH0 in quanto, alla luce dei dati, cioè aposteriori, H0 è più probabile di H1 ,
- se < 1 RH0 .
La probabilità dello spazio che corrisponde all’ipotesi i -esima è definita come l’integrale, sul
corrispondente spazio, della posterior:
Z
P (Θi |x) = π(θ|x)dθ , i = 0, 1.
Θi
Tuttavia, si pone un problema se sotto l’ipotesi nulla si assume che il parametro θ corrisponde
a un singolo punto, H0 : θ = θ0 , in particolare il posterior odds ratio risulterebbe sempre
< 1 e quindi si rifiuterebbe sempre H0 . La soluzione a questo problema consiste nel definire
un intervallo intorno al punto.
Ad esempio, se vogliamo verificare il seguente sistema di ipotesi:
H : µ = µ
0 0
H : µ =
6 µ0
1
modifichiamo queste ipotesi in modo tale che nessuna delle due ipotesi coindida con un
punto:
H : µ − < µ < µ +
0
H : µ ∈ [µ − , µ + ]
1
0 |x)
Occorrerebbe però fissare ; quello che in genere si fa è calcolare lim PP (Θ ma anche questo
→0 (Θ1 |x)
risulta complicato quando non ci sono formule esplicie per P (·) perchè le probabilità an-
drebbero calcolate numericamente; risulta conveniente in questo caso ragionare in termini di
mistura, ossia definendo due diverse prior, valide sotto H0 e H1 , rispettivamente, a seconda
dello spazio cui θ può appartenere, e le indichiamo con: π00 (θ) e π10 (θ).
Queste due prior godono della proprietà di integrare a 1 sotto la relativa ipotesi:
Z
πi0 (θ)dθ = 1 , i = 0, 1.
Θi
Definiamo inoltre le due probabilità a priori (prima di aver osservato i dati) che l’i -esima
ipotesi sia vera (i = 0, 1):
- λ0 = P (Θ0 ) prior belief per H0 ,
- λ1 = P (Θ1 ) prior belief per H1 .
Ad esmpio se poniamo λ0 = λ1 = 1/2 stiamo esprimendo una situazione di indifferenza; se,
invece, λ0 = 0.9 e λ1 = 0.1 vuol dire che a priori l’ipotesi nulla è molto più probabile.
Si definisce, quindi, la prior su tutto la spazio come mistura, che è una funzione di densità
definita per casi a seconda di dove è collocato θ:
λ π 0 (θ) se θ ∈ Θ
0 0 0
π(θ) =
λ π 0 (θ) se θ ∈ Θ
1 1 1
51
π(θ) è una f.d.p propria, in particolare, l’integrale su tutto lo spazio (unione) è 1:
Z
π(θ)dθ = 1 , Θ0 ∪ Θ1 = Θ
Θ0 ∪Θ1
Dimostrazione Z Z Z
π(θ)dθ = λ0 π00 (θ)dθ + λ1 π10 (θ)dθ = 1
Θ Θ0 Θ1
questa somma è pari a 1 dato che ognugno dei due integrali è pari a 1 e λ0 + λ1 = 1 (è in
sostanza una media ponderata tra due densità).
La posterior si ricava applicando il th. di Bayes:
A questo punto è possibile verificare il test, calcolando il posterior odds ratio, dove le
probabilità sono ottenute come:
52
Lezione del 16/04/2018
Verifica delle ipotesi (segue)
(Ripetizione) In ambito bayesiano partiamo da un modello per i dati, X ∼ f (x|θ), e dalla
distribuzione del parametro, θ ∼ π(θ) e abbiamo due ipotesi che corrispondono a due insiemi
disgiunti dello spazio dei parametri: a differenza dell’approccio frequentista, le due ipotesi
a priori sono sullo stesso piano , non c’è un livello di significatività o la potenza del test,
occorre valutare solo quale delle due ipotesi è preferibile. Per la verifica del test si calcola il
posterior odds ratio:
- se > 1 si preferisce H0 ,
- se < 1 si preferisce H1 ,
- se = 1 situazione di ideale indifferenza (solo teorica).
Se l’ipotesi nulla corrisponde a un singolo punto possono verificarsi dei problemi; la soluzione
migliore in questo caso consiste nel nel modificare le ipotesi, defininendo un intervallo intorno
a quel punto, si pone però l’ulteriore problema di definirne anche l’ampiezza.
Si preferisce, quindi, il c.d. approccio mistura che consiste nel definire due prior completa-
mente separate, valide una sotto l’ipotesi nulla e l’altra sotto l’ipotesi alternativa e indicate,
rispettivamente, con: π00 (θ) e π10 (θ); sono distribuzioni anche appartenenti a famiglie diverse,
definite ognuna nel relativo spazio, a condizione in esso integrino a 1.
Aggiungiamo altri due parametri, le probabilità a priori:
- λ0 = P (Θ0 ) prior belief che sia vera H0 ,
- λ1 = P (Θ1 ) prior belief che sia vera H1 .
La distribuzione a priori complessiva, definita su tutto lo spazio dei parametri, è ottenuta,
appunto come mistura:
λ π 0 (θ) se θ ∈ Θ
0 0 0
π(θ) =
λ π 0 (θ) se θ ∈ Θ
1 1 1
Esempio
53
Per verificare il sistema di ipotesi occorre calcolare il posterior odds ratio; quindi, vediamo
com’è fatta la posterior:
λi πi0 (θ)f (x|θ) 0 : θ ∈ Θ
0
π(θ|x) = , i=
m(x) 1 : θ ∈ Θ
0
dove m(x) = Θ π(θ)f (x|θ)dθ = λ0 Θ0 π00 (θ)f (x|θ)dθ + λ1 Θ1 π10 (θ)f (x|θ)dθ è la verosimi-
R R R
glianza marginale.
λi Θ πi0 (θ)f (x|θ)dθ
R
Quindi si può calcolare il p-o-r sapendo che P (Θi |x) = i
m(x)
.
ossia è pari al rapporto tra le due verosimiglianze marginali definite in cuascuno spazio.
Il Bayes factor può essere interpretato, innanzitutto, come il rapporto di verosimiglianza
frequentista; tuttavia, mentre in ambito frequentista si confronta il massimo della verosimi-
glianza in due punti, ff (x|
(x|θ̂0 )
θ̂1 )
nel bayes factor si confronta la media della verosimiglianza nei
due spazi calcolate con le distribuzioni a priori in essi definite (vedi figura).
Inoltre, si può dimostrare che, se λ0 6= λ1 6= 12 , il Bayes factor può essere scritto come il
rapporto tra la probabilità a posteriori e a priori sotto H0 tutto diviso per lo stesso rapporto
sotto H1 :
P (Θ0 |x)/P (Θ0 ) P (Θ0 |x) P (Θ0 )
BF01 = =
P (Θ1 |x)/P (Θ1 ) P (Θ1 |x) P (Θ1 )
e, quindi, può essere interpretato come il rapporto tra l’odds ratio a posteriori e quello a
priori.
Infine un’ultima interpretazione del BF01 si può dare quando λ0 = λ1 = 21 , cioè quando a
priori c’è indifferenza tra le due ipotesi diventa l’odds ratio a posteriori.
54
BF01 Forza dell’evidenza a favore di H0 rispetto ad H1
Tutto questo può essere molto difficile da calcolare nella pratica, perchè ci sono integrali
molto complessi. Per questo si preferisce calcolare il Bayesian Information Criterion o
BIC con il quale poi approssimare il Bayes factor (viene usato anche dai non bayesiani in
ambito di selezione del modello).
Esempio
Supponiamo di dover confrontare due modelli (ipotesi) in base ai quali i dati hanno una
certa distribuzione:
M : x ∼ f (x|θ ), θ ∈ Θ
0 0 0 0 0
M : x ∼ f (x|θ ), θ ∈ Θ
1 1 1 1 1
In questo caso, ancora più generale, si assume che non solo le prior sul parametro possono
essere diverse ma anche che i dati possono seguire distribuzioni diverse.
m0 (x)
Secondo la teoria del Bayes factor occorre calcolare BF01 = m 1 (x)
, dove:
Z
mi (x) = πi0 (θi )fi (x|θi )dθi ,
Θi
per i = 0, 1. Il problema è calcolare mi (x) per i due modelli e per questo il Bayes factor
viene approssimato utilizzando in BIC.
Innanzitutto, si calcola il massimo della verosimiglianza sotto i due modelli:
55
punto, si può dimostrare che:
1
BF01 = e 2 (BIC1 −BIC0 ) > 0.
Un indice collegato al BIC è l’Aikaike Information Criterion o AIC che è stato svilup-
pato in ambito frequentista ma l’idea è sempre la stessa, quella di penalizzare la massima
verosimiglianza del modello:
AICi = −2li (θ̂i ) + 2pi .
Rispetto al BIC cambia il termine di penalità, in particolare in questo caso si tiene conto
solo della complessità del modello, mentre nel BIC si tiene conto anche della dimensione
del campione come log(n). La penalità del BIC risulta quindi più forte, per questo è gene-
ralmente preferito all’AIC, in quanto tende a selezionare modelli con un minor numero di
parametri ovvero di componenti e quindi più parsimoniosi.
56
16 BAYESIAN COMPUTATION
Tutto quello visto finora è matematicamente molto complesso ma ha suscitato un notevole
interesse per moltissimi anni; tuttavia, l’inferenza bayesiana, fino a non molto tempo fa si
era arenata per la parte computazionale, perchè non si riuscivano a risolvere problemi molto
complessi. Con lo sviluppo dei metodi informatici di calcolo però l’inferenza bayesiana è
riemersa.
Tutta l’inferenza bayesiana viene riassunta nella distribuzione a posteriori, che in forma più
generale si può scrivere come:
π(θ)f (D|θ)
π(θ|D) = (25)
m(D)
R
dove m(D) = π(θ)f (D|θ)dθ, ossia come il prodotto tra la distribuzione a posteriori e la
distribuzione dei dati diviso la verosimiglianza marginale.
A parte i casi di distribuzioni coniugate (per lo più didattici), non esiste un modo semplice
per calcolare m(D) in forma esplicita e in modo semplice nelle applicazioni reali. Da qui la
necessità di sviluppare metodologie/algoritmi di calcolo più sofisticate.
Distinguiamo due approcci per l’appossimazione di m(D):
1. Deterministico, che utilizza la quadratura e il metodo di Laplace,
I metodi Deterministici
17 La Quadratura
La quadratura è il metodo deterministico più semplice e intuitivo e, in generale, consiste
nell’approssimare un integrale con una somma calcolabile.
Ad esempio, se consideriamo un generico integrale di una funzone g(·) sotto una funzione
f (·) questo sarà pari a:
Z Q
X
g(x)f (x)dx = g(xq )wq (Q*)
q=1
57
esattamente come una somma.
A seconda di come vengono defini nodi e pesi e del metodo utilizzato, è possibile distinguere
diversiti tipi di quadratura.
Nella Quadratura Uniforme data una distribuzione f (x) (ad es. distribuzione norma-
le)(grafico), per determinare i nodi si costruisce una griglia di punti sull’asse reale, in un
certo intervallo, cioè i punti xq tra gli estremi dell’intervallo considerato sono equidistanzia-
ti. Per ogni punti si defnisce un peso pari alla densità calcolata nel punto e rinormalizzata,
in modo tale da ottenere pesi che sommino a 1:
f (xq )
w q = PQ
r=1 f (xr )
58
Lezione del 18/04/2018
La Quadratura nell’inferenza bayesiana (Ripetizione)
R
In generale dato un integrale g(x)f (x)dx, che altro non è che il valore atteso di una
funzione g(·) sotto un’altra funzione f (·), questo può essere approssimato, con il metodo
della quadratura, mediante una somma:
Z Q
X
g(x)f (x)dx = g(xq )wq ,
q=1
Tuttavia, la distribuzione π(θ|D) è difficile da trattare analiticamente perchè non esiste una
formula esplicita (o se esiste è difficile da calcolare) ma, data l’uguaglianza (12), possiamo
R
ricorrere alla quadratura, approssimando l’integrale g(x)π(θ|D)dθ, e quindi il valore atteso
sotto la distribuzione a posteriori E[g(θ)|D], con una somma.
Definiamo, dunque, una griglia di punti sullo spazio del parametro unidimensionale (retta-
segmento), cioè i nodi θ1 , θ2 , . . . , θQ ; per ogni nodo occorre calcolare il relativo peso wq dato
dal prodotto tra la prior e la verosimiglianza dei dati, normalizzato per il totale dei pesi (in
modo tale che sommino a 1):
π(θq )f (D|θq )
wq = P .
r π(θr )f (D|θr )
Q
X
E[g(θ)|D] ≈ g(θq )wq .
q=1
59
17.1.1 Esempio1: caso Beta-Binomiale
Consideriamo dapprima il caso in cui abbiamo una distribuzione a priori coniugata, cioè
tale per cui la distribuzione a posteriori appartiene alla stessa famiglia distributiva; così,
conoscendo la soluzione possiamo confrontare i risultati ottenuti attraverso la quadratura con
quelli esatti. Sia X una v.a. bernoullina, X ∼ Bin(1, p), il cui parametro p ha distribuzione
Beta, p ∼ Beta(α, β). Sotto questo modello la distribuzione dei dati (verosimiglianza dei
P P
dati condizionata al parametro) è f (D|θ) = p i xi (1 − p)n− i xi cioè la verosimiglianza della
distribuzione di Bernoulli.
Per calcolare la distribuzione a posteriori sfruttiamo il fatto che il parametro ha un supporto
limitato p ∈ (0, 1), quindi consideriamo come nodi pq = 0.01, · · · , 0.99 e calcoliamo i pesi wq
(N.B. consideriamo solo il kernel della prior):
P
x P
pα−1
q (1 − pq )β−1 pq i i (1 − pq )n− i xi
wq = P P .
α−1 (1 − p )β−1 p i xi (1 − p )n− i xi
P
p
r r r r r
Q Q
X X
E[p|D] ≈ pq w q Var[p|D] ≈ [pq − E(p|D)]2 wq .
q=1 q=1
Come si è detto, i risultati ottenuti in seguito alla quadratura possono essere confrontati con
quelli veri ricavati tramite le formule:
α̃ α̃β̃
E[p|D] = Var[p|D] =
α̃ + β̃ (α̃ + β̃)2 (α̃ + β̃ + 1)
P P
dove α̃ = α + i xi e β̃ = β + n − i xi .
60
Figura 17: Distribuzione lognormale
1 1 2
π(λ) = √ e− 2τ 2 (logλ−µ) ,
λ 2πτ 2
61
17.2 MULTIPARAMETRIC CASE
In questo caso il parametro θ è un vettore. In teoria è possibile applicare la stessa tecnica,
ossia:
Z Q
X
g(θ)π(θ|D)dθ ≈ g(θq )wq ,
q=1
dove π(θ|D) è la distribuzione a posteriori dei parametri dato i dati, g(·) è una funzione
vettoriale che può restituire più argomenti, dato che è calcolata in θq vettori di nodi con
q = 1, . . . , Q, e wq sono i pesi (scalari).
Inoltre se:
- g(θ) = θ otteniamo direttamente il vettore dei valori attesi a posteriori E(θ|D),
- g(θ) = [θ − E(θ|D)][θ − E(θ|D)]0 otteniamo la matrice quadrata di varianza e covarianza.
Di fatto però questa tecnica non funziona perchè, se il numero di parametri è grande, il
numero di punti di quadratura diventa troppo elevato e non si riesce ad ottenere un risultato
(neanche la somma); ad esempio con 5 parametri, fissato il numero di nodi Q = 11, 21, 41, . . .
del caso unidimensionale il numero, di nodi effettivo diventa 115 , 215 , 415 , . . . .
Per risolvere il problema a livello computazionale si utilizza un altro metodo deterministico,
più avanzato della quadratura e che consente di risolvere in modo approssimato casi anche
molto complessi: l’approssimazione di Laplace.
18 L’approssimazione di Laplace
L’obiettivo del metodo, se θ è un parametro continuo, è quello di approssimare la distribu-
zione a posteriori con una normale che vi si avvicina il più possibile, dato che la gaussiana
è quella distribuzione che sotto certe condizioni riesce ad approssimare quasi tutte le altre
distribuzioni (è la scelta più naturale quando si deve approssimare una distribuzione non
nota): π(θ|D) ≈ N (µ̃, τ˜2 ) (la distribuzione approssimata è una normale con parametri µ̃ e
τ˜2 ).
62
e lo approssimiamo con una serie di Taylor del secondo ordine (cioè si arriva fino alla derivata
seconda) intorno al punto θb che massimizza il logaritmo della distribuzione congiunta:
Figura 18: Approssimazione della distribuzione congiunta (in scala logaritmica) intorno al
suo massimo θb
∂logf (θ,D)
dove il termine ∂θ è nullo.
θ=θb
Semplificando e tornando alla funzione originaria, e quindi alla scala iniziale, (cioè applichia-
mo l’esponenziale a entrambi i menbri dell’ultima espressione) si ha:
∂ 2 logf (θ,D)
1
f (θ, D) ≈ e logf (θ,D)+
b
2 ∂θ 2
θ=θ
b b D)e− 12 h(θ)(θ−
≈ f (θ,
b b2
θ)
∂ 2 logf (θ,D)
dove: h(θ) = −
b
∂θ2 θ=θb
è la derivata seconda cambiata di segno (espediente utiliz-
zato per avere il meno che c’è nella densità della normale).
Ne consegue che, rinormalizzando opportunamente, si ottiene la normale che approssima
meglio la distribuzione a posteriori ignota, cioè:
µ, τe2 )
π(θ, D) ≈ N (e (27)
63
con:
e = θb
µ e b −1
τe2 = h(θ)
64
Lezione del 23/04/2018
(Ripetizione) La quadratura è un metodo molto intuitivo che funziona bene in un numero
limitati di casi, in particolare quando ci sono pochi parametri; negli altri casi si ricorre ad
un altro metodo deterministico, l’approssimazione di Laplace, il cui obiettivo è quello di
approssimare la posterior che ha al numeratore la congiuntamtra tra i parametri e i dati,
ne prendiamo il logaritmo e ne facciamo un’espansione di Taylor del II ordine attorno al
massimo della logaritmo della funzione congiunta, che è sempre calcolabile, e poi ritorniamo
alla scala originaria. La posterior viene così approssimata con una distribuzione Normale,
µ, τe2 ), molto simile ad uno stimatore MLE centrato intorno al massimo e con varianza
N (e
pari all’inversa dell’informazione.
Assunta una distribuzione per i dati, X ∼ Bin(1, p), e una prior per il parametro d’interesse,
p ∼ Beta(α, β), la verosimiglianza dei dati è pari a:
P P
xi
f (D|p) = p i (1 − p)n− i xi
.
Calcoliamo, quindi, la distribuzione congiunta dei dati e del parametro come il prodotto tra
la prior sul parametro e la veorsimiglianza:
1 P P
f (p, D) = (α, β)pα−1 (1 − p)β−1 p i xi (1 − p)n− i xi .
B(α, β)
P P
Riconosciamo che αe) = α + i xi e βe = (β + n − i xi sono gli iperparametri della distribu-
zione Beta a posteriori; mentre nel termine costante (rispetto a p) sono inclusi tutti i termini
che non dipendono dal parametro e che, quindi, nel prosieguo posso essere trascurati.
Calcoliamo le derivate:
δlogf (p, D) (e
α − 1) (βe − 1)
= − ,
δp p 1−p
δ 2 logf (p, D) (e
α − 1) (βe − 1)
= − − .
δp2 p2 (1 − p)2
Per massimizzare logf (p, D) uguaglaimo a 0 la derivata prima:
(e
α − 1) (βe − 1) (e
α − 1)(1 − p) − p(βe − 1)
− = 0 −→ =0
p 1−p p(1 − p)
65
poichè p(1 − p) > 0∀p, si ha:
e − 1 − (e
α α − 1)p − (βe − 1)p = 0
e − 1 − P (e
α α − 1 + βe − 1) = 0
e − 1 − P (e
α α + βe − 2) = 0
↓
e−1
α
p̂ =
e + βe − 2
α
Abbiamo ricavato, in questo modo, in punto intorno al quale fare l’approssimazione di taylor
e che coincide con la moda della distribuzione Beta a posteriori.
Possiamo infine approssimare la posterior con una distribuzione Normale, N (eµ, τe2 ), dove:
e = p̂
_ µ
e−1
α β−1
−1
_ τe2 = + è l’inversa della derivata seconda cambiata di segno e calcolata
e
p̂2 (1−p̂)2
in p̂.
Assumiamo che i dati abbiano una distribuzione di Poisson, X ∼ P ois(λ), e che il relativo
parametro λ abbia distribuzione Lognormale, λ ∼ LogN .
Anzichè lavorare con λ, per semplificare i calcoli, lavoriamo con il parametro canonico θ =
log(λ), per cui la funzione di verosimiglianza dei dati può essere scritta come:
P P
xi
λ i eθ i xi
θ
f (D|θ) = Q e−nλ = Q e−ne .
i xi ! i xi !
1 1 2
π(θ) = √ e− 2τ 2 (θ−µ)
2πτ 2
Ne calcoliamo le derivate:
δlogf (θ, D) X 1
= xi − neθ − 2(θ − µ) 2 ,
δθ i
2τ
δ 2 logf (θ, D) 1
2
= −neθ − 2 .
δθ 2τ
66
Occorrerebbe a questo punto trovare il massimo θ̂ azzerando la derivata prima; tuttavia, in
questo caso non c’è una soluzione esplicita (c’è il termine eθ che è sempre > 0), anche se
possiamo calcolare le derivate.
Per massimizzare logf (θ, D) è possibile utilizzare l’algoritmo Newton-Raphson, l’algoritmo
di ottimizzazione migliore quando lavoriamo con una funzione sufficientemente regolare e
differenziabile. Questo algoritmo parte da un valore iniziale (initial guess) θ(0) = logx̄
(logaritmo della media perchè stiamo lavorando in scala logaritmica e perche la media è
una stima di λ), calcola le derivate della funzione e trova un nuovo punto aggiustando il
precedente per il rapporto tra la derivata prima e la derivata seconda; al generico passo t:
67
Lezione del 02/05/2018
π(θ|D) ∼ Nm (µ,
e Te),
dove:
– µe è il vettore delle medie,
– Te è la matrice di varianza è covarianza.
In sostanza, il numero degli elementi di θ si riflette nel numero degli elementi di µ
e e nella
dimensione della matrice Te.
Dietro questa approssimazione ci sono gli stessi passaggi del caso uniparametrico che si basa
sulla serie di Taylor.
Partiamo, quindi, dalla distribuzione congiunta del parametro e dei dati: f (θ, D) = π(θ)f (D|θ).
Applichiamo il logaritmo: log f (θ, D) = log π(θ) + log f (D|θ). Ne facciamo un’aspansione
di Taylor del secondo ordine attorno al punto θ che massimizza la log f (θ, D), definito co-
me θb = argmax logf (θ, D), il quale spesso necessità di algoritmi iterativi per poter essere
θ
trovato:
0
δf (θ, D) b − 1 (θ − θ)
b 0 H(θ)(θ
log f (θ, D) ≈ log f (θ,
b D) + (θ − θ) b − θ)
b
δθ
θ=θb 2
0
δf (θ,D)
dove il termine δθ (θ − θ)
b è uno scalare ottenuto dal prodotto scalare di un
θ=θb
vettore colonna trasposto (cioè un vettore riga) e un vettore colonna ma in realtà è pari a
zero dato che la derivata prima nel punto di massimo è nulla, mentre (θ − θ) b 0 H(θ)(θ
b − θ)
b
è una forma quadratica
costruita
intorno alla matrice delle derivate seconde cambiata di
2
segno:H(θ) = − δ δθδθf (θ,D)
0 b ; in pratica è una matrice d’informazione.
θ=θ
Applicando l’esponenziale, ritorniamo alla scala della densità originaria:
b D)e− 12 (θ−θ)
log f (θ, D) ≈ log f (θ,
b 0 H(θ)(θ−
b θ)
b
.
1
− 12 (x−µ)0 Σ−1 (x−µ)
f (X) = p e .
2π|Σ|
Quindi possiamo approssimare la posterior tramite una normale multivariata che ha media
68
in θb e matrice di var-cov pari all’inversa della matrice H(θ):
b
π(θ|D) ≈ Nm (µ,
e Te), con e = θ,
µ b b −1
Te = H(θ)
(In sintesi, noi sappiamo che tramite il metodo di Laplace possiamo approssimare al meglio
la posterior con una normale; tramite questo procedimento che è in sostanza una massi-
mizzazione, simile alla massima verosimiglianza ma senza considerare la prior, troviamo le
caratteristiche della normale.)
– in ambito bayesiano i parametri non sono fissi, per cui bisogna assumere su essi una
distribuzione a priori: β ∼ Nm (0, τ 2 I), dunque a priori si assume che i parametri sono
distribuiti come una normale multivariata centrata intorno ad un vettore di zeri con
una matrice di covarianza diagonale ossia si assume che parametri sono indipendenti,
dato che le covarianze sono nulle; generalmente, si fissa anche un τ 2 piuttosto grande
(tipo 10) perchè a priori abbiamo un’informazione vaga sui β, nel senso che non incide
in modo molto rilevante sui risultati, dunque ci si vuole affidare di più ai dati.
Per quanto riguarda la distribuzione dei dati si tratta, in pratica, di scrivere la verosimiglianza
condizionata ai parametri β; in questo caso coincide con la funzione di verosimiglianza della
Bernoulli:
Y y Y pi yI
1−yi
f (D|β) = pi (1 − pi )
i
= (1 − pi ).
i i
1 − p i
pi
(N.B. l’ultima espressione è utile dato che 1−p i
= odds e log odds = logit)
Date le assunzioni di base, la prior sui parametri è la densità della normale multivariata:
1
1
− β 0 (I −1 )β
π(β) = p e 2τ 2 .
2π|τ 2 I|
X
1
log f (β, D) = yi ηi + log(1 − pi ) − 2 β 0 β + costant
i
2τ
69
pi
dove ηi = x0i β = log 1−p i
e la costante additiva comprende tutto quello che non coinvilge
0
exi β 1
direttamente β; sapendo, inoltre, che pi = 0 , da cui 1 − pi = 0 , si ha:
1+exi β 1+exi β
X
1
x0i β
log f (β, D) = yi x0i β − log(1 − e ) − 2 β 0 β + costant
i
2τ
La f (β, D), funzione dei parametri β, è quella che dobbiamo espandere con la serie di
Taylor e possiamo osservare che si compone della logverosimiglianza del modello logistico
e del termine − 2τ12 β 0 β che costituisce un fattore correttivo che realizza lo shrinkage, ossia
avvicina la stima ML a zero e penalizza al discostarsi di β da 0.
Per procedere con l’approssimazione occorre calcolare le dirivate:
0
exi β
δ log f (β, D) X 1 X 1
= yi xi − x 0β x i − 2
β = (yi − pi )xi − 2 β (vettore dello score)
δβ i
1−e i τ i
τ
0 0 0 0
δ 2 log f (β, D) X xi (exi β )(1 − exi β ) − exi β (−xi exi β )
1
0
= x 0β
2
xi − 2
δβδβ i
(1 − e i ) τ
X xi eηi − xi e2ηi + xi e2ηi 1
= x 0β
2
xi − 2 (I)
i
(1 − e i ) τ
X eηi 1
= η 2
xi x0i − 2
i
(1 − e ) i τ
η
X ei 1 1
= η η
xi x0i − 2
i
1−e 1−e i i τ
X 1
= pi (1 − pi )xi x0i − 2
i
τ
70
Lezione del 07/05/2018
Ultimi due aspetti da vedere in ambito di approssimazione deterministica:
Come si fa una previsione su nuovi dati?
Come si trova il punto di massimo di funzioni/modelli molto complesse/i
nell’approssimazione di Laplace?
Con Laplace la posterior si approssima con una distribuzione normale con parametri µ e e τe2 ,
e è il punto di massimo della posterior e τe2 è la varianza ottenuta tramite la derivata
dove µ
seconda, per cui Z
≈ e, τe2 )dθ.
f (D0 |θ)φ(θ, µ
Anche quest’ultimo integrale può essere diffcile da calcolare, per cui si applicano metodi di
quadratura (o di Monte Carlo nel caso multivariato):
Q
X
≈ f (D0 |θq )wq
q=1
Cosa cambia? θ è un vettore e dato che la quadratura in questo ambito non è motlo
attendibile si utilizzano le simulazioni Monte Carlo:
Z
f (D0 ) = f (D0 |θ)π(θ|D)dθ
Z
≈ f (D0 |θ)φ(θ, µ
e, Te)dθ
R
1X
≈ f (D0 |θr )
R r=1
71
18.4 Trovare il massimo
Tutta l’approssimazione di Laplace ruota intorno alla ricerca del massimo della funzione
target:
θb = argmax log f (θ, D).
θ
– il massimo è necessario per fare l’espansione di Taylor sulla quale si basa l’approssima-
zione stessa;
Ricordiamo che:
log f (θ, D) = log π(θ) + log f (D|θ)
É un problema simile alla massimizzazione della logverosimiglianza in cui però c’è solo il se-
condo addendo; nell’approccio bayesiano, invece, includiamo la logprior realizzando l’effetto
di shrinkage/regolarizzazione delle stime.
Finora, abbiamo affrontato questo problema in due modi:
– applicando formule esplicite (in esempi banali, didattici in cui non c’è neanche bisogno
dell’approssimazione);
– attraverso algoritmi numerici, quali il Newton-Raphson.
Anche questi algoritmi, tuttavia, per certi modelli non funzionano bene, soprattutto quan-
do la funzione da ottimizzare è molto irregolare. Si utilizza in tal caso l’algoritmo EM,
Expectation-Massimization, nella versione bayesiana (cioè, come si è detto, non si massimizza
la logverosimiglianza ma log f (θ, D)).
I modelli di cui si parla sono i c.d. Modelli a variabile latente (modelli mistura e
modelli a classi latenti).
In questo contesto, si ragiona in termini di dati completi C = (D, Z), dove D sono i dati
osservati inizialmente e Z le variabili latenti, variabili che non possono essere osservate
ma di cui se ne suppone l’esistenza.
Riscriviamo, dunque, la target in funzione dei dati completi:
f (Z|θ)f (D|Z, θ)
f (Z|D, θ) = .
f (D|θ)
R
dove f (D|θ) = f (Z|θ)f (D|Z, θ)dZ.
72
18.4.1 Algoritmo EM
É un algoritmo iterativo quindi bisogna fissare, secondo una certa regola deterministica
ovvero casualmente, un punto inziale (initial guess) θ (0) ; successivamente si eseguono, fino
a convergenza, due passi:
• E-step: si calcola un valore atteso opportuno dato il valore precedente θ (h−1) della
stima dei paramentri:
É un valore atteso rispetto alle variabili latenti, in quanto queste non sono osservate e
quindi devono essere imputate; questo equivale a calcolare il valore atteso della funzione
target completa, rispetto alle variabili latenti che così vengono eliminate, e condizionato
ai dati osservati e al vettore dei parametri ottenuto all’iterazione precedente. Questo
valore atteso è pari a:
Z
log f (θ, C) log f (Z|D, θ h−1 )dZ
Z
• M-step: si massimizza Q(θ|θ (h−1) ) rispetto a θ, aggiornando così il valore dei para-
metri.
Riepilogo: l’obiettivo è massimizzare log f (θ, D) che somma l’evidenza dell’opinione a priori
e l’evidenza fornita dai dati; come strumenti per raggiungere tale obiettivo si utilizzano il
logaritmo della funzione congiunta che si basa sui dati completi (osservati e latenti) e sulla
distribuzione a posteriori delle latenti.
73
• pJ|Z = P rob(yij = 1|Zi = z), la probabilità di successo condizionata alla classe latente,
ossia la probabilità che un soggetto proveniente dalla classe z risponde positivamente
alla risposta j-esima. ( N.B. ce ne sono J ∗ k.)
> le probabilità di appartenenza alle classi latenti hanno distribuzione Dirichlet con
parametro α, λ = (λ1 , λ2 , . . . , λk ) ∼ Dir(α) (non possiamo formulare ipotesi sui
λz separatamente perchè devono sommare a 1), con funzione di probabilità π(λ) ∝
Qk αz −1
z=i λz ;
> le probabilità di successo hanno distribuzione Beta, pj|z ∼ Bets(a, b) (possiamo usare
la distribuzione Beta perhè queste probabilità sono svincolate tra di loro), con funzione
di probabilità π(pJ|Z ) ∝ pa−1
j|z (1 − pj|z )
b−1
.
Q yij
dove f (yi |zi , θ) = j pj|z (1 − pj|z )1−yij (espressione della distribuzione di Bernoulli condizio-
nata alla classe latente).
Al fine di semplificare l’espressione della funzione congiunta completa in logaritmo è utile
scrivere la distribuzione latente e dei dati in modo alternativo:
Si ha dunque:
X XX
log f (θ; D, Z) = (αz +nz −1) log λz + (a+njz −1) log pj|z +(b+nz −njz −1) log(1−pj|z )
z j z
Q
dove il primo addendo si riferisce ai termini di π(λ) e di i λzi , mentre il secondo a quelli
della doppia produttoria della prior sui pj|z e della distribuzione dei dati.
74
A questo punto possiamo calcolare la distribuzione a posteriori delle latenti per ciascun
soggetto per poi calcolare il valore atteso Q e massimizzarlo:
λz f (yi |Z, θ)
f (Z|yi , θ) = ,
f (yi |θ)
P
dove f (yi |θ) = z λz f (yi |Z, θ).
Algoritmo EM
Quindi, nell’E-step andiamo a imputare ogni soggetto a una classe latente, calcolando
la probabilità che quel soggetto appartenza alla classe e le frequenze n
bz e n
bjz .
Questo procedimento iterativo si ripete fino a convergenza (quando cioè viene raggiunto il
massimo della funzione target log f (θ, D)).
N.B. Se gli iperparametri, αz , a, b, sono tutti pari a 1 la distribuzione Beta coincide con
una prior Uniforme, il risultato dell’inferenza bayesiana coincide con quello frequentista e si
ottiene una stima di massima verosimiglianza; viceversa, se a 6= b 6= 1 si risente dell’effetto
della prior e si vede l’effetto di regolarizzazione.
YY YX
f (θ, D) = π(λ) π(pj|z ) λz f (yi |Z, θ) .
j z i z
75
Lezione del 09/05/2018
Esspressione della funzione target (segue)
La funzione target, anche se rappresenta il punto di partenza dell’approssimazione, non
entra direttamente nella stima ma si usa per vedere se l’algoritmo funziona e per controllare
la convergenza; la sua espressione è data dalla distribuzione congiunta in logaritmo dei
parametri e dei dati osservati:
e nei modelli a classi latenti vi sono due prior sui parametri, su λ e su p, per cui si ha:
P P
log f (θ, D) = log π(λ) + j z log π(pj|z ) + log f (D|θ)
ed esplicitando si ottiene:
P P P P
= z (αz − 1) log λz + j z (a − 1) log π(pj|z ) + (b − 1) log π(1 − pj|z ) + i log f (yi |θ)
La funzione target viene introdotta unicamente per monitorare la convergenza; inoltre, l’o-
biettivo iniziale è massimizzare questa funzione perchè equivale a massimizzare f (yi |θ) che
è proporzionale alla posterior π(θ|D) = ff(θ,D)
(D)
e quindi equivale a massimizzare la stessa
posterior. Massimizzare la posterior è un modo per ricavare lo stimatore bayesiano (moda);
peraltro, questa massimizzazione è implementata nell’approssimazione di Laplace quando la
posterior non è nota.
I metodi Stocastici
Per superare i limti dei metodi deterministici (la quadratura funziona bene ma è molto li-
mitata, l’approssimazione di Laplace richiede il calcolo delle derivate e migliora al crescere
della dimensione campionaria sulla quale non è possibile agire direttamente perchè il cam-
pione è dato) si utilizzano metodi stocastici si approssimazione il cui principale difetto è che
se diversi utenti lanciano l’algoritmo ottengono risultati differenti; d’altro canto, è noto che
all’aumentare del numero delle iterazioni/repliche MC i risultati tendono a coincidere. Il
metodo stocastico per eccellenza è il Monte Carlo Standard.
76
19 Il Monte Carlo Standard
Questo metodo ci permette di calcolare il valore atteso di una funzione g(x) sotto un’altra
funzione f (x), il quale per definizione è pari a:
Z
Ef [g(X)] = g(x)f (x)dx
R
1X
≈ ḡ = g(xi ),
R r=1
1X
≈ s2g = [g(xi ) − ḡ]
R r
Notiamo che non è necessario correggere per i g.d.l., dividendo per R − 1, in quanto la
dimensione del campione generato è, in genere, così elevata da non esserci alcuna differenza.
Calcolato s2g possiamo calcolare anche il simulation error come:
r
s2g
s.e.g =
R
il quale ci da un’idea di quanto sono attnedibili/precisi i risultati ottenuti ovvero una quan-
tificazione dell’errore.
Con il simulation error è possibile costruire intervalli di confidenza attorno alla stima Monte
Carlo:
ḡ ± zα/2 s.e.g
(tipicamente ḡ ± 2s.e.g ≈ IC95%) e in questo modo non solo ci si fa un’idea del valore
dell’integrale (cioè di ḡ) ma si costruisce una banda dei possibili valori intorno ad esso: se
è troppo larga si aumentano le repliche e, in particolare, quadruplicando le estrazioni si di-
mezza l’ampiezza dell’intervallo/banda (dato che R è sotto radice quadrata al denominatore).
77
L’applicazione più diretta costituisce un caso puramente didattico in cui, formulato il modello
e cioè:
– la distribuzione dei dati, D ∼ f (D|θ),
– la prior sul vettore dei parametri, θ ∼ π(θ),
– la posterior, π(θ|D) = π(θ)f (D|θ)
f (D)
,
supponiamo di saper calcolare la posterior e soprattutto di saper estrarre/generare dei valori
da questa, per cui:
É un caso puramente didattico perchè se sappiamo campionare dalla posterior vuol dire che
sappiamo già com’è fatta e quindi sarebbe più conveniente applicare metodi deterministici.
Esempio (Beta-Binomiale)
Data una variabile binaria con distribuzione di Bernoulli, X ∼ Bin(1, p), con parametro
p distribuito come una Beta, p ∼ Beta(α, β), conosciamo com’è fatta la posterior e i suoi
P P
iperparametri: p|D ∼ Beta(e α, β),
e dove αe = α + i xi e βe = β + n − i xi . Allora, dopo
aver applicato lo schema di Monte Carlo possiamo confrontare i risultati ottenuti tramite
simulazione con quelli veri ricavati mediante le formule chiuse e calcolarne la discrepanza.
dove π1 (θ1 |D) è la distribuzione del primo blocco di parametri e π2 (θ2 |θ1 , D) è la distribuzio-
ne del secondo blocco di parametri condizionata
! la primo, per cui possiamo anche racchiudere
θ1
i parametri in un unico vettore θ = .
θ2
Posto che non sappiamo generare valori da π(θ|D) ma sappiamo farlo da π1 e π2 :
78
3 - si calcolano il valore atteso e la varianza.
79
Lezione del 14/05/2018
La struttura è gerarchica perchè si comincia dall’alto, dal parametro che non dipende da altri
parametri. Utilizzare questa struttura comporta un notevole vantaggio, dato che introdurre
un’assunzione alla volta risulta indubbiamente più semplice.
In questo contesto può essere utile usare il metodo MC per campionare dapprima a posteriori
da σ 2 e poi sa θ|σ 2 ottenendo così delle coppie.
La stessa logica può essere utilizzata per fare delle previsioni di un nuovo valore di una
variabile di interesse.
80
esplicitiamo la posterior che, dal teorema di Bayes, risulta pari a:
π(θ)f (D|θ)
π(θ|D) = ,
m(D)
R
dove m(D) = π(θ)f (D|θ) dunque otteniamo:
R
θπ(θ)f (D|θ)dθ
Z
E(θ|D) = θπ(θ|D)dθ = R
π(θ)f (D|θ)dθ
A questo punto, possiamo notare che E(θ|D) si ottiene, in realtà, come il rapporto di due
valori attesi sotto la distribuzione a priori π(θ):
Tuttavia, è noto dalla letteratura che questo metodo può non funzionare bene, dando ri-
sultati poco attendibili, (altrimenti non ci sarebbe bisogno di metodi più avanzati), perchè
π(θ) può essere molto diversa da π(θ|D) e in tal caso campionare dalla prior non fornisce
un’approssimazione adeguata dei valori attesi. Supponiamo per semplicità di avere un solo
parametro; intuitivamente, dato che la quantità che si dovrebbe calcolare come valore atteso
sotto la distribuzione a posteriori la si calcola, invece, sotto la prior, se le due distribuzioni
sono molto distanti, si estraggono campioni una regione che non copre la zona ad alta densità
della posterior; si parla di problema di copertura, vedi Figura 17. A livello matematico, per
n → ∞, i risultati sarebbero corretti ma non a livello pratico.
Ipotizzando di poter usare efficientemente questo metodo, per calcolare la quantità d’interesse
si estrae il campione θ1 , . . . , θR dalla distribuzione a priori π(θ) e si applica il Monte Carlo
81
separatamente al numeratore e al denominatore, stimando il valore atteso a posteriori come:
1
P
θr f (D|θr )
E(θ|D) ≈ 1 Pr R
,
R r f (D|θr )
R
X
E(θ|D) ≈ θr wr
r=1
ossia una media ponderata sui valori campionati (è un po’ quello che si fa nell’importance
sampling).
Esempio Data una variabile binaria X ∼ Bin(1, p), ossia una variabile Bernoulliana,
con parametro p avente distribuzione a priori e a posteriori Gamma, con parametri α e β e
P P
e = α + i xi e βe = β + n − i xi , rispettivamente, si estraggono i valori del parametro
α
dalla prior, ottenendo le R repliche p1 , . . . , pR ∼ Beta(α, β), e si calcola il valore atteso
approssimandolo come segue:
XR
E(p|D) = p̄ ≈ pr w r ,
r=1
dove: P
x P
pr i i (1 − pr )n− i xi
wr = P P xi P .
p i
(1 − p ) n− i xi
s s s
R
X
V ar(p|D) = s2p ≈ (pr − p̄)2 wr .
r=1
82
20 Importance Sampling
Supponiamo di dover estrarre dei campioni da una v.a. per calcolare il valore atteso di una
funzione g(·) sotto una funzione f (·) del vettore casuale X:
Z
Ef [g(x)] = g(x)f (x)dx (28)
f (x)
Z
Ef [g(x)] = g(x) h(x)dx
h(x)
In pratica, dato che non sappiamo simulare da f (·) ma da h(·), si va a ponderare per il
peso w(·) il quale ci dice l’agreement (concordanza) tra le due distribuzioni: se w = 1 le
distribuzioni risultano molto simili e i pesi hanno un’influenza marginale. Dunque, si estrae
il campione x1 , x2 , . . . , xR dall’importance distribution h(x) e si calcola:
1X
Ef [g(x)] ≈ g(xr )w(xr ). (30)
R r
Anche in questo caso, però, può esserci un problema di copertura se l’importance density
h(x) è lontana dalla distribuzione f (x) dalla quale si vorrebbe campionare. Per essere
ragionevolmente sicuri dei risultati, si è soliti scegliere una distribuzione h(x) molto ampia
(ad alta varianza - h2 (x) nella figura 18 -), in modo tale che copra un’ampia porzione dello
spazio dei parametri anche se con densità bassa, ovvero copra la zona di alta densità della
f (·) target.
83
Applicando questi risultati all’inferenza bayesiana, si ottiene:
Z
π(θ|D)
E[θ|D] = θ h(θ)dθ, (31)
h(θ)
dove:
π(θ|D)
w(θ) = .
h(θ)
Si campiona, dunque, θ1 , . . . , θR da h(θ) e si calcola:
1X
E[(θ|D)] ≈ θr w(θr ). (32)
R r
Come si evince, seguendo questa impostazione, per il calcolo dei pesi w(θr ) è necessario
conoscere la posterior π(θ|D); si pone, dunque, la stessa problematica del Monte Carlo
standard.
Tuttavia, esplicitando la distribuzione a posteriori, π(θ|D) = π(θ)f (D|θ)
m(D)
, nella formula di
E[θ|D] possiamo notare che, in realtà, non è necessario conoscere completamente la posterior:
π(θ)f (D|θ)
Z
E[θ|D] = θ h(θ)dθ,
m(D)h(θ)
R
dove la verosimiglianza dei dati m(D) è pari a π(θ)f (D|θ)dθ per cui, esplicitando al
denominatore m(D) e moltiplicandola e dividendola per h(θ) si ha:
R
π(θ)f (D|θ)
θ h(θ)
h(θ)dθ
E[θ|D] = R ,
π(θ)f (D|θ)
h(θ)
h(θ)dθ
π(θ)f (D|θ)
ora, ponendo w(θ) = h(θ)
si ottiene:
R
θw(θ)h(θ)dθ
E[θ|D] = R ,
w(θ)h(θ)dθ
ossia il rapporto tra due integrali sotto l’importance distribution che possono essere calcolati
approssimando con l’Importance Sampling. Quindi, infine, si ottiene:
1
P
θr w(θr )
E[(θ|D)] ≈ 1 Pr R
. (33)
R r w(θr )
X
E[(θ|D)] ≈ θr w0 (θr ).
r
84
Esempio Data la distribuzione dei dati X ∼ Bin(1, p) il cui parametro p ∼ Beta(α, β)
e introduciamo una importance distribution h(p) uniforme nell’intervallo [0, 1] tale che, se
h(p) = 1 e p ∈ (0, 1), ogni replica sarà pr ∼ U nif (0, 1).
Figura 22
In altre parole, i pesi sono dati dal prodotto rinormalizzato tra la prior e la densità dei dati;
quindi, in questo caso non campioniamo dalla prior ma sono i pesi ad includere la stessa.
NOTA:
- Nel MC classico, campionando dalla posterior, non è necessario alcun peso;
- Nel MC "alternativo", campionando dalla posterior, il peso è pari alla verosimiglianza
dei dati normalizzata;
- Nell’IS il peso coinvolge anche la prior.
85
21.1 Le Catene di Markov
Una Markov Chain è un modello per processi stocastici, ossia per sequenze, ordinate nel
tempo, di variabili aleatorie.
Data la sequenza di v.a. X1 , . . . , Xn , si definisce modello Markov Chain di ordine k quello
secondo cui, al tempo j, la v.a. Xj è indipendente dalle precedenti condizionatamente alle
variabili XJ−k , . . . , XJ−1 :
XJ ⊥
⊥ X1 , . . . , XJ−(k+1) |XJ−k , . . . , XJ−1 .
Quindi, si può affermare che se se si assume un modello Markov Chain «il presente è influen-
zato solo dal passato più recente, metrre quello più remoto non ha alcuna influenza».
Tra tutte le catene di Markov noi consideriamo quelle del primo ordine, in cui XJ ⊥
⊥
X1 , . . . , XJ−2 |XJ−1 .
Per semplificare:
- esempio catena di Markov del primo ordine:
che è la probabilità, specifica del tempo j, che la v.a. XJ sia uguale ad un certo valore
x dato il passato Z1 , . . . , Zk
86
b) Si ha la stessa espressione vista come funzione di densità di probabilità, si parla di
densità o kernel di transizione. Il concetto è lo stesso, si modella il presente tramite il
passato.
Si evince, dunque, una caratteristica di un modello Markov Chain, la memoria limitata, dato
che non è necessario ricordare tutto il passato per fare una previsione accurata del presente.
Come si è detto l’espressione della probabilità sub a) è specifica del j-esimo tempo/iterazione;
nella pratica, tuttavia, si utilizza una semplificazione ovvero si considerano catene di Markov
time-homogeneous (omogenee nel tempo) la cui distribuzione del presente condizionata
al passato è, cioè, la stessa per tutti i tempi/iterazioni.:
PJ (X|Z1 , . . . , ZK ) = P (x|Z1 , . . . , Zk ).
Inoltre, si dice che una catena di Markov è irriducibile se è sempre possibile andare da un
stato (possibile realizzazione della variabile Markov Chain) all’altro. Supponiamo di avere
una catena di Markov di tre stati e indichiamo con una freccia la probabilità di passare da
uno stato all’altro (quando non c’è nessuna freccia vuol dire che il passaggio non è possibile).
- La catena è irriducibile se:
cioè se vi è uno stato, detto assorbente, dal quale non è possibile uscire (lo stato 3 nell’e-
sempio).
Noi facciamo riferimento a catene di Markov del primo ordine, irriducibili, time-homogeneous
e per le quali esiste una distribuzione stazionaria, ossia la distribuzione marginale della
v.a. XJ quando J → ∞ e indicata con λ(x):
Una distribuzione stazionaria ha proprietà che sono molto utili nell’inferenza bayesiana.
Caso Discreto
La distribuzione stazionaria è molto semplice, dato che nelle catene del primo ordine (k = 1)
87
ci sono solo due argomenti, il presente e il passato del tempo precedente.
Quindi, abbiamo:
- una matrice di transizione P = P (x|Z) in cui ogni elemento indica la probabilità di
muoversi in uno stato condizionatamente allo stato precedente (per cui le righe sommano a
uno); ad esempio, nel caso di tre stati si ha:
P1|1 P2|1 P3|1
P = P1|2 P2|2 P3|2
Solo quando è soddisfatta questa condizione si può dire di aver trovato la distribuzione sta-
zionaria.
0 1/2 1/2
vuol dire che se in passato si era nello stato 1 c’è una probabilià di 21 di rimanere nello stato
1 e di andare nello stato 2 e pari a 0 di andare nello stato 3. Graficamente:
Possiamo trovare la distribuzione stazionaria anche come limite della matrice di transizione
P elevata ad una potenza molto grande:
lim P t .
t→∞
88
Per cui se dobbiamo campionare da un modello Markov Chain, data la matrice di transizione
P, occorre:
• cominciare da un x1 qualsiasi;
dove R è il numero delle osservazioni che non sono indipendenti. Questo valore atteso coin-
cide con:
X
g(x)λ(x) nel caso discreto;
x
Z
g(x)λ(x) nel caso continuo.
89
Lezione del 16/05/2018
Caso Continuo
Esempio (caso continuo):
Consideriamo una seuqenza di v.a. XJ ∈ R e un modello AR(1) (autoregressivo del primo
ordine), in cui cioè la dipendenza tra le variabili è solo rispetto al tempo precedente.
É un modello tipicamente usato nelle analisi delle serie storiche in cui la distribuzione di
ogni variabile dato la precedente è una normale con media ρz e varianza 1 − ρ2 , Xj |Xj−1 =
z ∼ N (ρz, 1 − ρ2 ). Il ρ è detto parametro di auto-correlazione, dato che riguarda la stessa
variabile al tempo precedente, il quale ci da informazioni della dipendenza di un’osservazio-
ne dalla precedente (infatti è un modello AR(1)); è un parametro tale che −1 < ρ < 1 e
tipicamente i valori di interesse sono molto vicini a 1 il che implica una forte dipendenza di
una variabile dalla precedente.
Quando il tempo tende all’infinito, ossia al correre della catena all’infinito, si ha la distribu-
zione stazionaria (marginale, di ogni variabile) che è una normale standard, N (0, 1).
Quando vogliamo campionare dalla posterior ma non siamo in grado di farlo direttamente,
dato che, da un certo punto in poi, si va a campionare complessivamente dalla distribuzione
stazionaria, l’algoritmo parte dall’idea di creare una catena di Markov da cui possiamo
campionare in modo sequenziale e che abbia distribuzione stazionaria pari alla posterior
(che in teoria è calcolabile); sulla base di questa catena si riesce, duqnue, ad estrarre in
modo sequenziale il valore dei parametri.
Fissato un valore iniziale, arbitrariamente scelto, θ (0) del parametro di interesse, l’algoritmo
procede per passi estarendo ad ogni step un nuovo vettore di parametri; in particolare al
passo h, dato l’estrazione al passo precedente, θ (h−1) :
→ si propone un nuovo valore del parametro, indicato con θ ∗ , estratto da una distribuzione
scelta arbitrariamente, ma comunque da cui è semplice campionare, detta proposal,
e indicata con q(θ ∗ |θ (h−1) ),
(si fa il min tra 1 e . . . perchè α è una probabilità e deve ricadere nell’intervallo [0, 1],
in questo modo si pone il limite superiore)
90
Accettare un valore con una certa probabilità significa estrarre un numero casuale con
tale probabilità da una Bernoulli e accettare il valore di interesse se il numero estratto
dalla Bernoulli è 1.
Esempio
• Dato θ (0) ,
• si deve estrarre θ (1) ; si propone allora come candidato θ ∗ ∼ N (θ (0) , Σ), dove quidni
la normale è la proposal q(θ ∗ |θ (h−1) ) che abbiamo scelto (di solito l’idea è che se la
proposal è molto vicina alla posterior siamo in una situazione vantaggiosa).
Accettiamo questo valore θ ∗ come estratto dalla posterior sulla base della probabilità
α(θ ∗ |θ (h−1) ), cioè secondo la seguente regola di accettazione:
r = 1 → Accetto θ ∗ → θ h = θ ∗
Estarrre r ∼ Bin(1, α(θ ∗ |θ (h−1) )) =
r = 0 → Rifiuto θ ∗ → θ h = θ (h−1)
L’algoritmo MH crea una catena di Markov in cui lo spazio degli stati è lo spazio dei
parametri, quindi le osservazioni estratte sono, in realtà, potenziali valori dei parametri.
In particolare otteniamo una sequenza dei valori dei parametri con due caratteristiche:
→ (svantaggio) le estrazioni sono fortemente dipendenti tra loro, perchè ogni valore
estratto si basa sul precedente, la dipendenza può essere così forte che due valori
consecutivi possono coincidere (ad es. quando rifiutiamo il valore proposto);
91
1a semplificazione
La proposal distribution è simmetrica, cioè quando scambiando i suoi argomenti si ottengono
gli stessi risultati, q(θ (h−1) |θ ∗ ) = q(θ ∗ |θ (h−1) ), per cui la probabilità di accettazione diventa:
π(θ ∗ )f (D|θ ∗ )
∗ (h−1)
α(θ |θ ) = min 1, ,
π(θ (h−1) )f (D|θ (h−1) )
da cui si evince che se θ ∗ aumenta la quantità al numeratore del secondo temrine del mi-
nimo lo accettiamo matematicamente, cioè con probabilità 1, altrimenti la probabilità di
accettazione si abbassa e la sua accettazione dipende dall’algoritmo.
Caso tipico di proposal simmetrica è la distribuzione normale, θ ∗ ∼ N (θ (0) , Σ), per cui si
ha:
1 1 ∗ (h−1) )0 Σ−1 (θ ∗ −θ (h−1) )
q(θ ∗ |θ (h−1) ) = p e− 2 (θ −θ
|2πΣ|
dove la differenza (θ ∗ − θ (h−1) ) è al quadrato, dunque se scambiamo gli addendi tra di loro
il risultato non cambia.
Spesso si cerca di utilizzare una proposal simmetrica perchè si velocizza l’algoritmo; la ve-
locità è un aspetto cruciale in tali algoritmi perchè la stessa operazione viene ripetuta un
numero elevatissimo di volte.
Occorre segnalare, peraltro, che procedendo in questo modo, l’algoritmo va verso valori del
parametro ad alta densità: come si è detto, infatti, poposto il valore θ ∗ lo accettiamo con
probabilità 1 al crescere della quantità π(θ ∗ )f (D|θ ∗ ), quantità che è proporzionale alla po-
sterior π(θ ∗ |D), per cui se θ ∗ implica che π(θ ∗ )f (D|θ ∗ ) > π(θ (h−1) )f (D|θ (h−1) ) la posterior
del nuovo valore proposto è più alta.
L’algoritmo tende dunque ad andare verso valori ad alta densità, sembra una sorta di mas-
simizzazione.
In generale, valori nuovi che aumentano la posterior vengono sempre accettati.
92
Sembra una massimizzazione perchè l’algoritmo si sposta verso valori migliorativi in termini
di densità maggiore e tenderà a ruotare attorno al punto a massima densità.
f (D|θ ∗ )
∗ (h−1)
α(θ |θ ) = min 1, ,
f (D|θ (h−1) )
dunque, l’algoritmo procede come nel caso precedente ma basandosi su un rapporto di vero-
simiglianza: se il θ ∗ proposto aumenta il rapporto lo si accetta matematicamente.
Questa semplificazione presenta, tuttavia, uno svantaggio computazionale dato che, non
sfruttando l’informazione a priori sul parametro, si riduce l’efficienza.
π(θ ∗ )f (D|θ ∗ )
q(θ (h−1) |θ ∗ ) = = π(θ ∗ |D)
m(D)
e:
π(θ ∗ |D)π(θ (h−1) |D)
∗ (h−1)
α(θ |θ ) = min 1, = 1,
π(θ (h−1) |D)π(θ ∗ |D)
cioè si accetta sempre.
Questa semplificazione, che può sembrare strana e anche ovvia, ci suggerisce che in realtà il
MH è una generalizzazione del Monte Carlo standard, caso in cui si è in grado di campionare
dalla posterior. Però, a differenza del MC che genera tutti valori buoni, il MH deve valutare
di volta in volta il nuovo valore proposto.
Inoltre serve a introdurre un altro algoritmo (che è un caso particolare) che è molto utilizzato
nella pratica quando il parametro θ è composto da blocchi di parametri che possono essere
riportati separatamente: 0
θ = θ10 , θ20 .
Al fine di estrarre i valori dei parametri in modo sequenziale, si comincia dal valore iniziale
(0) (0)
θ (0) composto da blocchi θ1 e θ2 ; al generico passo h:
(h) (h−1)
• si aggiorna θ1 mediante il MH dato θ2 ,
(h) (h)
• si aggiorna θ2 mediante il MH dato θ1 ,
(h) (h)
• si ottine θ (h) unendo θ1 e θ2 .
93
Esempio: Logistic Markov Chain Monte Carlo
yi ∼ Bin(1, pi )
eηi
pi = 1+e ηi ,
94
Lezione del 21/05/2018
Ripetizione: l’algoritmo di Metropolis-Hastings crea una catena di Markov in cui la di-
stribuzione stazionaria è la distribuzione target (distribuzione a posteriori del parametro
condizionata ai dati). L’algoritmo parte da un punto iniziale θ (0) dello spazio dei parametri,
che può essere scelto arbitrariamente, anche se di solito viene scelto sulla base del campione.
Ad ogni iterazione cerca di aggiornare il valore del parametro, proponendo un candidato
θ ∗ estratto da una certa distribuzione detta proposal ; esso viene accettato (o meno) con
probabilità α(θ ∗ |θ (h−1) ) calcolata con la regola di MH, cioè confrontando la posterior del
candidato con quella del parametro al passo precedente e con lo stesso rapporto rovesciato
della proposal.
Esistono varie semplificazioni per il calcolo di α. In particolare, la terza semplificazione che si
ottiene quando si propone dalla distribuzione a posteriori, ci permette di introdurre un altro
algoritmo (che costituisce un caso particolare del MH ), che si utilizza quando è possibile
decomporre il vettore dei parametri in blocchi separati e permette di estrarre valori da una
distribuzione con probabilità di accettazione pari a 1 (il che si verifica utilizzando, appunto,
come proposal la posterior).
0
(0) (0)
Se θ = θ10 , θ20 , partendo da θ (0) con blocchi θ1 e θ2 , allo step h:
(h) (h−1)
– aggiorna θ1 mediante il MH con θ2 tenuto fisso,
(h) (h)
– aggiorna θ2 mediante il MH con θ1 tenuto fisso,
(h) (h)
– ottiene θ (h) unendo θ1 e θ2 .
(Ricorda: come nel del MC classico in questo caso si accetta sempre con la differenza che le
osservazioni estratte in questo modo sono dipendenti.)
Questo algoritmo MCMC è conosciuto come campionamento di Gibbs o Gibbs sam-
pler, tecnica già nota prima di essere applicata all’inferenza bayesiana.
É un algoritmo di MCMC per ottenere una sequenza di campioni casuali da una distribuzio-
ne di probabilità multivariata X ∼ f (x) (cioè dalla distribuzione di probabilità congiunta di
due o più variabili casuali) quando il campionamento diretto si dimostra difficoltoso. Questa
sequenza può essere usata per approssimare la distribuzione congiunta (e quindi, in ambito
bayesiano, quella a posteriori che sappiamo essere proporzionale alla congiunta), per appros-
simare la distribuzione marginale di una delle variabili, o di vari sottoinsiemi delle variabili
(per esempio, parametri sconosciuti oppure variabili latenti); oppure ancora per calcolare un
integrale (come il valore atteso di una delle variabili). Per sua natura è un algoritmo casuale
(cioè un algoritmo che fa uso di numeri casuali, e quindi può produrre risultati distinti ogni
volta che viene eseguito), ed è un’alternativa agli algoritmi deterministici impiegati nell’in-
ferenza statistica. Similmente ad altri algoritmi MCMC, il campionamento di Gibbs genera
catene di Markov di campioni, ognuno dei quali è autocorrelato a quelli generati immedia-
tamente prima e dopo di lui. Inoltre, (di nuovo, come in altri algoritmi MCMC), campioni
95
provenienti dalla parte iniziale della catena (il periodo cosiddetto di burn-in) possono non
rappresentare accuratamente la distribuzione desiderata e, perciò, è pratica comune che ven-
gano scartati.
Per implementare l’algoritmo di Gibbs, si parte da un initial guess arbitrario della sequen-
za di v.a., indicato con x(0) , di cui ad ogni passo, poi, aggiorna un elemento alla volta, in
partivolare, al passo h:
(h)
• per ciascun elemento xj di X, estrae Xj dalla distribuzione della stessa variabili ma
condizionata su tutte le altre variabili, le precedenti dello stesso passo e le successive
(h) (h) (h−1)
del passo precedente: Xj |X<j , X>j .
Caso concreto
Supponiamo di voler estrarre delle osservazioni da una normale multivariate di ordine tre,
X ∼ Nm (µ, Σ) dove X = (X1 , X2 , X3 )0 .
Fissato un x(0) iniziale, allo step h l’algoritmo:
(h) (h−1) (h−1)
# estrae X1 da X1 |X2 , X3 ,
(h) (h) (h−1)
# estrae X2 da X1 |X1 , X3 ,
(h) (h) (h)
# estrae X3 da X1 |X1 , X2 .
Dato che il campionamento di Gibbs si applica quando la distribuzione congiunta non è nota
esplicitamente oppure è difficile da campionare direttamente, per funzionare deve essere nota
in forma esplicita la distribuzione condizionata di ogni variabile, Xj |X−j , che si presuppone
essere più facile da campionare e detta distribuzione full conditional.
Nel caso della normale multivariata il Gibbs sampler può essere sempre applicato perchè la
distribuzione full conditional è sempre normale con specifiche media e varianza, Xj |X(−j) =
Z ∼ N (e ej2 ), con:
µj , σ
ej = µj + Σj,−j Σ−1
• µ j,−j (z − µj ), dove il primo addendo µj è la media marginale e il
secondo addendo è composto dalla la covarianza dell’elemento j con tutti gli altri,
Σj,−j , dall’inversa della varianza del j -esimo elemento Σ−1
j,−j e varia con una quantità
che tiene conto dello scostamento di tutti i valori dalla propria media;
Il Gibbs sampler può essere implementato anche a blocchi estraendo insieme blocchi di
variabili, partendo dall’idea che più se ne estraggono contemporaneamente e meglio è, dato
che in questo modo si avvicina allo schema Monte Carlo classico che è considerato l’ottimo, in
quanto che genera numeri (pseudo)casuali e presenta un errore inferiore rispetto a qualsiasi
altro algoritmo. Infatti, se generiamo dei valori X (1) , X (2) , . . . , da una certa distribuzione
f (x), in modo tale che siano indipendenti, si ha:
R
1 X (r) σ2
X̄ = X → µ, V ar(X̄) = ,
R r=1 R
96
se sono dipendenti, invece, la media è la stessa ma cambia la varianza:
R R
σ2 2 X X
V ar(X̄) = + 2 Cov(X (r) , X (s) )
R R r=1 s=r+1
cioè al passo h si estrae il primo blocco di parametri dalla posterior dello stesso condizionata
ai dati e agli altri blocchi di parametri del passo precedente, si estrae il secondo blocco di
parametri dalla posterior dello stesso condizionata ai dati, al primo blocco dello stesso passo
e ai blocchi successivi al valore del passo precedente e così via, il generico blocco b-esimo si
estrae dalla sua posterior condizionata ai dati, ai blocchi da 1 a b − 1 dello stesso passo e a
quelli da b + 1 a B del passo precedente.
Si crea in questo modo una struttura triangolare, che funziona a patto che la posterior di
ciascun blocco sia esplicita. Questo accade sempre nell’ambito di distribuzioni coniugate,
casi in cui il campionamento di Gibbs dunque può essere sempre implementato.
Esempio concreto
Un caso in cui il Gibbs sampler è applicabile in modo relativamente semplice è quello dei
modelli a variabile latente, quali i modelli a classi latenti per variabili binarie, general-
mente stimati con l’EM.
Indichiamo con:
– yi = (yi1 , yi2 ), . . . , yij , con i = 1, 2, . . . , h il vettore che raccoglie tutte le risposte binarie
riferito all’i -esimo soggetto,
97
– zi ∈ {1, . . . , k}, le variabili latenti discrete, gli indicatori della classe di appartenenza
dell’i -esimo soggetto.
Il modello è gerarchico perchè si ragiona per blocchi a diversi livelli di gerarchia, per cui
è uno schema coerente con il Gibbs sampler e possiamo trattare λ, Z, p come re blocchi di
parametri. In pratica, ragioniamo in termini di dati completi.
Il Gibbs adattato a questo schema è chiamato agumented Gibbs in quanto aumenteno le
variabili "osservate", infatti anche consideriamo anche le variabili latenti come parametri.
In particolare il vattore dei parametri è suddiviso in tre blocchi distinti: θ = (λ0 , P0 , Z0 ).
0 0 0
→ partiamo da un vettore iniziale dei parametri θ (0) = (λ(0) , P(0) , Z(0) )0 , → allo
step h aggiorniamo un blocco di parametri alla volta dato i dati e gli altri blocchi generati
allo stesso passo o al precedente:
Nell’applicazione:
→ per estrarre le probabilità a priori di appartenza alla classe z dalla Dirichlet, λ ∼
P
Dir(α), ciascun elemento λz (t.c. z λz = 1) è estratto da una distribuziona Gamma,
e = P λez , con z = 1, . . . , k.
ez ∼ Gam(αz , 1), e poi viene normalizzato, λ
λ λ
e
z0 z0
98
→ le classi latenti sono generate da una distribuzione multinomiale, zi ∼ M ultinom(1, λ)
che equivale a dire P (Zi = z) = λz .
Questo è possibile perchè tutte le full conditional hanno una forma esplicita e sono solita-
mente molto semplici, dato che si basano su prior coniugate dei singoli blocchi di parametri.
In particolare, si può dimostrare che:
Inoltre, per questi modelli può presentarsi il problema del label switching, ossia nella rei-
terazione dell’algoritmo le classi possono ordinarsi in un modo che non è quello desidera-
to; occorre quindi eseguire un controllo ad ogni passo sull’ordinamento e verificare che sia
quello che vogliamo. L’ordine spesso utilizzato è quello per probabilità di item crescente,
p1|1 < p1|2 < · · · < p1|k , ma la scelta è del tutto arbitraria a meno che non sia previsto un
ordine naturale delle classi.
99
Lezione del 23/05/2018
• un set di dati, D ∼ fm (D|θ), che sotto ogni modello ha una specifica distribuzione,
ognuna caratterizzata dal relativo vettore di parametri.
Per specificare ciascun modello, nell’approccio bayesiano è necessario specificare anche altre
quantità, ossia la probabilità a priori che ciascun modello sia vero/corretto per analizzare i
dati, π(m) = P (M = m). Nella pratica queste probabilità servono a preferire un modello
piuttosto che un altro; tuttavia, spesso π(m) viene scelta uniformemente uguale per tutti i
modelli e pari a k1 , il che implica nessuna preferenza per un particolare modello. Altre volte
si preferisce, invece, specificare il tipo di distribuzione; ad esempio, se m è un modello a
classi latenti con m classi si potrebbe precisare che π(m) = P ois(2) se non si vuole porre un
limite al numero delle classi ma allo stesso tempo, fissano il parametro λ pari a 2 si tende a
preferire modelli più parsimoniosi (con meno classi).
In ogni modello, inoltre, la distribuione a priori dei parametri è specifica del modello: θm ∼
πm (θ), m = 1, 2, . . . , k.
100
Il problema è, dunque, quello di scegliere sulla base dei dati qual è il modello migliore;
a tal fine si utilizza la probabilità a posteriori del modello, π(m|D), cioè la probabilità di
un modello condizionato ai dati. Nella pratica si sceglie il modello che è maggiormente
supportato dai dati, con maggiore evidenza empirica, cioè con la π(m|D) maggiore. Tra i
diversi moodi che vi sono per stimare questa probabiltà vi è appunto il RJ il quale, seppur
molto efficace, presenta una maggiore difficoltà: dato che il metodo salta tra i vari modelli,
il vettore dei parametri può avere una diversa dimensione a seconda del modello e quindi
l’algoritmo deve riuscire a cambiare la dimensione dello spazio con cui lavora.
(M, θ)
1, θ
3, θ
.. ..
. .
All’h-esima iterazione, il modello viene indicato con m(h) e il corrispondente vettore dei
parametri con θ (h) .
Per implementare l’algoritmo occorre scegliere il modello m(0) e vettore dei parametri θ (0)
per quel modello da cui partire.
Alla generica h-esima iterazione:
101
# si estrae un numero
r = 1 → m(h) = m∗ , θ h = θ ∗
∗ ∗ (h−1) (h−1)
r ∼ Bin(1, α(m , θ |m ,θ )=
r = 0 → m(h) = m(h−1) , θ h = θ (h−1)
Dunque si stima la probabilità a posteriori come il rapporto tra il numero di volte che si
presenta un modello e il numero di iterazioni dell’algoritmo:
#m
π(m|D)) = ,
R
2. mossa between:
Supponiamo di avere a disposizione dati relativi a una variabile risposta binaria e ad una
covariata e di dover scegliere tra due modelli:
– il modello con la sola intercetta, m = 1;
– il modello che include la covariata, m = 2.
É utile a tal fine esplicitare i modelli (assunzioni):
m=1 m=2
yi ∼ Bin(1, pi ) yi ∼ Bin(1, pi )
eηi eηi
pi = 1+e ηi pi = 1+e ηi
ηi = β0 ηi = β0 + β1 xi
π(1) = 21 ! =2
π(2) 1
β0
β0 ∼ N (0, τ 2 ) β= ∼ Nbiv (0, τ 2 I)
β1
102
l’algoritmo quindi non solo stima i parametri ma salta tra i modelli e a posteriori ci permette
di scegliere tra m = 1 e m = 2.
• modelli:
– q(2|1) = 1, probabilità di andare nel modello 2 dato che siamo nel modello 1,
– q(1|2) = 1, probabilità di andare nel modello 1 dato che siamo nel modello 2,
queste porbabilità sono poste pari a 1 in quanto, posto che si cambia modello, non
è possibile fare altro che andare da un modello all’altro ( N.B. in questo modo si
semplifica l’espressione di α(m∗ , θ ∗ |m(h−1) , θ (h−1) )).
Esse possono essere anche zero, ad esempio, in un modello a classi latenti, ponendo:
q(m − 1|m) = q(m + 1|m) = 21 ci si sposta nel modello precedente o successivo con
probabilità 12 e se q(m0 |m) = 0, ∀m0 6= m − 1, m + 1, non è possibile fare altrimenti; in
altre parole il nuovo modello viene proposto simile al precedente o al successivo, l’unico
requisito da rispettare è la reversibilità, ossia con i passaggi necessari da qualsiasi
modello deve essere possibile passare ad un altro.
• parametri (dato che ci si trova nel modello m(h−1) come propongo i parametri del
modello m(h) ?):
103