Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
rev 04/04/2019
Abstract— La Gaussian Process Regression (GPR) e Gaussian scriviamo in forma abbreviata N (µ, Σ)
Process Classification (GPC) sono tecniche di regressione e Considerando un vettore random x ∈ Rn con x ∼
classificazione Bayesiana storicamente utilizzate in spazi eu- N (µ, Σ), ipotizziamo che le variabili in x siano divise in
clidei Rn . In letteratura si trovano esempi di kernels su grafi
definiti a partire dal Laplaciano, il cui utilizzo nel framework due set:
dei Gaussian Process rende possibile utilizzare le tecniche di xA = [x1 , . . . , xr ]T ∈ Rr
GPC e GPR, già diffuse per gli spazi euclidei, per ottenere (2)
risultati per processi definiti sui vertici di un grafo. xB = [xr+1 , . . . , xn ]T ∈ Rn−r
• m(x) = E[x] Per quanto riguarda l’assunzione che il rumore sia generato
0 0 0
• k(x, x ) = E[(x − m(x))(x − m(x )] da un processo Gaussiano abbiamo
Fig. 1. Estrazioni dalla distribuzione non condizionata: le funzioni sono Fig. 2. Distribuzione a Posteriori: si vedono chiaramente gli effetti del
realizzazioni di processi Gaussiani a media zero sommate ad un termine di condizionamento alle misure di training rispetto alle estrazioni di Figura 1.
rumore.
2 ~0
~ σ I
∼ N ~0, ~ T (16)
~∗ 0 σ2 I
dove, per la Regola di Bayes Ψ(f ) = log p(y|f ) + log p(f |X)
1 t −1 1 n (24)
p(y|f )p(f |X) = log p(y|f ) − f K f − log |K| − log 2π
p(f |X, y) = 2 2 2
p(y|X)
Differenziando rispetto ad f abbiamo
• In secundis, la distribuzione a posteriori sulla variabile
latente cosı̀ trovata viene utilizzata per calcolare una
predizione probabilstica: ∇Ψ(f ) = ∇ log p(y|f ) − K −1 f
(25)
Z ∇∇Ψ(f ) = ∇∇ log p(y|f ) − K−1 = −W − K −1
π̃∗ = p(y∗ = +1|X, y, y∗ ) = σ(f∗ )p(f∗ |X, y, x∗ )df
con W = −∇∇ log p(y|f ) che risulta diagonale. 4 Sono
La differenza rispetto al caso GPR è che, mentre gli possibili diverse forme della likelihood, quelle più usate sono
integrali equivalenti potevano essere valutati analiticamente la logistica e la Gaussiana cumulativa, l’esatta formulazione
in quanto tutte le distribuzioni avevano forma Gaussiana, della likelihood e delle sue derivate dipenderà dalla partico-
nel caso della GPC il primo tra gli integrali presentati è lare forma scelta.
decisamente non-Gaussiano e non trattabile analiticamente, In corrispondenza del massimo di Ψ(f ) abbiamo 5
cosı̀ come l’integrale successivo: per certe σ(·) potrebbe non
esistere nessuna soluzione analitica3 . ∇Ψ = 0 → fˆ = K(∇ log p(y|fˆ)) (26)
Le strade che si prospettano valide per risolvere questo
Per trovare il massimo di Ψ usiamo il metodo di Newton
problema sono di due categorie
iterando
• Risoluzione numerica con Metodi MonteCarlo
• Approssimazioni analitiche, tra cui sono note: fnext = f − (∇∇Ψ)−1 ∇Ψ
– Approssimazione di Laplace = f + (K −1 + W )−1 (∇ log p(y|f ) − K −1 F ) (27)
– Expectation Propagation −1 −1
= (K + W) (W f + ∇ log p(y|f ))
L’approccio scelto è quello dell’Approssimazione di
Laplace. fino a convergenza. Avendo trovato il massimo fˆ possiamo
specificare
B. Approssimazione di Laplace
q(f |X, y) = N (fˆ, (K −1 + W )−1 ) (28)
L’idea è quella di approssimare p(f |X, y) con una
ditribuzione Gaussiana q(f |X, y). Effettuando uno sviluppo C. Predizioni
di Taylor di log p(f |X, y) attorno al massimo della dis-
Possiamo esprimere la media a posteriori di f∗ in Ap-
tribuzione a posteriori otteniamo un’approssimazione Gaus-
prossimazione di Laplace in modo analogo al caso prece-
siana:
dente, utilizzando il fatto che
1
q(f |X, y) = N (f |fˆ, A−1 ) ∝ exp − (f − fˆ)T A(f − fˆ))
2 fˆ = K(∇ log p(y|fˆ)) (29)
(20)
dove quindi
fˆ = arg max p(f |X, y) (21)
f Eq [f |X, y, x∗ ] = k(x∗ )T K −1 fˆ = k(x∗ )T ∇ log p(y|fˆ)
e (30)
A = −∇∇ log p(f |X, y)|f =fˆ (22) Possiamo anche calcolare la varianza Vq [f∗ |X, y] in ap-
prossimazione Gaussiana, questa sarà composta di due ter-
è l’Hessiana della log-probabilità a posteriori negativa valu-
mini:
tata in fˆ.
Dalla regola di Bayes abbiamo che la distribuzione a Vq [f∗ |X, y] =
posteriori sulle variabili latenti è data da Ep(f∗ |X,x∗ ,f ) [(f∗ − E[f∗ − E[f∗ |X, x∗ , f ])2 ] (31)
2
p(y|f )p(f |X) +Eq(f |X,Y ) [E[f∗ |X, x∗ , f ] − E[f∗ |X, y, x∗ ]) ]
p(f |X, y) = (23)
p(y|X) il primo termine è dovuto alla varianza di f∗ ed è dato da
ma, essendo p(y|X) indipendente da f possiamo unicamente
considerare la probabilità a posteriori senza il fattore di k(x∗ , x∗ ) − k(x∗ )T K −1 k(x∗ ) (32)
4y fi e non da fi6=j .
3 tant’è che nell’implementazione presentata più avanti utilizziamo al i dipende unicamente da
suo posto un’approssimazione come combinazione di funzioni integrabili 5 notiamo che, dal momento che ∇ log p(y|fˆ) è una funzione non lineare
analiticamente di fˆ questa non può essere risolta direttamente.
in modo analogo al caso GPR, il secondo termine è dovuto
al fatto che
Vq [f∗ |X, y] =
k(x∗ , x∗ ) − k∗T K −1 k∗ + k∗T K −1 (K −1 + W )−1 K −1 k∗ =
Fig. 5. Media e Varianza del Processo Latente
k(x∗ , x∗ ) − k∗T (K + W −1 )−1 k∗
(35)
Fig. 4. Misure Binarie: le label estratte con la condizione 37 sono in Vale per i kernel il seguente teorema:
formato [−1, +1], adatte per la GPC. Teorema 1 (Teorema di Mercer): Sia C un sottoinsieme
compatto di Rn , se K(x, x) : C × C → Rn è una funzione
La media del processo latente e la sua varianza possono continua, simmetrica, K ∈ L2 (C), condizione necessaria e
essere calcolate con le 30 31 e sono rappresentate in figura sufficiente perchè essa abbia espansione (può rappresentare
5 un prodotto scalare), ovvero:
Infine possiamo utilizzare la 36 per calcolare la probabilità ∞
X
di appartenenza alle classi, che plottiamo in figura 6 K(x, x0 ) = ak φk (x)φk (x0 )
k=1
IV. G RAPH K ERNELS è che K sia semidefinita positiva, ovvero soddisfi la con-
dizione
Quanto detto finora è perfettamente valido in spazi euclidei Z Z
Rn con l’utilizzo dei kernel di cui in II-C, spostandoci f (x)f (x0 )K(x, x0 )dxdx0 ≥ 0
in spazi definiti differentemente tali kernel non sono più C C
utilizzabili ed occorre definirne di nuovi. per qualsiasi f (x) ∈ L2 (C)
La funzione K per essere un buon kernel, utilizzabile nel B. Esponenziali del Laplaciano come Kernel
senso della 38, deve quindi soddisfare essenzialmente due
Sia G un grafo indiretto definito da un set V di vertici
requisiti:
ed un set E di edge che connettono coppie vi , vj di vertici,
• deve essere simmetrica: indichiamo il fatto che i vertici i e j siano connessi da un
edge con i ∼ j. Definendo la matrice di adiacenza W del
K(x, x0 ) = K(x0 , x) grafo come Wij = 1 se i ∼ j e 0 altrimenti, possiamo
definire la matrice dei P degree dei vari nodi come una matrice
• deve essere semidefinita positiva. diagonale Dii = j Wij , il Laplaciano di G è definito
Il teorema 1 ha analogo discreto, in cui la condizione di allora come L = D − W ed il Laplaciano Normalizzato
1 1 1 1
semidefinita positività diventa: come L̃ = D− 2 LD− 2 = I − D− 2 W D− 2 . Sono noti dalla
teoria spettrale dei grafi i due seguenti teoremi:
XX
fx fx0 K(x, x0 ) ≥ 0 (39) Teorema 2 (Spettro di L̃): L̃ è una matrice semidefinita
x∈χ x0 ∈χ positiva ed i suoi autovalori sono λ1 , λ2 , . . . λn con 0 ≤
λi ≤ 2 , inoltre il numero dei suoi autovalori nulli è uguale al
per tutti i set di coefficienti reali fx . numero di componenti disgiunte del grafo G che la genera.7
Le matrici di Gram associate ai kernel sono definite L e L̃ possono essere visti come operatori lineari su
come Kx,x0 = K(x, x0 ) ed ereditano, in termini matriciali, funzioni f : V → R o equivalentemente su vettori f =
le proprietà di simmetria e definita positività. (f1 , f2 , . . . , fn )| : in questi termini potremmo ridefinire L
I problemi di GPR e della GPC su Grafi sono essenzial- come
mente ridotti al problema di trovare una formulazione dei 1X
kernel semidefiniti positivi che descrivano la struttura locale < f , Lf >= f | Lf = − (fi − fj )2 ∀f ∈ Rn (45)
2 i∼j
degli spazi su cui si vuole operare, è un problema non banale
a cui Kondor/Lafferty hanno provato a dare una soluzione [3]
che generalizza rapidamente a grafi con una quantità numer-
Una forma conveniente per ottenere kernel simmetrici abile di vertici: guardando alla 45 possiamo affermare che
e semidefiniti positivi è suggerita guardando il risultato L introduce una semi-norma kf k =< f , Lf > su Rn e si
dell’operazione di esponenziazione di una matrice quadrata: può intuire come questa quantifichi la variazione locale della
βH n funzione f sul suo dominio: tanto più f sarà ”mossa”, tanto
eβH = lim (1 + ) (40) più kf k sarà grande, questo rende il Laplaciano un ottimo
n→∞ n
candidato per la costruzione di un kernel.
a cui esiste limite pari a
C. Operatori di Regolarizzazione e Laplaciano
βH β2 2 β3 3
e = I + βH + H + H + ... (41) Smola e Kondor [11] dimostra come molti dei kernel più
2! 3!
utilizzati, come la RBF gaussiana, siano in realtà scrivibili
vediamo infatti dalla 41 che, quando la matrice H sia come
simmetrica, la matrice eβH risulta simmetrica e semidefinita Z
positiva. Cambiando prospettiva è possibile dimostrare che < f, P f >= |f˜(ω)|2 r(kωk2 )dω =< f, r(∆)f > (46)
ogni kernel infinitamente divisibile 6 può essere espresso in
forma esponenziale: famiglie di questi kernel possono essere dove f ∈ L2 (Rn ), f˜(ω) indica la trasformata di Fourier di
costruite come f ed r(kωk2 ) è una funzione di penalizzazione delle com-
K(β) = K(1)β (42) ponenti in frequenza |f (ω)| di f ( generalmente crescente
in kωk2 ) e r(∆) è l’estensione di r agli operatori ottenuta
β
indicizzate dal parametro β. Scrivendo K(β) = [K(1) n ]n semplicemente applicando r allo spettro di ∆[2]
per n → ∞ X
< f, f (∆)f 0 >= < f, ψi > r(λi ) < ψi , f 0 > (47)
β dK i
K = lim (1 + )n (43)
n→∞ n dβ β=0 dove λi e ψi sono rispettivamente gli autovalori e gli
autovettori di ∆. I kernel sono ottenuti risolvendo la seguente
che diventa la 40 per H = dK dβ β=0 condizione di consistenza[10]
Si intuisce allora che una forma privilegiata in cui cercare
i kernel sia quella esponenziale di tipo < k(x, ·), P k(x0 , ·) >= k(x, x0 ) (48)
K = eβH (44) 7 Sarà chiaro più avanti, specialmente con l’introduzione degli operatori di
regolarizzazione del Laplaciano, che la costruzione di una norma del Lapla-
ciano richiederà che esista al più un autovalore nullo, ne consegue i grafi
6 Infinita divisibilità significa che per ogni n ∈ Z K può essere scritto
1 1 1
su cui si possono usare i kernel descritti dovranno essere completamente
come K = K n K n . . . K n connessi.
con questo metodo si riesce a ricavare una corrispondenza V. E SEMPI DI GPR E GPC SU G RAFI
tra gli operatori di regolarizzazione r(∆) ed i kernel nor-
malmente utilizzati: prendendo ad esempio il kernel RBF Introduciamo due esempi pratici: uno di Regressione ed
Gaussiano: uno di Classificazione su Grafi
σ2
kωk2
r(kωk2 ) = e 2
A. Regressione
1 0 2
k(x, x0 ) = e− 2σ2 kx−x k
(49) Per semplicità di visualizzazione dei risultati prendiamo
∞
X σ 2i i come grafo un reticolo quadrato di lato 100 di cui selezioni-
r(∆) = ∆
i! amo 60 nodi come punti di training e facciamo predizione sui
i=0
restanti 40. La funzione più semplice che possiamo definire
Tornando al Laplaciano su grafi, la classe di funzionali di sui nodi è lo shortest path rispetto ad un nodo pivot.
regolarizzazione su grafi è definita da
ottenendo
K = (I + σ 2 L̃)−1
σ2
K = e− 2L̃
(56)
K = (aI − L̃)−p con a ≥ 2 Fig. 8. Previsioni GPR: La linea blu indica il valore della distanza dal
K = (cos L̃π/4)−1 pivot 0 di ogni singolo nodo, le croci rosse indicano le misure di training,
mentre sempre in blu sono indicate le previsioni sui nodi di test con relativa
Il secondo dei kernel sopra è stato ricavato[10] in termini di varianza.
processi diffusivi, si veda l’appendice VII
colore al valore della funzione sul nodo possiamo visualiz-
8 P −1 indica la pseudoinversa quando P non sia invertibile. zare graficamente in due dimensioni le previsioni:
Fig. 11. Classificazione Binaria: Previsione di appartenenza binaria,
Fig. 9. Previsioni GPR: I nodi di training e di test sono rappresentati da ordinate per distanza pivotale.
simboli diversi, il colore di ogni nodo corrisponde al valore della funzione
su di esso.
B. Classificazione
Mantenendo lo stesso reticolo, assegnamo ad ognuno dei
nodi di training una label binaria definita dalla condizione
(
−1 se sin d2i ≤ 0
li = (58)
+1 altrimenti
dove di indica la distanza dal nodo 0 calcolata con algoritmo
di Dijkstra. Inizializzando un classificatore con stesso kernel
del caso precedente, parametri a = 2.1, p = 4 ed un termine
di rumore σ = 0.1, possiamo rappresentare il processo
latente in Figura 10. Fig. 12. Predizioni: I nodi triangolari sono i punti di training, i nodi
quadrati sono i punti di test, il colore di questi ultimi riflette la probabilità
di appartenenza alle due classi.
e la 62 diventa
covij (t) = σ 2 e2αtH (66)
che ha la stessa forma della seconda delle II-C.