Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Alessio Proietti
Dipartimento di Matematica e Fisica
Università degli Studi Roma Tre
1 / 16
Sommario
4. Dimostrazione di JL e osservazioni
5. Bibliografia
2 / 16
La Sciagura della dimensionalità
3 / 16
MNIST dataset
Con 100 dimensioni (contro le 784 dimensioni di MNIST) è necessario disporre di un numero
di istanze di training maggiore del numero di atomi nell’ universo osservabile maggiore del
numero di atomi nell’ universo osservabile affinché in media le istanze siano a distanza 0.1 le
une dalle altre, assumendo che non ci siano dimensioni privilegiate.
4 / 16
Riduzione della dimensionalità
Ci sono diverse tecniche per ridurre la dimensionalità dei dati, tra cui:
• PCA (principal component analysis), la più popolare, identifica l’ iperpiano più ”vicino” ai
dati e poi li proietti su di esso
• ci sono varianti di PCA, PCA Randomizzata, Kernel PCA.
• LLE, locally linear embedding, non si basa su proiezioni ma identifica un manifold
misurando come ogni istanza dista dai punti nel proprio vicinato e poi cerca un manifold
che preservi queste proprietà locali.
• Isomap crea un grafo connettendo ogni istanza ai punti più vicini poi riduce la
dimensionalità preservando la distanza geodetica, cioè il cammino più corto tra due nodi.
• Proiezioni random, una proiezione random su un sottospazio preserva bene le distanze e
la dimensione di questo sottospazio non dipende dalla dimensione dello spazio di partenza
ma solo dal numero dei dati. Questi fatti sorprendenti vennero scoperti da Johnson e
Lindenstrauss e proprio di questa scoperta ci occuperemo nel resto della presentazione.
5 / 16
Lemma JL
6 / 16
Una dimostrazione elementare
Essendo un risultato classico ([W. B. Johnson and J. Lindenstrauss, 1984]) negli anni sono
emersi diversi approcci, più o meno articolati, che si possono seguire per dimostrare il lemma.
Ad un certo punto Dasgupta e Gupta ([Sanjoy Dasgupta Anupam Gupta, 2002]) proposero
una dimostrazione piuttosto elementare.
Noi qui ripercorreremo e rielaboreremo questa dimostrazione.
7 / 16
L’ idea della dimostrazione
8 / 16
Osservazioni che permettono di modificare il problema
9 / 16
Come si sceglie un vettore unità uniformemente aleatorio?
10 / 16
Come si sceglie un vettore unità uniformemente aleatorio? /2
q
Se Y 0 = d 1
k kX k (X1 , ..., Xk ) e L = kY 0 k2 allora è bene notare che:
X12 + · · · + Xk2
d d k
E(L) = E = =1.
k kX k2 k d
11 / 16
Lemma utile e dimostrazione di JL
L’ affermazione precedente è un lemma, il seguente:
2 k 2 k
P( L ≤ 1 − ) ≤ exp ( − ) e P( L ≤ 1 + ) ≤ exp ( − ).
4 12
Questo lemma è cruciale, esso ci permette di dimostrare il lemma JL, basta notare che:
2 k 2
P(L ∈
/ [1 − , 1 + ]) ≤ 2exp ( − ) ≤ 2.
12 n
A questo punto, poiché n2 n22 < 1 con probabilità positiva la distorsione non è troppo grande
2
perciò esiste φ con le proprietà volute. Infine, un union bound sulle n2 ≤ n2 coppie di punti
13 / 16
Osservazioni finali
Non è possibile migliorare k = Ω(log n) per ottenere k = o(log n), questo perchè la
proiezione deve essere in grado di distinguere i punti di X.
14 / 16
Bibliografia
15 / 16
That’s all Folks!
16 / 16