Sei sulla pagina 1di 16

Riduzione di dimensionalità dei dati

metodi probabilistici e algoritmi aleatori

Alessio Proietti
Dipartimento di Matematica e Fisica
Università degli Studi Roma Tre

February 22, 2021

1 / 16
Sommario

1. La Sciagura della dimensionalità

2. Riduzione della dimensionalità e lemma JL

3. Come si sceglie un vettore unità uniformemente aleatorio?

4. Dimostrazione di JL e osservazioni

5. Bibliografia

2 / 16
La Sciagura della dimensionalità

• Viviamo in un mondo dominato dai megadati ultradimensionali


• Un punto random in un un cubo a 10 000 dimensioni ha probabilità 0.99999999 di
trovarsi a distanza 0.001 dal bordo
• in un cubo 3D la distanza media tra due punti è 0.66
• in un cubo 1 000 000-dimensionale la distanza media tra due punti è 408.25
• Fatto Scomodo 1: dataset con moltissimi dimensioni sono quindi altamente sparsi
• Fatto Scomodo 2: tanti algoritmi hanno complessità che cresce esponenzialmente con il
numero di dimensioni del problema

3 / 16
MNIST dataset
Con 100 dimensioni (contro le 784 dimensioni di MNIST) è necessario disporre di un numero
di istanze di training maggiore del numero di atomi nell’ universo osservabile maggiore del
numero di atomi nell’ universo osservabile affinché in media le istanze siano a distanza 0.1 le
une dalle altre, assumendo che non ci siano dimensioni privilegiate.

4 / 16
Riduzione della dimensionalità
Ci sono diverse tecniche per ridurre la dimensionalità dei dati, tra cui:
• PCA (principal component analysis), la più popolare, identifica l’ iperpiano più ”vicino” ai
dati e poi li proietti su di esso
• ci sono varianti di PCA, PCA Randomizzata, Kernel PCA.
• LLE, locally linear embedding, non si basa su proiezioni ma identifica un manifold
misurando come ogni istanza dista dai punti nel proprio vicinato e poi cerca un manifold
che preservi queste proprietà locali.
• Isomap crea un grafo connettendo ogni istanza ai punti più vicini poi riduce la
dimensionalità preservando la distanza geodetica, cioè il cammino più corto tra due nodi.
• Proiezioni random, una proiezione random su un sottospazio preserva bene le distanze e
la dimensione di questo sottospazio non dipende dalla dimensione dello spazio di partenza
ma solo dal numero dei dati. Questi fatti sorprendenti vennero scoperti da Johnson e
Lindenstrauss e proprio di questa scoperta ci occuperemo nel resto della presentazione.
5 / 16
Lemma JL

Lemma (di Johnson e Lindenstrauss 1984)


24
Sia qualsiasi insieme X di punti su R d e qualsiasi  ∈ (0, 1) e sia qualsiasi k ≥ 1
log (n).
Allora esiste una mappa φ : Rd → Rk tale che, per tutti x, y ∈ X ,

(1 − )kx − y k2 ≤ kφ(x) − φ(y )k2 ≤ (1 + )kx − y k2

Se φ è una proiezione da Rd a Rk scelta uniformamente e aleatoriamente, si ottiene che

kφ(x) − φ(y )k2 2 2 k


P( ∃x, y ∈ X : ∈
/ [1 − , 1 + ] ) ≤ n exp ( − )
kx − y k2 12

6 / 16
Una dimostrazione elementare

Essendo un risultato classico ([W. B. Johnson and J. Lindenstrauss, 1984]) negli anni sono
emersi diversi approcci, più o meno articolati, che si possono seguire per dimostrare il lemma.
Ad un certo punto Dasgupta e Gupta ([Sanjoy Dasgupta Anupam Gupta, 2002]) proposero
una dimostrazione piuttosto elementare.
Noi qui ripercorreremo e rielaboreremo questa dimostrazione.

7 / 16
L’ idea della dimostrazione

L’ argomento principale che sostiene la dimostrazione è che il quadrato della lunghezza di un


vettore proiettato su un k-sottospazio lineare aleatorio si concentra fortemente ( siamo in
presenza di un esempio del fenomeno della concentrazione della misura ) al suo valore atteso.
A questo punto il teorema si deduce da uno union bound.

8 / 16
Osservazioni che permettono di modificare il problema

• è sufficiente dimostrare il teorema per kx − y k = 1.


• la lunghezza di un vettore unità proiettata su un iperpiano aleatorio ha la stessa
distribuzione della lunghezza di un vettore unità aleatorio proiettato su un iperpiano
fissato.

9 / 16
Come si sceglie un vettore unità uniformemente aleatorio?

Scegliere un vettore unità in Rd uniformemente aleatorio è scegliere un punto sulla sfera


Sd−1 in maniera aleatoria.
Un vettore normale standard è un vettore (X1 , ..., Xd ) dove vale Xi N(0, 1) e i.i.d. La densità
congiunta delle Xi è costante sulle sfere con centro nell’ origine perciò induce, su queste, la
distribuzione uniforme. In particolare il punto
1
Y = (X1 , ..., Xd )
kX k

è distribuito uniformemente su Sd−1 .

10 / 16
Come si sceglie un vettore unità uniformemente aleatorio? /2

q
Se Y 0 = d 1
k kX k (X1 , ..., Xk ) e L = kY 0 k2 allora è bene notare che:

X12 + · · · + Xk2
   
d d k
E(L) = E = =1.
k kX k2 k d

Ora potremmo appurare che ci troviamo di fronte ad un esempio di concentrazione della


misura, in questo caso di L attorno a E(L).

11 / 16
Lemma utile e dimostrazione di JL
L’ affermazione precedente è un lemma, il seguente:

Lemma (lemma utile)


Siano L, , k come sopra, allora vale:

2 k 2 k
P( L ≤ 1 −  ) ≤ exp ( − ) e P( L ≤ 1 +  ) ≤ exp ( − ).
4 12
Questo lemma è cruciale, esso ci permette di dimostrare il lemma JL, basta notare che:

2 k 2
P(L ∈
/ [1 − , 1 + ]) ≤ 2exp ( − ) ≤ 2.
12 n
A questo punto, poiché n2 n22 < 1 con probabilità positiva la distorsione non è troppo grande

2
perciò esiste φ con le proprietà volute. Infine, un union bound sulle n2 ≤ n2 coppie di punti


x, y ∈ X dimostra la seconda parte del teorema.


12 / 16
Come si dimostra il lemma utile?

Utilizziamo le seguenti idee:


• Cerchiamo di trovare un limite superiore che decada esponenzialmente sulla distribuzione
delle code di somme di variabili aleatorie indipendenti nello stile di Chernoff
• la forma della funzione generatrice dei momenti di una variabile normale

13 / 16
Osservazioni finali

Non è possibile migliorare k = Ω(log n) per ottenere k = o(log n), questo perchè la
proiezione deve essere in grado di distinguere i punti di X.

14 / 16
Bibliografia

W. B. Johnson and J. Lindenstrauss (1984)


Extensions of Lipschitz mappings into a Hilbert space
Conference in modern analysis and probability 189 – 206.

Sanjoy Dasgupta Anupam Gupta (2002)


An elementary proof of a theorem of Johnson and Lindenstrauss
Random Struct. Alg., 22: 60—65.

15 / 16
That’s all Folks!

16 / 16

Potrebbero piacerti anche