Riduzione Di Dimensione Dei Dati

Riduzione di dimensionalità dei dati
metodi probabilistici e algoritmi aleatori
Alessio Proietti
Dipartimento di Matematica e Fisica
Università degli Studi Roma Tre
February 22, 2021
1 / 16
Sommario
1. La Sciagura della dimensionalità
2. Riduzione della dimensionalità e lemma JL
3. Come si sceglie un vettore unità uniformemente aleatorio?
4. Dimostrazione di JL e osservazioni
5. Bibliografia
2 / 16
La Sciagura della dimensionalità
• Viviamo in un mondo dominato dai megadati ultradimensionali

• Un punto random in un un cubo a 10 000 dimensioni ha probabilità 0.99999999 di
trovarsi a distanza 0.001 dal bordo
• in un cubo 3D la distanza media tra due punti è 0.66
• in un cubo 1 000 000-dimensionale la distanza media tra due punti è 408.25
• Fatto Scomodo 1: dataset con moltissimi dimensioni sono quindi altamente sparsi
• Fatto Scomodo 2: tanti algoritmi hanno complessità che cresce esponenzialmente con il
numero di dimensioni del problema
3 / 16
MNIST dataset
Con 100 dimensioni (contro le 784 dimensioni di MNIST) è necessario disporre di un numero
di istanze di training maggiore del numero di atomi nell’ universo osservabile maggiore del
numero di atomi nell’ universo osservabile affinché in media le istanze siano a distanza 0.1 le
une dalle altre, assumendo che non ci siano dimensioni privilegiate.
4 / 16
Riduzione della dimensionalità
Ci sono diverse tecniche per ridurre la dimensionalità dei dati, tra cui:
• PCA (principal component analysis), la più popolare, identifica l’ iperpiano più ”vicino” ai
dati e poi li proietti su di esso
• ci sono varianti di PCA, PCA Randomizzata, Kernel PCA.
• LLE, locally linear embedding, non si basa su proiezioni ma identifica un manifold
misurando come ogni istanza dista dai punti nel proprio vicinato e poi cerca un manifold
che preservi queste proprietà locali.
• Isomap crea un grafo connettendo ogni istanza ai punti più vicini poi riduce la
dimensionalità preservando la distanza geodetica, cioè il cammino più corto tra due nodi.
• Proiezioni random, una proiezione random su un sottospazio preserva bene le distanze e
la dimensione di questo sottospazio non dipende dalla dimensione dello spazio di partenza
ma solo dal numero dei dati. Questi fatti sorprendenti vennero scoperti da Johnson e
Lindenstrauss e proprio di questa scoperta ci occuperemo nel resto della presentazione.
5 / 16
Lemma JL
Lemma (di Johnson e Lindenstrauss 1984)

24
Sia qualsiasi insieme X di punti su R d e qualsiasi ∈ (0, 1) e sia qualsiasi k ≥ 1
log (n).
Allora esiste una mappa φ : Rd → Rk tale che, per tutti x, y ∈ X ,
(1 − )kx − y k2 ≤ kφ(x) − φ(y )k2 ≤ (1 + )kx − y k2
Se φ è una proiezione da Rd a Rk scelta uniformamente e aleatoriamente, si ottiene che
kφ(x) − φ(y )k2 2 2 k

P( ∃x, y ∈ X : ∈
/ [1 − , 1 + ] ) ≤ n exp ( − )
kx − y k2 12
6 / 16
Una dimostrazione elementare
Essendo un risultato classico ([W. B. Johnson and J. Lindenstrauss, 1984]) negli anni sono
emersi diversi approcci, più o meno articolati, che si possono seguire per dimostrare il lemma.
Ad un certo punto Dasgupta e Gupta ([Sanjoy Dasgupta Anupam Gupta, 2002]) proposero
una dimostrazione piuttosto elementare.
Noi qui ripercorreremo e rielaboreremo questa dimostrazione.
7 / 16
L’ idea della dimostrazione
L’ argomento principale che sostiene la dimostrazione è che il quadrato della lunghezza di un

vettore proiettato su un k-sottospazio lineare aleatorio si concentra fortemente ( siamo in
presenza di un esempio del fenomeno della concentrazione della misura ) al suo valore atteso.
A questo punto il teorema si deduce da uno union bound.
8 / 16
Osservazioni che permettono di modificare il problema
• è sufficiente dimostrare il teorema per kx − y k = 1.

• la lunghezza di un vettore unità proiettata su un iperpiano aleatorio ha la stessa
distribuzione della lunghezza di un vettore unità aleatorio proiettato su un iperpiano
fissato.
9 / 16
Come si sceglie un vettore unità uniformemente aleatorio?
Scegliere un vettore unità in Rd uniformemente aleatorio è scegliere un punto sulla sfera

Sd−1 in maniera aleatoria.
Un vettore normale standard è un vettore (X1 , ..., Xd ) dove vale Xi N(0, 1) e i.i.d. La densità
congiunta delle Xi è costante sulle sfere con centro nell’ origine perciò induce, su queste, la
distribuzione uniforme. In particolare il punto
1
Y = (X1 , ..., Xd )
kX k
è distribuito uniformemente su Sd−1 .
10 / 16
Come si sceglie un vettore unità uniformemente aleatorio? /2
q
Se Y 0 = d 1
k kX k (X1 , ..., Xk ) e L = kY 0 k2 allora è bene notare che:
X12 + · · · + Xk2

d d k
E(L) = E = =1.
k kX k2 k d
Ora potremmo appurare che ci troviamo di fronte ad un esempio di concentrazione della

misura, in questo caso di L attorno a E(L).
11 / 16
Lemma utile e dimostrazione di JL
L’ affermazione precedente è un lemma, il seguente:
Lemma (lemma utile)

Siano L, , k come sopra, allora vale:
2 k 2 k
P( L ≤ 1 − ) ≤ exp ( − ) e P( L ≤ 1 + ) ≤ exp ( − ).
4 12
Questo lemma è cruciale, esso ci permette di dimostrare il lemma JL, basta notare che:
2 k 2
P(L ∈
/ [1 − , 1 + ]) ≤ 2exp ( − ) ≤ 2.
12 n
A questo punto, poiché n2 n22 < 1 con probabilità positiva la distorsione non è troppo grande

2
perciò esiste φ con le proprietà volute. Infine, un union bound sulle n2 ≤ n2 coppie di punti

x, y ∈ X dimostra la seconda parte del teorema.

12 / 16
Come si dimostra il lemma utile?
Utilizziamo le seguenti idee:

• Cerchiamo di trovare un limite superiore che decada esponenzialmente sulla distribuzione
delle code di somme di variabili aleatorie indipendenti nello stile di Chernoff
• la forma della funzione generatrice dei momenti di una variabile normale
13 / 16
Osservazioni finali
Non è possibile migliorare k = Ω(log n) per ottenere k = o(log n), questo perchè la
proiezione deve essere in grado di distinguere i punti di X.
14 / 16
Bibliografia
W. B. Johnson and J. Lindenstrauss (1984)

Extensions of Lipschitz mappings into a Hilbert space
Conference in modern analysis and probability 189 – 206.
Sanjoy Dasgupta Anupam Gupta (2002)

An elementary proof of a theorem of Johnson and Lindenstrauss
Random Struct. Alg., 22: 60—65.
15 / 16
That’s all Folks!
16 / 16

Riduzione Di Dimensione Dei Dati

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Riduzione Di Dimensione Dei Dati

Caricato da

Copyright:

Formati disponibili

Riduzione di dimensionalità dei dati

metodi probabilistici e algoritmi aleatori

February 22, 2021

1. La Sciagura della dimensionalità

2. Riduzione della dimensionalità e lemma JL

3. Come si sceglie un vettore unità uniformemente aleatorio?

• Viviamo in un mondo dominato dai megadati ultradimensionali

Lemma (di Johnson e Lindenstrauss 1984)

(1 − )kx − y k2 ≤ kφ(x) − φ(y )k2 ≤ (1 + )kx − y k2

Se φ è una proiezione da Rd a Rk scelta uniformamente e aleatoriamente, si ottiene che

kφ(x) − φ(y )k2 2 2 k

L’ argomento principale che sostiene la dimostrazione è che il quadrato della lunghezza di un

• è sufficiente dimostrare il teorema per kx − y k = 1.

Scegliere un vettore unità in Rd uniformemente aleatorio è scegliere un punto sulla sfera

è distribuito uniformemente su Sd−1 .

Ora potremmo appurare che ci troviamo di fronte ad un esempio di concentrazione della

Lemma (lemma utile)

x, y ∈ X dimostra la seconda parte del teorema.

Utilizziamo le seguenti idee:

W. B. Johnson and J. Lindenstrauss (1984)

Sanjoy Dasgupta Anupam Gupta (2002)

Potrebbero piacerti anche

Riduzione Di Dimensione Dei Dati

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Riduzione Di Dimensione Dei Dati

Caricato da

Copyright:

Formati disponibili

Riduzione di dimensionalità dei dati

metodi probabilistici e algoritmi aleatori

February 22, 2021

1. La Sciagura della dimensionalità

2. Riduzione della dimensionalità e lemma JL

3. Come si sceglie un vettore unità uniformemente aleatorio?

• Viviamo in un mondo dominato dai megadati ultradimensionali

Lemma (di Johnson e Lindenstrauss 1984)

(1 − )kx − y k2 ≤ kφ(x) − φ(y )k2 ≤ (1 + )kx − y k2

Se φ è una proiezione da Rd a Rk scelta uniformamente e aleatoriamente, si ottiene che

kφ(x) − φ(y )k2 2 2 k

L’ argomento principale che sostiene la dimostrazione è che il quadrato della lunghezza di un

• è sufficiente dimostrare il teorema per kx − y k = 1.

Scegliere un vettore unità in Rd uniformemente aleatorio è scegliere un punto sulla sfera

è distribuito uniformemente su Sd−1 .

Ora potremmo appurare che ci troviamo di fronte ad un esempio di concentrazione della

Lemma (lemma utile)

x, y ∈ X dimostra la seconda parte del teorema.

Utilizziamo le seguenti idee:

W. B. Johnson and J. Lindenstrauss (1984)

Sanjoy Dasgupta Anupam Gupta (2002)

Potrebbero piacerti anche

(1 − )kx − y k2 ≤ kφ(x) − φ(y )k2 ≤ (1 + )kx − y k2

kφ(x) − φ(y )k2 2 2 k