Sei sulla pagina 1di 1

Reti neurali profonde

Fintanto che la MLP presenta pochi layer, questo riesce ad addestrarsi correttamente. Quando però per
problemi più complessi si è costretti a ricorrere al re di neurale più profonde (ad esempio decine di layer) la
rete non riesce più ad addestrarsi. Le cause di questo problema sono principalmente due:

Scomparsa del gradiente o esplosione del gradiente: propagando l'errore verso le input layer, visto che le
funzioni di attivazione dei vari neuroni nell’hidden layer sono sigmoidi, il gradiente diventerà sempre più
piccolo man mano che si torna indietro perché prodotto di numeri minori di uno. Finché non si arriva ad un
certo punto in cui i layer iniziali non si addensano più. Questo problema fu risolto nel 2010 da Xavier Glorott
e Joshua Bengio, i quali proposero di cambiare le funzioni di attivazione negli hidden layers con funzioni non
limitate ad esempio la relu.

Cambio dell’ottimizzatore: Ci si è resi conto che il gradiente discendente classico è troppo lento nelle reti
neurali profonde, per questa ragione sono stati inventati degli algoritmi di ottimizzazione che convergono
molto più velocemente alla soluzione:

 Momentum tratta l'addestramento come


una palla che si muove in un piano
ondulato acquistando velocità nelle
discese e fermando l'addestramento m≔ β ∙m−η ∇ w J (W )
quando questa smette di muoversi.
β È un parametro che prende il nome di
{ W ≔W +m

momento rappresenta la frizione tra la


palla e il piano:

β ≤ 0 gradiente discendente classico


{ '
¿1 non c èfrizione

 Adam (Adapting momentum estimation): evolve momentum dando dando una direzione iniziale
alla palla che sia ottimale

Potrebbero piacerti anche