Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
w h(.)
x1
W
h(.)
x2
g(.) y
. .
. .
. .
xI
h(.)
1
classi, ma difficilmente sarà un semplice iperpiano. Scegliamo quindi di usare un
percettrone multistrato dato che riesce ad approssimare superfici di separazione
complesse e, all’occorrenza, anche iperpiani.
2
(uscita y della rete neurale). Nel nostro caso per l’indipendenza del campione
osservato abbiamo:
N
Y
P (t1 , t2 , . . . , tN ) = P (t1 ) · P (t2 ) · . . . · P (tN ) = P (tn )
n
Ricordando che a noi interessa il massimo di tale funzione e che la funzione lo-
garitmo, essendo monotona, preserva il massimo ottenimo la seguente funzione
da massimizzare:
N
!
Y
l = log L = log y tn (1 − y)(1−tn )
n
N
X
= log y tn (1 − y)(1−tn )
n
N
X
= log y tn + log(1 − y)(1−tn )
n
N
X
= (tn log y + (1 − tn ) log(1 − y))
n
Massimizzare la veromisglianza
PN equivale quindi a minimizzare l’opposto della
precedente funzione −l = − n (tn log y + (1 − tn ) log(1 − y)) .
PI PJ
Posto aj = i wij xi , bj = h(aj ) e A = j Wj bj Calcoliamo le derivate della
funzione da minimizzare rispetto a Wj e wij .
3
N
∂E X ∂(tn log y) ∂((1 − tn ) log(1 − y))
= − +
∂Wj n
∂W j ∂Wj
N
X 1 ∂y 1 ∂(−y)
= − tn + (1 − tn )
n
y ∂Wj (1 − y) ∂Wj
N
X tn 0 ∂A 1 − tn 0 ∂A
= − g (A) − g (A)
n
y ∂Wj 1−y ∂Wj
N
X tn 0 1 − tn 0
= − g (A)bj − g (A)bj ,
n
y 1−y
N
∂E X ∂(tn log y) ∂((1 − tn ) log(1 − y))
= − +
∂wij n
∂wij ∂wij
N
X 1 ∂y 1 ∂(−y)
= − tn + (1 − tn )
n
y ∂wij (1 − y) ∂wij
N
X tn 0 ∂A 1 − tn 0 ∂A
= − g (A) − g (A)
n
y ∂wij 1−y ∂wij
N
X tn 0 ∂h(aj ) 1 − tn 0 ∂h(aj )
= − g (A)Wj − g (A)Wj
n
y ∂wij 1−y ∂wij
N
X tn 0 0 ∂aj 1 − tn 0 0 ∂aj
= − g (A)Wj h (aj ) − g (A)Wj h (aj )
n
y ∂wij 1−y ∂wij
N
X tn 0 1 − tn 0
= − g (A)Wj h0 (aj )xi − g (A)Wj h0 (aj )xi .
n
y 1 − y
4
parte dei dati di addestramento per stimare l’errore di generalizzazione anzi-
chè usarli come dati per la minimizzazione dell’errore e fermo l’apprendimento
quando l’errore di generalizzazione non decresce più. Un’altra tecnica per ridur-
re l’overfitting è nota con il nome di weight decay: in questo caso la funzione
da minimizzare include anche un termine di penalizzazione per pesi sinaptici
troppo grandi dovuto a considerazioni sia empiriche sia statistiche.