Sei sulla pagina 1di 17

INTRODUZIONE ALLE RETI

NEURALI ARTIFICIALI

Marco Gori Nonostante gli straordinari successi dell'elaborazione dell'informazione,


che stanno esercitando un impatto di portata storica nella vita quotidiana,
competenze percettive quali localizzare un oggetto in una scena, ricono-
scere la voce in ordinarie condizioni reali, prendere decisioni basate sul
“senso comune”, risultano ancora compiti estremamente difficili per le
macchine. Nel seguito, viene presentato un quadro generale dell'elabora-
3.6 zione neurale: successi, fallimenti e prospettive applicative.

1. IL MONDO SOTTO-SIMBOLICO colo simbolico alla base degli attuali elabo-

G li odierni sistemi di elaborazione del-


l’informazione hanno compiuto prodigi
che sono sotto gli occhi di tutti. Le macchine
ratori.
Si consideri, per esempio, il problema della
descrizione dell’informazione presente in
hanno automatizzato perfettamente pro- un’immagine che richiede la localizzazione e
cessi considerati tipicamente di pertinenza il riconoscimento di oggetti significativi per
umana, quali recuperare informazione in un l’uomo. Tale processo richiede la capacità di
archivio ed eseguire calcoli. Con l’intelligen- segmentazione che, tuttavia, non può aver
za artificiale si sono spinte verso l’automa- luogo solo con operazioni di basso livello ba-
zione del ragionamento simbolico, fino ai si- sate, per esempio, sul rilievo di variazioni di
stemi esperti, in grado di modellare e ren- luminosità. La segmentazione in una scena
dere fruibile la conoscenza di esperti in spe- non può prescindere da processi cognitivi in
cifici settori. Ma nonostante i formidabili ri- grado di esibire competenza sugli oggetti e,
sultati conseguiti nell’automazione di alcu- più generalmente, del mondo oggetto dell’e-
ni processi intelligenti, soprattutto di alto li- laborazione. Inoltre, soprattutto nel mondo
vello, le macchine offrono ancora un com- tridimensionale, gli oggetti si propongono
portamento piuttosto primitivo e incompa- con molteplici viste e, di nuovo, la loro perce-
rabile con l’uomo nella simulazione della zione, sembra richiedere modelli ben più so-
maggioranza dei processi percettivi. La dif- fisticati di semplici comparazioni con oggetti
ficoltà di automatizzare tali processi è spes- di un dizionario. L’analisi attenta della nozio-
so trascurata per il fatto che già nel mondo ne di similarità di oggetti o quotidiane acqui-
animale sono presenti capacità percettive sizioni quali, per esempio, “la facciata di una
talvolta straordinarie. Tali capacità, svilup- casa” (Figura 1) indicano lo sviluppo di com-
pate in secoli di processi evolutivi, risultano petenze che non sono basate su elaborazio-
difficili da replicare usando i modelli di cal- ne simbolica e ragionamenti qualitativi di dif-

4
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

ficile formalizzazione. L’esempio indicato in


figura 1 illustra, inoltre, un livello di sofistica-
zione dell’analisi umana delle scene che ri-
sulta molto difficile da trasferire alle macchi-
ne: con uno sguardo attento si riconosce fa-
cilmente che le case nella scena sono, in
realtà, miniature. La foto ritrae un paesaggio
di un piccolo paese della montagna pistoiese
in occasione del Natale, ma discernere il 1
mondo artificiale miniaturizzato dal mondo
reale è un compito realmente arduo per le
macchine. Il problema del riconoscimento
automatico della voce offre difficoltà simili. Il
segnale vocale rappresentato in figura 2, as-
sieme al suo spettrogramma, illustra alcuni
aspetti della difficoltà del problema. Si pre- FIGURA 1
0
senta di nuovo il problema della segmenta- Un paesaggio della montagna pistoiese durante il Natale
zione; anche in questo caso non si può fare
affidamento su elementari elaborazioni di 0.0a 0.2a 0.3a 0.4a 0.5a 0.6a
0.1a 0.7a
basso livello del segnale, quale per esempio
il controllo del livello per separare le parole. Segmentazione spuria
Infatti, basta per esempio la presenza di oc-
clusive sorde all’interno di una parola per il
fallimento della segmentazione; la parola
compute (si veda, a tal proposito, il segnale
corrispondente a una sua pronuncia in figura
2) verrebbe, infatti, spezzata in due parti per
la presenza dell’occlusiva sorda “p”. Per via
dell’enorme variabilità dovuta alla velocità di
pronuncia, alla prosodia, al parlatore e a va-
rie altre condizioni di rumore, le parole, inol- Compute p
tre, non sono facilmente rappresentabili me-
diante un dizionario di centroidi, ovvero di
“istanze medie” di riferimento delle parole gnificato degli ingressi e dalla loro conse- FIGURA 2
del dizionario. guente elaborazione mediante algoritmi. Segnale
I problemi menzionati si presentano ormai in Non è, tuttavia, sempre possibile, o comun- e spettrogramma
molteplici applicazioni nelle quali l’elabora- que verosimile, associare agli ingressi un si- relativo alla
zione di informazione multimediale assume gnificato e una conseguente caratterizzazio- pronuncia del verbo
un ruolo sempre più rilevante. Si pensi, per ne simbolica1. Serve, dunque, dotare i calco- “to compute"
esempio, alla navigazione autonoma di un latori di processi computazionali che non sia-
robot, ai data base visuali, alla definizione di no necessariamente basati sulla metafora
interfacce personalizzate, alla gestione di im- dell’algoritmo, secondo cui la soluzione di un
magini di documenti, alla concezione di mo- problema avviene mediante un processo co-
delli per l’estrazione di informazione dal struttivo atto ad esplicitare, simbolicamente,
web. I problemi menzionati, assieme ad altri, le elaborazioni sugli ingressi caratterizzati
hanno in comune il fatto che non sembrano simbolicamente. Per alcuni problemi, questo
naturalmente affrontabili mediante soluzioni approccio non appare naturale e risulta di
basate su elaborazione simbolica. L’informa-
zione da elaborare si presenta con una codifi-
difficile, se non impossibile, formalizzazione. 1
ca a cui non è semplice attaccare significato.
Il prodigio della scienza dei calcolatori pro-
viene tipicamente dalla conoscenza del si-
1
Nelle scienze cognitive questo problema è noto
come the symbol ground problem.
0

5
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

2. LA METAFORA da un corpo detto soma e da due tipi di dira-


NEUROBIOLOGICA mazioni: i dentriti e il cilindrasse o assone.
Allo stato attuale, a differenza delle macchine, Nel cervello umano sono presenti tipica-
l’uomo è un ottimo esempio di “sistema” in mente oltre 100 miliardi di neuroni, ciascu-
grado di elaborare informazione sotto-simbo- no interconnesso a circa altri 10.000. Nelle
liche. Tali elaborazioni, come ogni altro pro- interconnessioni ha luogo la sinapsi, un
cesso cognitivo, hanno sede nel cervello, una processo elettrochimico atto a rinforzare o

1 complessa struttura neurobiologica, attual-


mente decifrata in modo piuttosto accurato
inibire l’interazione cellulare. I segnali rile-
vabili hanno un potenziale dell’ordine di al-
per quanto riguarda gli aspetti anatomici. È cune decine di millVolt e si presentano co-
noto che c’è un “mattone elementare” che ca- me treni di impulsi con frequenza intorno ai
ratterizza tutte le strutture cerebrali, una cel- 100 Hz, con opportune modulazioni. Sono
lula, denominata neurone, che è sede di pro- noti modelli sofisticati che esprimono il po-
cessi elettrochimici responsabili per la gene- tenziale della cella (attivazione) in funzione
0 razione di campi elettromagnetici. Come è il-
lustrato in figura 3, i neuroni sono composti
del potenziale delle celle interconnesse. È
opinione condivisa da ricercatori nel mondo
delle scienze cognitive che i segnali elettrici
Soma presenti nei neuroni siano alla base dell’ela-
Assone borazione dell’informazione a livello cere-
brale. Le capacità cognitive sarebbero, dun-
que, in relazione all’elaborazione dei segna-
li presenti nei neuroni. Inoltre, c’è evidenza
Sinapsi sperimentale per sostenere che la struttura
cerebrale e le sinapsi siano influenzate dal-
Dentriti la vita degli individui, dalle loro esperienze,
dall’apprendimento di compiti specifici. È il
particolare pattern di interconnessioni e la
forza delle connessioni sinaptiche che defi-
nisce le proprietà funzionali di una partico-
lare porzione del cervello. Si è, infatti, verifi-
cato sperimentalmente che le funzioni co-
gnitive risiedono in particolari zone e che
FIGURA 3 tali funzioni possono essere perdute a se-
Neurone e sua struttura cellulare con soma, dentriti e connessioni sinaptiche guito della “rottura” dei legami sinaptici ed

Corteccia motoria Solco centrale Corteccia primaria


primaria somoestetica
Area premotoria Area del gusto
Area di associazione
somoestetica

Area di associazione
visiva
Area
prefrontale

Corteccia visiva

Area motoria della parola

1 FIGURA 4
Organizzazione del
(area di Broca)
Area sensoriale della parola
(area di Wernicke)
Area di associazione
cervello umano e uditiva
Corteccia uditiva
0 sua localizzazione
funzionale [13]
primaria

6
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

eventualmente recuperate, almeno in parte, trattabile perfino in caso di semplici gram-


con successivi processi di apprendimento matiche [3].
atti a instaurare nuovi pattern di intercon- Era, tuttavia, ben chiaro ai padri dell’informa-
nessione sinaptica (Figura 4). tica che non è necessaria una perfetta emula-
Dato che la struttura cerebrale e il compor- zione dei processi neurobiologici per l’emer-
tamento elettromagnetico delle singole genza di capacità cognitive. Molti modelli
celle neuronali sono noti, i ricercatori si so- connessionistici sono, infatti, solo ispirati dal
no ben preso chiesti se si possono operare
induzioni sui comportamenti collettivi del-
paradigma biologico a livello di unità neuro-
nale e si basano sulla struttura indicata in fi- 1
le cellule neuronali, e dunque del cervello gura 3, dove si eredita il principio che l’attiva-
umano, e se si possono trarre utili suggeri- zione neuronale (potenziale associato all’u-
menti e ispirazioni per la costruzione di nità) è soggetta a eccitazioni e inibizioni dal-
macchine in grado di replicare compiti con- le unità connesse. In particolare, l’attivazio-
notati da una forte componente di elabora- ne dell’unità i dipende dall’attivazione della
zione sotto-simbolica, attualmente di diffi-
cile soluzione per i calcolatori. Il lavoro di
generica unità j mediante un parametro as-
sociato alla connessione tra le due unità, che
0
McCulloch & Pitts [8] è forse il primo signi- modella il principio elettrochimico della sina-
ficativo passo in questa direzione, la prima psi. In seguito, sarà illustrato come l’utilizzo
analisi completa, soprattutto dal punto di di modelli di calcolo basati su reti neurali ar-
vista formale, che fa intuire come semplici tificiali sia in grado di esibire quello che Lotfi
unità con sinapsi eccitatorie e inibitorie e Zadeh ha definito softcomputing secondo
con apposita soglia siano in grado, in virtù cui il requisito “trova sempre la soluzione
di un processo collettivo, di rappresentare esatta” diventa “trova spesso una soluzione
complesse proposizioni. E questo sembra approssimata”.
indurli a un certo ottimismo anche per le La ricerca sulle reti neurali artificiali si è evo-
possibili implicazioni sulla comprensione luta attraverso alterne vicende. Sin dagli al-
dei processi cognitivi umani: “Mind no lon- bori dell’informatica, l’elaborazione basata
ger goes more ghostly than a ghost”. Tut- su algoritmi e i modelli neurali centrati sul-
tavia il lavoro di McCulluch e Pitt sembra l’apprendimento da esempi si sono sviluppa-
essere stato più rilevante per gli sviluppi ti in parallelo. Verso la fine degli anni ’60,
nel settore dei calcolatori che non delle Marvin Minsky e Simon Paper [10] pubblica-
scienze cognitive. Carpire i segreti della no “Perceptrons”, un libro che analizza con
mente dall’osservazione dell’attivazione grande lucidità ed elegante formalizzazione
cerebrale è una sfida affascinante, ma que- le capacità computazionali del percettrone di
sto problema di reverse engineering sem- Rosenblatt. La comunità scientifica recepisce
bra essere terribilmente intrappolato nella principalmente l’analisi critica del percettro-
complessità del sistema neuronale umano. ne e segue una fase di stagnazione che si
Si tratta sostanzialmente di indurre regola- protrae fino agli inizi degli anni ’80. L’interes-
rità e leggi dall’osservazione, come in altri se rifiorisce, in particolare, per i lavori di Hop-
settori delle scienze. Questo problema field e del Parallel Distributed Research Cen-
possiede, tuttavia, un’infinità di sfaccetta- ter sulle reti neurali multistrato con l’algorit-
ture e, soprattutto, richiede un processo di mo di apprendimento Backpropagation. Al-
induzione che sembra inerentemente in- tre tappe importanti della ricerca nel settore
trappolato nella complessità dei sistemi di- sono riassunte nella tabella 1.
namici oggetto dello studio. Inferire regole
dagli esempi sembra essere difficile anche
3. ARCHITETTURE NEURALI
in casi elementari; si pensi, a titolo di
esempio, al problema dell’inferenza indut-
tiva di grammatiche, che consiste nel de-
Le neuroscienze hanno permesso di stabili-
re che la struttura cerebrale è caratterizzata
1
terminare la grammatica che genera un lin- dalla presenza di cellule neuronali con com-
guaggio presentato mediante esempi.
Sfortunatamente, questo problema è in-
portamenti vari e, soprattutto, da pattern di
interconnessioni neuronali diversi a secon- 0

7
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

I era Eventi significativi

1943 McCulloch and Pitts, formalizzazione del neurone artificiale [8]


1949 D. Hebb e l’apprendimento per auto-organizzazione [6]
1956 “Dartmouth Summer Research Project on AI” con (Minsky, McCarty,
Rochester, Shannon)
1960 Widrow: ADALINE [14]
1 1962 Il perceptron di Rosenblatt [11]
1969 “Perceptrons”, Minsky & Papert (edizione espansa [10])
70s Periodo “buio”: degni di nota gli associatori di Anderson, i modelli per
apprendimento senza supervisione di Kohonen, gli studi di Grossberg

II era Eventi significativi

0 1982 Reti di Hopfield: memorie associative e soluzione di problemi [7]


1986 PDP e diffusione di Backpropagation [12]
1987 La prima conferenza significativa dell'IEEE a San Diego (II era)
1989 I chip neurali si affacciano sul mercato: Analog VLSI and Neural Systems [9]
TABELLA 1
Alcuni eventi 1990 J. Pollack e le reti neurali che elaborano strutture dati

significativi che 1994 Prima Conferenza Mondiale sull’Intelligenza Computazionale (Orlando)


hanno marcato la 1994 Nasce il progetto NeuroCOLT (Computational Learning Theory)
storia delle reti
2001 L’IEEE approva la creazione della “Neural Networks Society”
neurali artificiali

do del compito cognitivo. Per i modelli artifi- effettivamente una genesi biologica, ma
ciali è stata seguita una metafora simile: so- l’attivazione deve interpretarsi come la fre-
no stati studiati diversi tipi di neuroni e di- quenza di treni di impulsi più che come un
verse architetture associandovi le modalità valore assoluto di potenziale. Sono stati an-
di elaborazione concepite per implementa- che studiati modelli formali, denominati
re un determinato compito cognitivo. In fi- spiking neurons che producono, a differen-
gura 5 sono illustrati i due tipici neuroni ar- za dei due precedenti tipi di neuroni, treni di
tificiali che risultano, attualmente, i più in- impulsi come i neuroni biologici. Gli studi
teressanti dal punto di vista applicativo. Il sulle aggregazioni di tali neuroni e sui mo-
primo, denominato neurone sigmoidale, è delli di apprendimento costituiscono un in-
l’evoluzione del percettrone di Rosenblatt teressante settore di ricerca che, tuttavia,
[11], in cui il processo di decisione ha luogo non ha, ad oggi, prodotto risultati applicati-
mediante una funzione a gradino, invece, vi paragonabili a quelli conseguiti con i mo-
della funzione sigmoidale illustrata. Questi delli semplificati in figura 5.
neuroni si eccitano per punti che sono si-
tuati sopra il piano di separazione, dove si 3.1. I percettroni
annulla l’attivazione, e si inibiscono per I singoli neuroni descritti in precedenza pos-
punti situati al di sotto. Le unità del secondo sono essere utilizzati per il calcolo di sempli-
tipo si eccitano per punti contigui al centro ci predicati, ma non possono certamente
(wia; wib; wic) e si inibiscono quando ci si al- soddisfare molte significative esigenze reali.
lontana, con una velocità commisurata al Per esempio, è immediato verificare che i
1 parametro radiale σi.
È interessante notare che nei neuroni biolo-
neuroni sigmoidali non possono calcolare
tutte le funzioni booleane di due variabili. In
–––––
gici l’attivazione ha la tipica forma di “un particolare, le funzioni x1 ⊗ x2 e x1 ⊗ x2 non

0 treno” di impulsi. La dipendenza dalle con-


nessioni sinaptiche illustrata in figura 5 ha
sono linearmente separabili, mentre, come è
illustrato in figura 6 A, lo sono tutte le 14 altre

8
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

i i
xi xi

σi
l

ai ai
1
l bi
x

xw
ia
x w
ib
x w
ic
– w
ia
– w
ib
– w
ic 0
xa xb xc xa xb xc
FIGURA 5
Due classici esempi
A B
di neuroni artificiali

rimanenti. Più complesso è stabilire il com-


1 1 1 1
portamento del neurone di Rosenblatt nel
caso di interessanti compiti cognitivi, quali il
riconoscimento di forme. 0 1 0 1 0 1 0 1
Nella figura 6 B l’immagine è pre-elaborata 1 1 1 1
mediante l’operatore di pre-processing Φ(x)
che fornisce feature significative. Tale condi-
0 1 0 1 0 1 0 1
zione impone, ovviamente, che il dominio
1 1 1 1
dell’operatore sia limitato in modo da stabili-
re feature locali presenti nell’immagine indi-
pendentemente da traslazioni e rotazioni. In- 0 1 0 1 0 1 0 1
dipendentemente dalla scelta dell’operato- 1 1 1 1
re, Minsky & Papert [10] hanno dimostrato
che alcuni predicati topologici importanti,
0 1 0 1 0 1 0 1
quali stabilire la connessione di una figura, A
non possono essere calcolati. Nella seconda
metà degli anni ’80, grazie soprattutto agli
studi del Parallel Distributed Processing re-
search group, sono state studiate, in modo
sistematico, architetture neurali con architet-
tura a grafo aciclico, in cui è definito un ordi-
namento parziale sui vertici. In tali architet-
ture, un neurone può avere per genitori sia
unità che ingressi (per esempio, il nodo 4, in
Figura 7 A). Lo schema di calcolo si basa sulla x
φ (x)
“propagazione in avanti” delle attivazioni dei
neuroni seguendo l’ordinamento parziale del
grafo aciclico. B
1
Per reti multi-strato lo schema di calcolo si ri- FIGURA 6
duce a una pipe sui livelli. Tali architetture
erano, in realtà, già state concepite agli inizi
Due esempi delle limitazioni del percettrone. A Funzioni booleane a due variabili;
B Un percettrone con il compito di stabilire se la figura elaborata è connessa 0

9
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

degli anni ’60 e non differiscono sostanzial- co con un numero sufficientemente grande di
mente dallo schema illustrato in figura 6 B. neuroni. Purtroppo, non sono disponibili
Tuttavia, in quegli anni, si faceva riferimento concrete indicazioni di progetto, ma la pro-
a una sola unità neuronale in cui aveva luogo prietà di computazione universale può esse-
l’apprendimento e le altre unità erano sem- re facilmente compresa almeno in due casi
plicemente il risultato di una pre-elaborazio- notevoli.
ne definita in modo esplicito, senza appren- 1. Funzioni booleane

1 dimento. Nelle reti neurali di figura 7 le unità


sono tutte uguali e sia la precedente elabora-
È facile rendersi conto che le reti feedforward
possono realizzare ogni funzione booleana.
zione in avanti che l’apprendimento hanno Infatti, ogni funzione booleana si può espri-
luogo in modo omogeneo sui neuroni. mere in prima forma canonica. A titolo di
È stato dimostrato che le reti neurali feed-for- esempio, in figura 8 è illustrata la realizzazio-
word hanno un potere computazionale uni- ne della funzione XOR.
versale, ovvero sono in grado di calcolare 2. Funzioni di appartenenza
0 ogni funzione di ragionevole interesse prati- Una funzioni di appartenenza è tale che fU (u) =
1 se e solo se u ∈ U [fU (u) = 0 ⇔ u ∈ Ū].
Per domini convessi (Figura 9) l’uscita si può
x4 = σ (w43 x34 + w42 x2 + w4c xc)
determinare come AND di opportuni neuroni
7 dello strato nascosto. Per domini non con-
6 nessi (Figura 10) e/o concavi l’uscita si può
5
determinare come l’OR di opportune unità
nascoste (3 strati - eccetto l’ingresso). Si noti
3
Calcolo a “pipe” che questo metodo si basa su un processo
costruttivo e che, dunque, non si può conclu-
dere che servono necessariamente due strati
2
1
6

a b c
A B
3 4 5
FIGURA 7
A Rete feedforward con struttura a grafo aciclico. B Rete multistrato

5 x5

3 4 1 2
x3 x4

5
1 2
u1 u2 4
u2 x4
4

3 1
1

1 1
u1
1
x3
3

FIGURA 9

0 FIGURA 8
Realizzazione mediante percettrone multistrato della funzione booleana XOR
Tre unità nascoste che originano i tre iperpiani
necessari per definire il dominio convesso

10
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

11 u2
8 7

9 10

3 4 5 6 7 8 6

5 T2

3
T1
4
1
u1 u2 u1

11 u2

9 10
T2 0
3 4 5 6 7
6
FIGURA 10
4
7 Domini non
T1 5
3 connessi possono
u1 u2 essere ottenuti, per
u1
esempio, con due
strati nascosti

nascosti per il calcolo di tali funzioni di ap-


partenenza. Simili elaborazioni si possono Stato
Rete multistrato
eseguire anche usando neuroni a simmetria
radiale di figura 5 B.
Ritardo
3.2 Reti neurali ricorsive Rete multistrato
Le architetture neurali descritte in prece-
denza presuppongono schemi di “calcolo in
avanti”, basati su un ordinamento delle
unità. Come per le funzioni booleane, la pre- A
senza di cicli conduce a elaborazioni più
complesse che coinvolgono sequenze e non
singoli pattern. Una tipica situazione in cui
risulta naturale un’elaborazione sequenzia-
le è quella del riconoscimento di fonemi illu-
strata in figura 11.
L’elaborazione è sincronizzata in corrispon-
denza a ogni frame. I neuroni sono ancora del
tipo illustrato in figura 5, ma oltre agli ingres-
si provenienti dal frame corrente, ai neuroni
dello strato nascosto afferiscono anche co- Frequenza
me ingresso il valore delle uscite relative al
frame precedente.
Le reti neurali ricorsive presentano strette
connessioni con gli automi, ma il calcolo che Tempo
1
B
ha luogo nelle unità neuronali ha natura con-
tinua e non discreta. In virtù di tale natura, le
reti neurali ricorsive presentano anche una
FIGURA 11
A Architettura di una generica rete ricorsiva. B Una rete neurale ricorsiva 0

11
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

forte connessione con i sistemi dinamici li- strato in figura un’immagine, che raffigura
neari, anche se la loro struttura dinamica è un pattern corrotto da rumore, viene pre-
orientata a processi decisionali. sentata in ingresso alla rete ricorsiva. L’in-
Le reti ricorsive non elaborano solo sequenze gresso è costituito dai pixel dell’immagine
ma, direttamente, anche grafi i cui nodi con- o, più in generale, da una forma de-campio-
tengono un vettore di numeri reali. Si potreb- nata a risoluzione più bassa dell’originale.
be sempre ricondurre l’elaborazione di strut- Con opportune scelte dei pesi delle connes-
sioni2, mantenendo l’ingresso costante, la
1 ture a quella di opportune sequenze. Tutta-
via, rappresentando un grafo come una se- rete ricorsiva procede ad aggiornamenti
quenza si nascondono caratteristiche discri- delle attivazioni dei neuroni finché, dopo
minanti per l’apprendimento. Inoltre, si può una fase di rilassamento, raggiunge un pun-
mostrare che la riduzione a lunghe sequenze to di equilibrio. Com’è illustrato in figura, il
derivante dalla codifica di strutture a grafo in punto di equilibrio corrisponde all’immagi-
stringhe rende il problema dell’apprendi- ne filtrata dal rumore. In pratica, una rete di
0 mento da esempi più costoso. L’elaborazio-
ne su grafi ha luogo estendendo il concetto
Hopfield con N ingressi, permette in modo
affidabile di memorizzare un numero di pat-
di calcolo dello stato in un automa a stati fini- tern intorno a 0, 15N e può, pertanto, essere
ti dal caso di sequenze a quello di alberi e, utilizzata come memoria associativa.
più generalmente, di grafi aciclici ordinati [5].
Per le architetture illustrate l’aggiornamen-
4. APPRENDIMENTO DA ESEMPI
to dello stato avviene in modo sincrono ri-
spetto all’alimentazione di un nuovo ingres- Nelle reti neurali artificiali, le architetture il-
so della sequenza o della struttura dati. La lustrate nel paragrafo precedente, assieme
struttura di una rete neurale ricorsiva può, ai corrispondenti schemi computazionali,
tuttavia, operare anche elaborazioni se- sono di scarso interesse senza il paradigma
quenziali, mediante aggiornamento dello centrale dell’apprendimento, che viene ispi-
stato, di ingressi tenuti fissi. L’esempio più rato a corrispondente paradigma neurobi-
classico è quello delle reti di Hopfield, illu- liogico. Apprendere in una rete neurale arti-
strate in figura 12. Si noti che l’uscita di ogni ficiale corrisponde a modificare il valore dei
neurone è connessa a tutti gli altri e che non pesi delle connessioni sinaptiche. Tale pro-
c’è connessione locale. Nell’esempio illu- cesso è influenzato dagli esempi che con-
corrono a sviluppare concetti. I dati e l’inte-
razione con l’ambiente concorrono con di-
versi protocolli allo sviluppo di competenze
cognitive. In particolare, si individuano tre
diverse modalità di apprendimento a secon-
da del ruolo esercitato dal supervisore del
concetto: l’apprendimento con supervisio-
ne, l’apprendimento con rinforzo e l’appren-
dimento senza supervisione.

4.1. Protocolli di apprendimento


Nell’apprendimento con supervisione e con
rinforzo, la rete neurale deve sviluppare un
concetto sulla base delle interazioni con un
supervisore, che provvede a istruire la rete,
fornendo informazioni sul concetto.
1 Si consideri, per esempio, il problema della

0 FIGURA 12
Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore
2
In particolare, la matrice delle connessioni è sim-
metrica.

12
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

classificazione di insetti illustrato in figura mente, garanzia di un altrettanto soddisfa-


13. La rete neurale esibisce la sua classifica- cente funzionamento su altri dati relativi allo
zione e interagisce con il supervisore che stesso concetto, ma non utilizzati nella fase
può fornire un’informazione completa o par- di apprendimento (insieme di test). Inoltre, è
ziale sul concetto. Quando l’informazione è evidente che l’architettura della rete neurale
parziale si parla di “apprendimento con gioca un ruolo fondamentale per l’efficienza
rinforzo”; tale informazione deve essere uti- della fase di apprendimento. Si consideri, ad
lizzata nell’apprendimento per rinforzare
comportamenti corretti e penalizzare quelli
esempio, il caso delle reti feedforward e il lo-
ro comportamento al variare del numero del- 1
che originano errori. le unità nascoste. In virtù della loro capacità
Nell’“apprendimento con supervisione”, in- universale di approssimazione, tali reti pos-
vece, il supervisore fornisce l’informazione sono calcolare ogni concetto. Quando il nu-
completa sul concetto, definendo, in questo mero delle unità nascoste cresce, non solo
caso, esattamente la classe di appartenenza. aumenta il potere computazionale, ma si
L’apprendimento di un concetto non richiede
necessariamente l’interazione con un super-
può dimostrare che il problema della pre-
senza dei minimi locali diventa progressiva-
0
visore e può aver luogo anche mediante mente meno rilevante. Tuttavia, al crescere
un’auto-organizzazione degli esempi. Ap-
prendere senza supervisione significa aggre-
Sbagliato!
gare esempi simili in regioni neuronali topo-
logicamente vicine. In figura 14 è illustrata
l’auto-organizzazione di esempi di classi di-
verse e l’eccitazione dei neuroni spazialmen- Ragno
te correlati al concetto. Mentre per i due pre- Mosca
cedenti protocolli di apprendimento la varia- Zanzara
zione delle connessioni sinaptiche avviene Altro

cercando di ottimizzare l’errore rispetto al-


l’informazione fornita dal supervisore: in È un ragno!!!
questo caso, l’apprendimento è guidato da
criteri di “similarità” nei dati.
In generale, i tre protocolli di apprendimento
descritti sono formulabili come ottimizzazio-
ne di una funzione dei pesi della rete neurale.
Nel caso dell’apprendimento con rinforzo e
dell’apprendimento con supervisione, per
rendere il comportamento della rete neurale
conforme alla supervisione occorre minimiz- FIGURA 13
zare una funzione di errore che dipende dalla Il paradigma di apprendimento con supervisione e con rinforzo
scelta dei pesi e misura l’errore rispetto alle
informazioni del supervisore. Nel caso del-
l’apprendimento senza supervisione, l’auto-
organizzazione per similarità dei dati può an-
cora, generalmente, formularsi come l’otti-
mizzazione di una funzione di armonia. Il pro-
blema di ottimizzare funzioni in grossi spazi è
generalmente difficile per la potenziale pre-
senza di minimi locali, che può rendere ineffi-
caci le classiche euristiche di ottimizzazione
basate sulla tecnica di massima discesa del
1
gradiente. FIGURA 14
Il corretto funzionamento di una neurale sul-
l’insieme di apprendimento non offre, ovvia-
Apprendimento
senza supervisione 0

13
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

della dimensione della rete la capacità di ge- motivi di efficienza computazionale. Si richie-
neralizzare su nuovi esempi tende a diminui- de, in sostanza, che lo schema di aggiorna-
re dato che il fitting sull’insieme di apprendi- mento dei pesi preveda, per ogni neurone,
mento ha luogo in un enorme spazio di para- l’uso di informazione disponibile per mezzo
metri vincolati solo da pochi esempi. Questo delle sole unità che sono direttamente colle-
origina una sorta di principio di indetermina- gate (località spaziale) e che tale informazio-
zione dell’apprendimento secondo il quale ne sia riferita solo all’istante di tempo prece-

1 non è possibile al variare dei pesi della rete


neurale ottenere funzioni di errore senza mi-
dente (località temporale).
Per reti ricorsive con architettura generica ri-
nimi locali ed eccellente generalizzazione sulta difficile concepire schemi di apprendi-
per nuovi esempi. mento in grado di coniugare entrambe que-
ste proprietà, mentre questo è possibile per
4.2. Algoritmi di apprendimento architetture speciali, quali ad esempio quella
La formulazione dell’apprendimento come di figura 11 B, in cui le connessioni che produ-
0 ottimizzazione della funzione errore rispetto
alla supervisione permette di attingere all’e-
cono la ricorsività sono solo locali ai neuroni.
Nei protocolli di apprendimento, considera-
norme letteratura di analisi numerica per la ti fino a questo punto, si è assunto che l’ap-
ricerca degli algoritmi più opportuni. Tutta- prendimento consiste solo nella variazione
via, dato che in pratica si opera con reti neu- dei pesi e che questo ha luogo a partire da
rali che possono raggiungere centinaia di mi- una rete neurale con architettura predefini-
gliaia di variabili3, si restringe di solito l’at- ta. Il principio di indeterminazione, prece-
tenzione all’uso dell’euristica di massima di- dentemente menzionato, suggerisce, tutta-
scesa del gradiente che, essendo una tecnica via, che la definizione stessa dell’architettu-
del primo ordine permette di limitare spazio ra possa ragionevolmente costituire ogget-
e tempo di calcolo. Algoritmi di apprendi- to del processo di apprendimento. Tale as-
mento direttamente basati su tecniche itera- sunzione, che ha solide basi neurobiologi-
tive, come il gradiente, prendono il nome di che, conduce dunque allo studio di algorit-
algoritmi di tipo batch. In tali algoritmi, la va- mi atti creare e cancellare connessioni si-
riazione dei pesi avviene solo dopo aver ela- naptiche oltre che a variarne il peso corri-
borato tutti gli esempi dell’insieme di ap- spondente. Sono stati concepiti algoritmi di
prendimento. Si possono, però, concepire al- growing e di pruning delle connessioni ba-
goritmi nei quali i pesi sono aggiornati in cor- sati tipicamente sul principio della sensibi-
rispondenza della presentazione di ogni lità dei pesi rispetto al comportamento del-
esempio (algoritmi di tipo on-line). la rete. Sono stati anche proposti algoritmi
L’entità di variazione dei pesi in corrispon- genetici per sviluppare l’architettura ade-
denza degli esempi può condurre, in questo guata a un certo “task”. Infine, la supervi-
caso, a enfatizzare il comportamento corret- sione può essere fornita in modo più sofisti-
to sugli “ultimi” esempi presentati, dimenti- cato mediante uno schema di insegnamen-
cando i vecchi esempi su cui la rete aveva ap- to, che mira a presentare il desiderato tar-
preso. È evidente che tale entità deve anche get in modo progressivo.
essere commisurata alla numerosità dell’in-
sieme di apprendimento. Un aspetto partico-
5. PROBLEM SOLVING
larmente rilevante degli algoritmi di appren-
dimento, che è talvolta sottovalutato, è costi- L’architettura ricorsiva della rete di Hopfield
tuito dalle proprietà di località spaziale e descritta nel paragrafo 3 è stata oggetto di
temporale che sono tipicamente gradite per molti studi non soltanto per le sue proprietà
di memoria associativa, ma anche perché
1 3
ben si presta alla soluzione di molti interes-
santi problemi di soddisfacimento di vincoli,
In alcuni esperimenti di riconoscimento vocale,
nel gruppo di ricerca di Herve Bourlard (IDIAP, che hanno spesso natura combinatoriale. Per

0 Svizzera) sono state utilizzate reti neurali con cir-


ca un milione di pesi.
illustrare questa interessante proprietà si
consideri il classico problema di scacchi di al-

14
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

locare 8 regine su una scacchiera in configu- Neuroni di riga


razione di non attacco, ovvero in modo tale
che non si mangino4 (Figura 15).
Questo è un problema di soddisfacimento
Neuroni diagonali
di vincoli. Occorre, infatti, che, per ogni re-
gina, non siano presenti regine sulla stessa
riga, la stessa colonna e le due diagonali. Neuroni diagonali
La soluzione del problema si ottiene me-
diante una rete ricorsiva con un numero di 1
neuroni pari al numero di caselle della
Neuroni di colonna
scacchiera. L’eccitazione di un neurone cor-
risponde alla presenza della regina sulla
casella, l’inibizione corrisponde, invece, al- spondono a soluzioni del problema. Come FIGURA 15
la casella vuota. Per risolvere il problema nel caso dell’apprendimento tuttavia, la Il problema delle 8
occorre tradurre i vincoli del problema in
corrispondenti vincoli sul valore delle atti-
funzione può essere popolata da minimi lo-
cali, offrendo pertanto soluzioni spurie. La
regine e la sua
soluzione mediante
0
vazioni dei 64 neuroni. Le connessioni della soluzione sommariamente illustrata per il una rete di Hopfield
rete neurale, solo inibitorie, si costruiscono problema delle 8 regine può essere estesa
associando a ogni neurone un peso negati- con metodologie generali per risolvere ge-
vo proveniente dai neuroni associati alle nerici problemi di soddisfacimento di vin-
caselle che si trovano sulla stessa riga, sul- coli, tipicamente molto complessi dal pun-
la stessa colonna e sulle stesse due diago- to di vista computazionale quali, per esem-
nali cui appartiene la casella associata al pio, il problema del commesso viaggiatore
neurone in oggetto. Non ci sono, dunque, e il knapsack. Le soluzioni offerte da que-
auto-connessioni e, inoltre, la matrice dei sto approccio sono estremamente efficienti
pesi è simmetrica; se l’unità i è connessa oltre a permettere una computazione paral-
all’unità j da un peso wij allora vale anche il lela per ogni passo del processo dinamico.
viceversa, cioè wji = wij. Si noti che a diffe- Il problema fondamentale, tuttavia, è che,
renza del caso in cui la rete di Hopfield ope- come per l’apprendimento, si hanno talvol-
ra da memoria associativa, in questo caso ta soluzioni sub-ottime che possono non ri-
non ci sono ingressi collegati e che la codi- sultare soddisfacenti. In sostanza, con so-
fica del problema è tradotta nel pattern di luzioni basate su reti di Hopfield, una volta
interconnessioni. Si può dimostrare che “programmate” le connessioni per codifica-
con un simile insieme di collegamenti, par- re il problema da risolvere, si può anche
tendo da una qualunque configurazione conseguire in modo efficiente una soluzio-
iniziale, la dinamica della rete neurale evol- ne per problemi intrattabili, ma questo non
ve verso un punto stabile in cui la soluzione è ovviamente garantito5.
rappresenta configurazioni con regine in
posizione di “non attacco”. Tuttavia, par-
6. LE APPLICAZIONI
tendo da una configurazione casuale, l’evo-
luzione della dinamica della rete non ga- Uno dei motivi del successo delle reti neurali
rantisce che tutte le 8 regine siano piazzate artificiali è probabilmente da ricercarsi nel lo-
sulla scacchiera. Si può anche dimostrare ro massiccio utilizzo in innumerevoli applica-
che l’evoluzione della dinamica corrispon- zioni. Il paradigma di apprendimento da
de alla minimizzazione di una funzione esempi su cui si basano permette, infatti, di
energia e che i suoi minimi globali corri- affrontare problemi di natura anche molto di-

4
La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si riteneva
1
si trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostrato

5
che esiste una soluzione polinomiale per la determinazione di una configurazione.
Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2.
0

15
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

versa e di fornire soluzioni con uno sforzo re- compatta da utilizzare in ingresso alla rete
lativamente limitato. neurale. La limitazione del numero degli in-
Questo è anche stato reso possibile dalla gressi risulta particolarmente importante
grande diffusione di pacchetti software per per limitare il numero degli esempi necessa-
la simulazione dei modelli più importanti. I ri per una corretta generalizzazione delle re-
principali modelli neurali sono oggi disponi- te a nuovi esempi.
bili anche in molti tool per data mining di- Nella figura 16, è illustrato l’uso di un percet-

1 sponibili nei principali sistemi per basi di


dati quali il DB2 (Database2). Oltre alla si-
trone multistrato per la classificazione di lo-
go aziendali in 4 categorie. La rete ha 256 in-
mulazione software, sono state studiate di- gressi e 4 uscite, codificate in modo esclusi-
verse soluzioni per l’implementazione in vo, ovvero (1; 0; 0; 0); (0; 1; 0; 0); (0; 0; 1; 0);
hardware di architetture neurali e dei corri- (0; 0; 0; 1). Il numero di neuroni nascosti si
spondenti algoritmi di apprendimento. Mol- determina per tentativi utilizzando un test di
ti studi si sono concentrati su come utilizza- validazione statistica.
0 re gli attuali modelli di calcolo parallelo per
l’implementazione dello schema neurale,
Il percettrone multistrato dimostra eccellenti
capacità di discriminazione di classi, ma non
intrinsecamente parallelo. Sono fiorite in- risulta efficace per attribuire un livello di con-
numerevoli soluzioni nei laboratori di ricer- fidenza nella sua decisione.
ca che hanno avuto anche un certo impatto In altri termini, mentre molte applicazioni
commerciale permettendo lo sviluppo di ac- ne hanno dimostrato la grande efficacia nel-
celeratori neurali per integrare le capacità di la discriminazione di classi note a priori, si è
calcolo di elaboratori tradizionali. Tali acce- ormai accumulata evidenza sperimentale e
leratori sono tipicamente gestite da alcuni supporto teorico per concludere che il per-
simulatori commerciali. L’impressionante cettrone non è in grado di attribuire in modo
evoluzione dei microprocessori che ha avu- affidabile un peso alle sue decisioni. Que-
to luogo anche negli anni ’90 ha, tuttavia, sto rende tale rete neurale usata come clas-
sostanzialmente ridimensionato l’impor- sificatore inadatta a problemi in cui è neces-
tanza di tali soluzioni. sario un comportamento di reiezione di pat-
Si è anche assistito alla nascita di chip neura- tern che non appartengono alle classi pre-
li analogici in grado di implementare i para- stabilite.
digmi di calcolo direttamente con variabili Sempre usando il percettrone multistrato, si
analogiche, senza bisogno di codifica discre- può ovviare a questo inconveniente median-
ta. In particolare, è degno di nota l’INTEL te la configurazione ad autoassociatore illu-
80170, sviluppato nei laboratori INTEL all’ini- strata in figura 17.
zio degli anni novanta. Studi simili sono stati
computi soprattutto da Synaptics, (Object 6.2. Sistemi ibridi
Recognizer Chip) e, in Italia, (TOTEM) della Molte delle applicazioni delle reti neurali a
NeuriCam. problemi reali richiedono un’opportuna or-
Uno dei problemi che ha, tuttavia, limitato lo ganizzazione di sistema e non semplicemen-
sviluppo di chip tipo l’INTEL 80170 è la limita- te l’utilizzo diretto dei modelli descritti in
ta precisione disponibile, che costituisce un questo articolo. Per esempio, l’estrazione
problema soprattutto per gli algoritmi di ap- dell’informazione da una fattura acquisita
prendimento. mediante uno scanner richiede un opportu-
no sistema per la gestione documentale, do-
6.1. Applicazioni al riconoscimento ve le reti neurali possono giocare un ruolo
di forme strategico in alcune parti critiche.
Per illustrare la metodologia alla base di A titolo di esempio, si consideri il problema
1 molte delle applicazioni riportate in tabella
2, si consideri il caso del riconoscimento di
del riconoscimento di targhe automobilisti-
che acquisite mediante ordinarie telecamere
simboli grafici, eventualmente corrotti da in ambiente autostradale. Tale applicazione

0 rumore. Occorre pre-elaborare il pattern in


modo da fornirne una rappresentazione più
è, per esempio, interessante per le società di
gestione del traffico autostradale in corri-

16
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

Settore applicativo Prodotto

Marketing Airline Marketing Assistant, BehavHeuristics Inc


Add-ins per Microsoft Excel, NeuroXL, 1998
AREAS, valutazione automatica immobili, HNC
Software

Previsioni finanziarie Neurodimension www.nd.com, 1991


NetProfit (profittaker.con), Neur. Appl. Corp. Appl. 1
Optical Character Recognition Audre Neural Network, Audre Rec. Systems Appl.
OmniPage 6.0 and 7.0 Pro for Windows, Caere
OmniPage 6.0 Pro for MacOS
AnyFax OCR engine
FaxMaster, Delrina Technology Inc.
VeriFone Oynx, lettore di assegni, Synaptics
0
Riconoscimento caratteri QuickStroke, ric. caratt. cinesi, Synaptics
manoscritti
Teleform: ric. caratteri per fax, Cardiff Software
Application, 1991

Riconoscimento manoscritti Apple Newton 120, Apple


on-line
Lexicus Longhand, Lexicus (Motorola)

Nasi elettronici AromaScan electronic nose, AromaScan


Bloodhound Electronic Nose, Bloodhound Sensors Ltd
e-NOSE 4000 electronic nose, Neotronics Scientific

Controllo di qualità cibi test qualità birra Anheuser-Busch

Bond portfolio management Global Bond, Econostat Ltd.

Controllo frodi (assegni) Dunn and Bradstreet

Controllo frodi (carte credito) Falcon, HNC Software


Nestor In.

Verifica firma Check Signature Verification System, NeuroMetric


Vision System Inc.

Gestione rischio Colleague, Aquarius, HNC Software

Predizione del consumo elettrico Bayernwerk AG Application

Controllo chip microelettr. INTEL

Controllo qualità gomme Dunlop

Cancellazione di eco AT&T/Lucent

Riconoscimento di banconote BANK, D.F. Elettronica


1
Riconoscimento di targhe PLARE, Società Autostrade e DII (Università di Siena)

TABELLA 2
Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato 0

17
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

Classe 1
Classe 2
Classe 3
Classe 4
FIGURA 16 4

1 Classificazione
di loghi aziendali
N

con un percettrone 256


multistrato

FIGURA 17
Autoassociatori Distanze Classe 1 Classe 2 Classe 3 Classe 4
neurali

spondenza delle stazioni di esazione a segui- se. La struttura può integrarsi dinamica-
ti di infrazioni in impianti automatici. mente quando si presenta una eventuale
In figura 18, è illustrata l’architettura com- altra classe. Tale modulo ha la funzione di
plessiva di un sistema per il riconoscimento stabilire una lista di classi candidate, men-
di targhe in sperimentazione presso il Di- tre il modulo a fianco, basato su percettroni
partimento di Ingegneria dell’Informazione multistrato con struttura a classificatore,
dell’Università di Siena. Il sistema è com- serve a raffinare la decisione.
posto da moduli sviluppati con tecnologia Tali classificatori sono tipicamente invocati
neurale (in rosa), da moduli basati su clas- dal modulo centrale quando i candidati si ri-
sici approcci di elaborazione delle immagi- feriscono a classi tipicamente molto confu-
ni e da motori inferenziali. Un modulo di se. In tal caso, appositi classificatori assol-
controllo provvede a sincronizzare le ope- vono unicamente al compito di eliminare
razioni dei moduli slave delegati ad assol- l’ambiguità derivante da classi molto confu-
vere le funzioni di segmentazione della tar- se. Si noti che tali classificatori possono
ga, dei caratteri e riconoscimento dei carat- operare sulla stessa finestra di elaborazio-
teri. Altri moduli esprimono vincoli gram- ne del modulo precedente, ma anche su op-
maticali sulle stringhe possibili oltre a una portune finestre, decise dal modulo centra-
probabilità a priori che si presenti una data le, per enfatizzare le parti del pattern dove
1 targa. Il riconoscimento dei caratteri, che
costituisce ovviamente l’attività critica, è
si localizzano verosimilmente le differenze.
È anche interessante notare che il processo
basato su due moduli. Il primo contiene di segmentazione dei caratteri è raffinato

0 percettroni multistrato con struttura ad au-


toassociatore, che modellano le classi atte-
dagli autoassociatori che posizionano la fi-
nestra in un intorno della posizione indicata

18
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

Segmentazione della targa

Segmentazione caratteri

Adattamento segmentazione
AB 416 CV
Sistema
di controllo
a regole
1
Stringa riconosciuta

Vincoli
grammaticali

A B 0 FIGURA 18
0
Probabilità Architettura
a priori
del sistema per il
riconoscimento di
targhe

dal modulo di segmentazione, a seguito di all’euristica del gradiente, alla base di molti
elaborazioni atte a stabilire la zona di mas- schemi di ottimizzazione utilizzati per le reti
sima risonanza. neurali e dettati dall’esigenza di ottimizzare
in spazi di enorme dimensione. Una volta for-
mulato nell’ambito dell’apprendimento neu-
7. LIMITI E PROSPETTIVE
DI RICERCA rale, la complessità inerente di un problema
si rivela in termini della dimensione dello
La ricerca nel settore delle reti neurali artifi- spazio dei pesi e della forma della superficie
ciali ha raggiunto un certo grado di maturità errore da ottimizzare. L’ostacolo fondamen-
sia per quanto riguarda lo sviluppo sistema- tale per l’euristica del gradiente è dovuto alla
tico delle metodologie fondamentali che il lo- presenza di minimi locali sub-ottimi che in-
ro utilizzo in ambito applicativo. La compren- trappolano gli algoritmi di apprendimento.
sione dei limiti fondamentali sembra essere Per problemi complessi, l’esplosione del nu-
un passo fondamentale per lo sviluppo ulte- mero di tali minimi locali rende inverosimile
riore del settore. Soprattutto in ambito appli- la determinazione di soluzioni efficienti. Si è
cativo, tali tecnologie sono state utilizzate già accumulata evidenza teorica e sperimen-
talvolta in modo acritico confidando sul prin- tale che, a fronte di problemi “complessi”, la
cipio che la “forza bruta” derivante dall’im- forma della superficie errore si “regolarizza”
pressionante sviluppo della microelettronica e diminuisce la presenza di minimi sub-ottimi
e il sogno della computazione inerentemente all’aumentare della dimensione dello spazio
parallela potessero coniugarsi con l’appren- dei pesi. Tuttavia, tale aumento di dimensio-
dimento automatico per risolvere importanti ne non solo conduce a un incremento di com-
problemi aperti con significativo risvolto ap- plessità nel calcolo del gradiente, ma intro-
plicativo. Un’analisi teorica dettagliata sug- duce il problema addizionale dell’over-trai-
gerisce la presenza di enormi ostacoli per un ning, secondo cui l’apprendimento in pre-
ulteriore sviluppo di approcci basati sugli at- senza di spazi dei parametri troppo grossi
tuali schemi di apprendimento automatico.
Alcuni interessanti limiti erano già stati se-
non garantisce una corretta generalizzazione
a nuovi esempi. È forse il momento di co-
1
gnalati da Marvin Minsky nella sua edizione struire teorie computazionali dell’apprendi-
espansa di Perceptrons [10]. In particolare,
Minsky aveva già individuato problemi legati
mento adatte al calcolo neurale, tipicamente
definito nel continuo, invece, che nel tradi- 0

19
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0

zionale contesto discreto. Il PAC (Probably [2] Anderson J., Rosenfeld E.: Neurocomputing:
Approximately Correct) learning, ampiamen- Foundations of Research. MIT Press, Cambrid-
ge, (Eds. 1988).
te utilizzato fin qui per la comprensione della
complessità, sembra piuttosto sterile e non [3] Angluin D., Smith C.: Inductive inference:
Theory and methods. Computing Surveys, Vol.
appare molto efficace per la comprensione di
15, n. 3, 1983, p. 237-269.
tipici contesti applicativi6. Sembra, inoltre,
[4] Boden M.: Horses of a different colour? In Artifi-
importante procedere nella direzione di svi- cial Intelligence and Neural Networks. V. Honavar
1 luppare architetture e algoritmi di apprendi-
mento nel contesto di ingressi strutturati, op- [5]
and L. Uhr, Eds. Academic Press, 1994, p. 3-19.
Frasconi P., Gori M., Sperduti A.: A general fra-
portunamente rappresentati. Questo favori- mework for adaptive processing of data struc-
sce per altro lo sviluppo di integrazioni più tures. IEEE Transactions on Neural Networks,
forti tra modelli simboli e sotto-simbolici e Vol. 9, 1998, p. 768-786.
sembra suggerire, in generale, la formulazio- [6] Hebb D.: The Organization of Behavior. Wiley,
ne di teorie più generali per il trattamento di New York, 1949. Partially reprinted in [Anderson

0 dati continui. A tal proposito, Margaret Bo-


den, con riferimento alla novella del “Mago [7]
and Rosenfeld, 1988].
Hopfield J.: Neural networks and physical sy-
di Oz” scrive “[...] the pretty creature was visi- stems with emergent collective computational
abilities. Proceedings of the National Academy
bly the same horse, changing colour as it
of Sciences, USA, Vol. 79, 1982, p. 2554-2558.
trotted along. ... AI is one beast, like the Wi- Also in Neurocomputing, The MIT Press, 1988.
zard’s pony”, [4] proponendo il parallelo dei
[8] McCulloch W., Pitts W.: A logical calculus of
colori del pony con i diversi colori dell’intelli- ideas immanent in nervous activity. Bulletin of
genza artificiale. Servono forse nuove inte- Mathematical Biophysics, Vol. 5, 1943. Reprin-
ressanti miscele di colori, servono schemi ted in [Anderson and Rosenfeld, 1988].
per modellare in modo più naturale l’incer- [9] Mead C.: Analog VLSI and Neural Systems. Ad-
tezza, serve comprendere più a fondo l’ingre- dison Wesley, Reading, 1989.
diente evoluzionistico delle specie per coniu- [10] Minsky M., Papert S.: Perceptrons - Expanded
garlo con l’apprendimento automatico. E an- Edition. MIT Press, Cambridge, 1988.
che gli schemi di apprendimento devono ve- [11] Rosenblatt F.: Principles of Neurodynamics:
rosimilmente risultare meno rigidi e, soprat- Perceptrons and the Theory of Brain Mechani-
tutto, devono risultare attivi, permettendo sm. Spartan Books, Washington D.C, 1962.
un’interazione tra la macchina che apprende [12] Rumelhart D., Hinton G., Williams R.: Learning
e il suo supervisore7. Forse non importa il internal representations by error propagation.
In Parallel Distributed Processing, D. Rumelhart
“colore” del pony; le reti neurali, e più in ge-
and J. McClelland, Eds. Vol. 1. MIT Press, Cam-
nerale la computational intelligence, devono bridge, Chapter, Vol. 8, 1986, p. 318-362. Re-
integrarsi in modo più forte con i classici mo- printed in [Anderson and Rosenfeld, 1988].
delli simbolici. L’ibrido può non solo risultare [13] Seeley R., Stephens T., Tate P.: Essentials of
vincente nelle applicazioni, ma può originare Anatomy and Physiology, McGraw-Hill, 2002.
nuove miscele di colori, ben distinte dai com- [14] Widrow B., Hoff M.: Adaptive switching circuits.
ponenti. In IRE WESCON Convention Record. IRE, New
York, Vol. 4, 1960, p. 96-104.

Bibliografia
[1] Ablameyko S., Goras L., Gori M., Piuri V.: Limita- MARCO GORI è professore ordinario all’Università di
tions and Future Trends in Neural Computation. Siena presso il Dipartimento di Ingegneria del-
IOS Publishing, (Eds 2003). l’Informazione. Ha ottenuto il Dottorato di ricerca
all’Università di Bologna, completando la formazio-
ne presso la “School of Computer Science” di Mc-
1 6
Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale si
può far riferimento a Ablameyko et al. [1].
Gill University, Montreal. I suoi interessi di ricerca
riguardano l’intelligenza artificiale e le sue applica-
zioni. È attualmente chair del capitolo italiano della
7
La ricerca nel settore del learning from queries and examples ha già for- Neural Networks Society ed è presidente dell’Asso-
0 nito promettenti indicazioni di riduzione di complessità, ma sembra an-
cora essere in una fase incipiente, soprattutto per le ricadute applicative.
ciazione Italiana Intelligenza Artificiale.
marco@dii.unisi.it

20
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

Potrebbero piacerti anche