Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
NEURALI ARTIFICIALI
4
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
5
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
Area di associazione
visiva
Area
prefrontale
Corteccia visiva
1 FIGURA 4
Organizzazione del
(area di Broca)
Area sensoriale della parola
(area di Wernicke)
Area di associazione
cervello umano e uditiva
Corteccia uditiva
0 sua localizzazione
funzionale [13]
primaria
6
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
7
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
do del compito cognitivo. Per i modelli artifi- effettivamente una genesi biologica, ma
ciali è stata seguita una metafora simile: so- l’attivazione deve interpretarsi come la fre-
no stati studiati diversi tipi di neuroni e di- quenza di treni di impulsi più che come un
verse architetture associandovi le modalità valore assoluto di potenziale. Sono stati an-
di elaborazione concepite per implementa- che studiati modelli formali, denominati
re un determinato compito cognitivo. In fi- spiking neurons che producono, a differen-
gura 5 sono illustrati i due tipici neuroni ar- za dei due precedenti tipi di neuroni, treni di
tificiali che risultano, attualmente, i più in- impulsi come i neuroni biologici. Gli studi
teressanti dal punto di vista applicativo. Il sulle aggregazioni di tali neuroni e sui mo-
primo, denominato neurone sigmoidale, è delli di apprendimento costituiscono un in-
l’evoluzione del percettrone di Rosenblatt teressante settore di ricerca che, tuttavia,
[11], in cui il processo di decisione ha luogo non ha, ad oggi, prodotto risultati applicati-
mediante una funzione a gradino, invece, vi paragonabili a quelli conseguiti con i mo-
della funzione sigmoidale illustrata. Questi delli semplificati in figura 5.
neuroni si eccitano per punti che sono si-
tuati sopra il piano di separazione, dove si 3.1. I percettroni
annulla l’attivazione, e si inibiscono per I singoli neuroni descritti in precedenza pos-
punti situati al di sotto. Le unità del secondo sono essere utilizzati per il calcolo di sempli-
tipo si eccitano per punti contigui al centro ci predicati, ma non possono certamente
(wia; wib; wic) e si inibiscono quando ci si al- soddisfare molte significative esigenze reali.
lontana, con una velocità commisurata al Per esempio, è immediato verificare che i
1 parametro radiale σi.
È interessante notare che nei neuroni biolo-
neuroni sigmoidali non possono calcolare
tutte le funzioni booleane di due variabili. In
–––––
gici l’attivazione ha la tipica forma di “un particolare, le funzioni x1 ⊗ x2 e x1 ⊗ x2 non
8
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
i i
xi xi
σi
l
ai ai
1
l bi
x
xw
ia
x w
ib
x w
ic
– w
ia
– w
ib
– w
ic 0
xa xb xc xa xb xc
FIGURA 5
Due classici esempi
A B
di neuroni artificiali
9
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
degli anni ’60 e non differiscono sostanzial- co con un numero sufficientemente grande di
mente dallo schema illustrato in figura 6 B. neuroni. Purtroppo, non sono disponibili
Tuttavia, in quegli anni, si faceva riferimento concrete indicazioni di progetto, ma la pro-
a una sola unità neuronale in cui aveva luogo prietà di computazione universale può esse-
l’apprendimento e le altre unità erano sem- re facilmente compresa almeno in due casi
plicemente il risultato di una pre-elaborazio- notevoli.
ne definita in modo esplicito, senza appren- 1. Funzioni booleane
a b c
A B
3 4 5
FIGURA 7
A Rete feedforward con struttura a grafo aciclico. B Rete multistrato
5 x5
3 4 1 2
x3 x4
5
1 2
u1 u2 4
u2 x4
4
3 1
1
1 1
u1
1
x3
3
FIGURA 9
0 FIGURA 8
Realizzazione mediante percettrone multistrato della funzione booleana XOR
Tre unità nascoste che originano i tre iperpiani
necessari per definire il dominio convesso
10
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
11 u2
8 7
9 10
3 4 5 6 7 8 6
5 T2
3
T1
4
1
u1 u2 u1
11 u2
9 10
T2 0
3 4 5 6 7
6
FIGURA 10
4
7 Domini non
T1 5
3 connessi possono
u1 u2 essere ottenuti, per
u1
esempio, con due
strati nascosti
11
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
forte connessione con i sistemi dinamici li- strato in figura un’immagine, che raffigura
neari, anche se la loro struttura dinamica è un pattern corrotto da rumore, viene pre-
orientata a processi decisionali. sentata in ingresso alla rete ricorsiva. L’in-
Le reti ricorsive non elaborano solo sequenze gresso è costituito dai pixel dell’immagine
ma, direttamente, anche grafi i cui nodi con- o, più in generale, da una forma de-campio-
tengono un vettore di numeri reali. Si potreb- nata a risoluzione più bassa dell’originale.
be sempre ricondurre l’elaborazione di strut- Con opportune scelte dei pesi delle connes-
sioni2, mantenendo l’ingresso costante, la
1 ture a quella di opportune sequenze. Tutta-
via, rappresentando un grafo come una se- rete ricorsiva procede ad aggiornamenti
quenza si nascondono caratteristiche discri- delle attivazioni dei neuroni finché, dopo
minanti per l’apprendimento. Inoltre, si può una fase di rilassamento, raggiunge un pun-
mostrare che la riduzione a lunghe sequenze to di equilibrio. Com’è illustrato in figura, il
derivante dalla codifica di strutture a grafo in punto di equilibrio corrisponde all’immagi-
stringhe rende il problema dell’apprendi- ne filtrata dal rumore. In pratica, una rete di
0 mento da esempi più costoso. L’elaborazio-
ne su grafi ha luogo estendendo il concetto
Hopfield con N ingressi, permette in modo
affidabile di memorizzare un numero di pat-
di calcolo dello stato in un automa a stati fini- tern intorno a 0, 15N e può, pertanto, essere
ti dal caso di sequenze a quello di alberi e, utilizzata come memoria associativa.
più generalmente, di grafi aciclici ordinati [5].
Per le architetture illustrate l’aggiornamen-
4. APPRENDIMENTO DA ESEMPI
to dello stato avviene in modo sincrono ri-
spetto all’alimentazione di un nuovo ingres- Nelle reti neurali artificiali, le architetture il-
so della sequenza o della struttura dati. La lustrate nel paragrafo precedente, assieme
struttura di una rete neurale ricorsiva può, ai corrispondenti schemi computazionali,
tuttavia, operare anche elaborazioni se- sono di scarso interesse senza il paradigma
quenziali, mediante aggiornamento dello centrale dell’apprendimento, che viene ispi-
stato, di ingressi tenuti fissi. L’esempio più rato a corrispondente paradigma neurobi-
classico è quello delle reti di Hopfield, illu- liogico. Apprendere in una rete neurale arti-
strate in figura 12. Si noti che l’uscita di ogni ficiale corrisponde a modificare il valore dei
neurone è connessa a tutti gli altri e che non pesi delle connessioni sinaptiche. Tale pro-
c’è connessione locale. Nell’esempio illu- cesso è influenzato dagli esempi che con-
corrono a sviluppare concetti. I dati e l’inte-
razione con l’ambiente concorrono con di-
versi protocolli allo sviluppo di competenze
cognitive. In particolare, si individuano tre
diverse modalità di apprendimento a secon-
da del ruolo esercitato dal supervisore del
concetto: l’apprendimento con supervisio-
ne, l’apprendimento con rinforzo e l’appren-
dimento senza supervisione.
0 FIGURA 12
Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore
2
In particolare, la matrice delle connessioni è sim-
metrica.
12
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
13
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
della dimensione della rete la capacità di ge- motivi di efficienza computazionale. Si richie-
neralizzare su nuovi esempi tende a diminui- de, in sostanza, che lo schema di aggiorna-
re dato che il fitting sull’insieme di apprendi- mento dei pesi preveda, per ogni neurone,
mento ha luogo in un enorme spazio di para- l’uso di informazione disponibile per mezzo
metri vincolati solo da pochi esempi. Questo delle sole unità che sono direttamente colle-
origina una sorta di principio di indetermina- gate (località spaziale) e che tale informazio-
zione dell’apprendimento secondo il quale ne sia riferita solo all’istante di tempo prece-
14
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
4
La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si riteneva
1
si trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostrato
5
che esiste una soluzione polinomiale per la determinazione di una configurazione.
Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2.
0
15
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
versa e di fornire soluzioni con uno sforzo re- compatta da utilizzare in ingresso alla rete
lativamente limitato. neurale. La limitazione del numero degli in-
Questo è anche stato reso possibile dalla gressi risulta particolarmente importante
grande diffusione di pacchetti software per per limitare il numero degli esempi necessa-
la simulazione dei modelli più importanti. I ri per una corretta generalizzazione delle re-
principali modelli neurali sono oggi disponi- te a nuovi esempi.
bili anche in molti tool per data mining di- Nella figura 16, è illustrato l’uso di un percet-
16
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
TABELLA 2
Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato 0
17
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
Classe 1
Classe 2
Classe 3
Classe 4
FIGURA 16 4
1 Classificazione
di loghi aziendali
N
FIGURA 17
Autoassociatori Distanze Classe 1 Classe 2 Classe 3 Classe 4
neurali
spondenza delle stazioni di esazione a segui- se. La struttura può integrarsi dinamica-
ti di infrazioni in impianti automatici. mente quando si presenta una eventuale
In figura 18, è illustrata l’architettura com- altra classe. Tale modulo ha la funzione di
plessiva di un sistema per il riconoscimento stabilire una lista di classi candidate, men-
di targhe in sperimentazione presso il Di- tre il modulo a fianco, basato su percettroni
partimento di Ingegneria dell’Informazione multistrato con struttura a classificatore,
dell’Università di Siena. Il sistema è com- serve a raffinare la decisione.
posto da moduli sviluppati con tecnologia Tali classificatori sono tipicamente invocati
neurale (in rosa), da moduli basati su clas- dal modulo centrale quando i candidati si ri-
sici approcci di elaborazione delle immagi- feriscono a classi tipicamente molto confu-
ni e da motori inferenziali. Un modulo di se. In tal caso, appositi classificatori assol-
controllo provvede a sincronizzare le ope- vono unicamente al compito di eliminare
razioni dei moduli slave delegati ad assol- l’ambiguità derivante da classi molto confu-
vere le funzioni di segmentazione della tar- se. Si noti che tali classificatori possono
ga, dei caratteri e riconoscimento dei carat- operare sulla stessa finestra di elaborazio-
teri. Altri moduli esprimono vincoli gram- ne del modulo precedente, ma anche su op-
maticali sulle stringhe possibili oltre a una portune finestre, decise dal modulo centra-
probabilità a priori che si presenti una data le, per enfatizzare le parti del pattern dove
1 targa. Il riconoscimento dei caratteri, che
costituisce ovviamente l’attività critica, è
si localizzano verosimilmente le differenze.
È anche interessante notare che il processo
basato su due moduli. Il primo contiene di segmentazione dei caratteri è raffinato
18
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
Segmentazione caratteri
Adattamento segmentazione
AB 416 CV
Sistema
di controllo
a regole
1
Stringa riconosciuta
Vincoli
grammaticali
A B 0 FIGURA 18
0
Probabilità Architettura
a priori
del sistema per il
riconoscimento di
targhe
dal modulo di segmentazione, a seguito di all’euristica del gradiente, alla base di molti
elaborazioni atte a stabilire la zona di mas- schemi di ottimizzazione utilizzati per le reti
sima risonanza. neurali e dettati dall’esigenza di ottimizzare
in spazi di enorme dimensione. Una volta for-
mulato nell’ambito dell’apprendimento neu-
7. LIMITI E PROSPETTIVE
DI RICERCA rale, la complessità inerente di un problema
si rivela in termini della dimensione dello
La ricerca nel settore delle reti neurali artifi- spazio dei pesi e della forma della superficie
ciali ha raggiunto un certo grado di maturità errore da ottimizzare. L’ostacolo fondamen-
sia per quanto riguarda lo sviluppo sistema- tale per l’euristica del gradiente è dovuto alla
tico delle metodologie fondamentali che il lo- presenza di minimi locali sub-ottimi che in-
ro utilizzo in ambito applicativo. La compren- trappolano gli algoritmi di apprendimento.
sione dei limiti fondamentali sembra essere Per problemi complessi, l’esplosione del nu-
un passo fondamentale per lo sviluppo ulte- mero di tali minimi locali rende inverosimile
riore del settore. Soprattutto in ambito appli- la determinazione di soluzioni efficienti. Si è
cativo, tali tecnologie sono state utilizzate già accumulata evidenza teorica e sperimen-
talvolta in modo acritico confidando sul prin- tale che, a fronte di problemi “complessi”, la
cipio che la “forza bruta” derivante dall’im- forma della superficie errore si “regolarizza”
pressionante sviluppo della microelettronica e diminuisce la presenza di minimi sub-ottimi
e il sogno della computazione inerentemente all’aumentare della dimensione dello spazio
parallela potessero coniugarsi con l’appren- dei pesi. Tuttavia, tale aumento di dimensio-
dimento automatico per risolvere importanti ne non solo conduce a un incremento di com-
problemi aperti con significativo risvolto ap- plessità nel calcolo del gradiente, ma intro-
plicativo. Un’analisi teorica dettagliata sug- duce il problema addizionale dell’over-trai-
gerisce la presenza di enormi ostacoli per un ning, secondo cui l’apprendimento in pre-
ulteriore sviluppo di approcci basati sugli at- senza di spazi dei parametri troppo grossi
tuali schemi di apprendimento automatico.
Alcuni interessanti limiti erano già stati se-
non garantisce una corretta generalizzazione
a nuovi esempi. È forse il momento di co-
1
gnalati da Marvin Minsky nella sua edizione struire teorie computazionali dell’apprendi-
espansa di Perceptrons [10]. In particolare,
Minsky aveva già individuato problemi legati
mento adatte al calcolo neurale, tipicamente
definito nel continuo, invece, che nel tradi- 0
19
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
0
zionale contesto discreto. Il PAC (Probably [2] Anderson J., Rosenfeld E.: Neurocomputing:
Approximately Correct) learning, ampiamen- Foundations of Research. MIT Press, Cambrid-
ge, (Eds. 1988).
te utilizzato fin qui per la comprensione della
complessità, sembra piuttosto sterile e non [3] Angluin D., Smith C.: Inductive inference:
Theory and methods. Computing Surveys, Vol.
appare molto efficace per la comprensione di
15, n. 3, 1983, p. 237-269.
tipici contesti applicativi6. Sembra, inoltre,
[4] Boden M.: Horses of a different colour? In Artifi-
importante procedere nella direzione di svi- cial Intelligence and Neural Networks. V. Honavar
1 luppare architetture e algoritmi di apprendi-
mento nel contesto di ingressi strutturati, op- [5]
and L. Uhr, Eds. Academic Press, 1994, p. 3-19.
Frasconi P., Gori M., Sperduti A.: A general fra-
portunamente rappresentati. Questo favori- mework for adaptive processing of data struc-
sce per altro lo sviluppo di integrazioni più tures. IEEE Transactions on Neural Networks,
forti tra modelli simboli e sotto-simbolici e Vol. 9, 1998, p. 768-786.
sembra suggerire, in generale, la formulazio- [6] Hebb D.: The Organization of Behavior. Wiley,
ne di teorie più generali per il trattamento di New York, 1949. Partially reprinted in [Anderson
Bibliografia
[1] Ablameyko S., Goras L., Gori M., Piuri V.: Limita- MARCO GORI è professore ordinario all’Università di
tions and Future Trends in Neural Computation. Siena presso il Dipartimento di Ingegneria del-
IOS Publishing, (Eds 2003). l’Informazione. Ha ottenuto il Dottorato di ricerca
all’Università di Bologna, completando la formazio-
ne presso la “School of Computer Science” di Mc-
1 6
Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale si
può far riferimento a Ablameyko et al. [1].
Gill University, Montreal. I suoi interessi di ricerca
riguardano l’intelligenza artificiale e le sue applica-
zioni. È attualmente chair del capitolo italiano della
7
La ricerca nel settore del learning from queries and examples ha già for- Neural Networks Society ed è presidente dell’Asso-
0 nito promettenti indicazioni di riduzione di complessità, ma sembra an-
cora essere in una fase incipiente, soprattutto per le ricadute applicative.
ciazione Italiana Intelligenza Artificiale.
marco@dii.unisi.it
20
M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3