Sei sulla pagina 1di 16

2. DescrizionediReteNeurale.

Durante il corso del tirocinio ci siamo occupati dello studio delle reti neurali (ArtificialNeuralNetwork,ANN). Le ANN vengono utilizzate per la risoluzione di quelle problematiche che i convenzionali computer ad architettura von Neumann non sono in grado di risolvere,comeilriconoscimentodiformeecomprensionedeilinguagginaturali, Le Neural Network sono modelli matematici o computazionali che prendono ispirazionedalfunzionamentodelleretineuralibiologicheemiranoall'emulazione delleprestazioniumane.(S.Rajkumar,Artificialneuralnetwork) Leretineuralipresentanoun'architetturanonpisequenziale,comelamacchinadi vonNeumanncheesegueun'operazioneallavolta,maparallela,edperquesto motivocheisistemineuralisonoconosciutianchecomemodellidielaborazione paralleladistribuita (ParallelDistribuitedProcessing)o modelliconnessionistici. Questisistemirealizzanoilprocessodicomputazioneattraversol'interazionedi elementidettinodi,nonlineari,connessitramitelinksdipesi(weights)variabili.
fig.1

ig.1

L'immagine rappresenta un Multi-Layer Perceptron ( Wikipedia, Artificial neural network)

I nodi sono caratterizzati da unasogliainternaooffset edauntipodi non linearit,chepossonoessereditretipi(hardlimiters,thresholdlogicelementse sigmoidalnonlinearities). I modelli di rete Neurale sono caratterizzati dalla topologia della rete, dalle caratteristichedeinodiedalleregolediaddestramento.Questeregolespecificano uninizialesetdiweightseilmodoincuipoiquestipotrebberoesseremodificati durantel'usopermigliorareleprestazioni. AdifferenzadellamacchinasequenzialedivonNeumannleANNforniscounalto gradodirobustezzagrazieapinodidielaborazione. Esaminiamoalcunimodellichesono: RetidiHopfield. SingleLayerPerceptron. MultiLayerPerceptron. RetiautoorganizzantidiKohonen.

2.1 RetidiHopfield

LaretediHopfieldvienedinormautilizzataquandogliingressi(input)possono assumereunarappresentazionebinariaesatta(es.nelleimmaginiinbiancoenero doveivalorisonopixel),questotipodiretevieneutilizzataperlarisoluzionedi problemidi ottimizzazionecombinatoria conunaltissimonumerodisoluzionio perl'implementazionedimemorieassociative. Il modello proposto da Hopfield costituito da N neuroni interconnessi reciprocamente, eognunodiquestipuassumereunvaloreinterno1o1che corrispondonorispettivamenteallostatodiattivitoinattivitdelneuronestesso, che coincidono con il valore di output. I valori di uscita di ogni nodo inoltre vengonotrasmessiatuttiglialtriattraversodeipesi.

L'algoritmodiimplementazionecostadiquattrofasi: Fase1:Vengonosettatiipesi. Fase2:Inizializzazioneall'istantezeroconcampionisconosciutiiningresso. Fase3:Lareteesegueleiterazioniusandolaformula: (t+1)=fh (tij i(t)) doveiltempotassumevaloridiscreti,fh lafunzione gradino e l'iterazione viene eseguita fino a quando il valore in uscita rimane invariato. Fase4:Ripeteilpunto2. Lareteconvergequandoglioutputnoncambianopinelleiterazionisuccessive, questoaccadequandoipesisonosimmetrici(tij=tji).

2.2 MultiLayerPerceptron

IMultiLayerPerceptronsonoreti feedforward conunoopistrati,contenenti unit nascoste o nodi, tra input e output. Questi nodi per non sono connessi direttamente ad entrambi i nodi.Quandotrainputeoutputvi unsolostrato nascostosiparladiSingleLayerPerceptronmailMultiLayerPerceptronpi efficienteinquantosuperamoltelimitazionidelprecedente. A differenza della rete precedentemente descritta queste reti possono essere utilizzatesiaconvaloricontinuicheconconingressibinari.Inizialmentevengono assegnatisiaipesielesoglie,poilaretevieneaggiornataneltentativodirenderla consistentecongliesempi,chelevengonoforniti,attraversopiccolemodifichedei pesi,inmododaridurreladifferenzatraivaloriprevistiequellichesonostati effettivamente osservati. L'aggiornamento deve essere eseguito pi volte per ottenerelaconvergenzaversolasoluzionecorretta. Ingenerelafasediapprendimentovienesuddivisainepoche,nellequalivengono aggiornatiipesi.

Sonoeseguitecinquefasi:

Fase1:Inizializzazionedeipesiedellesogliewi(0)con0<i<N1, un
piccolovalorecasuale.

Fase2:Introduzionedelnuovoinputecalcolodell'outputdesiderato. Fase3:Calcolarel'uscitaeffettiva;ognisingolonodocalcolaunasomma
pesatadeglielementidiingressoaquestasisottraelasogliaeilrisultato vienepassatoallafunzionegradinoinmodotaledaottenereunoutputcon valore+1o1. Laformula:y(t)=fh(wi(t)xi(t)).

Fase4:Adattamentodeipesitramitelaregola:
w(t+1)=wi(t)[d(t)y(t)]xi(t)con0iN1,doveilguadagno,positivoe minorediuno,ed(t)ilvaloredioutputdesideratoperl'inputcorrente.

Fase5:Siripetel'algoritmodallafase2.
Una tecnica semplice per determinare il comportamento di una rete come il percettronequelloditracciareunamappadelleregionididecisionecreatenello spazio multidimensionale occupate dalle variabili di input. In un Single Layer Perceptron lo spazio bidimensionale mentre in un MultiLayer Perceptron vengono a crearsi regioni convesse: esse sono formate dalle intersezioni delle regionisemipianoformatedaognisingolonododelprimostrato.Nelprimostrato tuttiinodisicomportanocomeunsinglelayeresipudimostrarechelaretehaun altorendimentosoloperipuntisuunlatodell'iperpianoformatodaisuoipesie dall'offset. Leretimultistratopossonoessereaddestrateattraversodiversialgoritmicomeil Backpropagation.

2.4RetiautoorganizzantidiKohonen

Un tipico problema quello di cercare classi di dati aventi caratteristiche similari(per cui associabili) all'internodi ungruppodisordinatodidati.Questo problemavieneaffrontatotramiteretiautoorganizzanti,cioingradodiinteragire conidati,addestrandosestessasenzaunsupervisorecheforniscasoluzioniin punti specifichi nello spazio dellevariabili,si parlaciodi addestramento non supervisionato.Loscopodiquesteretinonpiquellodifornireunoutputa frontediuncertoinputmaquellodiriceveregliingressieclassificarli.Suquesto principiosibasanoleretidettediKohonen. Questeretisonocostituitedaduestrati: Input. OutputostratodiKohonen:inquestostratoineuronisonoconnessiad unvicinatodineuronisecondounsistemadiinibizionelateraledefinito acappellomessicano.
f

ig.2

ig.2 Rete neurale auto-organizzante di Kohonen(Marchese L., Reti neurali su Personal Computer e Fuzzy Logic: Reti Neurali Autoorganizzanti. Le Reti Di Kohonen)
f

Ineuronipresentineiduestratisonoconnessiinteramentetraloromedianteuna connessione variabile mentre i pesi delle connessioni intrastrato dello strato di outputnonsonosoggetteadapprendimentomasonofissiepositivi. Comeindicatonellafiguraprecedentesinotachenellostratodioutputviunsolo neuronevincente,conilmassimovalorediattivazione,perogniinputfornitoalla rete, questo identifica la classe di appartenenza dell'input. Il collegamento a cappello messicano tende a favorire il formarsi di bolle di attivazione che identificanoingressisimili.LoscopodellaretediKohonenquindiquellodiavere ,per ingressi simili, neuroni vincenti vicini, cos che la bolla di attivazione rappresentaunaclassediinputaventicaratteristichesomiglianti. L'addestramentodellareteavvieneattraversoleseguentifasi:

Inizializzazionepesi: vengonosettatiipesidelleconnessionitragliN
ingressiegliMneuronidiuscita.

Presentazioneingresso:ilvettorediingressocompostodallecomponenti
Vvienepresentatoallarete.

Calcolodistanzadituttiinodi:vienecalcolataladistanzatral'inputeil
neuronedioutput.

Selezioneneurone:ilneuronejcondistanzaminimavieneselezionato,e
rappresenterilneuronevincente.

Aggiornamento dei pesi: questa fase viene sviluppata in modo da


accentuareilfattochel'inputXdeveappartenereallaclasseindividuata. In questo modo man mano che la rete esamina gli esempi che si susseguonosiconvincechecampionisimilidevonofarvinceresemprela stessaunit,cioappartenereallastessaclasse.L'adattamentodeipesi vienesviluppatomediantelaseguenteformula: wiv=(XiWiv) dovevl'indicedell'unitvincenteodelleunitinterneallabollavincente, mentre i pesi delle connessioni dei neuroni perdenti non vengono modificati.

3. Metodidianalisi
Per l'analisi del segnale vocale sono stati studiati varie rappresentazioni parametrichecercandodirealizzareunsistemachefossepivicinopossibileal sistemauditivoumano. Imodellipiusati perquestoscoposonol' LP ( LinearPrediction )eil PLP (PerceptualLinearPredictive).IlPLPunatraletecnicheusatenell'analisidello speechepermettedistimareconprecisioneiparametridelparlato. IlmodelloPLPutilizzatreconcettidell'acusticapsicofisicaperricavareunastima dellospettrouditivo:
Risoluzionedellospettrodellabandacritica(criticalband). Lacurvaisofonica(equalloudnesscurve). Leggedipotenzadell'intensitsonora(intensityloudnesspowerlaw).

Lospettrouditivovieneinfineapprossimatodaunmodelloautoregressivoasoli poliA(). Se l'ordine del modello viene scelto appropriatamente, A() approssima l'area dellaconcentrazioneadaltaenergianellaP()mentreattenualastrutturaarmonica e altri dettagli spettrali meno rilevanti. Queste aree spesso corrispondono alle frequenzedirisonanzadeltrattovocale(formanti).

3.1.1

DescrizionefasiPLP

Qui di seguito verranno mostrati le fasi che nel Perceptual Linear Predictive vengonoeseguitepersimulareleproprietdell'udito. Lefasisonocinque:
Analisispettrale(Spectralanalysis); RisoluzionespettraledellaCriticalBand(CriticalBandspectralresolution);

Equalloudnesspreemphasis; Intensityloudnesspowerlaw; ModelloAutoregressivo;

Analisispettrale In questa fase il parlato viene segmentato utilizzando al finestra di Hamming tramitelaformula:
W ( n ) =0 .54 + 0 . 46cos 2n ( N1 )

dove N rappresenta la lunghezza della finestra. Infine viene utilizzata la trasformatadiscretadiFourier(DFT)perrappresentareilsegmentodispeechnel dominiodellafrequenza,perpotercalcolareglishorttermsdellapotenzaspettrale comesegue:
P ( ) = ( S ( ) ) + ( S ( ) )
2 2

doveS()ilvaloredellaFFT,utilizzataperottimizzareitempidicalcolo,alla frequenza.

RisoluzionespettraledellaCriticalBand Lo spettro P() passa al dominio della frequenza di Bark utilizzando la relazione: ()=6ln{(/1200)+[(/1200)2+1]0.5} dovelafrequenzaangolareinrad/sec. Ilrisultatodiquestatrasformazionevienepoiconvolutoconlospettrodipotenza diunabandacriticasimulata,chenellatecnicaPLPdatadallafunzione:
fig.3

Dalla convoluzione discreta della curva () con P ( ) si ottengono i campioni dello spettro di potenza della banda critica :
2 .5

( i )=

=1. 3

P ( i ) ( )

Questaconvoluzioneriduceinmodosignificativolarisoluzionespettraledi() rispetto all'originale P(). L'ampiezza degli intervalli di campionamento sono sceltiinmodotalechesiaunnumerointerodicampionispettraliaricoprirel'intera bandadianalisi.

ig.3 Funzione dello spettro di potenza della banda critica simulata (Hynek Hermasnsky ,Percentual linear predictive (PLP) analysis speech)

Equalloudnesspreemphasis Lafunzione[()]preenfatizzatadallacurvaisofonicatramitel'applicazione: [()]=E()[()] L'udito umano risponde in modo differente a frequenze differenti. La funzione E() presente nella precedente relazione cerca di imitare proprio questa funzionalitdell'orecchioevieneimplementatainquestomodo: E()=[(2+56.8*106)*4]/[(2+6.3*106)2*(2+0.38*109)] Questaequazionerappresentalafunzioneditrasferimentodiunfiltroconasintotia 12dB/octtra0e400Hz,0dB/octtra400e1200Hz,6dB/octtra1200e3100Hz e0dB/octtra3100HzelafrequenzadiNyquist.Nell'equazionesopracitataviene aggiunto un termine, che rappresenta un ulteriore decremento della sensibilit dell'udito,inquelleapplicazioniincuisirichiedonofrequenzediNyquistelevate. L'equazionediventa: E()=[(2+56.8*106)*4]/[(2+6.3*106)2*(2+0.38*109)*(6+9.58*1026)] Infine,ivalorideiprimicampioni(0Bark)edegliultimi(frequenzediNyquist) sonoresiugualiaivaloridiquellipivicini. Intensityloudnesspowerlaw Arrivatiaquestopuntol'ultimaoperazioneprimadellostudiodelModelloasoli polilaradicecubicadellacompressioneinampiezzaespressadallaformula:
= ( )
0 . 33

Questaoperazionenonaltrochelaleggedipotenzadell'uditooleggediStevens (1957),secondocuilasensazione(S)proporzionaleall'intensit(I)elevatoauna certapotenza(n),chesimulalarelazionenonlinearetral'intensitdelsuonoela sonorit percepita. Inoltre viene ridotta anche la variazione dell'ampiezza dello spettrodellabandacritica,cosdapoterutilizzareilmodelloasolipoliconun ordinerelativamentebasso.

ModelloAutoregressivo Nella fase finale dell'analisi PLP, la funzione () viene approssimata dallo spettro di un modello a soli poli usando il metodo di autocorrelazione della modellazione spettrale a soli poli. Per ottenere la funzione di autocorrelazione dualedi()vieneapplicatalatrasformatadiscretainversa(IDTF)a(). QuisiscegliediutilizzarelaIDTFalpostodellaFFTinquantosononecessari soltantopochivaloridiautocorrelazione. IprimiM+1valorisonoutilizzatiperrisolverel'equazionediYuleWalkerequindi pertrovareicoefficientiautoregressivi,chepotrebberoesseretrasformatipoiin altrisetdiparametridiinteresse,delmodelloasolipolidiMesimoordine.

4. Esperimenti
La rete neurale studiata durante il progetto di tirocinio una rete Multi Layer Perceptron, (descritta nel paragrafo 2.3), addestrata tramite un algoritmo supervised,lo Standard Backpropagation Algorithm. La struttura delle unit nascostedellanostraretenonbasatasuunafunzionediattivazionesigmoidale, come si usa fare solitamente in quanto la sigmoide ha buone propriet di comportamento e una semplice forma di derivazione, ma su una funzione di attivazioneapolinomioHermitiano.

4.1

IlpolinomioHermitiano

Lasceltadell'utilizzodelpolinomiodiHermitecomefunzionediattivazione dovuta all'osservazione del fatto che questa funzione accresce la capacit di generalizzazionediun'architetturaneuralefeedforward. Ilsuddettopolinomiodefinitoperogninumeronaturalenesuunintervalloche vada( ,+ )come:
H n ( x )= (1 ) e
n x 2 2 2

dn e dx n

x 2

ecomesievincedalleregolediderivazioneperogninesisterunpolinomiodi ordinen. LareteneuralestimalaprobabilitdiunfonemadatounvettorediinputxconM componentix=(x1,x2....,xM)utilizzandounmodellononlineare.


p k = p ( y=kx ) = e
N i=1 gk

eg

dovegklafunzionediattivazionelineareespressadalla:
R

gk = w kj f
j=1

( )
i=1

w ji xi

dovewkjewjirappresentanoipesidelsecondoedelprimostratoefjlafunzione diattivazionedeljesimoneuronenascosto.Secomefunzionediattivazioneviene sceltoilpolinomiodiHermiteallorafjrappresentatodallafunzione:


R

f j ( z )= c r h r ( z )
r=1

l'intervallosuperioreRdellasommatoriaindicailgradodelpolinomioHermitiano. Ilprimoordinediderivazionedellafj(z)ottenutafacilmentegrazieallanatura ricorsivadell'Hermitiano.Ilprimoordinediderivazionedatoda:


d d 1/2 f ( z )= c r ( hr ( z ) ) = c r [ ( 2r ) h r1 ( z )zh r ( z ) ] dz dz r=1 r= 1
R R

4.2 Esperimentisulriconoscimentodeifonemi
NegliesperimenticondottivieneutilizzatoilTIMIT,chestatosuddivisoinsetdi addestramento(3296frasi),disviluppo(400frasi)edivalutazione(1344frasi)ela correttezzadiclassificazionedataper40classi(39leclassideifonemi,1la classeperilgarbage). Idatidiaddestramentoeditestvengonogeneratitramiteifonemidisponibili.In tuttigliesperimenticondottiabbiamomantenutoilnumerodiinputugualea39eil numerodioutputugualea40,quellochestatofattovariareilnumerodeinodi nascostiinternieilgradodelpolinomiodiHermite. Inodiinternisonostatifattivariareconilnumerodi50,100,150,200,250,300, 350, 400, 450, 500, mentre al grado del polinomio Hermitiano abbiamo fatto assumereiseguentivalori:3,5,7,12,14.

H test 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Error (%) 65,47% 66,27% 62,79% 64,56% 60,81% 52,90% 49,03% 51,30% 50,86% 51,95% 50,34% 49,31% 48,85% 49,34% 49,69% 48,77% 47,97%

H test 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Error (%) 48,32% 47,25% 47,67% 47,60% 47,91% 48,02% 47,39% 47,54% 47,00% 47,92% 47,55% 47,12% 46,58% 47,65% 46,99% 46,80% 46,98%

Htest 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

Error (%) 46,79% 46,98% 45,81% 46,33% 46,12% 46,74% 47,61% 46,64% 46,00% 46,64% 46,86% 46,77% 46,54% 46,75% 46,03% 46,84% 46,86%

70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 0 10 20 30 40 50 60

Perogniesperimentovengonoeffettuate4iterazioniraggiungendodurantelafase ditestirisultatimostratinellatabellasoprariportata. Comepossiamovederedasuddettatabellaivalorioscillanotrail48%eil46% circastabilizzandosiintornoaltestnumero33. Ilvalorepibassoottenutoil45,81%,impostandoa400ilnumerodihiddene3 ilgradodelpolinomiodiHermite. NellostudioeffettuatovolevamoverificareseutilizzandounpolinomioHermitiano riuscivamoadottenererisultatisimiliaquelliottenutiutilizzandounafunzione lineareall'internodellarete. Quellocheabbiamoottenutosonovalorichesiallontananodal~25%riportatoin (P.Schwarz et al.,Hierarchical structures of neural networks for phoneme recognition,inProc.ofICASSP,2006)ein(S.M.Siniscalchietal.,Towards bottomupcontinuousphonerecognition,inProc.OfASRU,2007). Irisultatiottenutipersonoindicativiinquantoleiterazionieseguitesonostate soltanto 4, per migliorare le prestazioni e ottenere quindi esiti pi veritieri occorrerebbeaumentareilnumerodiripetizionieffettuate.

5. Conclusioni.
Lostudioeffettuatosibasatosull'analisideivarimodellidireteneurale,tracuile reti di Hopfield, retiautoorganizzanti diKohoneneilMultiLayerPerceptron, sullerappresentazioniparametrichedelsegnaleattraversoilmetodoPLPesugli algoritmidiaddestramentocomeloStandardBackpropagationAlgorithm. NellafaseditestinvececisiamoconcentratisullostudiodiunareteneuraleMulti LayerPerceptroncheavessecomefunzioneunpolinomioHermitianoinveceche unaSigmoide.

Potrebbero piacerti anche