Sei sulla pagina 1di 48

Tecnologieperiltrattamentoautomaticoe

lacomprensioneautomaticadellinguaggionaturale

Prof.DomenicoCotroneoconlacollaborazioneIng.ChristianEsposito

Dispensadelcorso
Introduzionealcorso

1. Concettigenerali

InunfamosofilmdiStanleyKubrick,intitolato2001:Odisseanellospazio,unodeiruoliprincipali
era ricoperto da HAL 9000. Esso il computer senziente di bordo, che impartisce e controlla tutte le
funzioni della navicella spaziale Discovery, capace di avanzati comportamenti linguistici, come dialogo e
comprensione del linguaggio, fin anche alla lettura delle labbra. Sfortunatamente, nella realt, siamo
abbastanza lontani dal realizzare una macchina con le prestazioni di HAL 9000. Quali sono le principali
problematiche sottese alla realizzazione di una simile macchina? In linea generale, un tale agente deve
esseredotatodicapacitdiinterazioneconesseriumaniattraversoillinguaggio,includendocomprensione
attraverso speech recognition (riconoscimento della lingua parlata) e natural language understanding
(comprensione del linguagguio naturale), e comunicazione attraverso il natural language generation
(generazione del linguaggio naturale) e speech synthesis (sintesi della lingua parlata). Dovrebbe anche
esserecapacedieffettuareinformationretrieval(individuaredoverisiedonolerisorsetestuali),information
extraction (estrazione del contenuto informativo pertinente da un testo o un discorso) e inference
(elaborazione delle conclusioni sulla base di elementi noti). Sebbene tali problematiche siano lontane
dallessere completamente risolte, alcune tecnologie di linguistica computazionale necessarie per la
realizzazione di HAL 9000, sono presenti in disparati prodotti commerciali. La branca dellintelligenza
artificiale (Artificial Intelligence, AI), che studia queste tematiche prende il nome di Speech and Language
Processing,eloscopodelpresentecorsoquellodifornireunostatodellarteditalemateria.
Cosa distingue unapplicazione di elaborazione del linguaggio da una di elaborazione dati?
ConsideriamoilprogrammaUnixwc:quandovieneimpiegatopercontareilnumerodibyteobitinunfile,
realizza una semplice elaborazioni dati. Quando, invece, usato per contare il numero di parole, realizza
unelaborazionedellinguaggio,dalmomentochedevedisporredellaconoscenzadicosaunaparola.Da
questo semplice esempio si evince che un programma di elaborazione del linguaggio richiede una
considerevolemolediinformazionidinaturalinguisticaperpotersvolgereilpropriocompito.Ilbagagliodi
conoscenzanecessarioaunprogrammainformaticopersostenerecomplessicomportamentilinguisticipu
essereraggruppatoinseidistintecategorie:
I. FoneticaeFonologia,aiutaamodellarecomeleparolevengonopronunciate;
II. Morfologia, apporta informazioni per lo studio della struttura grammaticale delle parole e la
relativaclassificazioneeappartenenzaadeterminatecategorie;
III. Sintassi, analizza le relazioni modulari che stabiliscono il posto delle parole in una frase, come i
sintagmisicomponganonellefrasi,ecomelefrasisidisponganoaformareunperiodo;
IV. Semantica,studiailsignificatodelleparoleediinsiemidiparole;
V. Pragmatica,sioccupadicomeilcontestoinfluiscasullinterpretazionedeisignificatidelleparole;
VI. Discorso,siinteressadelleunitlinguistichemaggioridiunafraseelalorocorrelazione.
Unacomponentesorprendentediquesteseicategoriechetuttiitaskdielaborazionelinguisticapossono
esserevisticomecompitidirisoluzionediambiguitadunodiquestilivelli.Prendiamoadesempiolafrase
iningleseImadeherduck,questapusignificare:
a) Hocucinatounanatraperlei.
b) Hocucinatolasuaanatra.
c) Horealizzato(forseunmodelloinplastica?)lasuaanatra.
d) Lemieazionihannocausatoilrepentinoabbassamentodellasuatestaodelsuocorpo.
e) Lhomagicamentetrasformatainunanatra.
Questi differenti significati sono causati da un certo numero di ambiguit, ovvero dato un ingresso
linguisticoalprogramma,esistonodellemultiplestrutturelinguistichealternativamenteapplicabiliadesso.
Nel corso del presente corso saranno introdotti modelli e algoritmi per risolvere questi elementi di
ambiguit. Ad esempio decidere se duck un verbo o un nome pu essere risolto con part of speech
tagging, mentre determinare se make assume il significato di creare o di cucinare, possibile con la
wordsensedisambiguation.

Figura1SnapshotdelprogrammaELIZA

Per molti, labilit di elaborazioni linguistiche analoghe agli essere umani sar possibile solo con
larrivodimacchineintelligenticomegliesseriumani.Ilprimosostenitorediquestaintimaconnessionetra
capacitlinguisticheecognitivefuAlanTuring,cheinsuofamososcrittointrodussecichepreseilnomedi
Test di Turing. Questo un test empirico in cui luso del linguaggio da parte di un computer consente di
comprendereseingradodipensare.Essofondamentalmentecoinvolgeduepersoneeuncomputer,eil
giococonsistecheunapersonadialogandoconlaltrapersonaeilcomputer,debbastabilirequaledeidue
interlocutoreilcomputer.Selamacchinaingradodivincereilgioco(ovverononsihalindividuazione
corretta di chi sia la macchina), allora intelligente. Senza soffermarci troppo sulla rigorosit di tale
metodo, largomentazione di Turing che se una macchina in grado di usare il linguaggio come farebbe
un essere umano, sufficiente per un test operativo di intelligenza. Sorprendentemente, molti dei
problemi sollevati da Turing divennero rilevanti nel contesto di un programma chiamato ELIZA. Eliza un
primo esempio di programma di elaborazione automatica del linguaggio, capace di condurre una limitata
conversazione con un utente, imitando le risposte di uno psicoterapista. Questapplicazione adopera
tecniche di patternmatching (in ambito informatico, si intende una corrispondenza tra stringhe, quindi
senza alcun elemento di intelligenza): lavora analizzando e sostituendo delle semplici parole chiavi in frasi
preconfezionate.Asecondadelleparolechel'utenteimmettevanelprogramma,l'illusionediunoscrittore
umano veniva chiaramente svelata o poteva continuare per parecchio tempo. Alcune volte era talmente
convincente che i suoi interlocutori credevano che esso potesse capire realmente loro e i loro problemi,
comesedietrolamacchinacifossedavverounessereumano.Talerisultatonondipendedallapresenzao
meno nella macchina di forme di intelligenza o comprensione, smentendo cos il fondamento del Test di
Turing.

2. LagerarchiadiChomsky

Un linguaggio definito come un insieme (anche infinito) di stringhe, ognuna costituita da una
concatenazione di simboli terminali, chiamati talvolta parole. I linguaggi formali hanno definizioni
matematicherigorose,inquestosidifferenzianodailinguagginaturali,comelitalianoelinglese,chenon
hanno ne una precisa definizione, ma sono caratterizzati da una vasta comunit di parlanti. Una
grammatica un insieme finito di regole che specificano il linguaggio. I linguaggi formali, per definizione,
sono sempre dotati di una chiara grammatica, mentre per quelli naturali non cos. I linguisti, per, si
sforzano di scoprire le loro propriet attraverso un processo di indagine scientifica, per poi codificarne i
risultatiinunagrammatica.Ilmodopicomuneperrappresentarelastrutturagrammaticalediunafrase,
ad esempio Mary loves that person, di adoperare un albero, come illustrato in Figura 2. Il nodo S
quelloradicedeinodiNPeVP,rispettivamenteperlapartenominaleeverbaledellafrase.VPnodopadre
dei nodi V e NP, rispettivamente verbo e nome. Ad ogni nodo foglia associata una parola della frase da
analizzare. Per realizzare lalbero di una frase, necessario conoscere la struttura del linguaggio, cos da
servirsi di un insieme di regole per determinare quali strutture ad albero sono consentite. Tali regole, alla
destradellaFigura2,determinanocheuncertosimbolopuessereespansoinunalberodiunasequenza
dialtrisimboli(adesempio,S>NPVPsignificacheilnodoSpugenerareasuavoltaduenodiNPeVP).La
struttura grammaticale aiuta a determinare il significato di una frase. Nella teoria dei linguaggi formali, le
grammatiche sono rappresentate dalla quadrupla G = <V, T, P, S>, dove V e T sono un insieme finito di
simboli,PsonoleregolegrammaticalidigenerazioneeSilcaratteredelnodoradice.Rispettivamente V
contiene tutti i simboli non terminali, in Figura 2 sono ad esempio S, NP, VP e simili, mentre T contiene i
simboliterminali,adesempioMary,lovesesimili.

Figura2Rappresentazioneadalberodiunafraseerelativagrammatica

I formalismi grammaticali possono essere classificati in base alla loro capacit generativa, ovvero
linsiemedeilinguaggichepossonorappresentare.IllinguistaChomskydescrivequattroclassidiformalismi
grammaticali, che differiscono solo per il formato delle regole di riscrittura. Le classi possono essere
organizzate in una gerarchia, in cui ogni classe pu essere utilizzata per descrivere tutti i linguaggi che
appartengono ad una classe meno potente e alcuni linguaggi aggiuntivi. Salendo lungo la gerarchia
aumenta il potere espressivo delle grammatiche, ma naturalmente gli algoritmi che le gestiscono sono
menoefficienti.LagerarchiadiChomskycompostadaiseguentilivelli,vediinFigura3:
Grammatiche di tipo 0 (illimitate o ricorsivamente enumerabili) include tutte le grammatiche dei
linguaggiformali,enonhannoalcuntipodirestrizionenellimpostazionedelleregole,adeccezione
cheiltermineadestranonsianullo;
Grammatiche di tipo 1 (dipendenti dal contesto) hanno regole della forma A > , con A
simbolo non terminale e , e stringhe di simboli terminali e non. Le stringhe e possono
esserevuote,malanondeveesserevuota.
Grammatiche di tipo 2 (libere dal contesto) sono definite da regole nella forma A > , con A
simbolononterminaleeunastringadisimboliterminalienonterminali.
Grammatiche di tipo 3 (regolari) restringe le sue regole ad un singolo simbolo non terminale nel
latosinistrodellaproduzioneenellatodestrounsingolosimboloterminale,possibilmenteseguito
(o preceduto, ma non entrambe le forme nella stessa grammatica) da un singolo simbolo non
terminale.
Lappartenenza di una classe di grammatica di tipo superiore in quella di tipo inferiore uninclusione
propria,nelsensocheesistono,adesempio,linguaggisensibilialcontestochesonononliberidalcontesto
elinguaggiliberidalcontestochesonononregolari.Sidimostrachelelinguenaturalinonsonoregolari,e
per la maggior parte delle lingue e delle costruzioni sia sufficiente una grammatica libera dal contesto.
Tuttavia, esistono rari casi (un caso famoso contenuto nel tedesco svizzero) che richiedono una
grammaticadipendentedalcontesto.

Figura3DiagrammadiVenndeilinguaggisullabasedellagerarchiadiChomsky

3. Espressioniregolari

Leespressioniregolarisonounasintassiattraversocuisipossonorappresentareinsiemidistringhe.
Gli insiemi caratterizzabili con espressioni regolari sono anche detti linguaggi regolari (e coincidono quelli
generabilidallegrammaticheregolariericonoscibilidagliautomiastatifiniti).Leespressioniregolarisono
compostedacostantieoperatorichedenotanoinsiemidistringhe,edaoperatoritraquestiinsiemi.Dato
unalfabetofinito,sonodefiniteleseguenticostanti:
insiemevuoto,indicatoconoppure;
stringavuota,indicatacon;
carattere,adesempioainindical'insieme{"a"}
eleoperazioni:
concatenazione,RSoRSindical'insieme{|inReinS};
unione,RUSindical'unionedeidueinsiemi;
stelladiKleene,R*indical'insiemecontuttelepossibiliiterazioniottenibilidaglielementidiR;
intersezione,RSindical'intersezionetraidueinsiemidistringhe;
complementazionediR,indical'insiemedellestringheappartenentia*R.
AdesempiodatiR={"a","b"}eS={"7","8"}hocheRS={"a7","b7","a8","b8"},mentreS*={,"7",
"8","77","78","87","88","777","778",...}.Leespressioniregolarihannoanchedeicaratterispecialiche
sonoilcaratterejolly.,chepurappresentareun numeroindefinitodisimbolidellalfabeto,elencore,
chefissanolapplicazionedellespressioneaparticolariposizionideltesto,adesempio^imponelaverifica
dellespressioneperisimboliainiziodeltestodaanalizzare.
Le espressioni regolari possono essere impiegate sia per una formalizzazione precisa di un
linguaggio, ma anche per la definizione di operazioni di ricerca in stringhe. Una ricerca con espressioni
regolari richiede un pattern di corrispondenza e un corpus, allinterno del quale realizzare la ricerca.
Lespressione ritorner linsieme di stringhe che soddisfano la corrispondenza con il pattern di ricerca. Il
pattern di ricerca viene rappresentato con unespressione regolare compresa tra due caratteri /. Ad
esempio se io ho un pattern /song/, la ricerca su un testo mi restituir tutte le frasi che contengono la
parola song, ad esempio She loves all our songs. Un altro importante uso delle espressioni regolari
nella sostituzione di caratteri allinterno di una stringa. Nel linguaggio di programmazione Perl esiste un
operatore di sostituzione, chiamato s, che ha due argomenti: lespressione regolare della stringa da
sostituire, e lespressione regolare della stringa di sostituzione. Se vogliamo correggere un errore di
battitura squola con il corretto scuola, baster quindi scrivere il comando s/squola/scuola/. Le
sostituzionisonounutilemezzoperimplementareprogrammidicomprensionedellinguaggio,comeELIZA.
ELIZA, infatti, opera con una cascata di sostituzioni per espressioni regolari, che date alcune frasi in
ingresso,purealizzarequellediuscitapersostituzione.,ConsideriamoilseguentedialogoconELIZA:
User: Well, my boyfriend made me come here
ELIZA YOUR BOYFRIEND MADE YOU CAME HERE
User: He says Im depressed much of the time
ELIZA I AM SORRY TO HEAR YOU ARE DEPRESSED
LerispostediELIZAsonoottenuteapartiredallefrasiinseritedallutente:
s/.* YOU ARE (depressed|sad) .*/I AM SORRY TO HEAR YOU ARE \1/

4. Automiastatifiniti

Unautomaastatifinitiunsistemaconleseguenticaratteristiche:
dinamico,perchevolveneltempopassandodaunostatoall'altro;
invariante,poichaparitdicondizioniiniziali,ilcomportamentodelsistemasemprelostesso;
discreto, dal momento che le variabili d'ingresso, di stato, d'uscita, possono assumere solo valori
discreti.
L' automa a stati finiti un modello di calcolo semplice, rappresentabile come un piccolo dispositivo, che
medianteunatestinaleggeunastringadiinputsuunnastroelaelaborausandounappositoalgoritmo,edi
unamemorialimitata.InsostanzauncasoparticolaredimacchinadiTuring,utilizzatoperl'elaborazione
di quei linguaggi che nella gerarchia di Chomsky sono definiti di Tipo 3 o Regolari. Gli automi a stati finiti
possono essere rappresentati mediante un grafo, in cui i nodi rappresentano gli stati e gli archi le
transizioni,oinunaversionetabellata,sullerighelostatocorrenteesullecolonnelingresso,elelemento
dellatabellarappresentalatransizioneversoilprossimostatoeluscitadellautoma.Gliautomiastatifiniti
possonoessereimpiegatiinunampiospettrodiapplicazioni,comeadesempioilriconoscimento(eanche
laccettazione),distringhedicaratteri.

Figura4EsempiodiautomaastatifinitiperillinguaggioL={a
n
b
m
|m,n>0}

Lalinguisticadeicorpora

1. Definizioneecostruzionedicorpus

La linguistica dei corpora pu considerarsi come un approccio di indagine linguistica. Dopo un


periodo di latenza dovuta alla critica chomskyana, si avuta unesplosione del ricorso a tale metodo, con
lelaborazione di numerosi progetti nazionali e internazionali, grazie alle tecnologie informatiche, che
hannoincrementatoenormementeilpotereditrattamentodeidatitestuali.
Corpusindicaunaqualiasiraccoltacompletaedordinatadiscritti,diunoopiautori,riguardantiunacerta
materia, oppure un campione di una lingua preso in esame nella descrizione della lingua. I corpora
contengonotestireali,enonsezioniridotteoalterate;inoltresonouncampionelinguisticoenonpossono
mai contenere tutte le possibili occorrenze testuali di una data lingua. Una popolazione un insieme di
tutte le possibili osservazioni di una lingua su un dato campo. Un campione, invece, una sezione della
popolazione,cheinglobasoloalcunepossibiliosservazioni.Ilmomentopidelicatodellacostruzionediun
campione risiede proprio nella scelta del materiale, in modo che rappresenti adeguatamente la
popolazione. Un campione deve essere rappresentativo, per essere utile e significativo, ossia deve
presentarealcunecaratteristichesimiliaquellecheavrebbelinterapopolazioneedesibirelostessotipodi
informazione (caratteristica qualitativa) con la stessa probabilit di occorrenza (caratteristica quantitativa)
della popolazione. Unaltra caratteristica del corpus la sua estensione, ovvero la sua ampiezza, che
anche un fattore che influenza il grado di rappresentativit di un campione testuale. Esistono vari metodi
pervalutarelarappresentativitdiuncampione,mavadettocheuncampionenonmaicompletamente
rappresentativo in generale, ma solo limitativamente rispetto a uno specifico punto di vista. La maggior
parte delle valutazioni pi accurate, comunque, si basano sulla ricchezza del vocabolario, misurata come
numero di parole diverse presenti nel campione. Rispetto allestensione, i corpora vengono classificati in
statici(quellicondimensionefissa)eindinamici(conestensionevariabileeunaraccoltaperiodicadinuovo
materiale).Avereuncorpusstaticohaisuoivantaggi:leanalisisonocondotteunasolavolta,inunlassodi
tempo limitato, pu essere facilmente distribuito, usato in maniera standardizzata per diverse analisi e
comparato con altri corpora statici, costruiti in maniera simile, e tutte le analisi sono ripetibili. Un corpus
dinamico, invece, permette di condurre anche analisi di tipo diacronico, ma ovviamente richiede di un
lavorocontinuoeunamaggioredifficoltdidistribuzione,trattamentoecomparazione.Alcorpusdinamico
vienespessoaffiancatouncorpusmonitor,perlaraccoltaelanalisidinuovomaterialedaaggiungere.

Figura5Rappresentativittracampioneepopolazione
Nella costruzione di un corpus, il primo passo la pianificazione della sua struttura in modo che
possaessererappresentativadellavarietlinguisticachesiintenderappresentare.Ilsecondopassosarla
concretaacquisizionedelmaterialeperilcorpus.Siachesiadoperimaterialegipreparatodaoltri,ochesi
sia provveduto da soli allacquisizione, necessario tenere presente che il testo elettronico contiene
sempre una certa quantit di errori, la cui eliminazione deve sempre avvenire in maniera manuale o
semiautomatico(terzopasso).Primadiprocederealpassosuccessivodelletichettatura,sidevonostabilire
delleregolesucomevannotrattatiicaratteridelcorpus,individuandouninsiemedisimboliperlalfabeto
eunaltroperiseparatori.necessariochenessunsimbolorisultiambiguo,ossianonimpiegatoinmaniera
diversa allinterno del corpus. La procedura di segmentazione dei confini delle unit linguistiche fa
emergere il problema della individuazione di che cosa si debba considerare parola. Dal punto di vista del
trattamento automatico dei corpora, emersa la definizione di parola come ogni insieme di simboli
deliminatatodaunacoppiadiseparatori(parolagrafica).Alfinedeltrattamentolinguisticovanno,inoltre,
distinti i lessemi, i tipi di parola (types) e le occorrenze di parole grafiche (tokens). Il rapporto tra i tipi di
parole e le occorrenze testuali (type/token ratio) ci d unapprossimazione della ricchezza del vocabolario
del testo esaminato: maggiore tale valore e maggiore la variet del vocabolario presente nel testo.
Esisteanche unaltradefinizionediquestamisura,chenontiene contodeitypes,madeilessemi.Perfare
ci, per, necessario svolgere un trattamento molto complesso sui testi, che prende il nome di
lemmatizzazione.Ilvantaggiolasuaimmediatapraticitelapossibilitdiottenerlainmodoautomatico,
senzaunparticolaretrattamentoperlinguediverse,anchesconosciute.

Figura6Letappedell'analisitestualesucorpus

Il world wide web pu essere considerato un corpus, un enorme deposito di materiale testuale,
facilmenteaccessibile,gratuito,varioneglistili,nelletipologieeneicontenutilinguisticirappresentati.Dal
puntodivistadellestensionecertamenteilwebunodeicorporapigrandimairaccolti,ancheselesatta
composizioneintermini quantitativiancoraindeterminata.Il webnonpresentalediversevarietdiuna
lingua: vi sono privilegiati (quantitativamente) alcuni particolari domini, come quelli delle stesse nuove
tecnologie, congiuntamente a materiale vicino al parlato come forum e chat. Laccesso alle informazioni
avvieneattraversomotoridiricercacheadoperanoalgoritmidiselezionecheprivilegianodeterminatitratti
per ordinare e selezionare i documenti. Nel web, inoltre, il tasso di errori significativamente pi alto
rispetto ad altri testi, che possono essere raccolti e controllati. Gli errori non si limitano a soli sbagli di
trascrizione o scannerizzazione, ma la forte presenza di pagine amatoriali, scritte da utenti che non
padroneggiano completamente la specifica lingua, finisce per costituire una rappresentazione sbilanciata
delle caratteristiche linguistiche dei testi. Si verifica non solo che linterrogazione scorretta consente di
ottenere risultati forvianti, ma anche che linterrogazione corretta pu non ritornare la piena quantit dei
dati utilizzabili. Dal punto di vista metodologico, il web pone il problema connesso con la sua dinamicit
incontrollata: la dimensione del web indeterminabile. Attualmente, il dibattito sulla costruzione di
architetturechepermettonolusodelwebnellaricercalinguisticamoltoacceso.In particolaresonoallo
studio soluzioni per migliorare i sistemi di selezione dei risultati, in modo che siano bilanciati, con buoni
livelli di accuratezza e validit dei risultati ottenuti. Al momento limpiego del web come corpus in senso
tecnicounarealt,machedeveesseretrattataconmoltacautela.

2. CodificaeAnnotazionedeicorporaStandarddicodificaeannotazione

Raccolto il corpus, per poterne sfruttare la ricchezza come fonte di dati linguistici, pu essere
necessario dotarlo di un insieme di informazioni aggiuntive, secondo un processo che prende il nome di
annotazione o echitettatura linguistica, e che rappresenta una forma di codifica del corpus. Essa consiste
nellassociazione di unetichetta (detta anche tag o markup) a una porzione specifica e ben delimitata di
testo.Ilsistemausatopercostruireeattribuireleetichettesidicelinguaggiodimarcatura,eunesempio
lSGML oppura i pi recenti XML o HTML. Letichettatira linguistica pu riguardare qualunque aspetto del
testo, e serve principalmente per poter estrarre successivamente in maniera agevole e veloce una gran
quantitdidatilinguisticienondaltesto.Unesempiotipicodiannotazioneilgrammaticaltagging,incui
ad ogni parola viene associata la relativa categoria grammaticale. Parallelo allannotazione, esiste un
ulteriorelivellodiastrazionecheprendeilnomedimetalinguaggiodiannotazione,chestabiliscelaforma
sintatticadelleetichetteeforniscelabaseperlavalidazionedellacorrettezzadiannotazione.
Lannotazione linguistica pu essere condotta in modo automatico, semiautomatico o manuale.
Questultimatradizionalmentevienesvoltadapersonecheappongonolespecificheetichettealleporzioni
ditestosullabasedivalutazionipiomenocondiviseestandardizzate.Lannotazioneautomaticaavviene,
invece,senzalinterventoumano,attraversoapplicazionidelNaturalLaguageProcessing,basatesuregole
oppure su approcci probabilistici. noto che entrambi gli approcci producono una serie significativa di
errorinellaccuratezzadellannotazione.Perquestomotivo,ingenere,lannotazionecombinaiduemetodi,
dandoluogoadunannotazionesemiautomatica,eprocedeattraversounascrematuraautomatica,seguita
daunafasedicontrollomanuale.
Alungo,chirealizzavaeprogettavagrandicorpora,definivaindipendentementeunproprioschema
di annotazione. Tuttavia luso dei corpora in ambito scientifico e commerciale ha imposto negli anni
lesigenzadelladefinizionediunostandarddiannotazione.Irequisitidiuntalestandardsono:
a) Separazioneeautonomiadelmaterialegrezzodaquellodicodifica;
b) Esplicitazionedellefasidiannotazioneinunfile,esternoalcorpus,liberamenteaccessibile;
c) Formastandardeomnicomprensivadicodifica;
d) Indicazioneesplicitadeicriteridiannotazione;
e) Possibilitdicondurrericerchespecifichesulleannotazioni;
f) Indipendenzadifruizionedicorporaerelativeannotazionidallespecifichepiattaformesoftwarein
uso.
Laprincipaleorganizzazionedistandardizzazionemondiale,l'InternationalOrganizationforStandardization
(ISO),hainiziatounlavoromiratoalladefinizionedirequisitistandarddelleannotazioniestamettendoin
campo sforzi per trovarne una proposta comune, che renda i sistemi esistenti interoperabili tra loro. Di
seguitoriportataunabravecarrellatadelleprincipaliimplementazionidiannotazionedicorpora.
Tra le implementazioni di codifica, la pi nota e diffusa quella elaborata dalla Text Encoding
Initiative (TEI). Le TEI Guidelines sono delle linee guida che definiscono le norme per la produzione di
documeti per scopi diversi. Suggerisce il formato di marcatura SGML o XML, e una codifca di caratteri ISO
646 e Unicode. Lapproccio usato da TEI nellannotazione linguistica di tipo strutturale/semantico, ossia
mira a specificare il ruolo delle frasi di un testo, per organizzarlo strutturalmente. Lidea di fornire
unontologia dannotazione comune ad ogni tipo di testo, insieme alle specificazioni necessarie per
contenutiparticolari.LaTEIhadefinitodiversiinsiemidietichettestandard,dausareperleconcretefasidi
annotazione,raggruppatiperisettoridiricercapivari.Oltrealleetichette,laTEIpredisponediversilivelli
di codifica, secondo una gerarchia che va da unetichettatura obbligatoria, ad una raccomandata, fino a
giungereadunaopzionale.LacreazionedidocumentiTEIfattainconformitadunsetdiDTDXML,divisi
in:core,baseesetaddizionali.Ilsetcoredefinisceglielementicomuniatuttiitesti,elheader,contenente
informazioni bibliografiche, di codifica, sul contenuto e sulla versione. Il set base contiene i DTD specifici
perleseicategoriediuntesto,conitagnecessariagarantirelafedeltnellariproduzionedeldocumento.I
set addizionali permettono linserimento di elementi speciali, come nomi e date, grafi ed alberi, tabelle e
grafici,headerspecialiaventiilruolodicorpodeldocumento.

Figura7EsempiodiannotazionesecondoleTEIGuidelines:annotazionetestuale(asinistra)eheader(adestra)

Architecture and Tools for Linguistic Analysis Systems (ATLAS) unarchitettura e un insieme di
strumenti per lanalisi di risorse linguistiche lineari, ovvero testo, clip audio e video. Permette di
segmentare il materiale linguistico, tipizzare le annotazioni, e comprende un set di metainformazioni
basatosuDublinCore.Ilsuopuntodiforzaunmodellodelleannotazionimoltoastratto,chelasciaampio
spazioalladattamentoadesigenzespecifiche.ATLASsicompone,essenzialmente,diquattroparti:
Unontologiadannotazione
Uninterfacciadiprogrammazione(API)
Unformatodinterscambiodati(AIF)
Uninfrastrutturadidefinizionetipi(MAIA).
Lontologiadannotazionesibasasuiseguentielementi:
Segnale,undatosorgentedaannotareintuttooinparte;
ncora,unacoordinatacheindividuapartispecificheallinternodiunsegnale;
Regione,lapartediunsegnaleindividuatadaunncora;
Contenuto,uninformazionegenericaassociataadunaregione;
Annotazione,lassociazionediuncontenutoadunaregione.

Figura8OntologiadibasediATLAS
DallaFigura8,risultacheunsegnalepuesseredivisoinpiregionidapartedellencore;unannotazione
pu essere priva di contenuto ed legata ad una sola regione, ma questa, a sua volta, pu riferirsi a pi
annotazioni;sipossono,infine,costruiregerarchiediannotazioni:lannotazioneilconcettobasediATLAS.
Si nota che larchitettura di annotazione relativamente generale, con pochi vincoli, soprattutto sul
contenuto: linformazione fornita da una regione, in effetti, pu essere di qualsiasi tipo. Lo strato di API
permette la connessione delle ontologie di base con le applicazioni di gestione, la definizione dei tipi
(MAIA)edunlinguaggiodiinterrogazione(AQL).MAIAilsistemaperlatipizzazionedeglielementiusato
da ATLAS, e permette di qualificare tutte le ontologie di base. Oltre alle ontologie di base, ATLAS fornisce
servizi di input/output di annotazioni e di accesso ai segnali. Questi servizi sono collegati alle ontologie di
basee,tramiteAPI,aisegnalidorigine(audio,video,testoecc.)eaformatidiI/Odelleannotazioni(XML,
JDBC,retiecc.).

Figura9EsempiodiannotazioneconCESdiuntestoinfrancese

MentreTEIeATLASsioccupanosoprattuttodinormegenerali perlacodificadiqualunquetipodi
testo, esistono altre iniziative che hanno incominciato a trattare pi specificamente le annotazioni
linguistiche.UnodiquestiprogettiilCorpusEncodingStandard(CES),unprogettodicodificadeicorpora
ideatoperleapplicazionidiingegnerialinguistica.SitrattadiunaspecificaconformeallespecificheTEI,che
utilizza SGML e anche XML. CES uno strumento per la codifica basato su un tipo di annotazione
essenzialmentestrutturaleegrammaticale,conlaparticolaritdidividereinblocchidistintilagestionedel
testo,delleannotazioniedeicollegamenti.IlformatosviluppatomenocomplessoedespansodiTEI,mail
campo di applicazione pi vasto, permettendo annotazioni grammaticali su qualsiasi tipo di testo. Il
campo di annotazione , invece, limitato, adatto solo ad informazioni grammaticali e ad allineamenti di
testi in lingue diverse. CES comprende note duso del metalinguaggio, set di elementi per la
documentazione delle risorse codificate, per la codifica dei dati primari, ossia il testo sorgente, e per la
codificadelleannotazioni,cheriguardanotreambiti:
Divisionedeltestoinfrasieparole;
Descrizionemorfosintattica(grammaticale)delleparole;
Allineamentoecollegamentoditesti.

3. Analisidiuncorpus

Una tecnica per evidenziare le caratteristiche linguistiche di un testo losservazione della natura
statistica del suo lessico. Una prima forma di analisi sui corpora, infatti, la realizzazione di una lista di
frequenza, ossia una lista di tutte le forme che compaiono nel corpus, ciascuna con lindicazione del
numero di occorrenze. A tali informazioni solitamente aggiunto un valore, che prende il nome di
frequenza relativa (F
w
/N), che corrisponde al rapporto tra le occorrenze di una singola parola (F
w
) e il
numerodiparoletestualidelcorpus(N).Consideriamo,adesempio,ilprimocapitolodeiPromessiSposi,e
produciamo un lista di frequenza, si ha il risultato in Figura 10. In genere, losservazione di una lista di
frequenzaordinatapertipidiparole,dettaancheformario,solounprimopasso,cuinaturalmentesegue
ilprocessodilemmatizzazione.

Figura10ListadifrequenzadelprimocapitolodeiPromessiSposi

Nel corso dellanalisi di un testo, utile ridurre le forme flesse di uno stesso lessema a un singolo
lemma, tale operazione prende il nome di lemmatizzazione. Per svolgere questo task, un software deve
disporre di tutte le possibili forme in cui un lemma si pu presentare allinterno di un testo, saperle
riconoscere e sostituirle con il lemma appropriato. Per realizzare una lista lemmata, doveroso essere in
grado di risolvere un particolare problema, detto disambiguazione degli omografi, ad esempio nella frase
La porta si chiuse necessario poter distinguere se il termine porta si riferisce al lemma sostantivo
<<porta>> o a quello verbale <<portare>>. Il risultato delloperazione una lista lemmata, ad esempio
comequellainFigura11,deltestoinesame,acuisipuprodurreunalistadellefrequenzelemmatizzata,
detta anche lessici di frequenza,, che al posto delle occorrenze delle forme flesse, ha quelle dei lemmi. La
linguisticacomputazionalehasviluppatodiversistrumentipercondurreinmanieraautomaticaalmenouna
parte della lemmatizzazione, con diverse tecniche, ereditate dal Natural Language Processing, per
distinguere le forme omografe e riconoscere la struttura sintattica della frase. Lutilit dei lessici di
frequenza, basati su corpora rappresentativi di una lingua, o anche detti di riferimento, risiede nella
possibilit di fornire un quadro delle principali modalit duso ei lessemi e della loro copertura testuale.
Hanno diversi impieghi: sviluppo di supporti per linsegnamento delle lingue, ricerche di lessicografia
statistuca,produzionedidizionarimacchinaperilNaturalLanguageProcessing,eingeneralelintegrazione
didatilessicaliperdiverseapplicazionilinguistiche.

Figura11Listalemmatizzatadellafraseinitaliano"Ildottoremiraccomanddinonostinarmiaguardaretantolontano"

Oltre a quanto descritto, sono possibili ulteriori analisi avanzate dei corpora, tra cui lanalisi degli
usiconleconcordanze.Leparolenonfiguranoisolateinunperiodo,maaccompagnatedaaltre,formando
cosquellochecomunementevienechiamatocotesto.Ilcotestocheprecedeesegueunaparole,fornisce
informazionisulsuousoeiutaadindividuareirelativicasidusopirequenti.Perestrarredauncorpusle
paroleeirispettivicotesti,siusaunospecificostrumento,laconcordanza.Essacostituiscelapresentazione
delleparolediuntesto,conlindicazionedellafrequenzaconcuilaparolaoccorreeilcotesto.Loscopo
osservare i diversi usi di una parola, esaminare i diversi cotesti in cui occorre e analizzare la relativa
regolaritconcuisiaccompagnaadaltreparolenelsuocotesto.Laprassipitipicadiesibizionedelcotesto
nellaformaKWIC(keywordincontext),incuiilnumerodelleparoleprecedentiesuccessiveallaparolain
esame(dettanodoesitrovanellacolonnacentrale)puvariare.

Figura12Snapshotdiunsoftwarediconcordanza

4. Interrogazioneavanzataeanalisideidatitestuali

Icorporaetichettatidannolapossibilitdicondurrericercheavanzate,ovverorealizzareunsistema
diestrazionedatichesfruttalacapacitdicombinarediversicriteri,inmododarispondereainterrogazioni
su aspetti multipli delle unit di analisi. Altre possibilit di esplorazione dei corpora sono offerte dalla
statisticatestuale,cheannoveratralesuenozionidibaseladispersioneelusodeilessemi.
Mentrelafrequenzaindicaglobalmenteilnumerodioccorrenzediunaspecificaunitlinguistica,la
dispersioneindicaseedovesipresentanoconcentrazionidioccorrenzenelcorpuse/oindiversetipologie
testuali. Per individuare la dispersione necessario suddividere il corpus in parti, e successivamente
calcolarelefrequenzerelativediogniunitlinguisticanellelingolepartidisuddivisionedelcorpus.Lascelta
di ripartizione del corpus un momento delicato del calcolo della dispersione, dal momento che ne
influisceilvalore.Esistonodiversemisuredidispersione,maquellapiaccettatalaseguente:
=
1 -v
n -1

dove indica il coefficiente di variazione (rapporto tra la deviazione standard e la media della frequenza
nelle singole unita di suddivisione), mentre n indica il numero di partizioni del corpus. La dispersione
sempre un numero inferiore a uno, ed tanto maggiore, quanto maggiore il numero di partizioni in cui
comparelaparola.
Una volta determinata la frequenza e la dispersione di una unit linguistica, possibile avere una
stima delluso. Luso specifica il modo con cui lunit occorre nel corpus e viene calcolato moltiplicando la
frequenzaperladispersione:
u =
La nozione di uso centrale nella statistica lessicale, poich fornisce una rappresentazione quantitativa
della effettiva presenza dellunit lessicale nelle diverse parti del corpus. I risultati dellanalisi delle
distribuzionidifrequenzalessicaliincorporadigrandidimensionihalutilitpraticadiindividuarelefasce
duso dei lemmi di un dizionario. Il tasso duso sar sempre di valore inferiore o al massimo pari a quello
della frequenza, tanto inferiore quanto pi la parola si trova in un numero basso di partizioni diverse del
corpus.

5. Leapplicazionidellostudiodeicorpora

Oltreaglievindentibeneficidellusodeicorporrainambitidiricercalinguisticaeletteraria,visono
applicazione di varia natura che possono godere di significativi vantaggi dalluso dei corpora. I dizionari si
servonooggigiornodeidatideicorporaedellaloroanalisiperlasceltadellevocilessicografichedainserire,
perlindividuazionedellediverseaccezionidiunaparola,dellaloroincidenzastatisticaeperladefinizione
della casistica duso. La costruzione di grammatiche ricorre sovente alla linguistica dei corpora, da un lato
peraveremaggioreaderenzaallarealtlinguistica,dallaltroperlindividuazionedellecategoriedescrittive
daadoperare(corpusdrivengrammar).
Il trattamento automatico del linguagio ha impiegato dati tratti da corpora per la realizzazione di
parser,taggerelemmatizzatoicheincludesseromodulidinaturastatistica,traendonenotevolebeneficioin
termini di accuratezza. Nel campo della traduzione automatica, tecniche corpusbased, examplebased e
statistichesonoallostudioperlarealizzazionedisoftwareditraduzioneautomaticadialtreprestazioni.
Nel campo della didattica delle lingue, i corpora danno la possibilit di predisporre testi autentici,
adeguabiliallediverseesigenzecomunicative.Laccessoaicorporaconsente dipianificareeprogrammare
meglio lordine con cui proporre le diverse strutture linguistiche, preferendo quelle maggiormente
impiegatenellambitodiinteressedellostudente.


Lelaborazionedellinguaggionaturale

Lelaborazione automatica del linguaggio naturale ha lo scopo di implementare strumenti


informatici per analizzare, comprendere e generare testi che gli uomini possano comprendere in maniera
naturale, come se stessero comunicando con un altro interlocutore umano e non un computer.
caratterizzato da due prospettive diverse, che mirano luna allanalisi del materiale testuale, laltra alla
generazioneditestilinguistici:
Natural Language Analysis (NLA) o Natural Language Understanding (NLU): data una frase ha
lobiettivodidarneunarappresentazionedellasuaanalisi,ossiadelprocessodicomprensionedella
frase;
Natural Language Generation (NLG): data una grammatica di una lingua naturale, ha lo scopo di
produrnefrasidisensocompiuto.
Semplificando,ilprimofilonevuolfar<<comprendere>>(analizzarelastrutturadellafrasealfinedidarne
una rappresentazione astratta) le frasi di una lingua ad una macchina, il secondo vuol far <<parlare>>
(produrrefrasigrammaticalmentecorrette)lamacchina.Idueprocessisonolunolinversodellaltro.
Le distinzioni tra le due diverse fasi del trattamento automatico delle lingue naturali sono
fondamentalmentesuduefronti:
La natura dellingresso di un processo di generazione varia fortemente dal tipo di applicazione.
Sebbene un input linguistico pu variare da una tipologia di testo ad un altro, generalmente
regolato da una grammatica comune. Questo non si verifica nel processo di generazione, dal
momento che ogni sistema di generazione si rivolge a una specifica tipologia di applicazione, con
unaparticolarespecificadellinput.
MentresiaNLAcheNLGdevonoessereingradodirappresentareunintervallodiformelessicalie
grammaticali proprie del dominio applicativo, il loro uso d rappresentazione diverso. Il primo
stato caratterizzato come un processo di gestione delle ipotesi (hypothesis management), in cui
linputlinguisticovieneanalizzatosequenzialmentenonappenailsistemaconsiderainterpretazioni
alternative.Lasuaprincipalepreoccupazioneriguardauningressoambiguo,fuoridallespecifichee
mal formato. Tali problematiche non sono avvertite nel caso di NLG: lingresso non linguistico di
taleprocessotendeadessererelativamentedisambiguo,benspecificatoevalido.

NaturalLanguageProcessing

1. ConcettiIntroduttivi

Idifferenti dueapproccialNaturalLanguageAnalysispossonoessereraggruppatiindueprincipali
classi:
KnowledgeEngineering:codificamanualedigrammaticheelessicidapartediesperti
Machine Learning: addestramento di modelli statistici su grandi quantit di dati, rappresentati da
corporaannotatiomeno
Unmododivederequestadicotomianellametodologia:ilprimoapprocciotendealavoraresecondouna
modalittopdown,imponendoaltestodeipatterngrammaticalierelazionisemantichebennoti,mentreil
secondohaunmodusoperandibottomup,ricercandopatterneassociazionidamodellare,alcunideiquali
possonononcorrispondereadelleproprierelazionisintatticheesemantiche.Unaltromododivederetale
distinzione sulla base della gestione della complessit delle lingue, in particolare in merito al problema
dellambiguit. Un approccio puramente simbolico, come il primo, deve risolvere lambiguit imponendo
delle regole addizionali o fattori contestuali, che possono essere in qualche modo formalizzati. Questa
una metodologie basata sulla conoscenza, da momento che si affida a degli esperti per identificare e
descrivere le regolarit del dominio. Lapproccio empirico pi quantitativo, siccome tende ad associare
delleprobabilitallediverseanalisitestuali,edecidetraquesteusandodeimetodistatistici.

2. ArchitetturadiunsistemaNLA

Figura13Schemaablocchidiunsistemaperl'analisidellinguaggionaturale

Unsistemaperlanalisidiinputlinguisticihaunarchitettura,rappresentatasecondounoschemaa
blocchiinFigura13,esicomponedeiseguentielementi:
Due sistemi di riconoscimento, linput pu essere sia una produzione scritta sia orale, ma i sistemi
cheoperanolanalisipossonolavorareindistintamentesuognunodiessi,acondizionechesianoin
una rappresentazione macchina interna che il calcolatore in grado di manipolare. Il sistema che
operailriconoscimentodeifonemiprendeilnomediSpeechtoTextSystem,esaroggettodiun
paragrafonelcapitolodelletecnologiedelparlato.Ilsistemaperlaconversionedeigrafemiinuna
rappresentazione macchina interna realizza uno scanning del documento cartaceo generando un
file.TalesistemadettoOpticalCharacterRecognitioner(OCR).LOCRpubasarelasuaazionesu
una base di conoscenza che contiene tutti i possibili elementi tipografici per ogni simbolo della
linguanaturale.Taleapprocciodiventaimpraticabilenelcasodelriconoscimentodellagrafia,intal
caso si passa ad un particolare metodologia di Pattern Recognition, detta a riconoscimento
strutturale. Si considerare una prospettiva gerarchica, dove gli elementi da riconoscere vengono
visticomecompostidacomponentipisemplici,dettiprimitivi.Ilriconoscimentodiuncampione
datodatipodiprimitivichelocostituisconoedallarelazionedicomposizioneintercorrente.
Analisi lessicale, ha il compito di riconoscere gli elementi lessicali, e assegnarvi informazioni in
meritoallalorocategoriagrammaticale,risolvendoleambiguit.Sicomponediduesottosistemi:
Riconoscitorediforme,hailcompitodiriconoscereleformeatomicheoggettodellefuture
elaborazioni. Si compone di un Tokenizer che compone la successione di caratteri in
ingresso in unit linguistiche, ad esempio parole; e di uno Stemmer, che riconosce le
possibili forme flesse di una unit linguistica e ne associa la forma radicale e le meta
informazionidiflessione;
Categorizzazione, o Tagger, associa ad ogni unit linguistica una delle possibili classi
mofoloficosintattiche.
Gli ostacoli che si possono riscontrare in unanalisi lessicale sono vari. Nella Tokenizzazione, il
problemadatodallanondeterminatezzadeidelimitatori:essidipendonofortementedallalingua
adoperataneltestoesonopresentiirregolarit(unitatomichecompostedauninsiemediparole,
i.e Polirematiche). Inoltre, possibile che un carattere di delimitazione non sia adoperato per
delimitareparole(adesempioilpuntonellesigle).Perlostemmerpossibilecheunaformaflessa
possa appatternere a varie posibili forme radicali. Nella classificazione, non univoca
lappartenenzadiunaunitlinguisticaadunaclassemorfologicosintattica.
I due sottosistemi sono rappresentati in figura collegati in serie, ma spesso necessario un loro
lavoro sinergico, dal momento che luno pu aiutare a risolvere le ambiguit che ostacolano il
lavoro dellaltro. Ad esempio lambiguit nellappartenenza ad una forma flessa risolvibile
conoscendolaclassificazionemorfologicadellunit.Adesempioportapuesseresialaflessione
del lemma sostantivo porta, che di quello verbale portare. Senza ulteriori informazioni il
processo di disambiguazione sarebbe impossibile, ma con la conoscenza dellappartenenza
dellunitalpredicatoverbale,sempliceoperarelassociazioneallemmaportare.
Analisi sintattica, o Parser, ha il compito di assegnare una caratterizzazione sintattica alla frase.
Datoiningressounafraseedunagrammatica,ilcompitodelparserdeterminareselafrasepu
essere generata dalla grammatica e, in caso affermativo, assegnare alla frase unadeguata
rappresentazione, detto albero di parsing. Un albero di parsing un grafo aciclico etichettato,
caratterizzatoda:unnodoradice,dettoSentence(S),deinodifogliaconleparoledellafraseedei
nodiintermedi,cherappresentanolastrutturasintatticaassegnataallafrase.
Analisi semantica, Ha il compito di eseguire unanalisi semantica del testo in ingresso, generando
meaningrapresentations.Siassegnaapezzidistrutturapezzidisignificato.Lastrutturacomposta
dasimbolierelazionitrasimbolicherappresentanostatidelmondo.

3. Stemmer

Glistemmersonoanalizzatorimorfologici,cheassocianoleformeflessediunterminelasuaforma
radicale. La forma radicale pu essere pensata come il lemma che si trova normalmente sui dizionari.
Esistonoduetipidianalizzatorimorfologici:
Inflectional morphology, esprime relazioni sintattiche tra le parole tra le parole della stessa parte
del discorso. Nello specifico, studia la flessione nella forma delle parole, necessaria per esprimere
dellecaratteristichegrammaticali,comesingolare/pluraleopassato/presente.
Derivational Morphology, esprime la creazione di nuove parole da partire da quelle conosciute, e
cercadicollegareledifferentiparoleconlaformaradicale.Laderivazionesolitamentecoinvolgeun
cambiamento nella categoria grammaticale della parola, e pu implicare un cambiamento del suo
significato.Adesempiounkindfattoapartiredakind,mahaunsignificatodeltuttoopposto.
Gli analizzatori morfologici fanno un intenso uso di regole e dizionari lessicali, che possono essere
efficientementecodificatiinautomiastatifiniti.Realizzareundizionarioperunanalizzatoremorfologico
un compito temporalmente dispendioso. Molte applicazioni non richiedono analizzatori linguisticamente
corretti,intalicasisihaanalizzatorieuristici,cheusanoregolaempiricaapprossimativa.
Un algoritmo di stemming molto adoperato detto Algoritmo di Potter, costituito da una serie in
cascatadiregolediriscritturadelleparole.Leregolehannounaformadeltipo:
(condizione)S1>S2
ovvero, se la forma flessa finisce con il suffisso S1 e la forma radicale soddisfa la condizione, allora S1
sostituitodaS2.Unesempioditaliregoleperparoleininglesesono:
(m>0) ATIONAL>ATE | relational>relate
(m>0) FUL> | hopeful>hope
Selaformaflessahaparteradicaledimisurapositiva,ilsuffissoATIONALoFULsonosostituitidaATEola
stringavuota,cosicchilterminerelationaldiventarelateehopeful,invece,hope.

4. Tagger

Le parole appartenenti ad una lingua naturale possono essere classificati in base ad un insieme di
classi morfologiche, che costituiscono un insieme che prende il nome di Tagset di Tagging. Le parti del
disocrso possono essere categorizzate come classi chiuse, ovvero quelle in cui la condizione di
appartenenzarelativamentefissa,adesempioleproposizioni,eclassiaperte,incuipossibiledivoltain
volta trovare nuovi elementi, dovute a parole di recente conio. Un esempio di tagset quello del Penn
Treebank,adottatoancheperlannotazionedidiversiimportanticorpora.

Figura14PennTreebankPartofSpeechTags

Glialgoritmiditaggingricadonointregruppidifferenti:
Rulebasedtagger,generalmenteposseggonoungrandedatabasediregoledideterminazionedella
partedeldiscorsodiunaunitlinguistica,adesempiounaunitchesegueunarticolounnome.
UnesempioiltaggerENGTWOL,unanalizzatoremorfologicoaduelivelli:
1. Per primo viene consultato un dizionario dei termini, con la parte radicale delle unit
linguistiche, il POS tag e alcune informazioni aggiuntive, e a tutte le unit della frase da
analizzarevengonoassociateunaopietichettesullabasedelleentrydeldizionario;

Figura15EsempiodidizionariolessicalediENGTWOL

2. Un insieme di regole sono applicate per risolvere le ambiguit morfologiche, ovvero unit
chepresentanopidiunaetichetta.

Figura16EsempiodiunaregoladivincoloperENGTWOL

Stochastic tagger, adoperano un corpus per determinare la probabilit che una data unit
linguisticaabbiaunprecisotagmorfologicoinunprecisocotesto:
minimizza{P(unit|tag)*P(tag|precedentintag)}
Trasformationbasedtagger,unapproccioibrido,ecomeglialgoritmirulebasedhauninsiemedi
regoleperlassegnazionedeitagalleunitlinguistiche,mahaancheunacomponentestatistica:le
regole non sono inserite da un esperto, ma computate a partire da un corpus appositamente
annotato.UnesempioilBrilltagger,cheoperaseguendoquestipassi:
1. Ad ogni unit linguistica si applica il tag pi probabile, con tale probabilit costruita a
partiredauncorpusditrainingannotatoconsiderandosololesingoleunitlinguistiche;
2. Successivamentesiapplicanodelleregoleditrasformazione,appresedallosservazionedel
training e considerando il cotesto allinterno di una frase, per correggere i tag
erroneamenteassegnatialleunit.

5. Parser

Un processo di parsing pu essere visto con un algoritmo di ricerca del corretto albero sintattico
perunadatafrase,allinternodellospaziodituttiipossibilialberisintatticigenerabiliapartiredelleregole
diunagrammatica.Iparametrichevannodatialprocessodidefinizionedellalberosono:
1. le regole grammaticali, che predicono come da un nodo radice S ci siano solo alcune vie di
scomposizionepossibiliperottenereinoditerminali;
2. leparoledellafrase,chericordanocomela(s)composizionediSdebbaterminare
Idueprincipaliapproccialparsingsono:
Topdown o goaldriven approach, cerca il corretto albero applicando le regole grammaticali a
partiredalnodoradiceS,provandoaraggiungereinodifoglia;
Bottomupodatadrivenapproach,siiniziaconleparolechecompongonolafrasediinput,dacui
siiniziaadapplicareleregolegrammaticalifinoapoterarrivarealnodoradiceS.
LastrategiatopdownnonperdetempoesplorandoalberichenonportinoaScomenodoradice,cosache
invecesiverificaconlastrategiabottom.up.Iltopdown,per,generaungrandeindiemedialberiSrooted
che sono inconsistenti con lingresso fornito, dal momento che gli alberi sono generati senza esaminare
linputlinguistico.Bottomupnonproducemaialberiinconsistenticonlinputlinguistico.
Quando in un nodo dellalbero sintattico si applicano delle regole grammaticali, si possono generare un
insiemedipercorsialternativiversounoopinodi.Taleramificazionenonespandibileinparallelo,mava
consideratounpercorsopervolta.Perquestolesplorazionefattasecondoduedistintestrategie:
Depthfirst, la ricerca procede espandendo sempre il primo nodo generato, e operando un
backtrackingnelcasoilpercorsononfossegiusto;
Breadthfirst,laricercaprocedeespandendoprimatuttinodidiunlivello,perpoiscendereallivello
successivo.
Cisonomoltimodidicombinareprevisionitopdowncondatibottomupperottenerericerchepi
efficienti.Lamaggiorparteusanountipocomemeccanismodicontrolloperlagenerazionedeglialberi,e
laltro come filtro per scartare a priori alberi che certamente non sono corretti, un esempio lalgoritmo
delLeftCorner.Lideaallabasediquestalgoritmodicombinareunastrategiadigenerazionedeglialberi
di tipo Topdown, con il filtraggio con considerazioni di natura Bottomup. Lalgoritmo si memorizza la
prima parola dellinput (left corner), e non si devono considerare le regole grammaticali in cui sul ramo
sinistro dell
cheelencan

Que
incorrerein
ingressoal
del tipo A
condizione
questoinco
Risc
rifo
diw
Ges
Nellottica d
cuisimemo
noncadere
ilnomedic
eterminali

Lalgoritmo
taskdipars
dellalgoritm
stato:
Pre
asp
pos
Sca
cate
la s
rico
Com
reg
avv
cate
Una volta c
chedalprim
la derivazion
notutteleca
esti approcc
nsituazionid
parserditi
* A (es.
di innesco c
onveniente:
crivere una
ormularelere
weaklyequiv
stireesplicita
del secondo
orizzanoiris
nellaricorsi
chart.Uncha
edellaregol
di Earley
sing.Lalgorit
mo, uno dei
visione (Pre
pettative top
ssibilitdies
ansione (Sca
egoriacomb
scansione pr
onosciuta.Ta
mpletamento
ola,questap
venuto ricon
egoria.
costruito il ch
monodopor
ne si ha inco
ategorievalid
ci di parsing,
distallo,sen
ipoleftrecu
NP NP P
che prodott
nuova gram
egolechepr
valentgramm
amenteilpro
approccio s
sultatiinterm
oneasinistr
artungrafo
lachedevev
un esempio
tmoiniziaco
seguenti tre
edictor): cre
pdown dell
pansionedi
nner): verifi
baciaconque
roduce un n
alestatoverr
o (Complete
procedurari
oscimento
hart, possi
tanoallultim
ongruenza co
deperilleft
Figura17Ese
, soprattutto
zamaigiung
rsive.Unagr
P), ovvero s
o di una reg
mmatica con
resentanoric
mar;
ocessodiesp
si inserisce la
mediconlin
ra.Irisultati
oaciclicoetic
venirapplica
Figura
o di program
onunafase
e operatori v
ea nuovi st
a grammati
ogninodono
ica se nelli
ellaprevista
nuovo stato
raggiuntoa
er): quando
conosceche
utile per c
ibile ottener
mo.
on il left corn
cornerpero
empioditabella
o se si cons
gereadunr
rammaticas
e contiene u
gola gramm
lo stesso po
corsioneasi
plorazione,e
a programm
tendodinon
intermedive
chettato,do
ta.
a18Esempiod
mmazione din
diinizializza
viene applica
tati nellent
ica; verr q
onterminale
nput esiste,
dallostatoa
in cui lindi
allentratasu
lindicatore
eunsintagm
completare q
re un albero
ner. Il filragg
ogninodono
adelfiltraggio
sidera una s
risultato.Ci
idicericorsi
un simbolo
aticale. Esist
otere espres
nistra,otten
evitandositu
azione dinam
nripetereil
engonomem
veunarcoc
dichart
namica che
zione applic
ato ad ogni
trata corren
quindi creato
enellagramm
, nella posiz
acuilaregol
ice di posizi
uccessivadel
di posizion
asignificativ
qualche altra
di parsing, e
gio pu esse
onterminale

trategia del
siverificaq
vaasinistra,
non termina
tono due m
ssivo della p
endocosqu
azionidista
mica, una m
lavorogifa
morizzatiinu
ontienelind
opera su un
andolarego
nodo del ch
nte del cha
o un nume
matica;
zione adegu
lasitrova.Se
one viene s
lchart.
e raggiunge
vostatoric
a regola rim
estraendo la
re realizzato
.
tipo Depth
quandolagra
,seammette
ale che sia
odi per pote
precedente,
uellachepre
llo.
metodologia d
attochesip
unastruttura
dicazionede
n chart per r
ola>S.Ad
hart, in funzi
art, rappres
ero di stati
uata, una p
eilconfront
spostato dop
e lestrema
conosciutoe
masta in atte
arco o linsie
o con tabelle
first, posso
ammaticain
eunaregola
a parte della
er ovviare a
cercando di
endeilnome
di parsing in
uevitaree
acheprende
inodiiniziali

realizzare un
dognipasso
ione del suo
sentando le
uguale alle
arola la cui
opositivo,
po la parola
destra della
verificasel
esa di quella
eme di archi
e
o
n
a
a
a
i
e
n
e
e
i
n
o
o
e
e
i
,
a
a

a
i
Anche per il parsing esistono degli approcci statistici, dove si scelgono le regole da espandere in
baseaprobabilitcalcolateapartiredauncorpus,perarrivareilprimapossibileadunanalisierestituirla
come pi probabile. Dato un insieme di regole, fornite sia da esperti che definite a partire da un analisi
empiricadiuninsiemeditesti,sidefiniscelaprobabilitdiapplicazionedellaregolacome:
P(A - B |B ) =
Count(A - B)
Count(A)

ovvero, la probabilit nota la parte di innesto pari al numero di volte in cui la regola applicata nel
corpus,divisoilnumerodioccorrenzedellapartediinnesco.

5. UnApplicazione:ilcorrettoreortografico

Una delle applicazioni elementari del NLA limplementazione degli strumenti di correzione
ortograficaospellcheckers.Talitooldevonorealizzareduecompiti:
1. Controllarelacorrettezzadiunaformalinguistica;
2. Suggerimentodellaformalinguisticapicorrettaafrontediunerrore.
La maggior parte dei corretto ortografici funziona mediante la comparazione con un dizionario di
riferimento, ovvero un repertorio lessicale in cui compaiono tutte le possibili flessioni di ogni parola. Dal
momento che andare a memorizzate tutte le forme di flessioni impone una non trascurabile complessit
spaziale,sipreferiscememorizzaresololaparteradicaledelleparole,ecorredareildizionariodiuninsieme
di regole di scomposizione morfologica o di flessione. A fronte dellimmissione di alcune parole, lo
strumentooperaperprimacosalostemmingconleregolediscomposizione,ottenendolaformaradicale,
esuccessivamentecontrollalapresenzadiquestultimaneldizionario.
Ilproblemapicomplesso,perlegatoallindividuazionedeisuggerimentiperunacorrezione.In
una lingua solo alcune successioni di lettere sono consentite, ad esempio in italiano non consentito la
successione stb. A tale scopo, oltre alla consultazione del dizionario, un correttore corredato da un
algoritmodicontrollodellesequenzealfabeticheallinternodiunaparola.Lostrumentoinformaticousato
per indicare tali sequenze detto ngramma, dove n la lunghezza della sequenza. Lalgoritmo ha un
insiemedingrammiplausibili,equandoinuntestosiriscontraunasequenzanonconsentita,lasisegnala
come errore. Un latro metodo quello della distanza minima, dove i candidati per la correzione sono
ottenuti applicando alla parola erronea gli operazioni di cancellazione, inserimento e alterazione di una
lettera,secondoilprincipiodellaminimizzazionedelladistanzadellanuovaparolaconquellaerronea.Per
distanzatra dueparole,siintendeil numerodiletteredifformitraleparole,aparitdilunghezza.Se due
parolesonodilunghezzadifferente,aquellapibrevesiaggiungonoincodatanticaratterinulli,quantine
bastano per arrivare alla lunghezza dellaltra parola del confronto. Ad esempio, data la parola fonia che
non viene riconosciuta dal correttore di Microsoft Word, posso ottenere i seguenti suggerimenti: fonda
(alterazione di un carattere), fonica (inserimento di un carattere), conia (alterazione di un carattere),
fobia(sostituzionediuncarattere)eafonia(inserimentodiuncarattere).


NaturalLanguageGeneration

1. Introduzione

Il Generazione di Linguaggio Naturale (NLG) si occupa della costruzione di sistemi che producano
un testo comprensibile, in un qualsiasi linguaggio umano (Italiano, Inglese, etc.), a partire da una
rappresentazione non linguistica della conoscenza. Si tratta di un problem solving linguistico, cio un
tentativo di risolvere un goal di tipo comunicativo attraverso luso del linguaggio, in tutte le sue forme. Il
processo di generazione linguistica uno dei pi vecchi nel campo dellelaborazione linguistica. Ad
esempio, il pi vecchio e famoso programma C, detto hello word, un primo esempio di programma di
generazione linguistica. Il suo compito di visualizzare a video la stringa Hello, world, ed applica un
approccio alla generazione che prende il come di canned test (testo inscatolato). Questapproccio
semplice da implementare, ma mal si adatta a nuove situazioni. Si lascia, infatti, lonere della produzione
linguistica al programmatore e non al programma stesso,pertanto ogni variazione di applicazione impone
lintervento dellautore. Un approccio pi elastico in cui viene scritto in chiaro nel programma la parte
invariante del testo da generare, lasciando allutente lonere di immissione in corso di esecuzione del
programma la parte variante. Tale approccio viene detto template filling (compilazione modulo), ed
certamente pi flessibile e maggiorente usato, ma ha ancora delle limitazioni. Ad esempio, il suo uso da
parte di Weizenbaum in ELIZA ha avuto successo in alcune situazioni, mentre in altre ho generato frasi
senzasenso.

User: Lets talk just about you not me. Can you think?
ELIZA: YOU LIKE TO THINK I NOT YOU DONT YOU
User: I think you are an extremely stupid program
ELIZA: PERHAPS YOU WOULD LIKE TO BE AN EXTREMELY STUPID PROGRAM

Ilsuccessodisemplicimeccanismidigenerazionelinguisticihaindicatoche,adunaprimaapprossimazione,
la generazione linguistica pi semplice della comprensione linguistica. Per questo motivo, gli sforzi degli
studiosi si sono concentrati sulla comprensione, considerando i precedenti approcci sufficienti per la
generazione. Quando le esigenze sono varie e complesse, si rendono necessarie tecniche pi sofisticate,
capacidigenerareunappropriatorangedifrasi,esceglieretralefrasicandidatesullabasedelcontestoe
delsensovoluto.
Un sistema che si pone come obbiettivo la generazione di testo in linguaggio naturale si trova la
necessitdicompiereunaseriediscelte:
Selezionedel contenuto:ovverodiscegliereappropriatamenteil contenutodellafraseinbaseallo
specificointentocomunicativoeallanaturadelledestinazionedellafrase;
Selezione lessicale: il sistema deve scegliere il lessico pi adeguato per esprimere i particolari
concettidelcontenutoinformativo;
Strutturadellafrase:
Aggregazione:ilsistemadeveripartireilcontenutoselezionatoinfrasi,clausoleeparole;
Espressionidiriferimento:sidevedeterminarecomeriferirsiaglioggettiindiscussione;
Struttura del discorso: il sistema solitamente deve trattare con discorsi formati da pi frasi, che
devonoesserecaratterizzatedaunastrutturacoerenteediscernibile.
Queste scelte, congiuntamente alla problematica di predisporre delle frasi lineari come insieme di parole,
costituiscoilcuoredelNLG.

2. ArchitetturadiunsistemaNLG

Figura19ArchitetturadiunsistemaperilNLG

LarchitetturaperunsistemadiNLG illustratainFigura19,edcostituitadaduecomponentiin
serie:
Discourse Planner, questo componente lavora a partire da uno scopo comunicativo e intraprende
linsieme delle scelte che sono oggetto del NLG. Seleziona il contenuto dalla base di conoscenza e
successivamente struttura tale contenuto in maniera appropriata. Il risultate piano del discorso
specifichertuttelescelteoperareperlinteracomunicazione.
Surface realizer, questo componente riceve la specifica del Discourse Planner, e genera delle
singole frasi in funzione delle sue risorse lessicali e grammaticali. Tali risorse definiscono le
potenzialit di generazione in uscita del componente. Se la specifica costituita da pi frasi, il
Realizervieneinvocatotantevoltequantesonolefrasidellaspecifica.

3. SurfaceRealizer

EsistonoduepossibiliapprocciallarealizzazionedelRealizer:
SystemicGrammar,
FunctionalUnificationGrammar.

o SystemicGrammar

NelSystemicGrammarlefrasisonorappresentatecomecollezionidifunzioni,esiadoperanodelle
regoleperilmappingditalifunzioniinespliciteformegrammaticali.Unsistemadianalisisistematicadelle
frasiorganizzalefunzionisulivellimultipli,comeinfiguraperlanalisidellafraseThesystemwillsavethe
document.

Figura20Analisisistematicadiunafraseininglese

Questilivelligestisconodiversiinsiemidifunzioni,dettemetafunzioni,cherappresentanoivariaspettialla
basediuntaskdigenerazionelinguistica:
Le metafunzioni interpersonali raggruppano quelle funzioni, che stabiliscono e mantengono
linterazionetraloscrittoreeillettore.InFigura20,rappresentatodalmoodlayer,chedetermina
selafrasehauncarattereimperativo,affermativoointerrogativo.
Le metafunzioni concettuali si riferiscono a quello che comunemente definito il propositional
content dellespressione, solitamente espresso come semantica della frase. In Figura 20, il
transitivitylayerdeterminalanaturadellinformazioneespressa.
Le meta funzioni testuali si riferiscono al modo con cui le espressioni si adattano al discorso
corrente. Ci include le problematiche di thematization e reference. Il theme layer rappresenta la
marcaturadeltemadellafrase.
Molte delle scelte che il processo di generazione deve compiere dipendono dal contesto della
comunicazione,cheformalizzatodallemetafunzioniinterpersonalietestuali.
La grammatica viene rappresentata usando un grafo and/or aciclico etichettato, detto system
network,dicuiunsempliceesempiorappresentatoinFigura21.

Figura21UnsempliceesempiodiSystemNetwork

Nel system network, una parentesi graffa indica sistemi collegati con un operatore di and (ovvero in
parallelo), mentre la linea retta verticale sono i sistemi interconnessi con una or (ovvero in serie). Il
formalismodelsystemnetworknonrichiedelusodiunateoriasistematica,mapossibilebasareiltuttosu
unacategorizzazionesistematica.Unasystemicgrammarutilizzadeirealizationstatementspermapparele
caratteristichespecificatedellagrammaticanellaformasistematica.Ognicaratteristicanellaretepuavere
un insieme di asserzioni realizzative, che specificano dei limiti sulla forma finale dellespressione. Ci
illustratoinFigura21,comeuninsiemediasserzioniincorsivoaldisottodiognicaratteristica.Leasserzioni
realizzativesonoottenuteimpiegandoiseguentioperatori:
+X: inserirelafunzioneX,adesempiosispecificachetuttelefrasidevonoavereunpredicato
X/Y: combinare le funzioni X e Y. Ci consente alla grammatica di avere una struttura di
funzione a strati, assegnando differenti funzioni alla stessa porzione dellespressione. Ad esempio
clausoleattivecombinanolattoreconilsoggetto,mentrequellepassiveloscopoconilsoggetto
X^Y: ordinarelafunzioneXinuncertopuntoprimadiY.Adesempiofrasiindicativepongonoil
soggettoprimadelpredicato
X:A: classificarelafunzioneXconlacaratteristicalessicaleogrammaticaleA.Taliclassificazioni
segnalano a un basso livello un passo ricorsivo attraverso la grammatica, da applicare alla frase,
allelemento lessicale o morfologico. Le caratteristiche indicative inseriscono la funzione soggetto,
chedeveessereunnome.Taleelementoverrulteriormentespecificatodaunaltraporzionedella
grammaticastessa.
X!L: assegnaallafunzioneXlelementolessicaleL.Allelementofinitodelpassivoassegnato
lelementolessicalebe.
Dato un sysytem network pienamente specificato, la procedura di generazione da applicare la
seguente:
1. Siattraversalaretedasinistraversodestra,scegliendolacaratteristicaappropriataecollezionando
leassociateasserzionirealizzative;
2. Si costruisce unespressione intermedia che riconcilia linsieme delle limitazioni imposte dagli
statementrealizzativicollezionatialpassoprecedente;
3. Siripercorrelagrammaticadalbassoperognifunzionechenonstatapienamentespecificata.
Consideriamolaseguentespecificadiingresso:

Lingressospecificalentitprocesso,attoreescopo,maanchechelafraseaffermativaecheunazione
rivoltanelfuturo.Ilprocessogenerativoinizia conlagrammaticainFigura21,andandoadanalizzareitre
elementi del primo livello. Si parte dalla caratteristica mood, e si sceglie le caratteristiche indicative e
declarative, dal momento che nellinput indicato che la frase unasserzione. In base alle relative
asserzionirealizzativeottengolaseguentestrutturazionefunzionale:

Lapresenzadisavecomeprocesso,imponelasceltadiunacaratteristicatransitiva,edalmomentonon
vieneindicatolusodelpassivo,siadottaunoschemaattivo:
siinseriscelattoreelosicombinacolsoggetto
siinserisceloggetto,combinandoloconloscopoeordinandodopoilpredicativo.
Siottieneilseguenteschema:

Infine,dalmomentochenonciningressoalcunaspecificatematica,sisceglieunoschemadidefault,che
inserisce theme e rheme, combinando theme con il soggetto e rheme con il restante dello schema,
ottenendo:

A questo punto, il processo generativo ricorsivamente adopera la grammatica per specificare pienamente
lafraseeglielementilessicaliemorfologici.

o FunctionalUnificationGrammar

Lapproccio Functional Unification Grammar usa lunificazione per manipolare e valutare le strutture
caratteristiche. Loperazione di unione o merge prende in ingresso due strutture e ne restituisce una in
uscita fusione delle due in ingresso. Una grammatica ad unificazione un insieme di tratti la cui unione
costituisce la corretta struttura grammaticale di una frase. Una struttura di tratti, detta anche feature
structure o FS, un insieme di coppie del tipo tratto e particolare valore assunto dal tratto, il tutto
organizzato in una matrice di attributi e valori, detta AttributeValue Matrix o AVM. Un AVM pu essere
rappresentatoanchedaungrafo,dettoDirectAcyclicGraphoDAG,incuiinodisonoivalorideitrattiegli
archisonolatipologiaditratto,ladirezionedatadallastrutturazionealivellideitratti.
Questagrammaticahanelsuolivellopialtounaseriedialternativeperlefrasi(categoria,ocat,s),parte
nominale (cat np) e parte verbale (car vp). Loperatore di alternativa o or data da una coppia di
parentesigraffe.Allivellodifrase,talegrammaticasupportalecaratteristichediattore,processoescopo,e
unpatternchedescriveladisposizionedeicostituentilacaratteristica.Leregolediunionesonoquelleche
regolano le caratteristiche di un elemento rispetto a quello precedente (ad esempio la persona del verbo
deve essere legata a quello del soggetto di una frase). Nella Figura 22, lentit S si compone di una parte
NP,diunaVPediunaNP,dovelaprimaNPelaVPsiunisconoinbasealtrattoNUMBER,chedeveessere
pari a quella dellattore. Questa grammatica simile a quella sistematica dal momento che supporta una
strutturazione a pi livelli, che sono acceduti in maniera ricorsiva durante il processo di generazione: la
definizione degli elementi di S si trovano ripercorrendo dallinizio la grammatica. Ovvero lattore
dellelementoS,nonaltrocheunelementoNP,chesilegaalprimoinbasealNUMBERdellattore({
NUMBER}staadindicareilNUMBERdellelementodilivellosuperiore,ovveroACTOR).

Figura22Sempliceesempiodigrammaticaadunificazione

La struttura di input specifica i dettagli della particolare frase da generare, e viene rappresentata in una
forma affine a quello della grammatica, che prende il nome di Functional Description o FD, e un suo
esempioillustratoinFigura23.

Figura23Unesempiodidescrizionefunzionale

Nella figura, c la specifica di una frase con un particolare attore, system e un particolare scopo,
document.Ilprocessoilfuturosalvataggiodeldocumentodapartedelsistema.Lastrutturadiingresso
specificaiparticolariverbienomidausareeanchelaccezionetemporaledellaparteverbale.
Per generare luscita del componente, questo ingresso viene unificato con la grammatica della Figura 22,
attraversodegliesamimultiplidellagrammatica.Lunionepreliminarefacorrispondereallinput,illivelloS
dellagrammatica,ovverolaprimaalternativadeltoplevel,dandoluogoaquantoillustratoinFigura24.Ad
esempio,lacaratteristicaassociataadACTORincludeanchelelementolessicalesystempropriodellFDdi
ingessolacategoriaNPdellagrammatica.

Figura24Risultatodell'unionepreliminare

Sicontinuaconsultandolagrammatica,ottenendounFDpienamenteunificato,illustratoinFigura25.

Figura25FDpienamenteunificato,risultantedelprocessodigenerazione

4. DiscoursePlanning

Il componente di realizzazione superficiale prende in ingresso uno specificato input e genera delle
singole frasi. Di conseguenza, esso ha poco o nessun controllo sulla struttura del discorso o il contenuto
delle frasi. Questo cose sono controllate dal discourse planner. I due predominanti meccanismi per il
planningdeldiscorsosono:
TextSchemata
RhetoricalRelations
Tale componente deve anche approcciare il problema del content selection, ovvero il processo di scelta
dellasemanticadellafraseapartiredellacasediconoscenzaininputesullabasedelloscopocomunicativo.
Dalmomentochetalebasediconoscenzanonsipresenteinunaformastandard,madipendefortemente
dalle caratteristiche dellapplicativo, difficile fare un discorso generale sul processo di selezione dei
contenuti. Concretamente la base di conoscenza pu essere vista nella forma KLONE, un cui esempio
illustratoin.Inquestarappresentazionesiillustranoglieffettieipassi,dacompiersiinsuccessione,chesi
devonocompierepereffettuarelazionedisalvataggio.

Figura26Unaporzionedellabasediconoscenzadellaproceduradisalvataggio

o TextSchemata

Un approccio alla progettazione del discorso quello di legarne la struttura del discorso con la struttura
dellabasediconoscenza.Adesempio,ledirettivescrittechespieganocomesvolgereunaspecificaazione,
esprimono le azioni richieste ordinate sulla base della loro esecuzione. Ogni precondizione di tali azioni
vienespecificataprimadellarelativaazione.Similarmente,glieffettidiquesteazionisonoillustratidopole
relative azioni. Sulla base di tali considerazioni, possibile realizzare uno schema rappresentante tale
struttura,comequelloinFigura27.

Figura27Schemadistrutturazionedelloschemadeldiscorso

LoschemavienerappresentatoconunAugmentedTransitionNetworkoATN,incuiogninodounostato
eogniarcounatransizione.Ilcontrolloinizianelpiccolonodoneroinaltoasinistraeprocedeseguendogli
archifinoachelesecuzionenonsiinterrompenelnodoterminalenellangoloinbassoasinistra.IlnodoS0
consentelespressioneditutteleprecondizioni,latransizioneallostatoS1imponelespressionedellazione
stessa.S1consentelachiamataricorsivadellarete peresprimereipassisottesiallesecuzionedellazione.
La transizione verso S2 non richiede alcuna azione, e S2 consente di esprimere i possibili effetti collaterali
dovutiallesecuzionedellazione.
Questoapprocciosuglischemiconsentediotteneredellestrutturazionideldiscorsosolodialtolivello.

o RhetoricalRelations

Glischemisonoutiliperlapanificadeldiscorsofornendouninsiemediscretodipatterndiespressioni,ma
sonoaffettidadueprincipaliproblemi:
Glischemisonoimpraticabiliquandoiltestodagenerarerichiedeunamaggiorevarietstrutturale
e ricchezza di espressione. Talvolta si rendono necessarie delle variazioni nella strutturazione del
discorso,eciapponenotevolidifficoltadapproccibasatisuschemi.
La struttura del discorso generata dagli approcci con schemi, data da una semplice frase, senza
includerealcunastrutturaadaltolivellocheponeinrelazionilefrasitraloro.
Un utile approccio di dare unocchiata sotto al tetto dello schema in modo da scoprire le dinamiche
retoriche al lavoro nel testo. Un sistema informato di tali dinamiche pu successivamente sviluppare un
proprio schema basato sulle situazioni incontrate. Una delle teorie che cercano di formalizzare tali
dinamiche detta Rhetorical Structure Theory o RST. una teoria descrittiva dellorganizzazione del testo
basato sulle relazioni che sussistono tra le parti del testo. Le relazioni che costituiscono tale teoria
designanoilsegmentocentralediundiscorsocomenucleo,mentreilsegmentoperifericocomesatellite.
possibile interpretare il secondo nei termini del primo e non viceversa. Le relazioni RST sono definiti in
terminidilimitazionichepongonosulnucleo,sulsatelliteosullalorocombinazione:
Elaboration:ilsatellitepresentadeidettagliaggiuntivichesiriferisconoalcontenutodelnucleo;
Contrast:inucleipresentanoelementiche,sebbenesimiliinalcuniaspetti,sonodifferentiincerti
modi;
Condition: il satellite presenta qualcosa che deve verificarsi prima della situazione espressa nel
nucleo;
Purpose:ilsatellitepresentaloscopodelverificarsidellazioneespressadalnucleo;
Sequence:linsiemedeinucleisonorealizzatiinsequenza;
Result:lasituazioneespressadalnucleoderivadaquellapresentatadalsatellite.
LerelazioniRSTsonotipicamenterappresentategraficamentecomeinbasso:

Inoltrelevarierelazionipossonoessereespresseinmanieragerarchica:

Sebbene RST stato originariamente proposto come strumento descrittivo, pu essere anche impiegato
come tool per NLG. Per rendere ci possibile, le relazioni sono tipicamente riproposti come operatori per
un planner basato sullIntelligenza Artificiale. Ogni nodo della base della conoscenza diventa di volta in
voltanucleoesatellite,esivalutalapplicabilitdellevarieregoleRST,finoagiungereallabasediunalbero
retorico,nonulteriormenteespandibile.

Figura28Pienastrutturazioneretoricadeltestod'esempio

5. Microplanning

Nelle sezioni precedenti non si trattato il processo del mapping delle strutture del discorso in
uscitaalDiscoursePlannerelingressodelSurfaceRealizer.Lestrutturedeldiscorsospecificanolastruttura
ad altro livello del testo da generare, ma includono pochi dettagli utili al realizzatore superficiale. Il
problemadioperareunapianificazionepidettagliataprendeilnomediMicroplanning.Lemaggioriareedi
interessesono:
Referring expressions: si richiede di determinare quegli aspetti di unentit che dovrebbero essere
usati quando ci si riferisce allentit in questione in un particolare contesto. Se un oggetto il
centro della discussione, ed stato gi menzionato, possibile usare un semplice esso, mentre
lintroduzionediunanuovaentitrichiededelleespressionipielaborate.
Aggregation: si deve ripartire il contenuto dalla base di conoscenza in frasi e parole. La frase Hai
appena compilato ed eseguito un semplice programma in C una forma aggregata e
maggiormente leggibile di una forma non aggregata del tipo Hai appena compilato un semplice
programmainC.HaiappenaeseguitounsempliceprogrammainC.


TraduzioneAutomatica

1. IntroduzioneallaTraduzioneAutomatica

Uno dei problemi di maggiore impatto pratico connessso allelaborazione linguistica quello della
traduzioneautomaticaditesti,oMachineTranslation(MT).Latraduzioneautomaticaoperadauntestoin
un linguaggio naturale (la sorgente o Source Language) ad un altro (la destinazione o Destination
Language).Questoprocessosidimostratoutilepervaricompiti,tracui:
1. Traduzione approssimativa, in cui lobiettivo avere una vaga idea del senso di un testo. Frasi
sgrammaticate e poco eleganti sono consentite, purch il senso sia ben chiaro. Durante la
navigazione sul web, ad esempio, un utente disposto ad accontentarsi della traduzione
approssimativa di una pagina in lingua straniera. Talvolta un umano monolingua pu perfezionare
la resa delloutput, senza necessariamente conoscere il testo nella lingua originaria (fase di post
editing). In tal modo, lo strumento di traduzione automatica rappresenta un supporto per
velocizzareilprocessoditraduzioneoperatodaunumano(computeraidedhumantranslation).
2. Traduzione a sorgente ristretta, in cui largomento e il formato del testo sorgente sono
severamentelimitati.UnodegliesempidimaggiorsuccessoilsistemaTAUMMETEO,chetraduce
bollettini metereologici dallinglese al francese. Il suo funzionamento affidabile dovuto al fatto
cheillinguaggiodeibolletinimeteomoltoregolareehaunostileformalizzato.
3. Traduzionepreeditata,incuiunessereumanoeditailtestodeldocumentosorgenteperrenderlo
uniforme a un sottoinsieme ristretto rispetto al linguaggio originario, anche detto sublanguage,
primadellatraduzioneautomatica.Questapprocciomoltoefficacequandolostessodocumento
va tradotto in molti linguagi diversi. Un esempio rappresentato dalla manualistica di
elettrodomesticiealtro:societcomeXeroxhannodefinitounlinguaggioabbastanzasempliceper
scrivere i propri manuali di assistenza, tale da poter poi essere tradotto automaticamente con
facilitepochierroriintuttiilinguaggideipaesiincuioperalazienda.
4. Traduzioneletteraria,incuisiconservanotuttelesfumaturedeltestosorgente.Oggigiornoquesto
uncompitotroppodifficileperisistemiditraduzioneautomatica.
La traduzione un compito difficile, perch richiede generalmente una conoscenza approfondita
del testo, che a sua volta esige una comprensione completa della situazione che si considera comunicare.
Questo vero anche per testi molto semplici, addirittura composti da una sola parola. Consideriamo la
scrittaApertosullaportadiunnegozio,essostaadindicarecheilnegozioprontoadaccettareclienti.
La stessa scritta su uno striscione davati a un centro commerciale appena innaugurato, invece, sta ad
indicare che i negozi sono ora operativi, ma i lettori non si sentirebbero ingannati se il centro dovesse
chiudere nella notte senza rimuovere lo scrizione. In tedesco, daltra parte, la prima scritta avrebbe come
traduzione Offen, mentre il secondo Neu Erffnet. Il problema che linguaggi diversi categorizzano il
mondo in modo diverso, ad esempio il termine francese doux ha una vasta gamma di significati, che
corrisponde approssimativamente alle parole italiane morbido, dolce e gentile. La traduzione
automatica deve necessariamente operare delle distinzioni tra i vari significati di un termine,
comprendendolasituazionecuifariferimentoiltestooriginale,eoperareunasceltadelgiustotermine,al
fine di avere una resa nel linguaggio destinazione, che descriva correttamente una situazione identica o
moltosimilareaquellanellasorgente.

2. LacomplessitdelMachineTranslation

Nellelingueumaneesistonoalcunecaratteristichecomuni,universali,dovutealruolofunzionaledi
unalinguacomesistemadicomunicazionetrauomini.Ognilinguaggio,adesempio,possiedenomieverbi.
Anchequandolelinguedifferisconotraloro,talidifferenzehannospessodellestrutturesistematiche,ilcui
studiovienedettotipologia.Glielementitipologicitralinguesonodidiversanatura:
1. Morfologica,lelinguesonospessocaratterizzabililungoduedimensionidivariazione:
Il numero di morfemi per parola, si pu spaziare da lingue isolanti, come il
cantonese, in cui ogni parola generalmente ha solo un morfema, a lingue
polisintetiche,comelEskimo,incuiunasingolaparolapuesserecompostadipi
morfemi,corrispondenteauninterafraseinitaliano;
Il grado di frammentazione dei morfemi, andando da lingue agglutinative, come il
turco,doveimorfenihannodeiconfiniprecisi,alingueafusione,comeilrusso,in
cui c la tendenza di fondere insieme i morfemi in modo tale da essere difficile
segmentarli.
2. Sintattica, le lingue sono differenti anche sullordine di aggregazione degli elementi del
discorso:
SVO (SubjectVerbObject), il verbo tende a essere interposto tra soggetto e
oggetto;
SOV (SubjectObjectVerb), il verbo tende ad assumere lultimo posto allinterno
dellafrase;
VSO (VerbSubjectObject), il verbo tende ad assumere la prima posizione
allinternodellafrase.
Due lingue che condividono la loro tipologia di ordinamento spesso hanno anche altre
similitudini: ad esempio le lingue SVO generalmente fanno uso di preposizioni, mentre le
lingueSOVdipostposizioni.
3. Struttura del discorso e collegamento dei predicati con i loro argomenti, in una relazione
esiste un termine principale e altri dipendenti da esso, ad esempio nella relazione di
specificazione la casa delluomo, casa la testa , mentre uomo la dipendente.
alcune lingue, dette Headmarking, tendono a marcare una relazionesulla testa, invece, e
quelli detti Dependentmarking sul dipendente. Riprendiamo la precedente relazione di
specificazione, in inglese avremo lespressione the mans house, dove il marker della
relazione,ovverospostosumancheilterminedipendente,mentreinungheresesi
direbbeazemberhza,mentreilmarker,asullatesta.
Lingueditipoverbframedmarcanoladirezionedelmovimentosulverbo,comeinItaliano
periterminientrareeduscire,mentrelelinguedettesatelliteframedilmarkerposto
suunelementodettosatellite,comeconiterminiininglesegoinegoout.
Infine, le lingue possono variare in base a quali elementi del discorso possono essere
omessi. Molte lingue richiedono che si espliciti il pronome che si riferisce a un elemento
precedentemente indicato nel discorso, mentre altre danno la libert di ometterli. Tale
differenza illustrabile con il seguente esempio (in blue nel testo in inglese sono
evidenziatiipronomiomessineltestoinitaliano):
Stamattinamiamadrevenutaincucinaconunlibro.
Melohamostrato,dicendodiindicareilmiodolcepreferito.

Thismorning,mymothercameinthekitchenwithabook.
Sheshowedittome,tellingmetoindicatemyfavouritecake.
Lingue che possono omettere pronomi in questo modo sono chiamate prodrop. Lingue
sparse, come il cinese e il giapponese, richiedono allascoltatore un maggiore impegno
inferenziale per recuperare elementi antecedenti, e per questo sono definite cold
languages.Linguechesonopiesplicite,rendonopifacileilprocessodicomprensione,e
sonodettehotlanguages.
Ogni dimensione tipologica pu causare problemi quando si opera una traduzione da una lingua ad
unaltra. Ovviamente la traduzione da lingue SVO, come lItaliano, a lingue SOV, come il giapponese,
richiedeungrandesforzodiordinamentodellastrutturasintatticadellafrase,vediFigura29.Latraduzione
daunalinguasatelliteframedversounaverbframed,odaunaheadmarkingverounadependentmarking
richiede cambiamenti della struttura della frase e vincoli sulla scelta delle parole. Lingue con intense
omissioni di pronomi causano forti problemi di traduzione, dal momento che le omissioni devono essere
identificareeleanaforericostruite.

Figura29Taskditrasferimentodaunalinguaadunaltra,conevidenziatoilprocessodiconversionedellastrutturasintattica

Esistono altre caratteristiche che ostacolano il processo automatico di traduzione di una lingua
naturale? Gli elementi di ostacolo per una MT si possono riassumere come derivanti dalla creativit
costitutivadellelinguenaturaliedallaloroimprevedibilit.Diseguitopresenteunabrevelista:
Omografitestuali,possonoessererisoltiattraversolutilizzodiregole,incuivisialanalisisintattica
dellaparola.Iltermineportainitalianocorrispondeaduelessimidifferenti,lunoverboelaltro
nome. Il parsing o un tagging riesce facilmente a disambiguare una tale situazione di
indeterminatezza.
Omografi assoluti, possono essere difficilmente risolvibili da motori eslusivamente sintattici nella
maggiorpartedeicasi,amenochenonrientrinoinunapolirematicaosianodeterminabiliinbase
alcontestodeltestoinesame.Adesempioilterminecalciopusiaindicareilgiocosportivoche
lelemento chimico. Nel caso il termine compaia nella polirematica campo di calcio facile
ricondurre il segno grafico al concetto di gioco sportivo, oppure se il testo in esame in ambito
chimico, alloccorrenza del termine grafico c unalta probabilit che ci si riferisca allelemento
chimico.Inquesticasiilricorsoastrumentistatisticipuessereefficace.
Polirematicheecollocazioni,possonocostituireunproblemapertreordinidimotivi:
1. Sonopicristallizzateespessohannotraduzioniimprevedibili;
2. Sonoinaltissimonumeroespessononcensite;
3. Esistonousinonidiomaticidelleparolecheleformano.
Un possibile metodo di approccio al problema quello di operare un censimento di tali strutture,
ricorrendoacorporadigrandidimensioniedivarianatura,ediimpiegarealgoritmistatisticiperil
lororiconoscimentoneitestidatradurre.Inprimisiltestovienescandagliatoallaricercadipossibili
collocazioni o polirematiche, in caso di rilevamento, vengono trattati a parte rispetto al resto del
testo, andando a determinare la corrispondenza nella lingua di destinazione, e in caso di
identificazione della parola (o una corrispondente corrispondenza o polirematica), si realizza la
sostituzione.Ilproblemachepossibilechenontuttelecollocazioniepolirematichesianostate
censite, in tal caso se sfuggono al modulo di detection, vengono erroneamente trattate come gli
altri termini. Un serio problema usare la stessa combinazione in una forma non cristallizzata,
infattiinquestocasolatraduzioneinapproppriataselasiconsideracomeformacristallizzata.Ad
esempio la polirematica tiro a segno, indica generalmente un tipo di attivit sportiva traducibile
come shooting gallery, ma anche possibile un uso come nella frase ho mandato anche questo
tiro a segno, in cui la traduzione come polirematica inesatta. In questi casi una macchina che
impiega solamente delle tecniche formali si trova un ostacolo insormontabile, la stessa difficolt
riscontrabilenelcasodimetaforeemetonimie.
Uso di pronomi anaforici e cataforici, deittici e anafore, rappresentano un tipico problema
computazionale. Ricostruire il riferimento linguistico di una tale espressione , infatti, unattivit
chechiamaincausafattoriditipocontestualeedenciclopedico.Esistono,dunque,diversisistemi,
sia sintattici che probabilistici, che consentono la ricostruzione di riferimenti anaforici
precedentemente presenti nel testo, e tale settore di ricerca prende il nome di Anaphora
Resolution.
Nellamaggioranzadeisistemiditraduzioneautomaticadinuovagenerazionesempreinclusounmodello
basato su corpora o examplebased, poich sono in grado di superare vari elementi di ambiguazione nel
testo,migliorandocosnotevolmenteleprestazioni.

3. ImodellidiTraduzioneAutomatica

Figura30PrincipalimodellidiTraduzioneAutomatica

Diversi sono gli approcci alla traduzione automatica, che derivano da distinti modelli di
funzionameto della lingua e dalle possibilit offerte dai mezzi sviluppati in seno al Natural Language
Processing. I principali modelli adottati per programmare sistemi di traduzione automatica sono
schematizzabilinelseguentemodo,vediFigura30:
Sistemibasatisuregole(rulebasedMT),incuisonoidentificatealcunecircoscritteregoleformalidi
descrizioneetrasformazionediunitlinguistiche.Taliregolepossonoessereorganizzateinmoduli
diversi che interagiscono tra loro, e rappresentati da diagrammi ad albero o da formalizzazioni
equivalentiagerarchie.
Traduzione diretta o per unit, in cui ogni unit testuale analizzata e scomposta dal
punto di vista morfologico fino a individuare il suo corrispondente diretto nella lingua di
arrivo. Il sistema, dotato di un modulo morfologico che analizza le forme della parola da
tradurre, individua le varie informazioni fornite dalla flessione, le scompone, e una volta
ottenuta la forma traducente della base, applica un altro componente morfologico per
produrre la corretta forma flessa nella lingua di arrivo. Il sistema riduce al minimo le
informazioni linguistiche da analizzare, prendendo in considerazione solo le
caratteristiche della specifica lingua di partenza e di quella di arrivo, necessarie per il
procedimentodellatrasformazione.
Traduzione sintattica o Tsistemi (transfer systems), sono sistemi ispirati allapproccio
generativo fondanti su modelli di grammatica formale centrati sul livello sintattico. Tali
sistemi abbandonano lapproccio lessicale, in favore della centralit di operazioni di
trasformazionesintattica.Ilmodellosostanzialmentecompostaditrefasi:
1. Analisimorfosintattica;
2. Trasferimentodellastrutturasintatticadellalinguadipartenzainquelladiarrivo;
3. Sintesi.
IsistemisintatticisiservonodistrumentipropridelNaturalLanguageProcessing,comeil
parsing sintattico per la prima fase, e il Natural Language Generation per la terza. Tra i
sistemibasatisulleregole,quellisintatticisonoimaggiormenteusatieimiglioriintermini
diperformance.
Traduzione a interlingua, in cui il passaggio da una lingua ad unaltra filtrato dalla
presenza di una rappresentazione intermedia, linterlingua. Linterlingua, in genere, non
consisteinunaveraeproprialingua,mainunaseriedilivelliastrattidirappresentazione
morfologica, sintattica e semantica, che si vuole considerare di base. Linserimento
dellinterlingua permette di costruire modelli plurilingui in cui il trasferimento delle
strutturesintattichehasemprecomeelementodellacoppiadilingue,linterlinguastessa,
riducendo cos notevolmene lelaborazione della fase cenrale della trasformazione
sintattica.
Sistemi probabilistici o Statistical Machine Translation (SMT), si tratta di un approccio solitamente
definito empirico, dal momento che si basa su dati disponibili sotto forma di corpora. Esso si
fonda sullaccesso a corpora paralleli (ovvero costituiti da testi orginali in una lingua e da loro
traduzioni in una o pi lingue) cui attingere per rilevare, sulla base delle porzioni da tradurre,
strutture gi tradotte utilizzabili per fare una sorta di calchi sugli esempi presenti nel corpus
(examplebasedMT).IsistemiSMTfannoricorsoaparametristatisticiperlattribuzionedellordine
delleparoleedelmigliorecandidatoperlatraduzione.Questisistemisonospessostatidefinitinon
linguistici o antilinguistici, dal momento che fanno solo uso delle probabilit di cooccorrenza e
dellefrequenzedelleparole,piuttostodelleregoleditipogrammaticaleolinguistico.Leprobabilit
di cooccorenza sono basate principalmente su due tipi di dati: la presenza di candidati simili nei
corpora paralleli usati come riferimento, e la posizione delle parole allinterno della frase
confrontata con lordine delle parole allinterno del corpus. I risultati dei sistemi di impronta
statisticasisonorilevatimiglioririspettoaquellichefannoricorsoaregole.
Una maniera comoda per rappresentare i tre approcci dei sistemi basati sulle regole di utilizzare il
triangolodiVauquois,illustratiinFigura31.Iltriangolomostracomelaprofonditdianalisirichiestacresce
se si parte dagli approcci diretti, e si arriva a quelli interlingua, passando per quelli di trasferimento. In
aggiunta,illustracomelaquantitdiconoscenzarichiestadecrescasalendoversoilverticedeltriangolo.

Figura31TrangolodiVauquois

Isistemiattualiditraduzioneautomaticasonospessoibridi,etentanodiarricchirelemetodologie
basate su regole con quelle adoperanti i corpora, introducento moduli che si integrano in forma
componenziale e che permettono lo sviluppo di diverse strategie di risoluzione a seconda dello specifico
problema traduttivo da affrontare. La flessibilit dei modelli ibridi anchessa un indicatore teorico non
marginale che suggerisce una rappresentazione della produzione linguistica come insieme di strategie
adoperabileinrelazioneaspecificheconsizionilinguisticheedextralinguistichedellutente.

4. Applicazionicommercialiditraduzioneautomatica

Oggiilmercatooffreunagranquantitdisoftwareperlatraduzioneautomatica.Traleapplicazioni
per personal computer i sistemi pi noti e diffusi sono quelli prodotti da Globalink, Systran, Intergraph e
Logos.Systran,inparticolare,unapprocciomultisorgente(sonopresentiduesorgentidiconoscenza:dei
dizionarielettroniciedelleregolelinguistiche),multitarget(apartiredaunasolaunitdianalisipossibile
generatetestiinvarielinguedifferenti)econunmodellooperazionalechesicomponeditrefasi:
1. Analisidelleparole:analisimorfologicaelookupneidizionari;
2. Analisidellefrasi:lefrasichecompongonoiltestoinesamevieneanalizzatoattraversotecnichedi
parsing;
3. Sintesi:sicomponedeltrasferimentodeisingolitermininellalinguadidestinazioneesistemazione
dellefrasiottenute.
La Commissione Europea traduce molti dei propri documenti con lausilio di versioni perfezionate di
Systran, mentre diverse multinazionali (vedi la parte di supporto del sito della Microsoft, in Figura 32)
hannoiniziatoatradurremanualidusoedocumentazioneinternaconaltriprodotticommercialisimili.

Figura32EsempiodisupportodellaMIcrosoftinitalianodisponibilepertraduzionecompletamenteautomatica

I sistemi di traduzione online, spesso gratuiti, hanno registrato un certo successo negli ultimi anni. Il
traduttoreBabelfishdelmotorediricercaAltavistaoquellodiGooglebasatosullatecnologiaSystran.Con
talisistemilutentepuottenereunatraduzioneintemporealediuntestoodiunaqualunquepaginaWeb
inunaqualunquelingua,inunadellenumeroselinguesupportateconunsempliceclick.Ilrisultato,per,
il pi delle volte una traduzione grezza pi o meno imprecisa, a seconda delle caratteristiche del testo di
partenza.

Figura33IlservizioditraduzioneautomaticadiGoogle

Se i sistemi di largo consumo sono indicati per i non esperti, che hanno bisogno di traduzioni
immediate, anche se di bassa qualit, i workbenches sono pensati per traduttori professionisti. Le
workbenchessonopacchettiintegratiperlagestioneflessibiledelletraduzioni,econtengono:
Wordprocessorsmultilingue,
Controllorigrammaticalieortografici,
Dizionariebanchedatiterminologiche(termbancks),
Corporaparallelieprogrammidiallineamentodeitesti,
Programmidiaccessoecondivisioneditraduzioni.
Tra le funzionalit pi efficaci vi sono le translation memories, che lavorano confrontando il materiale da
tradurre con quello gi tradotto, e mediante appositi algoritmi suggeriscono la traduzione pi probabile,
permettendoallutentediconfermareorifiutareilsuggerimento.Talisistemilascianoaltraduttorelapiena
gestionedellavoroincompletaautonomia,aumentandonelaproduttivitelavelocitneltrattamentodei
testi e permettendo a ciascuno di seguire la propria strategia di lavoro. I sistemi integrati pi diffusi sono
tuttidiproduzioneeuropea,etraquestiilpidiffusoTradosTranslationWorkbench.

Figura34TranslationWorkFlownellasuiteTrados


Tecnologiedellalinguaparlata

1. Introduzione

Lelaborazione della lingua parlata, o spoken language processing, si riferisce allinsieme delle
tecnologie relative al riconoscimento, generazione a partire da un testo elettronico e comprensione del
parlato.Unsistemaperlalinguaparlatahaalmenoiseguentitresottosistemi:
speechrecognitionsubsystem,checonverteundiscorsoparlatoingrafemi,
texttospeechsubsystem,chegenerafonemiapartiredauntestoinformatoelettronico
spoken language understanding subsystem, che mappa le parole in azioni e pianifica le azioni
intrapresedalsistema.
Esiste una considerevole sovrapposizione nelle tecnologie che stanno alla base di questi tre sistemi. Un
insieme di regole vengono definite dai linguisti per i sistemi della lingua parlata, con un limitato successo.
Negliultimianni,per,degliapproccistatisticidatadrivenhannoottenutodeirisultatiincoraggianti.Questi
sonobasatisullamodellazionedeisegnalidelparlato,usandodeibendefinitialgoritmistatistici,chesono
ingradodiestrarreautomaticamenteuncaricoinformativodaidati.
Ogni produzione linguistica individuale a suo modo unica e irripetibile. Superare questa
irriducibilitattraversounamacchinasignificaincontrarenecessariamenteunaseriedidifficolt.Unadelle
caratteristichechepongonodelicatequestioniteoricheedapplicativelamancanzadiinvarianzadeisuoni
linguistici,soprattuttodalpuntodivistaacustico.Talemancanzasignificachequellochenoiriconosciamo
abitualmentecomelostessosuono(peresempiola[t]instradaela[t]interra),seosservatodalpunto
divistaacustico,ciapparenellamaggioranzadellesueoccorrenzetuttaltrocheidentico,tantodaesserein
molti casi simile piuttosto ad altri suoni, oppure essere del tutto assente nella catena sonora. Tale
variabilit anche dipendente dallinterlocutore, che pu non avere una corretta pronuncia a causa della
suaet,diproblemiallapparatofonico,diignoranzaodiinflessionidialettali.

Figura35Diagrammadellavariabilitdipronunciadialcuneparoleinglesi

2. Caratteristichedelparlato

Perrealizzareunsistemadielaborazionedel parlato,bisognacomprenderele caratteristichedella


lingua parlata. Allo scopo, utile considerare le differenze che sussistono tra la lingua parlata e quella
scritta. Molti attributi grammaticali e stilistici sono stati individuati per distinguere una comunicazione
scritta da una orale. Da unanalisi dello studioso Biber, emerge che alcune tipiche caratteristiche di
distinzione includono il numero di passivi e di pronomi impiegati, luso di contrazioni e di forme
normalizzate (tecnica stilistica in cui il verbo principale convertito in un nome: Il giudice respinse
lordinanzainaspettatamente>Ilrigettodellordinanzadapartedelgiudicefuinaspettata).Unesempio
ditaledistinzioneinFigura36.

Figura36Dimensionidelledifferenzetracomunicazionescrittaeorale

Fortunatamente, la maggior parte di tali distinzioni nello stile grammaticale e nella scelta lessicale pu
essere gestita attraverso un addestramento, specifico per contesto applicativo e modalit, dei modelli nei
sistemidielaborazionedelparlato.
Un altro problema per lelaborazione del parlato la mancanza di fluidit. I dialoghi parlati
mostrano un gran numero di problematiche, come interruzioni, correzioni, pause, frasi sgrammaticate,
ellissi(omissionedelsoggettoedaltrielementinonindispensabili)efrasisconnesse.Talisfidesonoproprie
diinputoralispontaneierappresentanounulteriorefattoredidegradazionedelleprestazionidiunsistema
dielaborazionedelparlato.Ilmotivoallabaseditaledegradazionecheimodelliacusticicostituentialcuni
sistemi sono allenati con la lettura di documenti scritti, mentre quelli linguistici con dei corpora di testi
scritti.Ancheinquestocasodegliapproccistatistici,masoprattuttounaddestramentomiratodeimodelli,
consentediotteneremiglioriprestazioni.
Spesso nelle conversazioni orali, molto del carico informativo non presente propriamente nella
parole, ma nelle caratteristiche prosodiche con cui si pronuncia la sequenza di parole. Consideriamo il
sempliceOk,inbaseallintonazionedipronunciapuassumereuninsiemedisignificatichespaziadaun
affermazione di noia fino a un accordo di entusiasmo. Linterpretazione del parlato, quindi, non si deve
limitare al solo significato semantico delle parole o dal contesto della conversazione, ma anche dalla
prosodia. Questa propriet del parlato ancora un open issue della ricerca sulla spoken language
processing.

3. SistemiTexttoSpeech

Una delle principali aree della ricerca sul parlato prende il nome di sintesi del parlato, o Textto
Speech (TTS). La tecnologia TTS si occupa della costruzione di programmi in grado di produrre frasi allo
scopo di far interagire linguisticamente in modo naturale la macchina con luomo. Loperazione di
conversionediuntestoelettronicoinunasequenzaacusticaparagonabileallavoceumana,nontuttavia
particolarmenteagevole.Lapronunciadiunaparolanonconsistenellapronunciaseparatadifonipresida
un inventario. Si tratta di unattivit ben pi complessa, che richiede la capacit di programmare la
sequenza fonica dotata di un adeguato profilo prosodico, in relazione a condizioni esterne e individuabili
nel momento in cui latto viene in essere. Una macchina presenta una serie di limitazioni fisiche, come
lassenza di un adeguato apparato fonoarticolatorio, che impediscono la necessaria resa spontanea e
continuadelparlatoconvocenaturale.Seanchesiipotizzassedisuperarelostacolodellarticolazionevera
e propria con sequenze registrate, rimarrebbe la questione difficilmente gestibile di memorizzare la
pronuncia di tutte le parole del vocabolario in tutte le sue forme flesse, e soprattutto limpossibilit di
gestire la dimensione intonativa, con il risultato che la lettura di una frase sarebbe penosamente
innaturale.Sirendedunquenecessariodisporrediunmodelloformaleeintegratoapilivelliconunaserie
diparametriacusticichesuperinotalidifficolt.
Diversisonoimodellidiproduzionedelparlatoassuntinelcorsodegliultimianni:
1. Modello articolatorio, secondo cui si procede ad una simulazione dellapparato fonoarticolatorio
umano;
2. Modello acustico, secondo cui si cerca di produrre un segnale che riproduca alcuni degli aspetti
dellondasonora;
3. Modello concatenativo, secondo cui si tenta combinare porzioni di segnale di parlato umano in
manieradaprodurreuneffettoquantopinaturale.
IprimimodelliTTSsonodettiphonemebased,ossiabasatisullinventariofonologicodiciascunalingua:con
unridottoinventariodiunitsigeneravaunsegnaleparlatochetuttavianontenevacontodeifenomenidi
coarticolazione, della transizione tra foni e della prosodia, e risultava del tutto innaturale, e a volte
difficilmentecomprensibile.OggileunitdianalisisucuisibasanoisistemiTTSsonopiampieepossono
essere costituite da coppie di foni e/o sillabe, in modo da garantire una resa migliore dei fenomeni di
transizione.
Schematicamente il TTS unapplicazione che riceve in ingresso un testo in forma elettronica, lo
elabora e in output produce unonda sonora parlata corrispondente al testo inserito. Le odierne
applicazioniTTSpresentanosolitamenteunmodelloseriale,incuivisonounaseriedilivelliditrattamento
dellinformazionelinguisticachesonosuccessivamentesottopostiadiversefasidilavorazione.Unoschema
indicativoquellopresenteinFigura37.

Figura37SchemadimodelloserialeTTS

Il processo di generazione di un parlato sintetizzato pu essere ridotto schematicamente a cinque fasi


principali:
Pretrattamento,questafaseserveatrasformareiltestoinunaformautilizzabiledalcalcolatore.La
normalizzazione del testo converte in forma standard leggibile le diverse parti del testo da
sintetizzare, come numeri, sigle, acronimi, date e simboli (ad esempio trasformabile 29 in
ventinove ed in euro). A questa fase appartiene anche lanalisi della punteggiatura e la
valutazione delle possibili ambiguit che influenzeranno il trattamento del testo, in particolare
lindividuazione dei confini di una frase. Alla fine della fase sar presente un testo trascritto
ortograficamenteinunaformaomogeneautilizzabilenelprossimostep.
Analisimorfosintattica,unmodulodiparsingcheprovvedeallasegmentazionedeltestoinunit
morfografichee/osintattiche.Questatappaserveperindividuarelacategoriagrammaticalediogni
unitlessicaleeaindividuarelastrutturaelerelazionitraisintagmipresentinellefrasideltesto.Si
tratta di una fase importante per trattare alcuni tipi di omografie, ma anche per fornire una base
perlesuccessivefasidiattribuzionedellastrutturaprosodica.
Fonetizzazione, ha il compito di passare dalla rappresentazione fonologica ad una fonetica, che
tenga presente gli allofoni e le tendenze alla coarticolazione della lingua. Dato che ogni lingua
manifesta notevoli differenze nel rapporto tra grafia e concrete fonie, esistono diversi sistemi di
fonetizzazione,categorizzabiliindueraggruppamentiprincipali:
1. Rulebased,operanosulingueincuiesisteunrapportorelativamenteregolaretrafonemie
grafemi
2. Corporabased, operano su lingue in cui la pronuncia di una parola maggiormente
imprevedibiledallasuatrascrizionegrafica.
Per lingue come litaliano, gran parte del lavoro per la fonetizzazione realizzabile attraverso un
convertitore grafemafonema, che applica un numero finito di regole definite per trasformare i
caratteri scritti in sequenze fonetiche. Le parole che non rispettano tali regole, come quelle di
origine straniera, sono trattate in maniera separata e inserite in un dizionario fonetico delle
eccezioni, che contiene direttamente le pronunce delle parole che ne fanno parte. Lapproccio,
quindi, ibrido, con un uso di un sistema rulebased per trattare la maggior parte delle parole, e
corporabased, invece, per le cose parole di eccezione alle regole di pronuncia. Nel caso di lingue
molto irregolari, come linglese, la conversione basata su regole gioca un ruolo marginale. Si
preferisce, invece, un fonetizzatore basato su un dizionario di riferimento, pi o meno esteso a
secondadelmodello,checontienelediverseformedelleparole(paroletestuali)inunatrascrizione
fonetica standard, simile dunque ai dizionari delle eccezioni. Per le lingue con una morfologia
flessionale molto ricca a volte la rappresentazione fatta in modo da separare inizialmente la
radice dalla desinenza flessiva in modo da velocizzare laccesso al dizionario, per ricomporle in
seguitoallasequenzafonetica.
Generazioneprosodica,haloscopodimodularelintonazionedeltestoappenafonetizzatoinmodo
cheappaianaturaleedadeguataaltipodienunciatodaprodurre.Sitrattadiunafasecomplessae
delicata: si pensi a quante variazioni intonative aggiungano significato nella distinzione di frasi
interrogative e affermative in italiano, o in modo ancora pi sottile, nelle variazioni del focus
dellenunciatoossiadelleporzionichesidesideranomettereinrilievo.
Sintesi del segnale, consiste nella vera e propria generazione del segnale acustico, effettiva sintesi
dellonda sonora corrispondente al testo dato in input. Spesso per questa fase si usa uno speech
database, ovvero una raccolta di segmenti di parlato registrato, che sono successivamente
concatenatiinmododaprodurreunasequenzaparlatacontinua.

Figura38LatestaparlantediLucia

Ilparlatoumanocaratterizzatodaelementifondamentalichenonpassanounicamenteattraverso
ilsistemafonicoacusticouditivo,equindinonfruibiliattraversoilsolosegnaleacustico.Ilparlatosempre
accompagnato da differenti espressioni del viso. Da questa osservazione, nasce lidea di realizzare
macchine che possano simulare un parlato multimodale, ossia un parlato che non si avvalga solamente
della modalit fonicoacustica. In questa direzione si muove la nascita della sinesi audiovisiva, ed esempi
elettronici delle cosiddette teste paranti, di teste appunto che producono discorsi accompagnati
dallanimazionedelvisochesimulaimovimentidellelabbra,dellamascellaedellalinguaduranteilparlato.
Le teste parlanti sono realizzate con animazioni in tre dimensioni che possono produrre movimenti fluidi,
grazieadunaprogrammazioneparametrizzata,inalcunicasiulteriormentecontrollataconilconfrontocon
datirealiregistratieindicizzatiinmodoottico.

4. Sistemidicomprensionedellalinguaparlata

Il riconoscimento del parlato, altrimenti detto Automatic Speech Recognition ASR, racchiude una
serie di applicazioni in grado di identificare le sequenze linguistiche del parlato spontaneo, convertirle in
formato elettronico, e permettere linterazione con programmi e servizi usando la voce. Si tratta
delloperazionelogicamenteinversaaquelladeisistemiTTS,tantodaessereanchedefinitaspeechtotext.
I sistemi ASR servono per diversi scopi: dettare testi al computer, trascrivere relazioni e discorsi
automaticamente,interagirelinguisticamenteconunamacchinainsistemididialogotelefoniciedaltro.

Figura39Unmodellosorgentecanaleperunsistemadispeechrecognition

ComemostratoinFigura39,unasorgentestabilisceunasequenzadiparole,dettaW,cheintende
comunicare per via orale. La sequenza viene trasmessa attraverso un canale di comunicazione disturbato
versoilcomponentedielaborazionedelsegnaleacusticodelriconoscitore.Infine,undecodificatoreopera
una conversione del segnale acustico X, in una sequenza di parole , che visibilmente prossimo alla
sequenzaoriginaleW.Untipicoriconoscitoredelparlatoconsistedeiseguenticomponenti:
Adaptation, si tratta del modulo su cui le applicazioni, che intendono usare i risultati del
riconoscitore,possonoagirepercalibrareiparametridelsistemainbasealleproprieesigenze;
Acustic model, include la rappresentazione della conoscenza circa lacustica, la fonetica, la
variabilit dello strumento di acquisizione del segnale sonoro e del canale di comunicazione, le
possibili differenze dei vari possibili interlocutori. Questa fase quella che caratterizza i diversi
sistemi, poich per il riconoscimento si possono usare parametri estratti dallanalisi spettrografica
dellesingoleunitfoneticheodiinteriblocchi,oppuresipossonousaresistemigenericidipattern
matching,ossiadicomparazionedischemiomodelli(templates).
Language model, si riferisce alla conoscenza linguistica del sistema come il concetto di parola, la
possibile cooccorrenza delle parole e il relativo cotesto. Le semantiche e le funzioni relative ad
unoperazionecheunutentepotrebberichiedere,possonoancheesserenecessarieperunmodello
linguistico. In genere, durante la fase di riconoscimento, vengono suggeriti diversi candidati
possibilichepresentanocaratteristichetalidaesserecompatibiliconlinputvocaleperlapresenza
diomofonieoquasifoniepiomenoestese,perrisegmentazione,peripoaticolazione.Sipensiad
uninputininglesechesia,peresempio,compatibilicondiversesequenze(comeanicecream,a
nicecreamoanicescream).
Signal processing, il componente che recepisce il segnale acustico e ne estrae i vettori delle
caratteristichesalienti,perpoipassarlialdecoder;
Decoder, il cuore del sistema, deputato alla restituzione della sequenza di parole contenuta del
segnaleacustico.
I due modelli presenti nel sistema possono essere caratterizzati da regole, ma molti sistemi ASR
preferiscono far uso di corpora di parlato, sotto forma di training corpus, in modo da garantire un
soddisfacente trattamento di diversi input linguistici. In tal caso si parla di un processo di corpusbased
speechrecognition.

Figura40Schemaablocchidiunsistemadiriconoscimentodelparlato

Iproblemidimaggiorecomplessitnelriconoscimentodelparatosonosimiliaquelliindividuatiper
TTS:
1. Lestrema variabilit individuale delle caratteristiche vocali (legate al genere, alle caratteristiche
dellapparato fonoarticolatorio, ma anche e soprattutto alle peculiarit di pronuncia del singolo
parlante;
2. Ifattoridiipoarticolazionetipicidelparlatospontaneo
3. Lagestionedidiversetipologietestuali.
Tali problemi possono essere in parte aggirati mediante la fase di addestramento, ma ci rende poco
flessibile il sistema, perch ogni nuovo utente dovrebbe svolgere una nuova sessione di training per la
propria voce. Uno degli obiettivi principali dei sistemi di riconoscimento vocale proprio la possibilit di
essereindipendentidalparlante.

5. Comprensionedellinguaggioparlato(Acero)

Un sistema di comprensione del parlato fondamentale per interpretare gli enunciati degli
interlocutori e intraprendere le azioni pi appropriate. Una conoscenza lessicale, sintattica e semantica
necessaria per lo svolgimento di tale scopo. In schematizzato un tipico sistema di comprensione del
parlato:
Riconoscitoreesintetizzatoredelparlatopereffettuareoperazionidiinputoutput;
Sentence interpretation, si tratta di un componente per operare il parsing dei risultati di un
riconoscimentodelparlatoinformesemantiche;
Responsegeneration,unmoduloperformularelapiadattarispostaaduninput;
DialogManager,rappresentailcomponentecentraledelsistema,checomunicaconleapplicazioni
eimodulidicomprensionedelparlato.
DiscourseAnalysis,hailcompitodianalizzareildiscorsoerisolvereambiguit;
DialogStrategy,memorizzalostatocorrentedellaconversazioneelepossibiliazionifuture.

Figura41Componentidiunsistemadicomprensionedelparlato

6. Applicazionieinterfacceutente(miglioraretrovareapplicazioniinteressanti)

Numerosisonoisettoriincuilasintesidelparlatogiunarealtoperativa.Gliusidellasintesidelparlato
sono principalmente rivolti allo sviluppo di sistemi di dialogo uomomacchina. In secondo luogo, tali
tecnologiesiindirizzanoautentidisabilichepossonoprodurreparlatopermezzodiunatastieraomouse,o
ottenereversioniparlateditestiscritti nelcasodiutentinonvedenti.Unterzosettorediapplicazionedel
TTS costituito dalleducazione linguistica per la predisposizione di strumenti per lapprendimento delle
lingueealtreapplicazionisonogipresentiinvideogiochienellelaborazionediaudiolibri.

Appendice

Elencodialcuniconcettipresentinelladispensaconlarelativaspiegazione:
1. Fonetica quellabranca dellalinguisticaoglottologiachesirivolgeallostudiodeisuonilinguistici
neiloroaspetticoncreti,secondosvariatipuntidivista.Isuoiprincipalitemidistudioriguardanola
produzione e la percezione dei suoni linguistici da parte delluomo, e le loro caratteristiche
acustiche,vistesiadallatodellemittente,ilparlante,chedaquellodelricevente,lascoltatore.
2. Fonologia, detta anche fonematica o fonemica, il ramo della linguistica che studia come i suoni
linguistici funzionino all'interno d'una certa lingua, ovvero come si organizzino le unit distinte di
suono, i fonemi. Essa fa parte della grammatica d'una qualsiasi lingua, a differenza della fonetica
chelostudiogeneraledeisuonilinguistici(o,meglio,deifoni).
3. Morfologia la parte della grammatica o della linguistica che ha per oggetto lo studio della
struttura grammaticale delle parole, e che ne stabilisce la classificazione e l'appartenenza a
determinate categorie come il nome, il pronome, il verbo, l'aggettivo e le forme della flessione,
come la coniugazione per i verbi e la declinazione per i nomi distinguendosi dalla fonologia, dalla
sintassi e dal lessico. Inoltre indaga i meccanismi secondo i quali le unit portatrici di significati
semplicisiorganizzanoinsignificatipicomplessi:leparole.
4. Sintassi la branca della linguistica che studia le regole, o le relazioni modulari che stabiliscono il
postocheleparoleoccupanoinunafrase,comeisintagmisicomponganoinfrasiecomelefrasisi
disponganoaformareunperiodo.
5. Semanticaquellapartedellalinguisticachestudiailsignificatodelleparole(semanticalessicale),
degliinsiemidelleparole,dellefrasi(semanticafrasale)edeitesti.
6. Pragmaticaunadisciplinadellalinguisticachesioccupadellusodellalinguacomeazione.Nonsi
occupadellalinguaintesacomesistemadisegni,maosservacomeeperqualiscopilalinguaviene
utilizzata. Pi in specifico si occupa di come il contesto influisca sullinterpretazione dei significati.
Inquestocasoilterminecontestosinonimodellaparolasituazioneinquantopotrebberiferirsia
qualsiasifattoreextralinguistico,tracuisociale,ambientaleepsicologico.
7. Discorsohacomeelementifondamentalilefrasi,enestudialecorrelazioni.
8. Morfema la minima unit grammaticale isolabile di significato proprio. Esempio: nella parola
"vanga", costituita dai morfemi vang + a, il morfema "a" indica che si tratta di un sostantivo
femminilesingolare.Se"a"losisostituiscecon"are"siavr"vangare"einquestocasoilmorfema
miindicachesitrattadiunverbo.Performareilpluraleinveceuserilmorfema"e"(vang(h)+e):
inquestocasodunqueilnuovomorfemanoncambialapartedeldiscorsomailnumero.
9. Fono una classe di suoni simili per modalit di articolazione e acusticamente, una serie di suoni
checondividonoun'ondasonorabendefinita.Unfonoconsideratocomemembrodiunfonemasi
chiama allofono. I foni sono distinti in due macroclassi: quella dei vocoidi (vocali), che comprende
tutti quei foni acusticamente definibili come suoni, quindi quei foni nella cui fonazione laria non
incontra alcun ostacolo; e quella dei contoidi (consonanti), che ospita tutti quei foni che sono
acusticamente dei rumori, perch prodotti quando il flusso daria s'imbatte in uno o pi ostacoli
dopolalaringe.
10. Fonemaun'unitdifferenziante,indivisibileeastrattadiunsistemalinguistico
11. Lessema una unit di analisi linguistica che appartiene a una determinata categoria sintattica
(nome, verbo, aggettivo...), ha un particolare significato o funzione grammaticale, e modifica
sistematicamente la sua forma secondo il contesto sintattico in cui inserita. Ad esempio, il
lessema CANTARE appartiene alla categoria Verbo, ha un significato particolare, e prende diverse
forme(canto,canti,canter...).
12. Lemmacostituiscelaformacanonicadiunaparola,laformachesitrovaneldizionario.
13. Sintagmal'unitminimadiquestacatenasintatticaecostituisceunastringadisuonidotatidella
stessa funzione logica all'interno dell'enunciato. Per esempio, nelle frasi Pierino ha mangiato la
melaeL'hamangiataPierino,laemelahannolastessafunzionelogicadicomplementooggetto.
14. Forme flesse indica l'insieme delle possibili variazioni di una delle parti del discorso per
evidenziarnelediversefunzionilogichenelcontestosintattico.Unesempiolaflessionenominale
(riguardantesostantivi,aggettivi,pronomi)everbale.
15. Sinonimiainsemanticaindicalarelazionechec'traduelessemichehannolostessosignificato.
16. Omonimia in semantica indica un fenomeno per cui una stessa forma ortografica e fonologica
esprimepisignificati.Adesempio,initalianoleparolevite(pluraledivita)evite(pianta)sonosia
omofone (si pronunciano allo stesso modo) e omografe (si scrivono allo stesso modo), quindi si
diconoomonime.
17. Polirematica un'espressione composta da pi parole, ma che viene usata come un tutto unico,
comeaufo,caproespiatorio.Quandoinessecompareunverbo,puapparireinformainflessibile,
in quanto cristallizzata nella frase, ad esempio "va e vieni"; oppure per le polirematiche a base
verbale, simili alle espressioni idiomatiche inglesi, il significato del verbo alterato dalle altre
parole,esiconiuganormalmente:adesempio"andareallosbando"o"andareallosbaraglio",incui
ilsignificatodelverboandarecompletamentetrasformato.
18. Collocazione si intende una combinazione di parole relativamente pi libera di una polirematica,
maaccomunatedaunaparticolarefrequenzaduso.Esempiinitalianosonocompilareunmodulo,
obliterareilbigliettoodelittoefferato.
19. Omografiaindicaunarelazionedisignificatotradueparolechesipresentanoconlastessagrafia.
20. Omofonialarelazionechec'tradueparolechehannolostessosuonoediversisignificati.
21. Cotestolinsiemedelleparolecheprecedeesegueunadataparola.
22. Anafora una figura retorica che consiste nella ripetizione di una parola o di gruppi di parole
all'iniziodifrasiodiversisuccessivi,persottolineareun'immagineounconcetto.
23. Catafora una figura retorica che consiste nella collocazione a fine frase di una parola che
normalmentesarebbepostaall'inizioperchsoggetto.
24. Deitticounelementolinguisticochelegalenunciatoalcontestoincuiavvienelenunciazione,per
es.ipronomipersonali,gliaggettividimostrativi,alcuniavverbi.
25. Coarticolazioneilfenomenopercuiognisuonoemodificatodalsuonocheprecedeesegue.
26. Ellisse lomissione di parti di una frase che non sono fondamentali, e dalla presena facilmente
desumibile.

Potrebbero piacerti anche