Riassunto Linguistica Computazionale Chiari

1.
Lingue, calcoli e macchine

In questo capitolo saranno rapidamente messe in rilievo alcune proprietà delle lingue naturali che
possono agevolare o al contrario ostacolare il loro trattamento computazionale.
1.1. La disciplina e il suo oggetto
La linguistica computazionale si è configurata come immediatamente caratterizzata da una più
accentuata ed evidente pluralità di programmi di ricerca e metodologie. Tale pluralità è un effetto
del necessario incontro che si realizza tra linguistica teorica (e applicata) e tecnologie informatiche.
1.2. Automi, algoritmi e modelli
La possibilità di costruire macchine che producano comportamenti linguistici è fondata sulla
presenza di un modello, un quadro astratto e formale, che contempli in dettaglio tutte le possibilità
dell’interazione. Quello che ci interessa è dunque poter fornire un modello che descriva il
comportamento che la macchina dovrà assumere nel caso della specifica pratica chele viene
richiesta (analizzare un sintagma, trovare un traducente in una lingua straniera,attribuire a una
parola la sua categoria grammaticale, riconoscere la parola pronunciata da un parlante, ecc.).
Definiamo il comportamento di una macchina in base all’output che fornisce a un dato input.
L’input è pensabile come lo stimolo (sensoriale, linguistico, ecc.), o il dato, che viene fornito alla
macchina per essere trattato. L’output è il comportamento che la macchina esibisce dopo aver
ricevuto l’input: produzione di una risposta, un suono, una azione, un movimento, ecc. Il percorso
che la macchina deve fare per associare a un input uno specifico output consiste nell’uso di un
sistema di mediazione astratto, un modello. Il modello filtra l’input, lo analizza e vi associa, a
seconda delle sue caratteristiche, mediante una serie di algoritmi, un output.1.3. Il carattere
probabilistico degli usi linguistici
Una regola linguistica può essere vista come la descrizione di una pratica linguistica. La posizione
più debole sostiene che la regola linguistica rappresenti una semplice regolarità. Una regola
linguistica in senso forte, invece, può essere vista come l’effetto di una regola grammaticale. Nel
primo caso si avrà infatti un modello linguistico di tipo statistico, largamente basato sui dati estratti
da testi reali e quindi induttivo, e che mira a riprodurre comportamenti che simulino le tendenze
proprie della produzione linguistica concreta. Nel caso della posizione forte, invece, il modello sarà
di tipo «grammaticale», ove la regola sarà rappresentata da una serie di condizioni necessarie e
sufficienti a specificare una data produzione, in un approccio di tipo deduttivo, che da un insieme
finito e astratto di regole permette di formare un numero potenzialmente infinito di frasi ben
formate. Si tratta di un modello che spesso viene detto appunto rule-based, ossia basato su regole.
Entrambi i punti di vista si devono misurare, seppure in maniera diversa, con la creatività
linguistica, che è una caratteristica tipica delle lingue naturali e dei loro usi. Due creatività: la
creatività che permette di generare frasi mai prodotte prima, semplicemente combinando i lessemi
di una lingua secondo le regole della sua sintassi.
Il secondo tipo di creatività, basata su una potenzialità di tipo semiotico, invece va a toccare il
sistema stesso delle regole, ossia permette, in date circostanze, di rompere una regola e di
ristrutturare il sistema dalle sue fondamenta.
1.4. Alcuni aspetti dell’incalcolabilità delle lingue
L’assimilazione di alcune caratteristiche delle lingue a forme simili a calcoli è stata una delle spinte
teoriche più significative per la nascita della linguistica computazionale. Un calcolo, per essere
definito tale, prevede una serie di condizioni tra cui la presenza di un inventario di simboli finito e
di un insieme finito di regole di combinazione dei simboli in stringhe/segni del linguaggio.
1.4.1. La potenziale infinitezza dei segni
Nel caso delle lingue naturali, oltre alla illimitatezza della lunghezza dei segni vi è un altrofattore
importante che aumenta la potenziale infinitezza dei segni, ossia il fatto che l’inventariodelle unità
di prima articolazione è aperto. È sempre possibile per l’individuo e per la comunitàaggiungere
nuovi morfi, soprattutto lessicali, all’insieme delle parole di una lingua.1.4.2. Le famiglie di sensi e
l’estensibilità dei significati
La presenza di sinonimie, polisemie, omonimie possono infatti generare ambiguità o vaghezzae
sono dunque fenomeni che richiedono particolare attenzione in campo computazionale. Unsecondo
aspetto relativo all’organizzazione dei significati è la loro estensibilità, ossia la capacitànel tempo,
ma anche nei diversi strati della massa parlante, di sviluppare nuovi usi e dunque diinserire nuovi
sensi in un dato significato, per rispondere ai bisogni comunicativi.
1.4.3. Le sinonimie
Le sinonimie si configurano come parziali sovrapponibilità di possibili sensi in alcuni
enunciatiprodotti o producibili. Sinonime possono essere due espressioni che, in determinati
contestilinguistici ed extralinguistici, possono veicolare lo stesso senso per un dato locutore.
1.4.4. Le omonimie assolute e testuali
Le omonimie, invece, manifestano un’asimmetria, centrata tuttavia non sul piano semantico,bensì
su quello formale, del significante. Gli omonimi, infatti, sono parole caratterizzate da unsignificante
comune, ma che rimandano a significati radicalmente diversi, spesso senza alcunaparentela
etimologica. Gli omonimi assoluti, come calcio inteso come “pedata” e calcio come“Ca”.
Gli omonimi testuali, invece, sono parole appartenenti a categorie grammaticali diversee/o a classi
flessionali diverse, ma convergenti nella grafia o nella forma fonica.
1.4.5. Le polirematiche e le collocazioni
Le polirematiche sono particolari espressioni composte da più di una parola grafica, che tuttaviasi
comportano semanticamente e spesso morfo-sintatticamente come un solo lessema. stare
acuore, forza pubblica, prigioniero politico, presidente del consiglio, scala mobile o tubo di scarico.
Con il termine collocazione, coniato dal linguista inglese John Rupert Firth, intendiamo
invececombinazioni di parole relativamente più libere delle polirematiche, ma accomunate da
unaparticolare frequenza d’uso, ossia dalla preferenza per l’occorrenza congiunta dei
suoicomponenti. Collocazioni in italiano sono compilare un modulo, obliterare il
biglietto o delittoefferato.1.4.8. La metalinguisticità riflessiva
Una importante caratteristica che differenzia lingue e calcoli è la presenza nelle lingue storico-
naturali di una proprietà, detta metalinguisticità riflessiva, o anche autonimia, che permette
laformazione di testi nei quali ci si riferisce a elementi linguistici: la lingua è usata per parlaredella
lingua.
1.5 Parametri delle applicazioni computazionaliLa robustezza di un sistema computazionale indica
la capacità dell’applicazione di gestiremateriale linguistico in input contenente rumore.La
portabilità di un’applicazione è invece la possibilità di applicarla a nuovi dominiLa potenza di un
sistema computazionale, legata alla nozione di robustezza, descrive la capacitàdi copertura della
lingua dell’applicazione, il suo raggio di azione.La portabilità di un’applicazione è invece la
possibilità di applicarla a nuovi domini (altre lingue,altri linguaggi settoriali, altre tipologie
testuali), modificandone al minimo la struttura. La generalizzabilità, invece, è la capacità del
modello computazionale di dare conto di fenomenilinguistici nuovi, applicando modelli desunti da
materiale di addestramento relativamenteridotto. Si tratta dunque della capacità di ricavare
caratteri rappresentativi dal campionetestuale usato.L’economia di programmazione riguarda
l’architettura del sistema computazionale, ossia lasemplicità/complessità del modello, il tempo che
ci vuole per perfezionarlo e fargli raggiungereuna percentuale di errore quanto più bassa possibile.2.
Le radici della linguistica computazionaleLa linguistica computazionale è un’area di ricerca che si
pone al confine di numerosi settoridisciplinari: informatica, linguistica, scienze
cognitive e intelligenza artificiale. L’informatica inparticolare, occupandosi del trattamento delle
informazioni mediante calcolatori elettronici, hasempre costituito il nucleo tecnologico di questa
disciplina.
2.1. L’informazione e il rumore
Il primo impulso per la nascita della linguistica computazionale è associato alla prospettiva,indicata
dal matematico Warren Weaver, di poter costruire un programma che, implementatosu una
macchina, permettesse di tradurre automaticamente i testi da una lingua a un’altra. Lateoria
matematica della comunicazione, detta anche «teoria dell’informazione», affermatasi conla
pubblicazione dell’omonimo saggio di Claude Shannon e Warren Weaver (1949), ha posto lebasi
non solo per la nascita dell’informatica in senso stretto, ma anche per l’osservazione dialcuni aspetti
sino ad allora trascurati delle lingue.
A Shannon poco interessa capire quale tipodi contenuti passi sul canale. Il centro della sua
preoccupazione è la garanzia che le variazionifisiche, quali che siano, corrispondenti a qualunque
possibile contenuto, vengano trasmesse ericevute senza errori. Un modo, non l’unico, per
rappresentare la quantità dell’informazionetrasmessa è la sua codifica binaria, ossia il numero di
scelte tra due possibilità equiprobabiliche si devono realizzare per giungere univocamente a quella
particolare informazione. Laquantità di informazione si misura in bit (binary digit), che indica
appunto il numero di sceltebinarie necessarie. L’informazione è così legata all’incertezza dello stato
iniziale. Maggiore è ilnumero delle possibilità iniziali, maggiore è l’incertezza dello stato iniziale.Il
modello di trasmissione e ricezione proposto dalla teoria dell’informazione prevede: unproduttore, o
emittente, dispositivo che produce la variazione di stato fisico; uno o più riceventi,o destinatari,
dispositivo che rileva le variazioni di stato fisico; il messaggio, l’insieme dellevariazioni di stato
fisico emesse dal produttore; il canale, mezzo fisico su cui viene trasmesso ilmessaggio; la codifica,
processo attraverso il quale sono formati i messaggi, e la decodifica,processo di ricostruzione del
messaggio da parte del ricevente; il rumore, disturbo che puòintervenire sul canale.
2.2. Grammatiche, regole e modelli
Noam Chomsky, Le strutture della sintassi (1957). La posizione di Chomsky è radicalmentediversa
rispetto a quella presentata dalla teoria dell’informazione, poiché discredita lapossibilità di costruire
modelli del linguaggio fondati sulla teoria della probabilità. Il modelloformale proposto da
Chomsky prevedeva invece la definizione di un insieme di regolesintattiche che permettessero la
generazione e analisi di tutte le frasi possibili di una lingua.
L’approccio che si ispira a queste considerazioni è detto approccio basato su
regole omodellistico. Chomsky ne conclude che l’oggetto di studio della linguistica non devono
essere leesecuzioni (scarse, parziali, sempre imperfette e soggette a errore per l’influenza di
molteplicifattori accidentali), ma la competenza del parlante nativo della lingua, ossia la conoscenza
spesso inconscia, implicita e intuitiva che egli ha delle regole della propria lingua, conoscenzache
gli permette non solo di produrre frasi grammaticali, ma anche di riconoscere lagrammaticalità e
l’accettabilità semantica di frasi mai dette o sentite prima.Per Chomsky la linguistica dei corpora è
inadeguata perché: 1) un corpus è finito (chiuso) perdefinizione ed esclude sempre qualche
enunciato prodotto; 2) un corpus è incompleto edesclude enunciati potenziali (possibili ma non
realizzati); 3) gli enunciati sono sempreinfluenzati da fattori accidentali e dunque risultano
«imperfetti»; 4) un corpus, per la suaincompletezza di fatto, non ci permette di fare legittimamente
delle predizioni sullagrammaticalità delle frasi, ma ci dà solo indicazioni sulla frequenza con la
quale si manifestanodeterminate caratteristiche linguistiche. Altri al suo posto hanno però
perseguito tale obiettivo,dando vita a un importante settore della linguistica computazionale
chiamato NaturalLanguage Processing (ossia trattamento automatico del linguaggio naturale). Uno
degli sviluppipiù significativi in questo campo è il parsing, che consiste in un dispositivo (soft,
astratto) che,a partire da una serie di simboli in sequenza (la frase in input), opera una
segmentazione (ilparsing appunto) e restituisce un’analisi della sintassi della frase (un diagramma
ad albero inoutput, per esempio). La grammatica generativa è un particolare tipo di grammatica
formale,intesa come esplicita descrizione di un linguaggio formale, e può essere vista come un
apparatodeduttivo di regole, dalle quali è possibile generare le frasi del linguaggio e le
lororappresentazioni strutturali. Si tratta della cosiddetta gerarchia di Chomsky (cfr. Chomsky1956),
formata da quattro tipi di grammatica: sistemi non ristretti, sistemi contestuali (context-sensitive),
sistemi acontestuali (context-free), grammatiche regolari.2.3. L’intelligenza artificiale
L’elaborazione del linguaggio naturale (cap. 6), nata congiuntamente dagli sforzi teorici eapplicativi
dell’intelligenza artificiale e del paradigma modellistico chomskyano (§ 2.2), èappunto il
programma legato all’obiettivo di creare macchine in grado di svolgere
compitilinguistici.Evoluzione ulteriore dell’intelligenza artificiale sono i cosiddetti sistemi esperti,
che sonoprogrammi capaci di risolvere specifici problemi come farebbe un umano esperto. I
sistemiesperti sono generalmente dotati di basi di conoscenza, ovvero risorse che
contengonorappresentazioni esplicite e formali di dati strutturati, e di un motore inferenziale, che
permettedi analizzare i dati e, mediante procedure euristiche, fornire predizioni e inferenze. Tipico
deisistemi esperti è prendere delle decisioni e risolvere problemi anche sulla base di datiincompleti
e con tecniche di ragionamento non solamente basate su regole ma anche di tipoprobabilistico.
2.4. La dimensione quantitativa delle lingue
Un ultimo riferimento importante per la nascita della linguistica computazionale è lo sviluppodi un
approccio metodologico che tiene conto della dimensione quantitativa dei fatti linguisticisotto
diversi aspetti, la statistica linguistica, detta anche linguistica probabilistica o matematicao
linguistica quantitativa. Vi sono almeno tre diverse componenti presenti negli studi che
hannodefinito i confini di questa disciplina: (a) approcci logico-matematici che mirano a
forniremodelli matematici del funzionamento delle lingue; (b) approcci che mirano all’estrazione
diregolarità statistiche da grandi quantità di raccolte testuali; (c) approcci di tipo psicolinguisticoche
intendono sottolineare il ruolo dei processi probabilistici nell’apprendimento, nellaproduzione e
nella ricezione linguistica.
3. La linguistica dei corpora
La rivoluzione più significativa che ha permesso il fiorire di un grande numero di progetti
dilinguistica dei corpora, anche a livello sovra-nazionale, è stata la diffusione delle
tecnologieinformatiche, che nel giro di pochissimi anni – a volte persino mesi – hanno
incrementatoenormemente il potere di trattamento dei dati testuali, sia dal punto di vista qualitativo
che daquello quantitativo.
3.1. Lo studio dei testi
I dati testuali reali, raccolti e organizzati in maniera articolata, per quanto parziali, cipermettono
tuttavia di estrarre dati preziosissimi sull’uso che i locutori fanno della proprialingua. Una proposta
di Elena Tognini Bonelli (2001) distingue tra linguistica basata sui corpora
(corpus-based) e linguistica diretta dai corpora (corpus-driven). L’approccio guidato dai corporanon
prevede l’elaborazione di una teoria antecedente all’analisi e allo spoglio di dati testuali
erappresenta in modo più fedele le dinamiche, le variazioni e le tendenze di una lingua parlata
escritta.
3.2. Corpora e tipologie
Un corpus linguistico è un campione di lingua, poiché, come si è visto, non può mai conteneretutte
le possibili occorrenze testuali di una data lingua. Una popolazione è un insieme di tutte lepossibili
osservazioni di un tipo su un dato campo. Un campione invece è una sezione, una partedella
popolazione, che include solo alcune delle possibili osservazioni. Un campione, per essereutile e
significativo, deve essere rappresentativo, ossia deve presentare alcune caratteristichesimili a quelle
che avrebbe l’intera popolazione. Il campione deve, per l’aspetto che si intendestudiare, essere atto
a esibire lo stesso tipo di informazioni (qualitativa) con la stessaprobabilità di occorrenza
(quantitativa) della popolazione. Un’altra caratteristica del corpus,che bisogna valutare con
molta accuratezza, è la sua estensione, ossia la sua ampiezza. Il formatoelettronico (machine-
readable form) indica il trattamento informatizzato dei dati testuali,giovandosi della possibilità di
archiviare i testi in forma digitale, consultabile attraversosemplici software di interrogazione.
3.3. La costruzione di un corpus elettronico
Il primo passo per la costruzione di un corpus è la pianificazione della sua struttura in modoche
possa essere rappresentativa della varietà di lingua che si intende illustrare. Il secondopasso sarà la
concreta acquisizione del materiale per il corpus. I testi elettronici sono costituitiessenzialmente da
sequenze di caratteri. È essenziale che, prima di predisporre il testo perl’etichettatura, si stabiliscano
delle regole su come vanno trattati questi caratteri. Dal punto divista del trattamento elettronico dei
testi si è da tempo stabilizzata una definizione «pratica»:una parola è una sequenza qualsiasi di
caratteri delimitata da due spazi o da separatori (segnidi interpunzione). In questo senso l’unità di
analisi linguistica è detta parola grafica, o parolatestuale. Le parole nella loro forma astratta sono
i lessemi, cioè le classi astratte delle parole(amare, fare, bello, cavallo, ecc.), che includono tutte le
possibili forme flesse di una data parola.
Le parole testuali sono le forme diverse che le parole possono assumere all’interno dei testiconcreti
(per esempio, amò, mi, cavalli, belle, ecc.). Ogni occorrenza delle parole testuali è
dettaappunto token. Le forme delle parole diverse sono invece i tipi di parole (word types). Il
rapportotra i tipi di parole e le occorrenze testuali (type/token ratio) ci dà una approssimazione
dellavarietà o ricchezza del vocabolario del testo esaminato: quanto maggiore è il valore di
questorapporto, maggiore è la varietà del vocabolario presente nel testo.
3.4. I corpora di riferimento delle lingue europee
Un corpus che intenda registrare tutte le principali varietà di una lingua, e quindi
essererappresentativo della lingua stessa, è definito corpus di riferimento (reference corpus).
3.5. I corpora multilingui e paralleli

Un settore di grande interesse della linguistica dei corpora è quello che si occupa dellaproduzione di
corpora multilingui per diversi scopi: facilitare la costruzione di risorsedidattiche, sistemi di
traduzione, basi dati terminologiche, dizionari elettronici, ecc. I corporache riuniscono lingue
diverse possono essere di due tipi: corpora paralleli e corpora multilingui.I corpora paralleli sono
costituiti da testi originali in una lingua (SL, source language) e datraduzioni di questi testi in una o
più altre lingue (TL, target language). Sono detti invecemultilingui i corpora in cui i testi raccolti
sono in lingue diverse, non sono in traduzionireciproche, ma vertono su ambiti disciplinari
corrispondenti permettendo così la costituzionei banche dati terminologiche (sui linguaggi settoriali
come linguaggio giuridico, economico,commerciale, ecc.).
3.6. Il web come corpus
Ma il web può essere considerato un enorme corpus linguistico di riferimento? Lapresenza/assenza
del materiale sul web, le frequenti duplicazioni del materiale stesso, lecapacità di recupero dei
documenti e delle informazioni costituiscono un limite allarappresentatività del web come corpus.
Pertanto il web può essere considerato un corpus, manon un corpus di riferimento rappresentativo.
La dimensione del web non solamente èindeterminata, è anche in certo modo indeterminabile. Da
questa prospettiva non si tratta né diun corpus statico (come il British National Corpus), né di un
corpus dinamico controllato (comela Bank of English). L’estrazione, comparazione, ripetibilità
dell’analisi dei dati linguisticiestratti risulta dunque particolarmente aleatoria. Per aggirare questo
problema sono natialcuni progetti che sovrappongono ai motori di ricerca tradizionali estensioni che
permettonoricerche linguistiche più fini e ad hoc. Un esempio di questo tipo è
WebCorp(http://www.webcorp.org.uk/), ideato da Andrei Kehoe e Antoinette Renouf
dell’Università diLiverpool. WebCorp, per esempio, adoperando le capacità di cattura delle
informazioni dei sitifornite dai principali motori di ricerca (Google, Altavista, Metacrawler),
aggiunge la possibilitàdi selezionare criteri linguistici generali (scelta del dominio testuale,
applicazione di filtri,selezione cronologica), di generare concordanze, di aggiungere ricerche
avanzate con caratterijolly, consentendo all’utente di ottenere risultati qualitativamente più aderenti
a criterilinguistici (anche se quantitativamente meno affidabili). Al momento, l’uso del web
comecorpus in senso tecnico è una realtà. Questa pratica richiede tuttavia, almeno con i mezzi
attuali,molta cautela e grande consapevolezza nell’interpretazione dei risultati.
3.7. La codifica e l’etichettatura dei corporaL’aggiunta al testo di informazioni di tipo linguistico si
dice annotazione o etichettaturalinguistica. L’annotazione è dunque una forma di codifica
linguistica. Essa consistenell’associazione di un’etichetta (tag o markup) a una porzione specifica e
ben delimitata ditesto. Il sistema usato per costruire e attribuire le etichette si dice linguaggio
di marcatura
(markup language). L’etichettatura linguistica può riguardare qualunque aspetto del
testo:indicazioni fonetiche, morfologiche, sintattiche, semantiche. L’annotazione di un corpus
serveprincipalmente per poter estrarre in seguito in modo agile e veloce una gran quantità di
datilinguistici e non linguistici sul testo. Un esempio tipico di annotazione è l’annotazione morfo-
sintattica, detta anche grammatical tagging o spesso POS (part-of-speech) tagging. Un
corpusannotato è incredibilmente più potente di un corpus non annotato, poiché tutte le
informazioniaggiunte potranno in un secondo momento essere usate per estrarre dati linguistici
dalmateriale raccolto. L’annotazione linguistica può essere condotta in modo automatico, semi-
automatico o manuale. L’annotazione manuale di tipo tradizionale è svolta da persone che
appongono le specifiche etichette alle porzioni di testo sulla base di valutazionimetalinguistiche più
o meno condivise e standardizzate. L’annotazione automatica, invece,procede senza l’intervento
umano, attraverso applicazioni del Natural Language Processing
basate su regole (rule-based parsing) oppure su sistemi probabilistici (statistical parsing) (cap.6).
3.8. Gli standard di codifica e annotazione linguistica
Alcuni dei requisiti più generali comuni ai diversi sistemi di standardizzazione riguardano
laseparazione e autonomia del materiale grezzo del corpus (insieme di testi digitalizzato)
dallecodifiche e annotazioni linguistiche; l’esplicitazione di tutte le fasi di
predisposizione,standardizzazione e annotazione del corpus in un file di documentazione accessibile
insieme alcorpus; una forma standard per la codifica e l’annotazione; l’indicazione esplicita dei
criteri diannotazione (regole di attribuzione di un’etichetta a un token); la neutralità e
condivisionegenerale dei criteri linguistici alla base dell’annotazione; la possibilità di eseguire
specifichericerche sulle annotazioni; l’indipendenza della fruibilità del corpus e dell’annotazione
daglispecifici sistemi operativi e da costrizioni sulle caratteristiche dell’hardware. Document
TypeDefinitions). Una DTD contiene le informazioni che descrivono la struttura di un
documentoappartenente a una data tipologia (la tipologia lettera conterrà data, intestazione,
mittente,destinatario, ecc., la tipologia romanzo conterrà autore, titolo, ecc.). Devono essere presenti
duetipi di informazioni: definizioni per il corpo del testo (core) e definizioni per l’intestazione
(TEIheader). L’intestazione (TEI header) contiene informazioni importantissime sul
documento,come la descrizione bibliografica del documento elettronico, edizione, tipo ed
estensione delfile, dettagli di pubblicazione, note, dati sulla fonte specifica da cui è tratto il testo
elettronico.Particolare attenzione è dedicata alle norme per la codifica di trascrizioni del parlato. Il
parlato,infatti, presenta aspetti molto complessi da tenere in considerazione, quali la presa di turno,
lesovrapposizioni, la velocità di eloquio e il tempo, pause, inserzioni di porzioni vocali
nonlinguistiche e interazioni con i gesti, peculiarità fonetiche e prosodiche. La forma sintattica
delleetichette linguistiche ben formate costituisce un cosiddetto metalinguaggio di annotazione
(markup metalanguage). A questo livello sono fornite delle regole per determinare se unasequenza
di etichette si può considerare ben formata, oppure no, escludendo dunque da questafase
l’indicazione specifica sull’insieme delle etichette che concretamente appariranno nellacodifica. A
livello di metalinguaggio si adopera lo standard SGML che definisce essenzialmentel’insieme dei
caratteri dell’inventario e la forma delle etichette. Il secondo livello consiste nelladeterminazione
delle etichette vere e proprie (tag names) e le regole sintattiche per l’uso delleetichette. Si tratta di
quello che è definito il livello sintattico. Questo livello per essereconsiderato standard deve seguire
uno stesso protocollo SGML Standard GeneralizedMarkup Language (SGML) Document Type
Definition (DTD). Il terzo passo è lastandardizzazione del livello semantico. Si tratta
dell’individuazione di precise e univocheprocedure di applicazione di una determinata etichetta a
diversi fenomeni linguistici. Il valoree il sistema di etichettatura devono essere sempre costanti e
prevedere una certa condivisionesu cosa possa essere chiamato «parola» «frase» «nome» «autore»,
ecc.
4. L’esplorazione e l’analisi dei corpora
4.1. Caratteristiche del testo e liste di frequenza
Una prima forma di raccolta di informazioni sul corpus può essere ricavata producendo unalista di
frequenza, ossia un elenco di tutte le forme (types, tipi di parole) che compaiono nelcorpus,
ciascuna con l’indicazione di quante volte essa compare nel corpus. La lista di frequenza
solitamente si presenta su due colonne: nella prima appaiono le forme di parola, nella secondagli
indici di frequenza (ossia il numero di occorrenze nel testo). A queste informazionisolitamente è
aggiunto un valore, detto frequenza relativa (Fw/N), che corrisponde al rapportotra le occorrenze
della singola parola (Fw) e il numero di parole testuali del corpus (N). Leparole grammaticali, come
le preposizioni, gli articoli, le congiunzioni, sono spesso dette parolevuote. Si chiamano
invece parole piene i sostantivi, i verbi, gli aggettivi, gli avverbi, che veicolanoun contenuto
semantico relativamente più autonomo (sedia, buio, dolce, zebra,amministrarono). In genere per
avere un’idea delle distribuzioni possono bastare tre fasce: dialta, media e bassa frequenza.
4.2. La lemmatizzazione dei testi
Può essere molto utile e spesso necessario, invece, ridurre le forme flesse di uno stesso lessemaa
una forma di citazione (lemma). Questa complessa operazione è detta lemmatizzazione. Perottenere
una lista lemmatizzata, tuttavia, è necessario che siano svolte procedure moltocomplesse come
la disambiguazione degli omografi. Il risultato dell’operazione è una listalemmatizzata composta in
genere da: la forma testuale, la categoria grammaticaledisambiguata, il lemma di riferimento. Dalla
lista lemmatizzata si può produrre una lista difrequenza lemmatizzata, che, al posto dei valori delle
forme flesse, riporta invece solamente illemma di riferimento, con l’occorrenza totale di tutte le sue
forme flesse presenti nel testo.
4.3. Analisi degli usi con le concordanze
Per estrarre da un corpus di testi le parole e, insieme a esse, i rispettivi co-testi si usa unostrumento
specifico: la concordanza. Una concordanza è la presentazione delle parole di untesto, con
l’indicazione della frequenza con la quale la parola occorre e il contesto linguisticoprecedente e
successivo (cotesto). Lo scopo principale di una concordanza è quello di mostrarel’occorrenza di
una parola centrale di un testo letterario o linguistico (per esempio la parolaanima nella Divina
Commedia) e soprattutto i suoi usi in un corpus. Le concordanze, per la lorosemplicità di
realizzazione e di interrogazione, sono strumenti molto usati in campo linguisticoe soprattutto
letterario. Le principali funzioni delle concordanze sono: a) osservare i diversi usidi una parola; b)
esaminare i diversi contesti (semantici, sintattici o testuali) in cui occorre unaparola; c) analizzare la
regolarità con la quale una parola è accompagnata ad altre nel suocotesto.
La prassi più tipica di esibizione del cotesto è nella forma del cosiddetto KWIC(keyword-in-
context), in cui il numero di parole precedenti e successive al nodo può variare. Leconcordanze
complete analizzano tutte le parole del corpus e di tutte forniscono le occorrenzee il KWIC
(escludendo a volte le parole vuote). Le concordanze specifiche si realizzano inveceper parola-
chiave. Basate su un principio simile sono le espressioni regolari (dette anche regex,da regular
expression). Con le espressioni regolari possiamo, per esempio, direttamenteottenere le forme flesse
di psicologico senza disporre di un lemmatizzatore già programmato,operando una sola ricerca, ed
escludendo per esempio parole come psicologicamente.74.4. I lessici di frequenza e i vocabolari
fondamentali
I lessici di frequenza sono delle liste lemmatizzate organizzate in ordine di frequenzadecrescente.
L’utilità dei lessici di frequenza basati su grandi corpora di riferimento risiedenella possibilità di
fornire un quadro delle principali fasce di uso dei lessemi e della lorocopertura testuale. I vocabolari
fondamentali, infatti, si identificano con la zona di massimo usotra le fasce in cui si può suddividere
il lessico di una lingua.4.5. L’individuazione delle collocazioni e delle polirematiche
I metodi più diffusi per osservare e determinare le collocazioni sono misure di
associazionestatistica, come il mutual information (informazione reciproca) e lo Z-score (punteggio
Z). Il primo sistema compara la co-occorrenza effettiva di una coppia di parole con il valore di co-
occorrenza che le due parole avrebbero se il fatto di trovarsi vicine fosse casuale. Lo Z-score
procede grosso modo in maniera simile prendendo però come unità di confronto la frequenzadi
occorrenza di una parola comparata alla frequenza attesa di co-occorrenza con altre parole,divisa
per la deviazione standard della parola co-occorrente.4.6. Interrogazione avanzata e analisi dei dati
testuali
Le ricerche avanzate sono un sistema di estrazione di dati che sfrutta la capacità di
combinarediversi criteri in modo da rispondere a interrogazioni che riguardano a un tempo diversi
aspettidelle unità in analisi. Tra le nozioni di base cui è imprescindibile riferirsi vi sono la
dispersionee l’uso dei lessemi. La dispersione ci indica se e dove vi sono concentrazioni di
occorrenze nelcorpus e/o in diverse tipologie testuali. La nozione di uso è centrale nella statistica
lessicale,poiché ci fornisce una rappresentazione quantitativa della presenza effettiva dell’unità
lessicalenelle diverse parti del corpus.
4.7. Le applicazioni dello studio dei corpora
Vi sono applicazioni che possono godere di significativi vantaggi dall’uso dei corpora.
Leapplicazioni lessicografiche, come i dizionari cartacei ed elettronici, oggi si servono dei dati
deicorpora testuali. Anche la progettazione di grammatiche può giovarsi dell’integrazione con
datiforniti dai corpora sotto diversi punti di vista. Il trattamento automatico del linguaggio (cap. 6)si
è giovato negli anni dell’integrazione di dati estratti da corpora per la costruzione di parsers,taggers,
e lemmatizzatori che includessero moduli di tipo statistico. Infine, per quanto riguardala didattica e
l’apprendimento delle lingue, lo sfruttamento delle potenzialità e risorse offertedai corpora è
straordinario. Esse forniscono a chi voglia predisporre strumenti didattici (anchemultimediali) la
possibilità di proporre testi autentici, adeguabili alle diverse situazionicomunicative (da quelle più
quotidiane a quelle più formali).5. Lessicografia computazionaleLa linguistica computazionale
indirizzata soprattutto alla produzione di applicazioni di utilitàgenerale si è concentrata molto sullo
studio del lessico (lessicologia) e sulla lessicografia,branca della linguistica che si occupa della
preparazione ed elaborazione dei dizionari.
5.1. Dizionari elettronici: problemi e definizioni
Possiamo individuare due tipologie principali di dizionari elettronici: dizionari-macchina,dizionari
informatizzati commerciali.5.2. I dizionari-macchina nella ricerca linguistica
un dizionario-macchina (machine-readable dictionary) è un repertorio di lemmi o forme flessedi una
lingua associate a una serie di informazioni linguistiche supplementari di vario tipo, i cuidati sono
resi disponibili all’accesso di una o più applicazioni computazionali. i dizionarimacchina servono
ad altre applicazioni, quali ad esempio il riconoscimento e la sintesi vocale,la correzione
ortografica, il tagging e il parsing sintattico o la traduzione automatica.Esempio. agli, aglio. N:
mp.5.3. Applicazioni della lessicografia computazionale
Sinteticamente, i principali domini di applicazione dei dizionari-macchina esistenti sono
iseguenti: Applicazioni di «Natural Language Processing». Applicazioni delle tecnologie
delparlato. Ontologie e basi di conoscenza. Traduzione automatica. «Information retrieval» e
«information extraction».
5.4. Dizionari informatizzati: progettazione e fruizione
Un dizionario informatizzato, a differenza dei dizionari-macchina, assomiglia per obiettivi

estruttura a un dizionario cartaceo tradizionale e spesso ne è la semplice trasposizioneinformatica. Il
dizionario informatizzato diviene così un database lessicale standardizzato. Perl’italiano, si segnala
innanzitutto il GRADIT, Grande dizionario italiano dell’uso, a cura di TullioDe Mauro.
5.5. I dizionari basati su corpora
La raccolta e l’elaborazione elettronica di corpora ha dunque permesso di aggiornare e a voltere-

impostare interamente l’impianto delle definizioni, la strutturazione e gli esempi d’uso deidizionari
elettronici. Sono nati così i dizionari dell’uso, intesi in senso tecnico come basati su unapiù capillare
attenzione alle attestazioni, soprattutto attuali, dei termini, attenzione che siriflette sia nella
presentazione delle definizioni, che tende a privilegiare gli usi piùfrequentemente testimoniati nella
lingua contemporanea, sia nella esemplificazione, sceltadalla lingua scritta o parlata di oggi,
piuttosto che su esempi storici o artificiali. I dizionari basatisu corpora permettono soprattutto
un’efficace coerenza e omogeneità nella scelta dei criteri diselezione e presentazione del materiale.
Anche l’ordinamento delle accezioni rispecchia lafrequenza d’uso nei corpora. Nei
dizionari corpus-based cambiano anche i canoni di definizionedei lemmi, tradizionalmente un po’
ellittici, e le spiegazioni assumono il carattere di esempirappresentativi molto più immediati e meno
simili a voci d’enciclopedia.6. Il trattamento automatico del linguaggioIl Natural Language
Processing, detto in italiano «trattamento automatico del linguaggio»(TAL), è uno dei settori
fondanti della linguistica computazionale, tanto da essere da alcunitotalmente identificato con essa.
Si tratta di un approccio strettamente legato all’intelligenzaartificiale, e che ha come principale
obiettivo lo svolgimento di compiti linguistici produttivi oricettivi da parte di un automa. Il nucleo
dell’indagine dell’NLP rimane, nel rispetto dellatradizione generativa, la sintassi.
6.1. I linguaggi formali e il «Natural Language Processing»
Dal punto di vista teorico l’aspetto dominante fu la centralità della formalizzazione, esoprattutto
l’idea che le conoscenze linguistiche fossero descrivibili accuratamente medianteuna serie di regole
formali finite. Il trattamento automatico del linguaggio è caratterizzato, nellasua forma tradizionale,
da due prospettive, che mirano l’una alla analisi del materiale testuale,l’altra alla generazione di
testi linguistici. Il Natural Language Understanding, o NaturalLanguage Analysis, ha come
traguardo giungere, data una frase o un testo in una lingua naturale,a dare una rappresentazione
dell’analisi della frase, ossia del processo di comprensione diquesta. La Natural Language
Generation ha come principale obiettivo il produrre, mediante ilricorso a una grammatica, frasi (o
testi) di una lingua data. Semplificando, si può dire che ilprimo filone vuol far «comprendere» le
frasi di una lingua a una macchina; il secondo vuole far«parlare» la macchina. Dal punto di vista
metodologico il TAL ha affrontato negli ultimi anniuna rivoluzione, subendo l’influenza del
paradigma concorrente a quello generativo che neforniva il quadro di riferimento teorico iniziale,
ossia l’approccio probabilistico. Un ampio polodi ricerca della linguistica computazionale oggi
molto perseguito è costituito dal cosiddettoStatistical Natural Language Processing. L’obiettivo di
questo programma di ricerca è appuntoquello di migliorare le capacità di produzione o analisi di
frasi, servendosi della statistica.
6.2. Il «parsing» sintattico
Quello che è considerato il nucleo del Natural Language Understanding tradizionale è il parsing,
la analisi di una frase data in input e la determinazione della sua struttura morfo-sintattica. Il
parsing è un processo di analisi che associa a una frase di una lingua naturale una struttura
(peresempio una struttura ad albero), che descrive la frase da un qualche punto di vista. Il termine
parsing è un termine generale per indicare un’analisi linguistica: esistono quindi parsing
morfologici, sintattici, semantici, ecc. Il parsing sintattico è il tipo canonico, se dunque non vi
èspecificazione solitamente si intende parlare di parsing sintattico. Il processo intermedioattraverso
il quale si ottiene l’output richiede la consultazione di un dizionario-macchina, in cuisono presenti
le parole della lingua e la loro possibile categoria grammaticale, e il confronto
conuna grammatica che definisce le regole di buona formazione di una frase in una data lingua.
Egrammatiche formali usate in linguistica computazionale sono di diversi tipi. Le più diffuse
sonoquelle che nella gerarchia di Chomsky (§ 2.3) si dicono grammatiche acontestuali.
Neldiagramma ad albero, dall’alto verso il basso, troveremo sempre al primo posto l’etichetta
difrase (F), successivamente troveremo una serie di etichette sintattiche di struttura (SN, SV,
SP),nella penultima riga troveremo sempre le etichette delle categorie grammaticali (N, V, Agg,
Det),sull’ultima sempre i simboli terminali, ossia le singole parole della frase
(le, con, ama). Esistonodue tipi di parsing: Il parsing top-down (goal-driven) esplora le possibilità di
interpretazionedella frase a partire dalle strutture di frase possibili (ossia dall’alto dell’albero, da F).
Il parsingbottom-up (data-driven), al contrario, parte dai simboli terminali (le parole della frase in
basso)per ricostruire una struttura ad albero compatibile. Una delle sue applicazioni più
interessantiè il trattamento di grandi masse di dati per l’annotazione automatica di grandi corpora.
Unprimo problema riguarda l’interazione tra sintassi, semantica e pragmatica. Sfide sono
offertedalle frasi non grammaticali, in cui siano presenti errori di tipo sintattico e dalla presenza
diomonimi testuali e di ambiguità sintattiche. Costruire un parser che sia davvero in grado difornire
in dettaglio tutta la rete di dipendenze di una frase o di un testo è operazione complessae lontana,
almeno attualmente, da risultati soddisfacenti, tanto da aver prodotto la necessità dilimitare gli
obiettivi del parsing ricorrendo a quello che viene detto shallow
parsing. Lo shallowparsing (dall’inglese shallow “leggero, superficiale”) è un tipo
di parsing parziale, nel quale ilrisultato non è l’intero albero sintattico, ma solo un’annotazione di
alcuni costituenti, unadisambiguazione morfologica e l’individuazione delle principali relazioni
nella frase.
6.3. Il POS «tagging»
Il partof- speech (POS) tagging, ossia l’etichettatura per categorie grammaticali. Rispetto alparsing,
il tagging non necessita della individuazione delle gerarchie sintattiche, masemplicemente
dell’individuazione della parte del discorso che una parola ricopre in una datafrase in
input. Un tagger è il dispositivo computazionale che opera un POS tagging su materialetestuale.
Il tagger riceve in input una frase e restituisce in output le forme grafiche delle paroleaccompagnate
da etichette che segnalano la categoria grammaticale di appartenenza. Un tagger
è basato su regole se fonda la sua capacità di attribuzione della categoria grammaticalesull’accesso
a una grammatica nella quale siano state formalizzate le regole di formazione deidiversi possibili
sintagmi di una data lingua. Un tagger di tipo probabilistico è invece basato sustatistiche di
frequenza delle parti del discorso e delle loro sequenze.6.4. Problemi e applicazioni dell’NLPVi
sono una serie di problemi per i sistemi di Natural Language Processing. 1. L’ambiguitàsintattica (la
vecchia porta la sbarra). 2. L’ambiguità dei sensi (calcio). 3. L’ambiguità anaforica(l’uomo ha
parlato alla ragazza del suo cane). 4. L’input incompleto.L’indicizzazione automatica serve
principalmente a produrre delle analisi rapide dei testiraccolti (per esempio sul web) attraverso la
individuazione delle parole-chiave di un testo(keyword extraction), mediante il ricorso ad analisi
sintattiche e probabilistiche.
L’information retrieval permette di individuare, dato un insieme ampio di documenti, solo
queidocumenti che soddisfano i nostri criteri di ricerca, mentre l’information extraction ci
permettedi cercare e selezionare i contenuti dei documenti appartenenti a un insieme.Il text
mining è un programma di ricerca che intende «trasformare un insieme di testi nonstrutturati in un
insieme di dati strutturati» (Bolasco 2005, p. 17), mediante una serie difunzioni quali la
categorizzazione e classificazione dei documenti, la tematizzazione,l’estrazione di relazioni tra dati
e il suo riversamento sotto forma di database.La summarization è invece la procedura che consente
di generare automaticamente riassunti ditesti, rapporti estratti da dati strutturati e testi che
estraggano informazioni rilevanti opertinenti a partire da una base dati testuale.
6.5. Un esempio: il correttore ortografico
Una delle applicazioni elementari del Natural Language Processing è la programmazione
deglistrumenti di correzione ortografica, o spell checkers. La correzione ortografica richiede, oltre
alcontrollo della plausibilità della forma, anche il suggerimento delle forme probabilmente
piùcorrette per l’errore (ortografico, grammaticale, di battitura). La maggior parte dei
correttoriortografici funziona mediante la comparazione con un dizionario di riferimento, inteso
comerepertorio in cui figurano anche le forme flesse delle parole (dormire, ma anche dormito).
Altrimetodi sono quello della «distanza minima» (cfr. Damerau 1964), nel quale viene computato
ilnumero di cancellazioni, inserzioni, scambi e sostituzioni di caratteri necessari ad arrivaredalla
parola individuata come erronea a una parola possibile presente nel dizionario; analisistatistiche di
tipo probabilistico, utili per individuare i canditati migliori a rappresentaresequenze possibili,
probabili e frequenti in date sequenze alfabetiche; analisi delle tipologie dierrore più frequenti
(raramente l’errore tocca la prima lettera della parola, l’errore risentedella posizione delle lettere
sulla tastiera, ecc.).
6.6. Il web semantico
Ogni motore, poi, applica alle parole-chiave una serie di algoritmi che stabiliscono una selezionedi
risposte e le ordinano secondo diversi criteri di rilevanza. La selezione dei documenti el’accesso
alle parti di documenti che ci interessano vengono fatte solamente mediante criteri ditipo formale.
Avrebbe bisogno quindi di un motore che «capisse» il significato dei termini dellaricerca, che ne
sapesse analizzare la struttura e che, sulla base di tale analisi, fosse capace diselezionare la rilevanza
dei documenti e orientare l’utente nel documento individuato. Per fareciò è necessario disporre di
una nuova architettura della rete detta web semantico. L’utilità delweb semantico sta nel tentativo di
rendere possibile non solo lo scambio di documenti, ma piùdirettamente l’accesso, l’interrogazione,
lo scambio e il riutilizzo delle informazioni e deicontenuti presenti sul web. Gli elementi di cui si
compone un web semantico sono i dati (fornitidal documento), i metadati (che descrivono i dati dal
punto di vista della struttura concettuale,sono una sorta di mappatura dei dati) e le classi di dati (che
raggruppano mediante diversi tipidi relazioni i dati sulla base dei metadati definiti). L’architettura
del web semantico èun’architettura gerarchica che procede per livelli. L’idea cardine del web
semantico è la suastandardizzazione e allo stesso tempo l’uso di un linguaggio, l’XML, altamente
flessibile epersonalizzabile, caratteristiche che permetterebbero di utilizzare i contenuti e di
utilizzarlisenza rimanere vincolati ai singoli documenti.
7. La traduzione automatica dei testi
7.1. Gli sviluppi della traduzione automaticaTeoria matematica della comunicazione (§
2.1). Shannon e Weaver.
Nella seconda metà degli anni Settanta i progressi dell’intelligenza artificiale e soprattutto
delNatural Language Processing (in particolare del POS tagging e del parsing sintattico) danno
unanuova spinta vitale ai progetti di traduzione automatica, in una nuova ottica meno ingenua
eidealistica.
7.2. I modelli linguistici di TADue forme diverse di associazione tra uomo e macchina nei compiti
di traduzione. La traduzioneassistita dal computer (computer-aided translation) consiste nella
predisposizione di strumentidi accesso rapido a banche dati terminologiche specifiche, ampie e
standardizzate, e ad altristrumenti per la scrittura e la consultazione in cui l’operatore principale è
un traduttore umano.
MODELLI DI TRADUZIONE AUTOMATICASISTEMI BASATI SU REGOLE SISTEMI
PROBABILISTICI
Traduzione diretta o per unità Statistical Machine TranslationTraduzione sintattica o T-
sistemi Example-based MT
Traduzione o interlingua.
La prima generazione di applicazioni di traduzione automatica è costituita da sistemi, anchemolto
diversi tra loro, elaborati con modelli basati su regole (rule-based MT). Si tratta di sisteminei quali
sono identificate alcune circoscritte regole formali di descrizione e trasformazionedelle
unità. Sempre a impostazione basata su regole sono i sistemi ispirati all’approcciogenerativo fondati
su modelli di grammatica formale centrati sul livello sintattico: i T-sistemi
(transfer systems). Questi sistemi abbandonano l’approccio lessicale in favore della centralitàdelle
operazioni di trasformazione sintattica. Il modello è solitamente a tre fasi: 1) analisimorfo-sintattica;
2) trasferimento della struttura sintattica (albero sintattico) della lingua dipartenza in quella di
arrivo; 3) sintesi. Un terzo tipo di sistemi di traduzione automatica basatisu regole, apparsi durante
gli anni Ottanta, sono i sistemi a interlingua. In questi modelli ilpassaggio dalla lingua di partenza a
quella di arrivo è filtrato dalla presenza di unarappresentazione intermedia, l’interlingua appunto.La
seconda famiglia di sistemi di traduzione è costituita dai sistemi di impianto
statistico oprobabilistico. Si tratta di approcci che solitamente vengono definiti «empirici», ossia
basati sudati disponibili sotto forma di corpora. I sistemi statistici, sviluppati per la prima volta
inGiappone, spesso vengono definiti come sistemi non linguistici, o a volte «anti-linguistici»,poiché
fanno uso solo delle probabilità di co-occorrenza e delle frequenze delle parole,piuttosto che di
regole di restrizione di tipo linguistico o grammaticale.I sistemi attuali di traduzione automatica
sono spesso ibridi, e tentano di arricchire lemetodologie basate su regole con quelle basate su
corpora, introducendo moduli che siintegrano in forma componenziale e che permettono lo sviluppo
di diverse strategie dirisoluzione a seconda dello specifico problema traduttivo da affrontare.
7.3. I software commerciali di traduzione
Tra le applicazioni per personal computer i sistemi più noti e diffusi sono quelli prodotti
daGlobalink, Systran, Intergraph e Logos, diffusi soprattutto in Nord America e in
Europa. I sistemidi traduzione online, spesso forniti anche gratuitamente, hanno registrato un certo
successonegli ultimi anni. In particolare il sistema Systran (già diffuso anche come software per
personalcomputer e ancor prima come sistema per mainframe) fornisce il motore per numerosi
servizi.
Le workstations, dette anche workbenches, sono invece pensate per i traduttori professionisti.
Le workstations sono pacchetti integrati per gestire le traduzioni in modo flessibile.
7.4. La lingua tradotta: successi e insuccessi
Una delle questioni più rilevanti riguarda la tipologia testuale dei documenti da sottoporre
altrattamento. Gli applicativi di traduzione che trattano queste tipologie testuali sono dettisistemi
specializzati. Le ragioni di questo successo sono dovute a un insieme di caratteristichetipiche dei
testi specialistici tra cui: a) Il lessico relativamente circoscritto, determinato,prevedibile, costituito
da lessemi dotati di accezioni univoche. b) Le polirematiche e lecollocazioni sono anch’esse
cristallizzate. c) Le strutture sintattiche sono prevedibili edesplicite. La seconda tipologia è
costituita dai sistemi di impianto generale (e multidisciplinare)pensati per tradurre testi di diversi
argomenti, sia generali, come lettere, testi giornalistici opagine web, sia specialistici. Questo tipo di
sistemi sono quelli meno riusciti nel complesso.L’idea di un sistema di impianto generale che renda
superfluo l’intervento umano è oggilargamente decaduta. I sistemi general-purpose, di fatto,
richiedono sempre l’intervento umanoin pre- o post- editing. Le polirematiche e le collocazioni,
invece, costituiscono un problema pertre ordini di motivi: 1) sono più cristallizzate e spesso hanno
traducenti imprevedibili, nonderivabili dall’analisi sintattica della frase; 2) sono in numero altissimo
nelle lingue naturali edunque spesso non sono censite anche in grandi dizionari; 3) esistono usi
anche «nonidiomatici» delle parole che formano collocazioni e polirematiche.
7.5. Nuove mete per la traduzione automaticaIntegrazione con corpora paralleli. Uno dei mezzi che
migliorano notevolmente le prestazioninel campo della traduzione automatica sono i programmi che
si servono dei risultati prodottidall’analisi dei corpora paralleli (§ 3.5). Estensione a lingue
precedentemente non trattate.L’estensione dei modelli e delle applicazioni di traduzione automatica
a lingue ancora nontrattate apre la via a nuove potenzialità e nuove sfide che possono mettere alla
prova i sistemicorrenti e rivoluzionarne i modelli. La traduzione automatica del parlato. Sviluppo
tecnologicodi moduli esistenti. La capacità di produzione di traduzioni di buona qualità soprattutto
di testia carattere tecnico- specialistico; lo sviluppo ed estensione delle translation memories;
latraduzione in tempo reale di pagine web e di e-mail; la creazione di moduli di TA integrabili
asistemi come Office e a programmi di videoscrittura diffusi e non presenti come
applicazioniindipendenti.
8. Tecnologie della lingua parlata
8.1. La lingua parlata e il suo trattamento
Le tecnologie del parlato sono un campo interdisciplinare che spazia dalla linguistica
piùtradizionale ad aspetti di fisica acustica, fisiologia umana, linguistica
computazionale,intelligenza artificiale e ingegneria elettronica. I parlanti umani, inoltre, solo in rari
casi sonointeressati a ricostruire l’esatta sequenza dei suoni prodotti in un atto linguistico, più
spessosono interessati a «comprendere» gli enunciati e dunque nell’ascolto sono guidati da
attesesemantiche e grammaticali che permettono di identificare alcune unità e tralasciarne altre
alfine di continuare a comprendersi linguisticamente. Una delle caratteristiche che pongonodelicate
questioni teoriche e applicative è la mancanza di invarianza dei suoni linguisticisoprattutto dal
punto di vista acustico.
8.2. La sintesi del parlato («speech synthesis»)Una delle aree principali della ricerca sul parlato è
detta sintesi del parlato, o Text-to-Speech
(TTS). La tecnologia TTS si occupa della costruzione di programmi in grado di produrre frasiallo
scopo di far interagire linguisticamente in modo naturale la macchina con l’uomo. Lapronunzia di
una parola non consiste nella pronunzia separata di foni presi da un inventario.Diversi sono i
modelli di produzione del parlato assunti nel corso degli ultimi anni dalle tecnologie TTS:
1) modello articolatorio, secondo cui si procede a una simulazione dell’apparatofono-articolatorio
umano; 2) modello acustico, secondo cui si cerca di produrre un segnale cheriproduca alcuni degli
aspetti più rilevanti dell’onda sonora (periodicità, forma dello spettro,transizioni delle formanti);
3) modello concatenativo, secondo cui si tenta di combinare porzionidi segnale di parlato umano in
maniera da produrre un effetto quanto più naturale e spontaneo.Schematicamente il TTS è
un’applicazione che riceve in input un testo in forma elettronica, loelabora e in output produce
un’onda sonora parlata corrispondente al testo inserito. Il processodi generazione di un parlato
sintetizzato può essere ridotto schematicamente a cinque fasiprincipali: pre-trattamento, analisi
morfo-sintattica, fonetizzazione, generazione prosodica esintesi del segnale.
8.3. Il parlato multimodale
Tutta una serie di informazioni noi le desumiamo da eventi che captiamo con sensi
diversidall’udito. Da questa osservazione, corroborata da diversi dati sperimentali, nasce l’idea
direalizzare macchine che possano simulare un parlato multimodale, ossia un parlato che non
siavvalga solamente della modalità fonico-acustica. In questa direzione si muove la nascita
dellasintesi audio-visiva, ed esempi elettronici delle cosiddette teste parlanti, di teste appunto
cheproducono discorsi accompagnati dall’animazione del viso che simula i movimenti delle
labbra,della mascella e della lingua durante il parlato. Oggi le teste parlanti sono realizzate
conanimazioni in tre dimensioni che possono produrre movimenti fluidi, grazie a
unaprogrammazione parametrizzata in alcuni casi ulteriormente controllata con il confronto condati
reali registrati e indicizzati in modo ottico.8.4. Il riconoscimento del parlato («speech recognition»)
Il riconoscimento del parlato (o automatic speech recognition, ASR), detto anchericonoscimento
vocale, racchiude una serie di applicazioni in grado di identificare le sequenzelinguistiche del
parlato spontaneo, convertirle in testo elettronico e permettere l’interazionecon programmi e servizi
usando la voce. Si tratta dell’operazione logicamente inversa a quelladei sistemi TTS, tanto da
essere detta anche speech-to-text. I sistemi ASR servono a diversi scopi:dettare testi al computer,
trascrivere relazioni e discorsi automaticamente, interagirelinguisticamente con una macchina in
sistemi di dialogo telefonici, ecc. Alcuni sistemi di ASRattuali fanno uso di corpora di parlato
spontaneo sotto forma di training corpus in modo da garantire un soddisfacente trattamento di
diversi input linguistici. Si può parlare in questo casodi corpus-based speech recognition. Tre sono
le principali funzioni per le quali il riconoscimentodel parlato viene utilizzato: 1) la dettatura di
testi, 2) il comando vocale, 3) i sistemi di dialogouomo-macchina. La struttura di un sistema ASR
(Figura 3) è schematizzabile in quattromomenti: input (inserimento del materiale parlato nel
sistema), una fase di addestramento (incui il sistema è sottoposto all’esposizione a materiale vocale
controllato prodotto dall’individuoche sarà il principale utente del sistema), una fase
di riconoscimento effettivo (in cui il sistemaè sottoposto a input nuovo ed elabora una o più ipotesi
di riconoscimento) e output (costituitodal testo scritto in formato elettronico).
I problemi di maggiore complessità nel riconoscimento del parlato sono simili a quelli giàdescritti
per il TTS: 1) l’estrema variabilità individuale delle caratteristiche vocali 2) i fattori
diipoarticolazione tipici del parlato spontaneo (ellissi, esitazioni, caduta di foni e
sillabe,coarticolazione, pause piene, ecc.); 3) la gestione di diverse tipologie testuali.
8.5. I sistemi di dialogo uomo-macchina
I sistemi di dialogo possono essere costruiti sulla base di diversi tipi di architettura concettuale.I
principali modelli sono quello funzionale, basato sulla modellizzazione delle azioni dacompiere in
relazione a funzioni formalizzabili, e quello strutturale, che invece è fondato sullanozione di
compito e sulla risoluzione di problemi rappresentata attraverso modelli astratti.8.6. Applicazioni e
futuro delle tecnologie del parlato
Dal punto di vista tecnico ancora molte questioni rimangono solo parzialmente risolte neisistemi
TTS: la realizzazione sintetica di alcuni fenomeni di naturale coarticolazione e dellavariabilità
fonetica, lo studio del rapporto tra sintassi, semantica e prosodia per ilmiglioramento della
generazione del profilo intonativo dei testi, ma anche il più ambiziosoobiettivo di permettere la
sintesi di un parlato multimodale che includa dunque anche trattiparalinguistici.
9. Strumenti computazionali e didattica delle lingue
Il ruolo delle tecnologie, intese in senso ampio è al centro della riflessione attuale sulle
nuovemodalità di apprendimento e insegnamento delle lingue, soprattutto sulla base di numerose
einteressanti esperienze svolte sull’inglese come lingua seconda.
9.1. Nuove prospettive nella didattica
Strumenti multimediali integrati consentono anche la creazione di ambienti virtuali piùnaturali,
compiti linguistici meno artificiali, possibilità di interattività e verifiche operative
dellacomprensione e del compimento di dati obiettivi di tipo non linguistico, usando la lingua.
Asottolineare un approccio di data-driven learning (DDL) è soprattutto Tim Johns (1991), il
qualemette al centro del processo di apprendimento il discente come una sorta di ricercatore di
arealinguistica che scopre le caratteristiche della lingua che apprende mediante l’accesso amateriale
autentico estratto da corpora. Si tratta dunque di una tecnica didattica che mira asensibilizzare
l’apprendente verso la costruzione induttiva dei principi delle grammatiche diuna lingua in una
sorta di scoperta e costruzione della lingua. L’osservazione attiva delle parolee delle costruzioni in
contesti reali non solo ha funzioni direttamente linguistiche, ma è ancheun processo che stimola la
riflessione metalinguistica dello studente. L’e-learning non è tuttaviadi impianto strettamente
linguistico e può dunque applicarsi a qualunque dominio scientifico.9.2. Il ruolo dei corpora nella
didattica delle lingue
I corpora hanno modificato le pratiche glottodidattiche alla radice, coinvolgendo le tecniche
diinsegnamento e di apprendimento e anche il disegno e la costruzione dei materiali
didattici.L’accesso ai software di concordanza è interessante innanzitutto per tre motivi di
caratteregenerale: 1) la possibilità di accedere a materiale autentico estratto da corpora; 2)
permettereun uso personalizzato, autonomo e dinamico del percorso di apprendimento da
partedell’apprendente; 3) permettere un costante circolo tra uso linguistico e
riflessionemetalinguistica, stimolando la coscienza linguistica dell’apprendente. Sin dai primi anni
delNovecento ci si rese conto che l’insegnamento delle parole più frequenti migliora
sensibilmentele produzioni linguistiche di un apprendente, soprattutto in considerazione del fatto
che lamaggior parte dei testi sono costituiti dalle stesse 6000-7000 parole. Si incominciarono
quindia produrre i cosiddetti wordbooks contenenti le parole del vocabolario di alto uso, i
vocabolarifondamentali, vocabolari minimi e dei linguaggi settoriali. Un dizionario per
apprendentibasato su corpora offre dunque una serie di vantaggi enormi sui prodotti tradizionali
poichéconsente di: cogliere l’aderenza agli usi e alla dinamicità linguistica; cogliere le
differenziazionesulle dimensioni di variazione della lingua (diafasiche, diamesiche, diastratiche,
diatopiche ediacroniche); produrre un ordinamento dei fenomeni fondato su criteri esterni;
svilupparenell’apprendente una competenza statistica implicita attraverso la segnalazione delle
formefrequenti, e le esemplificazioni ordinate, fornendo un input comprensibile e proporzionale
alleoccasioni comunicative effettive. 9.3. «Computer-assisted language learning» (CALL)
Un luogo di incontro privilegiato tra glottodidattica e strumenti computazionali è l’approcciodel
cosiddetto computer-assisted language learning (CALL), che raccoglie sotto un’unicaetichetta l’uso
delle tecnologie per l’apprendimento autonomo e guidato e per la valutazionedelle abilità e
competenze linguistiche.
9.4. Gli strumenti di testing e valutazione
Il bisogno di strumenti di misurazione più precisi e quanto possibile oggettivi nella valutazionee
nell’attribuzione di punteggi e allo stesso tempo i vantaggi nell’uso del computer durante gliesami
da parte degli studenti hanno fatto sentire il bisogno di sviluppare tecniche di
trattamento del materiale linguistico fornito dallo studente in modo automatico. Nascono
cosìil computer- assisted testing (CAT) e il più recente computer adaptive language testing (CALT).
Il testing mediante computer fa uso di una serie di tecniche. Una prima possibilità che l’uso
deicomputer offre è la capacità di avere una larga base di elementi da usare nei test, dalla quale
divolta in volta estrarre, mediante diverse procedure, la particolare selezione di item per il testda
sottoporre a specifici gruppi di studenti a seconda delle loro abilità e del loro livello diconoscenza
della lingua. Un particolare tipo di CAT è il computer adaptive language testing
(CALT) che permette: «1) la possibilità degli esaminati di adeguare personalmente i tempi, 2)la
possibilità di individualizzare i test, 3) di farli durare di meno, 4) di incoraggiare un’attitudinepiù
positiva verso il test, 5) di ottenere i risultati immediatamente, 6) di misurare conaccuratezza i test e
7) di migliorare la correttezza e sicurezza nello svolgimento».L’adattamento riguarda il fatto che il
CALT è disegnato in modo da essere individualizzato, inmodo da selezionare gli item e presentarli
fino a che il livello di conoscenza dell’apprendentenon sia determinato, facendo così in modo che il
test duri il meno possibile e dipenda nelle suecaratteristiche dall’avanzamento e dalla dinamica
delle risposte del discente. In generaleesistono numerosi benefici nell’adozione di sistemi
computerizzati di valutazione e testing chesi integrino con la linguistica computazionale e
l’intelligenza artificiale: oltre all’accuratezza ecomparabilità maggiore dei punteggi, una maggiore
aderenza alle performance dell’individuoe possibilità di personalizzazione delle caratteristiche del
test, la possibilità di avere unimmediato feedback sul risultato e anche, in modo più dettagliato,
avere un feedbackdiagnostico, nel quale all’apprendente vengono fornite informazioni sulle
tipologie di errorecommesso (dalla grammatica all’uso fino all’organizzazione testuale) e sui modi
di recuperareabilità e lacune.9.5. Vantaggi e svantaggi della tecnologia in didattica
Uno degli aspetti più spesso messi in rilievo è la possibilità di accedere a strumenti formativi ditipo
multimodale, ossia strumenti non solamente multimediali (contenenti audio, testo, videoe
immagini), ma anche capaci di integrare diverse modalità comunicative, tra cui lettura eascolto,
scrittura e conversazione. Un secondo aspetto riguarda la possibilità di avere accessodiretto
all’osservazione di esperienze e ambienti culturali della comunità di cui si apprende lalingua,
attraverso il quotidiano accesso a materiali autentici e non specificatamente creati perl’apprendente.
L’apprendente è inoltre posto di fronte a un prodotto tecnologico che ètotalmente nelle sue mani,
per cui non solamente vi è una gestione più autonoma dei modi diapprendimento, ma anche un
adeguamento dei tempi di apprendimento e studio alle capacitàe agli interessi reali dell’utente. Vi
sono tuttavia anche alcuni svantaggi nell’uso delle diversetecnologie oggi disponibili. Una prima
questione riguarda la necessità di fornire unaddestramento all’uso del singolo applicativo. Un
secondo problema riguarda il costo stessodelle apparecchiature necessarie. La quasi unicità della
maggior parte dei progetti di istruzionelinguistica assistita dal computer risulta per molti versi un
grande limite. L’attenzione per ilsingolo progetto, legato a una singola lingua. Vi è una forte
esigenza, invece, che spinge verso lacreazione di risorse e modelli che siano sufficientemente
comprensibili e generalmenteapplicabili a lingue diverse in contesti di apprendimento simili.

Riassunto Linguistica Computazionale Chiari

Caricato da

Informazioni sul documento

Copyright

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Riassunto Linguistica Computazionale Chiari

Caricato da

Copyright:

1.

Lingue, calcoli e macchine

3.5. I corpora multilingui e paralleli

5.4. Dizionari informatizzati: progettazione e fruizione

Un dizionario informatizzato, a differenza dei dizionari-macchina, assomiglia per obiettivi

La raccolta e l’elaborazione elettronica di corpora ha dunque permesso di aggiornare e a voltere-

Potrebbero piacerti anche