Lenci Appunti

Lezione del 23 marzo
 Lo scopo è presentare quelle che sono le metodologie che vengono dalla linguistica computazionale
e che sono oggigiorno di uso comune del traduttore: ci sono due tipologie di strumenti, che sono di
ausilio alla traduzione nel senso tradizionale del termine, poiché permettono al traduttore di avere
una comprensione maggiore sia della lingua L1 che della lingua target, L2, poiché sono risorse che
permettono al traduttore di arrivare ad una comprensione della lingua che sarà poi oggetto della
traduzione.
 Uso di strumenti computazionali per assistere alla traduzione (traduzione assistita, seconda parte
del corso), processo sempre più integrato con l’uso di strumenti che automatizzano vari processi
della traduzione: le memorie di traduzione (translation memories) e la traduzione automatica
stessa. Fino a qualche anno fa era vista come l’antagonista del traduttore, grande discussione sulla
domanda “la traduzione automatica sostituirà mai il traduttore?”  lo aiuta, è sempre più
integrata nel ciclo stesso della traduzione, grandi progressi compiuti da essa negli ultimi anni.
Rimane comunque uno strumento con dei limiti oggettivi, ma che, nonostante ciò, può unirsi al
traduttore per velocizzare il processo di traduzione e standardizzarne gli esiti (concetto di standard
agli antipodi del concetto di traduzione di un testo creativo come una poesia, però la
standardizzazione è necessaria per testi di tipo tecnico – scientifico e giuridico).
 Lessici e repertori terminologici (mono e multilingue)  i repertori terminologici, lessicali
appunto, si intendono tutti quei termini semplici – complessi che veicolano un particolare concetto
per un dominio semantico. In particolare, sono complesse le terminologie di tipo complesso, ossia
concetti che sono espressi mediante le molecole linguistiche (strutture più o meno complesse che
servono per riferirsi a una determinata entità): perché sono importanti? La maggior parte delle
informazioni nei domini settoriali (medici, ambientali ecc.) sono codificate attraverso termini
complessi che sono molto variabili, e sono un insieme aperto, ne vengono coniati sempre di nuovi,
e cosa fondamentale possono avere esiti diversi a seconda della lingua con cui si lavora. Spesso
sono legati a convenzionalità di registro, di una particolare varietà linguistica che rende necessaria
una loro traduzione accurata.
 Diversi domini semantici possono essere legati nelle lingue a diverse tradizioni che hanno portato
all’uso di un termine rispetto ad un altro: tradurre “avvocato” in inglese  termine “lawyer”,
oppure “attorney”, e così via, perché l’inglese è ancorato ad una particolare tradizione del diritto ed
organizzazione del processo e ciò ha portato allo sviluppo di una terminologia che in italiano non
c’è. Aspetto molto delicato ed è necessario affidarsi a repertori anormativi che indicano quali siano
le traduzioni certificate di un preciso termine di una lingua, cosicché nel passaggio traduttivo si
mantenga il significato originario.
 Uno strumento fondamentale della traduzione è costituito da un insieme di risorse di tipo lessicale
che forniscono una specie di vocabolario “controllato”  termini che sono non ambigui, scelti e
stabiliti da un’autorità particolare, da una certa comunità, un’istituzione che decide che un
particolare tipo di concetto debba essere espresso da un termine chiaro. Quindi, costituiscono una
sorta di riferimento anormativo dal punto di vista linguistico e lessicale di cui il traduttore deve
essere consapevole al fine che la traduzione sia specifica del dominio che si va a tradurre. Ci sono
vari tipi di repertori lessicali, che hanno un tipo crescente di complessità e di informazioni che ci
forniscono: si parte da un repertorio più semplice (lessicale, Thesaurus) a uno più complesso (le
ontologie o reti semantiche).
 Il primo esempio di repertorio terminologico: essi si presentano organizzati in domini semantici, ce
ne sono di vario tipo, molti repertori lessicali sono creati da istituzioni, uno dei più importanti è lo
IATE, crisma di autorità poiché proviene da un’autorità certificata come quella europea:
 Termini creati da traduttori, linguisti e giuristi della UE, in modo tale che questi termini siano un
repertorio terminologico ufficiale per la UE, che i traduttori devono usare per trasmettere dei
concetti. Insieme molto ampio in continua espansione. Una forma più complessa di repertorio
lessicale che ci fornisce queste informazioni è il Thesaurus  insieme di termini semplici o
complessi, ed hanno un aspetto in più: i thesauri organizzano questi termini sulla base di relazioni
semantiche fondamentali. Mentre gli altri repertori si limitano ad indicare come si traduce un
termine x a y, i thesauri forniscono anche informazioni semantiche. Che tipi di relazioni semantiche
vengono stabilite dai thesauri? Essi si basano su un insieme limitato e standardizzato di relazioni
semantiche, associativo e gerarchico:
 Altre due relazioni nei thesauri: associative e di preferenza. Ora vedremo esempi di questi thesauri:
monolingue e multilingue, fondamentale per la traduzione. I thesauri sono il prodotto di
un’associazione, di un’autorità che ha stabilito come siano organizzati i termini più importanti di un
dato dominio di interesse. Nell’ambito artistico uno dei thesauri più importanti è l’Art &
Architecture Thesaurus.
 Maggiori informazioni rispetto al repertorio terminologico, si ha la possibilità di usare tali risorse
per vedere come un termine può essere tradotto. EuroVoc è stato creato dalla UE, ed è una delle
risorse di riferimento per tutta la traduzione prodotta dalla UE a tutti i livelli; è quello di riferimento
usato dai traduttori che lavorano per la UE al fine di creare traduzioni certificate.
 Thesaurus  termini strutturati secondo relazioni semantiche fondamentali, ma poche: gerarchica,
uso preferenziale (fondamentale per la traduzione, indica quale termine deve essere usato rispetto
ad altri). Un altro livello di repertorio lessicale che fa un passo in più: le reti semantiche, che
forniscono più informazioni, presentano un modo più avanzato per descrivere la semantica dei
termini semplici e complessi.
 Una rete semantica è una evoluzione del concetto di Thesaurus, e presenta due aspetti di
differenza: numero maggiore di relazioni semantiche ed il fatto che vengono descritti i diversi
significati di termini potenzialmente ambigui > i thesauri nascono da domini specifici, in cui si
presuppone che i termini siano monosemici, selezionati per manipolare un dato concetto. Le reti
semantiche sono nate invece per descrivere il lessico generale, quindi si trovano ad affrontare il
tema della polisemia. Le reti semantiche si basano su una visione relazionale del lessico, descrivono
i significati delle parole andando a metterle in relazione con altre parole nella stessa rete di
concetti.
 La più famosa è WordNet:
 Cos’è una rete semantica o concettuale? È una rete di concetti, i significati espressi dalle parole e
che sono correlati da particolari tipi di relazioni. In WordNet, un concetto espresso da una parola
viene presentato con la nozione di synset (insieme di sinonimi): un synset è un insieme di parole
sinonime che esprimono un particolare tipo di concetto. In WordNet, l’insieme di sinonimi a cui
appartiene una data parola è usato per trasmettere un concetto: i synset sono connessi fino a
formare una rete, e descritti da diversi tipi di relazioni che legano vari tipi di concetti l’uno all’altro.
 Forniscono una sorta di repertorio certificato di quelle che sono le traduzioni della terminologia
accettate in un determinato dominio  più articolato se pensiamo alle reti semantiche. Nella
pratica delle analisi linguistico – traduttive è importante avere un accesso a repertori che registrano
l’uso linguistico, ossia poter avere fonti, in questo caso digitali, di usi linguistici che permettano di
guidare il traduttore nell’analisi di elementi che devono essere tradotti nella lingua L1 e le
traduzioni più opportuni per L2: vedere le espressioni linguistiche effettivamente usate nell’uso
linguistico, la semantica effettiva di un determinato termine. I corpora digitali sono di uso
fondamentale per il traduttore ed il linguista in genere  i corpora testuali sono la fonte per
l’apprendimento e lo sviluppo dei sistemi di traduzione automatica, fonte per i sistemi di
traduzione assistita.
 La traduzione automatica si basa su algoritmi di apprendimento automatico che imparano a
tradurre a partire da esempi di traduzione, presi all’interno del corpus. I corpora hanno un ruolo
primario nella filiera della traduzione, per investigare esempi d’uso linguistico e lo sviluppo dei
sistemi digitali che assistono il traduttore nella traduzione automatica. Si vedranno vari tipi di
corpora e una sorta di “magazzino” di corpora che ne permettono la consultazione.
 Un corpus testuale lo possiamo immaginare come una collezione di testi digitali, sono stati
selezionati secondo vari criteri, per vari tipi di scopi, varie tipologie di corpora: parametro
generalità, modalità, cronologia e lingua (parametri per classificare i corpora). Distinzione
importante tra corpora specialistici (orientati alla descrizione di una varietà ristretta del linguaggio,
un sublanguage), e generali (visione più ampia sulla lingua, trasversale rispetto a precisi domini e
generi testuali, ha lo scopo di essere plurifunzionale, ossia, sono corpora che si intendono essere
rivolti a usi diversi, da quello lessicografico, della traduzione, per particolari tipi di applicazione…):
 Un altro tipo di parametro per descrivere il contenuto del corpus è la modalità:

 Parametro della cronologia: corpora diacronici (i cui testi appartengono ad una finestra
temporalmente estesa, che permettono di far discutere sul cambio linguistico a livello lessicale e
grammaticale) e sincronici (finestra temporale limitata). Ci interessa la prospettiva multilinguistica:
corpora monolingui (testi che appartengono ad un corpus di una sola lingua, di tipo originale) e
plurilingui (contengono testi in lingue diverse). Distinzione fondamentale: corpus parallelo e
comparabile.
 Corpora paralleli fondamentali perché forniscono al traduttore esempi di traduzione da cui addurre
gli usi linguistici delle varie lingue: sono la base della traduzione automatica. Interesse crescente
nello sviluppo di corpora paralleli di grandi dimensioni poiché sono la base di partenza che
permettono ai traduttori automatici di imparare a tradurre. Sono allineati: vuol dire che a ciascun
paragrafo, a ciascuna parola della L1 è collegata alla sua traduzione nella lingua L2, come se nel
corpora parallelo fossero state create delle ancore che associano la traduzione originaria di una
certa frase o elementi più granulari di essa, una specifica traduzione.
 Come si costruiscono? A partire da esempi di traduzione. La fonte primaria delle traduzioni per
creare corpora paralleli è data da istituzioni che lavorano in ambienti multilingui: il più famoso è il
Canadian Hansard Corpus (2001).
 Primi corpora paralleli creati per l’uso statistico, ma sono anche risorse per vedere le tipologie di
traduzione e costruzioni grammaticali. Eur – Lex è un sistema di legislazione europea: tutta la
normativa europea deve essere tradotta nelle lingue dell’unione. È un corpus che contiene svariati
esempi di testi di normativa europea, prodotto dell’attività della Commissione europea, una fonte
importante di risorse per i linguisti e traduttori. Una buona fonte di informazione per i linguisti e
traduttori è Sketch Engine (inserire credenziali Università per accederci): un grande portale di
accesso per i corpora di ogni tipo.
 Tutti i corpora di SE sono stati lemmatizzati e annotati morfosintatticamente, taggati con la loro
parte del discorso, associata ad ogni parte della parola. I tag si riferiscono ai codici delle diverse
parti del discorso: i corpora sono stati annotati linguisticamente in maniera automatica e perciò
pieni di errori.
 Concordanze: mettiamo in input una parola ed il sistema restituisce tutti i contesti in cui quella
parola ricorre, così si vede come quella parola viene usata nei vari testi e situazioni. La dimensione
di corpora disponibili, sia paralleli che monolingui, è cresciuta notevolmente.
 I corpora possono essere utilizzati per andare ad analizzare come sono usate le costruzioni nella
lingua, ma anche per sviluppare i sistemi di traduzione automatica  quelli di ultimissima
generazione, tipo Google Translator, si basano su algoritmi di tipo neurale estremamente voraci,
per funzionare bene hanno bisogno di grandi quantità di testi su cui imparare.
 Questi corpora fotografano solo una porzione limitata del panorama e dell’uso linguistico: bisogna
ricordarci che si tratta di una porzione finita. Questo pone un problema, ossia la rappresentatività
di un corpus: quando usiamo un corpus lo usiamo perché speriamo di trovare informazioni su una
determinata variante linguistica cui siamo interessati (legata a un dominio, genere, ecc.) e c’è la
necessità che il corpus sia il più possibile rappresentativo di questa variante. Un corpus ideale
dovrebbe essere massivamente rappresentativo, dovrebbe contenere tutto lo stesso spettro di
variabilità di lessico e anche con la stessa proporzione, in modo tale che le costruzioni frequenti e
non dovrebbero essere attestate, un corpus ideale dovrebbe essere un modello in scala perfetto
della lingua, in cui si trovano esempi di tutti gli usi linguistici e delle proporzioni giuste.
 Rappresentatività: valore ideale che dobbiamo cercare di estendere quando lavoriamo sul corpus,
ma che mai riusciamo ad ottenere.
 EuroParl ci dà uno spaccato di lingua spontanea, rappresenta una varietà ristretta di quello che è
l’uso linguistico dell’euro letto, da questo punto di vista, ma se l’obiettivo è studiare il linguaggio
burocratico e normativo Eur – Lex è altamente informativo.
 Difficile ottenere alto livello di rappresentatività con i corpora generali:
 Tentativo di campionare testi lingua inglese che permettano di aumentare la rappresentatività della
lingua inglese all’interno di questo corpus, che difficilmente si sarebbe potuta ottenere prendendo
parole a caso che avrebbero portato a sbilanciare la composizione del corpus. Anche perché, il
problema è che non tutte le tipologie di testi sono ugualmente accessibili in formato digitale: i
corpora sono prodotti umani, dunque fallaci. Di fatto un corpus finirà sempre per essere sbilanciato
e frutto di scelte contingenti, piuttosto che essere il risultato di selezione scientifica ed equilibrata.
 Chomsky, da sempre critico dell’uso dei corpora linguistici: “ogni corpus naturale sarà sbilanciato”.
Diceva ciò nel 1962, quando i corpora erano scritti su schede perforate, dimensioni di massimo un
milione di parole, ma molte delle sue critiche valgono anche oggi. Comunque perfezionati i corpora
siano, sono frammenti parziali ed incompleti del linguaggio. Le informazioni che si trovano nei
corpora sono sproporzionate; in realtà, nei corpora mancheranno sempre molte cose presenti nella
lingua, e anche importanti ma che sono più rare e non vengono attestate nei corpora, ma, d’altro
canto, sono presenti cose marginali in abbondanza.
 Da un lato, i corpora però servono molto: le espressioni con più frequenza sono di tipo
polirematico, come si può vedere in questo caso. Quello che si vede è che gli usi più frequenti e
significativi di “prendere” sono i polirematici, il corpus ci fa vedere le diverse tipologie di nomi da
preferire. Un termine molto comune può anche essere sottorappresentato nel corpus stesso, a
seconda della frequenza in cui compare in determinati testi. Non fidarsi mai dei corpora utilizzati,
nemmeno quelli con crisma di bilanciamento ed accuratezza, tant’è che una lessicografa
importante che ha creato una delle ultime edizioni dell’Oxford Dictionary, ciò che conta non è che il
corpus sia bilanciato, ma è sapere che è sbilanciato, ossia, che nonostante la sua progettazione,
rimane sempre il risultato di scelte pragmatiche che ne condizionano il contenuto.
 I limiti sono temporali (ambito di tempo), di budget, disponibilità del materiale (difficile da reperire
dal punto di vista digitale)… : significa che, alla fine dei conti, la nozione di rappresentatività di un
corpus restano valori, concetti limite ed irreali.

 Corpora paralleli e nozione di rappresentatività  un corpus che si utilizza per l’analisi mono o
multi dovrebbe essere della lingua cui siamo interessati per generalizzare le informazioni del
corpus, aldilà dei suoi limiti, poiché è sempre un sotto – insieme finito di una determinata
popolazione linguistica. Corpora bilanciati, la gran parte dei corpora sono lungi dall’essere
rappresentativi delle popolazioni linguistiche di riferimento, per cui si è ingenerata un
atteggiamento che predilige la quantità rispetto alla qualità: la dimensione del corpus, inteso nel
senso della quantità di esempi che ci può fornire rispetto alle preoccupazioni di bilanciamento,
equilibrio, ecc.
 Se prendiamo un corpora come EuroParl ed EuroLex è fortemente rappresentativo, poiché è
specifico del linguaggio giuridico e normativo della UE. Se noi vogliamo creare un corpus
dell’inglese, dobbiamo immaginare cosa significhi l’inglese come evento linguistico (questa nozione
è complessa e deve comprendere una gamma di elementi vasta): corpora più piccoli come 100
milioni di parole del BNC (British National Corpus) non sono rappresentativi e non forniscono un
modello fedele in scala che un corpus dovrebbe avere.
 Per cui, a fronte del fatto che gran parte dei corpora più strutturati e piccoli, sono poco
rappresentativi e si è sviluppato un atteggiamento opposto: accettare grandi quantità di dati, a
scapito della rappresentatività e del bilanciamento. È nata nell’ambito applicativo, tradizionale, che
contribuiscono alla creazione di traduttori automatici: prospettiva quantitativa vs qualitativa.
Questo ha portato allo sviluppo di una prospettiva che asserisce che i migliori dati ci vengono da
grandi quantità di essi  “more data is better data”. Perché si privilegia la quantità sulla qualità? Ci
sono ragioni matematiche che riguardano il modo in cui si distribuiscono i dati linguistici dei
corpora che permettono l’accesso a grandi quantità di testo per interpretare i fenomeni linguistici
cui siamo interessati.
 I modelli utilizzati per lo sviluppo dei traduttori automatici sono di tipo statistico, che imparano a
tradurre sulla base di esempi di traduzione e richiedono grandi quantità di dati. Nelle traduzioni
automatiche c’è stato bisogno di accedere a corpora di grandi dimensioni. Da un lato, a partire dalla
fine degli anni 90, in modo crescente, la quantità di testo digitale è aumentata in maniera
esponenziale poiché ora abbiamo un deposito apparentemente inesauribile di testi cui possiamo
accedere come una sorta di “magazzino testuale”. In questo periodo di sono sviluppate le capacità
degli strumenti informatici di elaborare i testi e quindi questo insieme di condizioni ha favorito il
fatto che, a questo punto, abbiamo una risorsa come il web con risorse illimitate e computer che
permettono di interpretarli: i corpora possono dunque essere aumentati nelle loro dimensioni.
 A partire dall’inizio degli anni 2000, si è sviluppata l’idea che il web possa essere la fonte primaria di
dati linguistici, sia mono che multilingue. Il web è un grande corpus da cui attingere per le nostre
analisi.
 Un modo semplice, ma problematico di utilizzare il web come corpus è interrogarlo direttamente,
ossia, prenderlo come un corpus che possiamo interrogare con gli strumenti che normalmente
utilizziamo per fare le ricerche (motori di ricerca  Google, Bing, Chrome, ecc.) usare i motori per
andare a vedere, ad esempio, la frequenza di determinate espressioni linguistiche. Usare il web
come banco di prova per trovare esempi di determinate costruzioni linguistiche: questo tipo di
utilizzo è diventato popolare ma è anche altrettanto “pericoloso”, poiché i risultati che otteniamo
usando solo i motori di ricerca sono poco affidabili.
 In primis, per come utilizziamo i motori di ricerca: esso considera le parole che inseriamo come
prese in isolamento, se inserite tra virgolette intende solo la stringa, non ci permette di prendere
particolari variazioni.
 Inoltre, il web non è lemmatizzato, e di un’espressione recupera infinite interpretazioni. In più, noi
facciamo una ricerca in un’immensa quantità di testi sui quali non abbiamo controllo  dizionari
all’interno del web, ad esempio: significa che usare il web come corpus in questa maniera è
problematico ed i risultati sono scarsamente affidabili. C’è stato un boom dell’uso dei motori di
ricerca come corpora che ad un certo punto ha sollecitato anche una serie di critiche che ne
mostravano i limiti. Ci interessano (corpora paralleli) esempi di traduzione cui possiamo attingere;
da un punto di vista monolingue, ci permettono di accedere all’uso delle costruzioni grammaticali
sia nella lingua sorgente che target.
 Non affidabili poiché facciamo questo con motori che nascono con scopi commerciali: algoritmi
proprietari di cui non abbiamo una cognizione precisa, e quindi anche dei risultati che possono
produrre. Inoltre, Google e Yahoo promuovono tipi di risultato particolari per motivi pubblicitari e
commerciali; essi si basano sulla loro capacità di indicizzare, di andare a recuperare pagine presenti
nel web. Queste indicizzazioni mutano nel tempo e perciò i risultati che otteniamo non è
replicabile, se la facciamo in tempi diversi con motori di ricerca diversi i risultati cambiano. Non
abbiamo un controllo di qualità sui dati cui possiamo attingere.
 L’altra questione è legata al fatto che sul web c’è di tutto: non sappiamo se i testi siano prodotti da
parlanti umani o non. Se ci affidiamo al web come deposito di usi linguistici possiamo trovare
esempi prodotti da sistemi automatici. D’altro lato, ovviamente, è che il web è interessante, ci
troviamo testi di ogni tipo, ma non è esattamente così. Lingua del web  linguaggio a sé.
 Il web, oggigiorno, rappresenta una risorsa gigantesca di materiale testuale che possono essere
utilizzati per costruire corpora di grandi dimensioni in modo molto rapido: uso di applicativi (web
cloners) che navigano il web e scaricano testi, pagine web secondo certi criteri.
 Questi corpora sono pieni di duplicati, ossia gli stessi pezzi di testo si trovano più volte; le copie dei
testi si trovano duplicate in più siti web mediante l’operazione di scaricamento automatico. Ciò può
falsare la nostra analisi: una costruzione compare più volte perché i siti sono duplicati. Dati falsati
perché scaricati con un controllo destinato a sfuggire, essendo corpora di così grandi dimensioni i
testi che vengono scaricati non vengono controllati. Non si ha la certezza di chi sia l’autore del testo
o se sia fatto da un essere umano. L’altra cosa è che, naturalmente, questi corpora sono annotati:
ossia, lemmatizzati, hanno dati con categorie morfo – sintattiche, ciò in maniera totalmente
automatica, ergo c’è una grande quantità di rumore.
 Evoluzione dimensioni corpora: confronto tra vari corpora nella lingua italiana.
 Google Books è un’impresa di digitalizzazione di testi, dal punto di vista diacronico. Il corpus italiano
comprende 40 giga di parole; un altro tipo di corpus molto interessante, che si è diffuso in questi
ultimi anni, ambito studi cognitivi e psico – linguistici, sono i corpora dei sottotitoli, creati andando
a prendere i sottotitoli dei film. Sono interessanti perché: qual è uno dei limiti di questi corpora?
Sono corpora di linguaggio scritto. L’unica eccezione sono corpora fatti dal linguaggio dei social
media, perché si dice che il linguaggio web è una sorta di “parlato scritto”, molte caratteristiche di
informalità. Non abbiamo corpora di tipo dialogico, che presentano grandi quantità di testo parlato,
perché trascrivere il parlato è molto difficile e costoso.
 In generale, i corpora che registrano la lingua parlata sono pochi e di dimensioni piccole; i sottotitoli
sono una sorta di approssimazione, essi sono tipicamente dialogici (ottima fonte per l’uso di termini
slang) e sono già scritti. I corpora dei sottotitoli sono corpora di linguaggio artificiale, frutto di
un’operazione artificiale di sceneggiatura, approssimazione vicina alla lingua parlata. Il panorama
destinato a cambiare poiché ci saranno strumenti sempre più sofisticati di semplificazione del
parlato: quantità ingenti di parlato naturale che potranno essere usati per le nostre analisi. Le
grandi dimensioni richiedono l’uso di strumenti automatici, di analisi ed identificazione dei corpora.
 I dati nei corpora si distribuiscono in maniera tale che corpora piccoli fanno sì che ci siano
poche attestazioni di fenomeni: i dati linguistici si distribuiscono nei corpora secondo la legge di
Zipf. Da questa distribuzione possiamo vedere che le frequenze delle parole calano in maniera
estremamente rapida; questo rapporto inverso tra le frequenze e il loro rango è un qualcosa di
universale. In altre parole, se noi cambiamo la grandezza di un testo la forma della distribuzione
rimane lo stesso. Scala algoritmica:
 Indipendentemente dalla grandezza del corpus, le parole che hanno frequenza 1 rappresentano
la classe più grande: qual è la conseguenza della legge di Zipf? I dati linguistici attestati nei
corpora sono rari, ciò significa che se prendiamo la legge, in ogni corpora, la stragrande
maggioranza dei dati linguistici, in questo caso le parole, hanno frequenze di attestazione molto
bassa. Notiamo come si vada da un corpus più piccolo ad uno più grande: parole a bassa
frequenza nel piccolo, ma se prendiamo un ordine di grandezza maggiore (da 1 milione a 100
milioni) vedo che ci saranno ugualmente parole a bassa frequenza: una parola magari nel
corpus piccolo compare 10 volte e in uno più grande 30. Aumentando le dimensioni di un
corpus, da un lato ci permette di avere maggiori attestazioni di cose che nei corpora più piccoli
troviamo poche volte, però al tempo stesso, aumentando le dimensioni del corpus ho
introdotto una grande quantità di parole con frequenze basse.
 Perché succede questo? Perché aumentando le dimensioni, continuo ad introdurre nuove
parole a bassa frequenza  invarianza di scala? Significa che quando prendo 1 milione di
parole gli elementi grammaticali li ho visti tutti; gli elementi lessicali sono potenzialmente
infiniti, perché posso creare sempre parole nuove attraverso la morfologia. Quindi succede che
in questa distribuzione in alto si trovano gli elementi grammaticali, nelle code troviamo quelli
lessicali: ci dice che il linguaggio è un sistema infinito che nessun corpus potrà finire di
esplorare, da questo punto di vista. In ogni corpus avremo pochi dati con frequenze altissime,
ma che sono elementi di tipo grammaticale o semi grammaticale, dove per elementi
grammaticali si intende anche elementi lessicali che si sono grammaticalizzati: come gli ausiliari,
ad esempio, o verbi come “prendere” = verbo supporto, per creare altri verbi  prendere un
abbaglio, prendere fuoco, ecc.
 Gli elementi grammaticali sono sempre ad alta frequenza; per gli elementi lessicali, sono
sempre una frazione minima rispetto a quelli usati nel linguaggio, quando sono catturati nel
corpus sono sempre a bassa frequenza. In ogni corpus, ci saranno sempre parole a bassa
frequenza, che sono spesso quelle più interessanti o che hanno un carico semantico più
significativo. Da un lato ci dice che se questo è ciò che succede nei corpora, il modo per avere
maggiori attestazioni è aumentare le dimensioni del corpus; questo significa che seppur
aumentando la sua dimensione ci sono elementi per i quali non avrò sufficienti attestazioni.
Necessità di andare verso corpora di maggiori dimensioni.
 La conseguenza della distribuzione zipfiana (dato matematico incontrovertibile): marca di
caratterizzazione di un testo di una lingua naturale. La conseguenza? È che i dati linguistici
attestati nei corpora sono rari: per la maggior parte delle parole abbiamo pochissime
attestazioni.
 Necessità di avere corpus grandi  per ampliare il range di termini lessicali per i quali abbiamo un
numero sufficiente di attestazione. Percentuali basse, sia per 50 che per 100: la legge di Zipf vale
anche per i termini complessi. Anche se andiamo a contare non le frequenze delle singole ma di
sequenze di parole, termini polirematici, anch’essi hanno la distribuzione di Zipf, e una lunga coda
di parole a bassa frequenza. Ciò significa che se siamo interessati ad avere dati a sufficienza per
capire l’uso di sequenze di parole (costruzioni a verbo supporto o termini tecnici) le loro
attestazioni nei corpora sono rare e necessitiamo di corpora sempre più grandi. C’è dunque questa
tendenza di andare verso corpora di dimensioni maggiori: in qualsiasi corpus andiamo a cercare,
abbiamo poche attestazioni che si riverberano poi sull’affidabilità dei dati su cui possiamo contare.
 Opera di digitalizzazione da parte di Google: libri che vanno da un arco temporale del 700 – 800
fino ai giorni nostri, messi a disposizione sul web. Corpus enorme in molte lingue, diacronico:
l’unico vero corpus diacronico di dimensioni significative che permette di studiare l’evoluzione
dell’uso delle parole nel tempo. È stato creato per scopi di studio sociale, storia delle idee:
l’obiettivo era quello di fornire uno strumento per studiare i mutamenti culturali mediante lo studio
di come questi termini sono utilizzati all’interno dei testi.
 Studiare momenti significativi della storia del pensiero umano mediante la diffusione delle parole.
Lezione del 14 aprile

 Tecniche di analisi che permettono di identificare informazioni importanti nella descrizione dell’uso
linguistico e per il processo traduttivo, in particolar modo ci occuperemo di come, andando a
vedere come si possa arrivare a una caratterizzazione del significato delle parole andando a fare
un’analisi dei contesti prototipici di queste parole. Migliore comprensione uso delle espressioni
linguistiche source language e target language, e quali traduzioni siano più appropriate. Affrontare
il problema della polisemia, e come questo si possa riverberare nel processo traduttivo.
 Esemplifica l’idea che per capire il significato semantico della parola è andare a fare un’analisi dei
contesti in cui questa parola si ritrova, l’affermazione di Firth suggerisce che solo andando a vedere
le parole con cui si accompagna la parola mostra le sue modulazioni semantiche. Possiamo
caratterizzare i significati delle parole andando a vedere i contesti più tipici in cui si usano.
 “I don’t believe in word senses”  articolo di un lessicografo, intersezione tra linguistica dei corpora
e linguistica computazionale. Ciò che emerge è che i sensi delle parole non sono che astrazioni da
insiemi di contesti in cui usiamo le parole stesse. Andiamo a recuperare queste risposte nei corpora
 registrazioni testuali ad uso linguistico, usarli come fonti di analisi per andare a vedere i contesti
di analisi, ma non tutti sono uguali, e lo vedremo.
 Ci sono vari metodi, derivati dalla linguistica computazionale disponibili in interfacce e strumenti
come SketchEngine, che hanno lo scopo di fornire metodi per esplorare l’uso delle espressioni
linguistiche nel contesto.
 Strumento semplice che lascia al linguista l’analisi dei dati estratti, ci permettono di avere
informazioni sui possibili significati di una parola e come si distribuiscono in diversi testi. Se noi
guardiamo un semplice esempio, abbiamo espressioni come “prendere il sopravvento, prendere
atto…” ci permette di andare a vedere quali sono le tendenze in cui ricorrono le parole, in maniera
qualitativa.
 I programmi di concordanze sono piuttosto semplici, sono programmi capaci di macinare grandi
quantità di testi. La cosa importante è che i programmi di concordanze non fanno un’analisi
linguistica del testo, semplicemente lavora su un corpus sottostante che è stato precedentemente
annotato con informazioni linguistiche, disambiguato dal punto di vista morfosintattico (ad ogni
singolo token è stata assegnata la corretta parte del discorso, ed è stata eseguita un’analisi
morfologica, lemmatizzazione).
 Tutte le analisi sono state fatte da strumenti di analisi computazionale; al solito, si troveranno
migliaia di errori in queste elaborazioni, molto rumore, sia nella lemmatizzazione che nello speech
tagging. Nei corpora paralleli allineati, ossia corpora di traduzioni uno allineato all’altro, viene fatto
automaticamente: il concetto di allineamento lo ritroviamo nelle “translation memories”, si trovano
molti errori anche lì, frasi o parole che non sono perfettamente allineate. Ci sono allineamenti a
livello di frase (frase lingua A  associata alla sua traduzione lingua B), o parole che hanno un
problema, molti casi in cui una parola nella lingua A corrisponde ad una polirematica nella lingua B,
o viceversa.
 Bisogna tenere presenti tutti questi disallineamenti che si possono trovare in questi corpora.
 Ci sono contesti più frequenti e più caratteristici, ed altri meno; il numero di volte in cui una parola
ricorre con un indicatore del fatto che quel tipo di contesto è importante per la parola stessa, ma
non ci possiamo affidare alla frequenza completamente. L’equazione i contesti più frequenti sono
più importanti non è valida. Ciò che emerge dallo studio delle concordanze è che le parole variano
per il grado di libertà con cui si combinano, tutte le parole hanno preferenze combinatorie: ci sono
potenzialità combinatorie che sono determinate da tratti morfosintattici o semantici che sono
generali delle parole stesse, due parole si combinano perché appartengono a particolari classi
astratte che permettono di essere incrociate.
 La regola che determina questa particolare combinazione può essere espressa in termini di tratti
semantici (un topolino grigio). La caratteristica di queste espressioni è che questi medesimi legami
di combinazione tra queste parole rimangano intatti nel momento in cui si sostituisce, a una data
parola, una che appartiene alla medesima classe. Se io sostituisco a “topolino” o “grigio” un altro
nome o aggettivo, la combinazione rimane legittima. Perché? Io ho sostituito alla classe “nome
concreto” un'altra parola che denota un nome concreto  legami determinati dalle classi astratte.
In altri termini, questi tipi di combinazioni sono esprimibili in termini di regole grammaticali
generali: un articolo precede un nome, i nomi si concordano con gli aggettivi, ecc.
 Al contrario, ci sono altre combinazioni lessicali che sono legittimate non solo da regole
grammaticali generali, non sono riconducibili a classi linguistiche generali ma sono determinate da
vincoli di attrazione reciproca dei termini lessicali, che hanno esse stesse un forte grado di
lessicalizzazione, sono combinazioni tra termini lessicali determinate da vincoli specifici di
determinate parole. Cos’hanno di diverso queste espressioni? “A notte fonda”: i membri
mantengono un legame che non è totalmente riconducibile a dei tratti generali alle classi cui
appartengono. C’è qualcosa di specifico della parola “notte” che lo associa a “fonda”. Esiste
qualcosa di specifico che vincola l’aggettivo “alto” con il sostantivo “stagione”: vuol dire che se noi
andiamo a sostituire un elemento di queste strutture con un elemento che ha un significato simile,
il risultato ottenuto è o anomalo, o bizzarro o atipico, chiaramente un tipo di legame che non è
tipico della lingua d’uso di una particolare varietà.
 “Gianni ha la vista lunga”: “Gianni ha la vista estesa” è un risultato anomalo. Perdono la carica
semantica ed espressiva dell’espressione originale.
 Nella lingua, accanto a combinazioni determinate da proprietà generali, ci sono quelle in cui il
legame è determinato da associazione dei tratti lessicali, non riconducibili a tratti generali ma alle
proprietà di quei lessemi.
 “Collocazione”  introdotto da Firth, secondo lui lo studio delle collocazioni è lo studio del
significato, il modo in cui si collocano o co – collocano le espressioni lessicali.
 Le collocazioni sono associazioni di due o più parole, che sono caratterizzate da un elevato grado di
associazione reciproca; sono coppie di parole che hanno una forte tendenza a ricorrere l’una
accanto all’altra, coppie o sequenze di parole osservate molto di frequente ricorrere nella lingua.
 Quando si parla di collocazioni, ossia di parole che hanno un’elevata tendenza a ricorrere l’una
accanto all’altra: accanto ai modificatori tipici troviamo quelli idiosincratici  “battere moneta”,
“acerrimo nemico”. La differenza tra i due? Rappresentano strutture più idiosincratiche: “acerrimo
nemico” è un’espressione in cui “acerrimo” tende a modificare solo “nemico”. Differenza tra auto
veloce e acerrimo nemico: veloce è un aggettivo che si può trovare insieme ad altre cose, veloce
può essere il tempo, un pranzo, e così via, ma acerrimo può essere poche cose “acerrimo nemico,
rivale, avversario…”. “Accendere un conto corrente”: “aprire”. In senso tecnico, però, si accende: è
un modo idiosincratico di esprimere l’azione di avviare, aprire quando si associa a “conto corrente”.
 Possiamo vedere che non c’è una chiara definizione di qual è l’elemento che li caratterizza, ma si
percepisce una caratteristica particolare di queste espressioni rispetto ad un’altra. “Voltare pagina”
non ho a che fare con il “voltare”, ma significa “cambiare vita”  costruzioni idiomatiche,
linguaggio figurato. Costruzioni a verbo supporto: il complemento oggetto non è un CO, ma dal
punto di vista semantico non è un complemento paziente di “prendere”  prendere atto. Hanno lo
scopo di trasformare il nome in un verbo.
 Tutti questi fenomeni sono caratterizzati da un legame speciale che caratterizza questi elementi: la
letteratura usa il termine “collocazione” in modo diverso, per coprire tutti questi fenomeni, perché
accentuano che queste espressioni tendono a ricorrere insieme. Ci sono altri tipi di approcci che
trattano come collocazioni solo questi elementi, escludendo i modificatori tipici e gli argomenti:
questo tipo di fenomeno è tipico di qualsiasi lingua ma si riverbera nell’ambito dell’acquisizione
linguistica di L2 e a livello traduttivo.
 Tradurre le collocazioni è uno degli aspetti più complessi del processo traduttivo, proprio perché si
ha un caso in cui abbiamo a che fare con usi idiosincratici delle parole, con tutta una serie di coppie
di espressioni complesse in cui la traduzione letteraria parola per parola, non funziona.
 Quali sono le peculiarità linguistiche delle collocazioni? Esse sono difficilmente definibili, possiamo
parlare delle proprietà che le caratterizzano. Sono caratterizzate da un alto livello di
convenzionalità, sono stereotipate. L’altra cosa importante è la ridotta composizionalità semantica:
ossia, il significato di una collocazione non è immediatamente ricavabile dalla composizione del
significato delle parole che la formano.
 La traduzione di “tagliare la corda” non è “to cut the rope”. L’altro aspetto è quello di una forte
rigidità strutturale: le collocazioni tendono a ricorrere in strutture stereotipate e rigide, resistenti a
modificazioni aggettivali o avverbiali, difficilmente trasformabili con passivizzazioni. Le collocazioni
sono un dominio molto ampio, dai confini sfumati e dalla struttura articolata: strutture linguistiche
convenzionali come “mangiare un panino” a strutture idiosincratiche. È difficile dare una
definizione precisa, per cui il termine “collocazione” è molto vago intrinsecamente, quasi ateorico.
Possiamo identificare le proprietà che identificano le collocazioni, e queste tre proprietà sono
possedute da queste tipologie in gradi diversi.
 Il dominio delle collocazioni è dai confini sfumati che accoglie molte tipologie di fenomeni, che
hanno un alto grado di associazioni che le rende espressioni tipiche di una data variante linguistica.
John Sinclair, allievo di Firth, uno dei padri dello studio delle collocazioni in linguistica, parla di due
principi che sovrintendono alla chimica delle parole, ossia alla capacità delle parole di unirsi in
espressioni complesse.
 Si chiama “Open choice” poiché queste classi sono aperte. A questo principio di combinazione della
lingua, Sinclair contrappone l’Idiom Principle: i parlanti hanno a disposizione una serie di molecole
linguistiche, usati come gruppi che hanno una loro autonomia, in modo convenzionale. Mentre una
parte della linguistica ha enfatizzato l’aspetto produttivo della combinazione delle parole, la
linguistica di derivazione di Sinclair ha sottolineato il ruolo che nella lingua ha l’Idiom Principle.
Questo principio si proietta nella dimensione multilingue e produttiva, così come non abbiamo
molecole linguistiche nella dimensione monolingua, si pone il problema di come debbano essere
tradotte.
 Se due parole formano una collocazione, è molto probabile che nei testi rappresentativi di questa
varietà, queste coppie di parole ricorrono insieme in maniera significativa, e bisogna capire cosa
vuol dire statisticamente rappresentativa. Se due parole formano una collocazione nella forma in
cui ricorrono spesso insieme, basta andare a guardare la frequenza in cui ricorrono all’interno di un
corpus: le collocazioni più tipiche di una parola sono quelle che più frequentemente ricorrono in
una parola data.
 Il concetto di frequenza è indicativo per essere una collocazione, non ci si può affidare
completamente. Due parole sono tanto più fortemente associate non soltanto quanto più spesso si
presentano insieme, rispetto alle volte in cui ricorrono separate. Quando si studiano le collocazioni,
si deve andare a studiare la frequenza, ma anche confrontarla con la sua frequenza “attesa”, ossia,
con il numero di volte con cui ci attenderemmo di vedere queste parole, una indipendentemente
dall’altra. Questo è quello che fanno diverse misure statistiche d’associazione che sono state
introdotte dalla linguistica computazionale e dei corpora per stilare, in modo migliore,
l’associazione tra due parole.
 Una delle più usate è la cosiddetta “mutual information”: dal punto di vista informatico, è il
logaritmo tra la probabilità di osservare la coppia di parole insieme / il prodotto della probabilità
prima parola x probabilità seconda.
 “Il mio acerrimo…” qual è la parola successiva? Il sapere che la parola precedente è “acerrimo”
condiziona la probabilità che la seconda parola sia “nemico” piuttosto che un’altra. “Un grande X” –
“Un acerrimo X”. È più facile individuare qual è X nel primo o secondo caso? Nel secondo, perché
nel primo può essere qualsiasi cosa. Le probabilità si restringono in “acerrimo”, in “grande” però si
estendono. Ciò significa che il concetto di probabilità ed il legame di P tra prima e seconda parola
può essere usato per stimare il livello di informazione reciproca.
 Mutua informazione: ci permette di misurare qual è l’informazione che ci dà una parola su quella
parola accanto, in altre parole, sapere che la prima parola è “grande” non ci dà informazioni per
prevedere qual è la successiva. “Acerrimo” invece ce la dà. Dunque, cosa fa la mutua informazione?
Nel caso in cui due parole siano statisticamente indipendenti, ossia nessun legame, il verificarsi
dell’una non condiziona il verificarsi dell’altra, vale questa sequenza qui. Grado di associazione
reciproca tra una coppia di parole.
 Le probabilità si calcolano con le frequenze relative: rapporto tra il numero di volte in cui la parola
ricorre / numero di parole all’interno del corpus. La probabilità di osservare due parole insieme la
calcolo come la frequenza del bigramma / il numero complessivo delle parole nel corpus. Come si
stima il numero di frequenza di una parola? Con la sua frequenza relativa. Ciò vuol dire che,
utilizzando le frequenze delle parole nel corpus, vado a calcolare anche qual è la probabilità di
osservare queste parole insieme / osservarle l’una indipendentemente dall’altra.
 Mutua informazione = identificare grado di associazione tra parole. Vedere come misure come la
mutua informazione funzionano e che risultati danno. Se prendiamo una risorsa come
SketchEngine, ci sono implementate molte forme di mutua informazione, per la quantificazione del
grado di associazione reciproco.
 Ascoltare fino a min. 17 – 18.
 Tra questi eventi rari, c’è il problema di “sporcizia”, di rumore. La formula della MI si può
semplificare in questo modo: si può calcolare come la frequenza del bigramma ed il numero compl.
parole nel corpus / numero freq. parole corpus 1 e numero freq. parole corpus 2. Si prendono due
parole che ricorrono una volta sola, e ricorrono insieme: il valore di MI è 13,28. Nello stesso corpus,
si prendono due parole che ricorrono 10 volte ma sempre insieme: ora il livello di MI si abbassa. C’è
un effetto di distorsione per cui, due parole che ricorrono insieme pochissime volte avranno una MI
più alta di parole fortemente associate ma che ricorrono più volte  contraddizione.
 Ciò significa che bisogna stare attenti a non applicare il calcolo della MI a bigrammi di bassa
frequenza. La MI non è affidabile quando viene applicata a coppie di parole che hanno frequenza
molto bassa, predilige quelle a collocazioni, sequenze di parole che hanno un grado di associazione
elevato ma che ricorrono poche volte insieme. Significa che è buona norma stabilire una soglia di
frequenza alla quale è applicata la MI, applicarla solo a bigrammi con frequenza superiore a una
certa soglia  dipende da quanto è grande il nostro corpus, ma una buona convenzione è che
questa soglia deve essere di almeno una frequenza di 5 parole.
 Calcolami la MI di parole che ricorrono 10 volte:
 La ragione linguistica per cui queste parole sono associate non viene specificata. Aumentando
la frequenza minima, le espressioni diventano più “pulite”; prendiamo, ad esempio, un
contesto di almeno 5, ossia, la collocazione deve ricorrere a una distanza di almeno cinque
parole da (es.) “prendere”:
 Vediamo un’altra concordanza, aggettivo “grande” (min. 30 – 31, 35 - 38).
 LL tende a privilegiare coppie più frequenti; la MI tradizionale privilegia coppie di parole meno
frequenti, ma Log Likelihood privilegia quelle più ricorrenti. La LL assomiglia molto alla formula
di quella che viene chiamata Local Mutual Information  prende la MI tradizionale e la
moltiplica per la frequenza del bigramma. Se le parole tendono a ricorrere molte volte insieme,
avranno una LL molto alta.
 Vediamo quali strumenti incorporano esempi di traduzioni e che sono strumenti di assistenza al
traduttore: sono quella famiglia di strumenti all’interno della quale troviamo i CAT TOOLS e la
traduzione automatica. I sistemi machine translation sono il prodotto della ricerca
dell’intelligenza artificiale e hanno lo scopo di sviluppare sistemi che siano in grado di svolgere
una traduzione simile a quella che fanno gli esseri umani. Sistemi che imparano a tradurre, a cui
noi insegniamo a tradurre.
 I CAT TOOLS sono esempi di traduzione che assistono il traduttore fornendogli esempi di
traduzione già fatti, sono il “riciclo” della traduzione. Fanno parte dell’armamentario
fondamentale di ogni traduttore, soprattutto di chi si occupa di traduzione specialistica.
Distinzione tra CAT TOOLS e MACHINE TRANSLATION  incorporano essi stessi sistemi di
traduzione automatica, come un primo passo di traduzione, fortemente integrata nel processo
di intervento del traduttore umano che deve riguardare le traduzioni fatte dalla macchina.
Dentro i CT ci sono sistemi che forniscono al traduttore esempi di traduzione già fatti. Il tipico
sistema di CT è ciò che viene chiamata la “translation memory”: non è che un repertorio di
traduzioni già fatte.
 Traduzione creativa e letteraria, attività individuale, se lavoriamo in un contesto specialistico
(traduzione scientifica e legale), la standardizzazione è fondamentale. Ogni dominio ha
particolari convenzioni terminologiche, ha dei repertori terminologici come i thesauri, che
devono essere utilizzati all’interno della traduzione. Le translation memories sono una sorta di
patrimonio di conoscenza fondamentali per i domini al fine di fare traduzioni adeguate al
particolare dominio su cui si opera.
 I CAT TOOLS sono strumenti che il traduttore usa, ma che non rimpiazzano il processo
traduttivo, lo standardizzano. La translation memory è il cuore di un CAT TOOL: è un database
di testi paralleli, sono simili a corpora paralleli, immaginati come una serie di testi già tradotti e
divisi in segmenti, allineate da una lingua all’altra e dove ciascuno di questi segmenti allineati
forma la translation unit.
 Il sistema, nel momento si traduce una nuova frase, vede se è già stata tradotta e vi ripropone la
traduzione che abbiamo già fatto. La cosa fondamentale è che questo sistema di TM tiene di conto
del fatto che il pezzo che si deve tradurre corrisponda ad altri pezzi simili già tradotti. La translation
memory contiene un magazzino di traduzioni ed un sistema che permette di andare a trovare la
traduzione corrispondente a ciò che stiamo traducendo, un sistema che misura quanto la stringa
che si sta traducendo sia simile alle stringhe che ha già memorizzato e di cui possiede una memoria.
 Algoritmi semplici che misurano quanto due stringhe siano diverse l’una dall’altra, va a recuperare
dunque quelle stringhe che sono il più vicine possibili a ciò che stiamo traducendo. La TM divide il
testo da tradurre in segmenti. A questo punto, la TM manda, dopo aver diviso il testo in input,
manda ciascuno di questi segmenti in memoria e recupera quei segmenti di cui esiste già una copia
uguale o simile alla nostra, immagazzinata.
 La traduzione deve rispettare standard terminologici e strutturali che fanno parte di un dato
dominio. La UE ha una delle più grandi TM, poiché esse devono rispettare determinati standard.
Perciò, ci sono vari database che possono essere importati nel sistema della TM.
 Più è alta la soglia di similarità stabilita, minore è il lavoro di modifica della traduzione: 75% significa
che la traduzione che ci viene fornita non è la traduzione uguale del nostro pezzo, bensì simile, il
traduttore deve poi apportare ulteriori modifiche. Una soglia alta presuppone che le cose che sono
memorizzate nella TM siano molto simili a ciò che abbiamo già tradotto  più cose vengono
restituite dalla TM, maggiore è il lavoro di revisione della traduzione.
 A questo punto, nel momento in cui il sistema restituisce l’output, una traduzione che è stata
memorizzata, si può accettare la traduzione così com’è oppure modificare alcuni elementi della
traduzione, o scartarla. Ci sono due possibilità: o il sistema trova un sistema di traduzione nella sua
banca dati, oppure prova a tradurla lui stesso con un sistema di traduzione automatico. Il linguaggio
è un’attività creativa, perciò le frasi non saranno sufficientemente simili a ciò che dobbiamo
tradurre.
 La TM e la MT sono sempre più integrati l’uno all’altro.
 A seconda del match perfetto o fuzzy, aumenta la distanza tra il testo che bisogna tradurre e quello
recuperato nella memoria di traduzione. Al tempo stesso, è un ausilio molto importante nella
velocizzazione e standardizzazione della terminologia da tradurre. Quand’è che è utile usare una
memoria di traduzione? È utile quando il testo da tradurre è sufficientemente simili a testi già
tradotti. Come si fa a valutare se usare una TM conviene? Si può utilizzare il leverage: consiste
nell’insieme di traduzioni immagazzinate della TM e che sono utili alla traduzione. Prima di iniziare
la traduzione, si può chiedere al sistema di fare una stima di quante sono le unità traduttive che
sono presenti all’interno della TM e anche del loro grado di somiglianza rispetto ai segmenti che
dobbiamo tradurre.
 Si ha una stima del grado di somiglianza per ciascuno di questi segmenti rispetto a quello che
troviamo nella TM. La leverage analysis permette di stimare il tempo di traduzione con quel
determinato TM, quanto costa fare una certa traduzione, permette anche di, se ci sono più TM a
disposizione, trovare la migliore. Fare la LA consente di capire quanto la TM aiuti nel processo
traduttivo e, nel caso di elementi scoperti, possiamo o tradurli a mano, o, nei CAT di ultima
generazione come TRADOS abbiamo servizi di traduzione automatica.
 Interazione tra il traduttore e sistemi meccanici che possono aiutarlo nel processo traduttivo.
Bisogna tenere presente che i CAT TOOLS, come le TM, sono invenzioni recenti: i sistemi di
traduzione automatica nascono subito dopo la II guerra mondiale, e sono sempre stati una meta
finale per avere sistemi che permetterebbero di automatizzare completamente il processo
traduttivo. Le TM nascono dai fallimenti della traduzione automatica: avere una traduzione
completamente automatizzata è un qualcosa di irrealizzabile al momento.
 La traduzione automatica è uno strumento in grado di fare traduzioni che sono molto simili, o che
dovrebbero essere in grado di incorporare le conoscenze dell’essere umano per tradurre. Il
tradurre è un’attività umana che comporta profonde conoscenze linguistiche, e un sistema di
traduzione automatica che è in grado di tradurre in modo corretto un testo, dovrebbe avere una
conoscenza approfondita delle strutture delle lingue naturali.
 La traduzione automatica è un qualcosa che, nel corso degli anni, ha avuto alti e bassi in modo
estremo, nel senso che, da un lato ci sono atteggiamenti pessimistici (di rifiuto della traduzione
automatica, nel senso che è inutile e lontana da quella umana, atteggiamento sbagliato anche se è
stato motivato dalle varie fasi fallimentari della traduzione automatica. Però, le ultime generazioni,
basate su reti neurali, sono promettenti, e hanno fatto fare salti in avanti dal punto di vista
tecnologico, al processo traduttivo): la traduzione automatica ha raggiunto, ad oggi, qualità
estremamente alte ed è comunque inalienabile. Però non si può neanche dire che i sistemi di
traduzione odierni abbiano risolto i problemi legati alla automatizzazione della traduzione: queste
limitazioni vanno testate e cercate, in alcuni casi emergono in modo eclatante, e tutt’ora sono ben
lontani da poter essere utilizzati in maniera autonoma.
 D’altro lato, il concetto di traduzione è un continuum di qualità: c’è una traduzione che mi consente
di farmi comprendere un testo, il suo contenuto, al di là della correzione formale del testo che
andiamo a tradurre. Ci sono casi in cui la precisione terminologica è fondamentale e richiedono
sforzi più complessi: la traduzione è un gradiente, un continuum che presenta vari livelli di
correttezza del risultato della traduzione.
 È un sistema che ha incorporato regole di traduzione, e questa è la differenza fondamentale con le
TM (semplicemente una traduzione memorizzata che il sistema recupera, confrontandola con il
testo da tradurre).
 La traduzione automatica nasce subito dopo la II guerra mondiale, dal lavoro dei crittografi
(lavoravano con i primi grandi computer per codificare i messaggi tedeschi criptati)  la
criptografia è una specie di traduzione, si tratta di tradurre un messaggio sconosciuto in uno
aperto, ossia decodificato. Sostenitore delle possibilità dei computer è Weaver  nel 1949 scrisse
un famoso TRANSLATION MEMORANDUM che mostrò al governo degli Stati Uniti, in cui proponeva
l’investimento in ricerca di questi sistemi di traduzione automatica pensandoli come sistemi di
decodifica.
 I primi sistemi di traduzione si sono concentrati sulla traduzione russo – inglese, per ovvi motivi
geopolitici (era della Guerra Fredda): grandi quantità di documenti dal russo all’inglese.
Questi primi sistemi di traduzione, questa prima ondata della traduzione automatica si ha tra gli
anni 40 e 50, con il prototipo di traduzione russo – inglese:
 Quale sarebbe il traduttore automatico perfetto? OPEN DOMAIN  traduzione testo di ogni
dominio.
 Questa visione molto negativa delle possibilità effettive di creare traduttori automatici creò un vero
e proprio blocco dei finanziamenti, e raccomandazioni di investire altrove.
 La traduzione automatica nasce per scopi militari; negli anni 70, gran parte della traduzione
automatica si sposta in comunità multilingui. Prima della Commissione europea e poi della UE, ci fu
un crescendo, un bisogno di traduzioni, non solo, aumentava il numero di lingue che dovevano
essere tradotte l’una nell’altra e ci fu dunque un grande investimento nella UE in traduttori
automatici, lungi dall’essere tecnologicamente perfetti. La UE comprò un sistema di traduzione,
SISTRAN, che è diventato il cuore su cui si è sviluppato MT@EC, usato dal Dipartimento di
traduzione della UE.
 Spostamento di enfasi  diventa meno realistica la traduzione OPEN DOMAIN, ci si concentra su
una traduzione specialistica: traduttori automatici verticalizzati su particolari domini linguistici, più
ristretti: si usavano i traduttori automatici per tradurre i bollettini metereologici. Complessità
linguistica limitata e quindi ciò garantiva una migliore performance.
 Traduzione neurale  il vero breakthrough della traduzione. Il percorso della TA è stato di
cambiamenti di prospettive tra uomo e traduttore automatico, l’idea è che l’obiettivo finale,
l’optimum, il graal della traduzione automatica è quello di sviluppare sistemi in grado di fare una
traduzione automatica del tutto comparabile a quella umana, totalmente automatizzata e OPEN
DOMAIN (applicabile a qualsiasi tipo di testo).
 Per soddisfare tutte queste qualità si rivela però impossibile: strade di compromesso che
consentano di usare ugualmente la traduzione automatica andando a rilassare gli obiettivi che si
pongono. Da un lato, ci sono tre strade possibili, dall’altro accettare che la traduzione automatica
non può essere di grande qualità. Anche i sistemi della UE sono ottimizzati per tradurre testi
normativi ed interni della UE, si capisce che possiamo non essere interessati a non avere un
traduttore universale.
 Perché traduttore e uomo devono essere in opposizione? I due possono coesistere, la traduzione
automatica può essere inserita in un ciclo di lavoro che vede coinvolto anche l’essere umano, la
tecnologia HUMAN IN THE LOOP AI.
 Non ci si può fidare soltanto del traduttore automatico, bisogna integrarlo con la traduzione
umana. Oggi sappiamo che ci sono vari traduttori automatici (Google Translate), ormai la
traduzione integrata è parte della nostra vita quotidiana: in questo senso, ci siamo abituati a
accontentarci di una traduzione approssimativa.
Machine Translation
 È l’essere umano che fornisce al sistema le regole per tradurre. In questo senso, gli approcci alla
traduzione automatica di tipo rule – based sono descritti nel triangolo di Vauquois. Il primo tipo di
regola è quella che caratterizzava la traduzione automatica di prima generazione: consiste nel
prendere le frasi della lingua L1 sostituendole con quelle della L2. Significa avere a disposizione un
dizionario bilingue che associa le parole della L1 con quelle della L2 immaginando che ci siano
poche operazioni di sostituzione necessarie. Questo tipo di modello è primitivo ed ignora il fatto
che non ci sia solo un’elaborazione di vocabolario ma anche sintattica.
 Un secondo tipo di approccio più elaborativo è il transfer: non ci si limita a tradurre le frasi della L1
in L2, ma operiamo degli adattamenti delle strutture sintattiche. Forniamo al sistema regole che
permettono di adattare le strutture sintattiche da L1 a L2. Il terzo problema è questo: finora non si è
tenuto conto del significato delle parole, abbiamo sempre immaginato di avere una frase italiana in
cui le parole sono associate a una parola inglese in maniera 1 a 1, senza tenere conto degli aspetti
polisemici.
“Borsa”  termine semanticamente ambiguo, può voler dire “borsa” in senso finanziario o “borsa”
per denotare l’oggetto. Questa operazione di distinzione semantica può essere fatta solo da un
traduttore umano. La condizione della traduzione è che la traduzione L2 preservi il contenuto
semantico della traduzione L1. Questo tipo di approccio, che è il modo in cui noi umani traduciamo,
è ciò che è stato implementato nell’interlingua: metalinguaggio che rappresenta il contenuto
semantico di una frase, indipendentemente dalla lingua, che fa da ponte dalla L1 alla L2.
 I sistemi basati sull’interlingua saranno sistemi basati sulla traduzione dall’italiano a questa
interlingua, ossia struttura di simboli che rappresentano il contenuto semantico delle parole, e delle
regole che permettono di sintetizzare, a partire dall’interlingua, le frasi della L2. L’idea è che ci sia la
possibilità di trovare una sorta di lingua universale capace di proiettarsi su tutte le lingue naturali.
L’interlingua dovrebbe essere in grado di codificare aspetti di frasi e parole condivise da tutte le
lingue che vengono tradotte le une nelle altre.
 Questi sistemi hanno livelli di complessità molto diversi: da un lato, il sistema diretto o a transfer
già permette di tenere traccia delle differenze sintattiche delle varie lingue. I sistemi basati su
transfer conoscono le regole della sintassi di una data lingua e sanno come allinearle l’uno all’altro.
Il problema è che abbiamo bisogno di regole che associno una grammatica di una lingua ad un’altra
per tutte le coppie di lingue che devono essere tradotte.
 L’approccio interlingua sembra essere la soluzione a tutti i problemi (rappresentazione astratta

contenuto semantico espressioni linguistiche che supponiamo essere condiviso da tutte le varie
lingue): abbiamo bisogno di un modulo che traduca in questa lingua intermedia, e che traduca
anche l’interlingua in altre lingue. In pratica, però, questo sistema non funziona: per l’impossibilità,
o l’estrema difficoltà a definire l’interlingua, questo linguaggio del pensiero condiviso in principio da
tutte le diverse lingue che vogliamo tradurre, estremamente complesso, e soprattutto difficile da
definire regole per passare da lingue naturali a questo insieme astratto. Ergo, questo tipo di
architettura, che sembra quella ideale, è risultata fallimentare. Nessuno dei sistemi attuali di
traduzione automatica ha mai usato questo tipo di architettura.
 Inefficienza data dalla complessità di fornire le regole che permettessero di generare le traduzioni
appropriate. Cosa è successo? Dalla metà degli anni 90 si è sviluppata una strategia diversa che,
invece di insegnare al traduttore automatico le regole per tradurre, utilizzasse un principio che
investisse la tecnologia nel far imparare al sistema le regole della traduzione, a partire da esempi di
traduzione. Invece di fornire regole di traduzione ai sistemi, si forniscono esempi di traduzione ed
un algoritmo che consente di estrarre dagli esempi di traduzione regole che possono essere
applicate a nuovi casi di traduzione: approccio SAMPLE – BASED, traduzione statistica.
 Si forniscono schemi che sovrintendono la traduzione. In altri termini, dalla metà degli anni 90,
cominciano ad essere disponibili corpora paralleli ed esempi di traduzione da cui i nostri algoritmi
possono imparare da nuovi esempi. Sistemi che sono in grado di trovare i pattern di traduzione, per
trovare le traduzioni più probabili di una data struttura linguistica. Algoritmi a machine learning,
ossia programmi che imparano a svolgere un certo tipo di compito a partire da esempi di
quest’ultimo.
 Sfrutta la distribuzione statistica nel corpus parallelo: va a vedere come strutture della L1 tendono a
essere tradotte in L2 e ricava, implicitamente, un modello di traduzione.
 L’algoritmo impara delle regole di traduzione che può applicare ad un insieme infinito di testi.
Attraverso un sistema si cerca di estrarre principi di traduzione (statistical) che vengono applicate a
nuovi testi.
 Cosa fa un traduttore automatico? Impara sia per sequenze di parole, tipicamente molto ristrette, si
va intorno ai trigrammi, sequenze predefinite: impara a tradurre questi pezzi linguistici in L1 nei
loro corrispondenti nella lingua target per ricomporli poi similmente alla lingua originale. La
traduzione statistica sfrutta esempi di traduzione per vedere come sequenze di queste parole si
traducono dalla L1 alla L2: capisce che questo sistema di traduzione è molto più frequente. I due
elementi che consentono la traduzione automatica sono: 1) grandi quantità di dati da cui imparare
2) più i nuovi testi da tradurre sono simili ai testi da cui ha imparato, meglio funzionano. Il sistema
funziona andando a capire quali sono i pezzi di traduzione legittimi in una certa lingua, e poi trova
pezzi simili a quelli su cui ha imparato, e migliori saranno le loro traduzioni. Essenzialmente, il
sistema si basa, dal punto di vista statistico, nell’andare a scoprire quelle che sono le traduzioni più
probabili di una stringa X nella lingua L1 e di una stringa Y nella lingua target. A questo punto
usiamo il language model della lingua target per ricomporre questi esempi di traduzione.
 In questo caso, non è molto diverso dal sistema delle translation memory: in questo caso, gli
esempi sono usati dal sistema per imparare principi di traduzione.
 È più facile fornire al sistema delle regole di trasformazione di strutture da una lingua all’altra
quando queste sono limitate. Il vantaggio dei sistemi di traduzione è la velocità di sviluppo, mentre
i sistemi a regole devono scrivere regole che trasformano le strutture dell’italiano all’inglese e
viceversa, al contrario, per i sistemi di tipo statistico, dal momento che loro imparano dagli esempi,
li fornirò esempi di traduzione. Non tutte le coppie di lingue si traducono nella stessa accuratezza
poiché non per tutte le lingue esistono gli stessi tipi di risorse che consentono agli algoritmi di
imparare.
 L’ultima generazione è quella di traduzione automatica a rete neurale. Essenzialmente, le reti
neurali sono algoritmi: si parte da corpora paralleli e gli algoritmi imparano la traduzione dalla L1
alla L2. Quello che fanno questi algoritmi è partire da corpora paralleli in cui viene presentata una
frase nella lingua input, c’è un encoder che trasforma questa frase in una rappresentazione interna
alla rete (numerica, insieme di numeri) e poi ce n’è un’altra che traduce questa sequenza di numeri
nella frase della lingua target. Com’è che questa rete impara a tradurre? Nella fase di
addestramento, sono presentate alla rete coppie di frasi: la frase source, alla rete viene chiesto di
generare una frase nella lingua target corrispondente, a questo punto gli viene presentata la
traduzione corretta ed il confronto tra la frase che ha generato la rete e quella che avrebbe dovuto
generare viene utilizzata come segnale che le strutture della rete devono essere in grado di
codificare.
 Processo di apprendimento error driven: le reti imparano sbagliando. Il punto di partenza è un
corpus parallelo. Ciò che fa la rete neurale è imparare in modo implicito quelle che sono le
associazioni più probabili nella lingua L1 rispetto alla L2. Vantaggi rispetto alla statistica? Sono più in
grado di memorizzare strutture linguistiche a lungo raggio: le reti neurali sono in grado di lavorare
su intere frasi, su sequenze lunghe. Imparano meglio traduzioni più fluide, a generalizzare dai dati
che hanno imparato. I metodi di traduzione automatica di tipo neurale richiedono molti tipi di testo
per poter imparare.
 Nella traduzione automatica rule – based si davano le regole per tradurre, nella automatica non c’è
questa cosa e quindi incappa più spesso in errori: la capacità di vedere dove la macchina sbaglia è
sempre più ridotta.
 La traduzione automatica di ultima generazione NON è intelligente: più esempi hanno visto, meglio
imparano a tradurre.

Lenci Appunti

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lenci Appunti

Caricato da

Copyright:

Formati disponibili

Lezione del 23 marzo

 Un altro tipo di parametro per descrivere il contenuto del corpus è la modalità:

Lezione del 30 marzo

Lezione del 14 aprile

Lezione del 20 aprile

 Vediamo un’altra concordanza, aggettivo “grande” (min. 30 – 31, 35 - 38).

Lezione del 21 aprile

 L’approccio interlingua sembra essere la soluzione a tutti i problemi (rappresentazione astratta

Potrebbero piacerti anche