TPT (Prof. Lenci)

Corso del prof.
Lenci
21/04/2022
TERMINI COMPLESSI
La terminologia si occupa di studiare le strutture e le problematiche di termini complessi.

I termini sono delle espressioni che possono essere formate da una o più parole che servono per esprimere
un concetto di dominio. Ad esempio, un particolare dominio potrebbe essere quello dell’energia, dove si
può trovare l’espressione “impianto per la produzione elettrica”, che esprime un particolare concetto e che
viene percepito come un elemento che ha una sua unitarietà → quello che interessa è preservare la forma
standard di questo termine, in quanto proprio il modo in cui è espresso è una convenzione all’interno di un
particolare dominio.
Perché i termini sono così importanti? Perché codificano la maggior parte dei concetti che troviamo in
qualsiasi dominio settoriale (agricoltura, medicina, arte, giustizia, ecc.). I concetti vengono espressi
soprattutto da termini complessi perché i termini lessicali monorematici sono limitati, i concetti che noi
dobbiamo esprimere sono molto più ampi e potenzialmente illimitati, quindi abbiamo bisogno di trovare
delle strutture che esprimono, attraverso la combinazione di elementi lessicali, particolari tipi di concetti.
Più sono specifici i concetti da esprimere, più saranno ampi e complessi i termini che utilizzeremo: ad
esempio, la parola “impianto” può esprimere tantissimi concetti, mentre “impianto per la produzione
elettrica” ne esprime solo uno.
I termini complessi sono altamente complessi e variabili, sono sempre creati in modo nuovo, perché nuovi
concetti e nuovi elementi vengono a essere parte di un determinato dominio di esperienza.
1
Il problema è che i termini, se da un lato esprimono in maniera multiforme e variabile i concetti di un
dominio, al tempo stesso devono essere anche fortemente convenzionalizzati. Ciò vuol dire che è normale
che ci siano modalità alternative per esprimere lo stesso concetto, ad esempio il termine “impianto dello
smaltimento dei rifiuti” si può esprimere anche con “impianto per la disposizione dei rifiuti” o “impianto
per l’eliminazione dei rifiuti” → lo stesso concetto lo possiamo trovare espresso con varie tipologie
linguistiche. Questo porta a due problemi:
1) dover essere in grado di identificare quando due forme linguistiche si riferiscono allo stesso concetto →
problema di sinonimia;
2) problema di normatività o convenzionalità delle forme → non tutte le forme equivalenti che esprimono
lo stesso concetto sono ugualmente accettabili all’interno di un dominio di una certa comunità, nel
senso che una certa comunità è normale che scelga uno dei termini come preferito, da usare in
determinati contesti, soprattutto quando questi contesti sono di tipo normativo, giuridico,
amministrativo, in cui c’è da tenere presente le convenzioni che devono sovrintendere a un particolare
tipo di espressione di un particolare concetto.
Questo a livello monolingue.
A livello multilingue, c’è il problema di capire come un determinato tipo di termine venga tradotto in
un’altra lingua, per due ragioni:
 non è detto che la traduzione letterale dei singoli elementi del termine porti a una traduzione plausibile
nell’altra lingua, perché molto spesso i termini perdono un certo grado di composizionalità, cioè
acquisiscono un significato maggiore della semplice somma dei loro termini;
 lingue diverse possono avere convenzioni diverse per esprimere un certo concetto, e addirittura ci
possono essere delle situazioni in cui il sistema di concetti di una lingua non contiene quel determinato
tipo di concetto di un termine → esempio: come si traduce “avvocato” in inglese, in inglese c’è una
distinzione tra barrister e solicitor, ma c’è anche la nozione di attorney. Questo dipende dal fatto che il
sistema legale anglosassone è di tipo diverso da quello codicistico continentale italiano, quindi certi
concetti non coincidono.
Questo significa che individuare i termini di un particolare dominio, le loro traduzioni corrette e accettate in
una comunità, è un elemento fondamentale per la traduzione. Quando si parla di termini, si parla di
elementi con un forte grado di convenzionalizzazione, che va al di là della convenzione semantica → è vero
che “impianto per lo smaltimento dei rifiuti” e “impianto per la disposizione dei rifiuti” sono
semanticamente identici, ma uno dei due termini può essere considerato quello accettato da una
comunità, per ragioni di prassi normativa, per ragioni di chiarezza (perché bisogna scegliere termini meno
ambigui possibile), e così via.
Quindi la terminologia è un ambito fondamentale nel processo traduttivo, soprattutto in domini di tipo
specialistico. Da qui il fatto che esistono dei repertori che si occupano di fornirci informazione sui termini
adottati da un particolare dominio, spesso che ne indentificano e cercano di descriverne i processi di
traduzione in altre lingue.
2
Ci sono 3 grandi famiglie di elementi, che si distinguono anche per la ricchezza del modo in cui vengono
rappresentati i termini e il loro significato. Quando si parla di termini e di lessico, non si tratta di una
semplice lista non strutturata. I termini sono organizzati in aree semantiche, i termini hanno anche relazioni
semantiche diverse tra loro (ad esempio quella di sinonimia). L’idea è quella di avere tutta una serie di
risorse che hanno il compito di fornire un vocabolario controllato di termini e concetti → ciò vuol dire che
ci forniscono un serie di termini che sono non ambigui (o almeno tali per cui i diversi significati del termine
sono esplicitati in maniera precisa), sono normalmente sanzionati da un’authority (che riguarda un
determinato dominio tematico o una determinata comunità e che sancisce quali sono i termini che devono
essere nei testi che possono essere accettati da quella comunità). Nelle forme più sofisticate questo
vocabolario controllato ci fornisce anche delle informazioni che riguardano le diverse relazioni semantiche
dei termini → immaginano il vocabolario controllato non come una lista, ma come qualcosa che è
altamente strutturato nei tipi di relazione tra i suoi elementi.
In ordine di complessità e di ricchezza espressiva, possiamo distinguere 3 tipologie di risorse di vocabolario
controllato:
1) repertori terminologici
2) thesauri
3) ontologie (o reti semantiche)
Dall’altro verso il basso, si vede un livello di complessità di elementi per quanto riguarda la
rappresentazione e l’organizzazione delle informazioni che riguardano gli elementi di questo vocabolario
controllato.
REPERTORI TERMINOLOGICI
I repertori terminologici sono l’elemento più semplice di un vocabolario controllato, perché si limitano a
fornire una lista di elementi, di termini (che possono essere organizzati in un certo dominio), che ci
forniscono una definizione del significato di questi termini:
 esplicitano il significato del termine (dando una glossa, una definizione),
 ci forniscono un’indicazione di quello che è il termine da usare, l’authority che l’ha autorizzato (ci dà
quindi un valore normativo indicando in quali forme questo termine deve essere usato),
 i repertori terminologici sono anche usati per indicizzare i documenti → è importante usare i termini
certificati in un particolare tipo di dominio nel processo traduttivo perché questo impatta anche il
processo di ricerca dei documenti stessi che vengono prodotti, nel senso che questi termini sono le
chiavi di ricerca primarie per andare a recuperare i documenti che sono stati tradotti. Il fatto che un
traduttore usi un particolare termine certificato da un’authority è anche garanzia del fatto che quel
documento può essere ritrovato usando la stessa chiave di ricerca ufficiale.
Un repertorio dei più famosi e usati a livello europeo è IATE, che è il repertorio terminologico ufficiale
dell’Unione Europea. È stato creato dalla divisione traduzioni della commissione europea, che è il più
grande centro di traduzione pubblico al mondo, proprio per la necessità che tutti i documenti ufficiali
dell’UE vengano tradotti in tutte le lingue dell’UE. Sono tra i più grandi produttori di traduzione, quindi
sono stati anche il motore della creazione di una serie di strumenti digitali per assistere nel processo
traduttivo.
IATE è un database terminologico dell’unione europea, multilingue, contiene più di 8 milioni di termini
(tutti gli ambiti tematici coperti dall’UE). Tutti i termini sono stati certificati da particolari tipi di authorities,
quindi giuristi, linguisti, traduttori, ecc.
3
È multilingue → per ogni termine ci fornisce la traduzione multilingue nelle varie lingue dell’UE.
Esempio di ricerca: “campagna vaccinale di massa”. Si ha prima il termine originale italiano, poi le varie
traduzioni possibili nelle diverse lingue di arrivo. Ci sono delle informazioni importanti, ad esempio c’è il
riferimento del termine, cioè dove è stato trovato, dove viene usato, ecc. Ci sono informazioni sulla
definizione del termine, si ha una glossa come in un normale dizionario. Viene indicata la fonte del termine.
Lo stesso tipo di informazione si trova anche per le altre lingue. Questo ci fornisce anche indicazioni sulle
diverse traduzioni che possono essere trovate di questo termine.
Altro esempio: “immunità di gregge”. In inglese può essere tradotto con herd community, ma in francese il
termine “gregge” scompare. Questo indica come un particolare termine viene tradotto.
I repertori terminologici hanno una sorta di organizzazione per dominio → in questo esempio il dominio
riguarda la scienza medica.
4
Nel caso di “smaltimento dei rifiuti” appartiene a un altro dominio, quello dell’ambiente. Anche qui
abbiamo le diverse traduzioni di questo particolare termine.
Un altro esempio sono gli acronimi → ci fornisce come un acronimo viene reso in altre lingue.
Questo strumento permette di avere solo un vocabolario controllato, la versione multilingue di un termine.
È quindi una fonte fondamentale per capire quale termine usare per esprimere un concetto.
Questi tipi di repertori lessicografici sono oggigiorno integrati nei sistemi di traduzione automatica e di
translation memories.
Tutti questi sistemi sono fondamentali per garantire delle traduzioni che abbiano una loro certificazione,
quindi l’uso di questi repertori non è solo un’opzione di ausilio al traduttore, ma è un must del traduttore:
questo è l’unico modo per garantire che queste tipologie di testi vengano tradotti in modo uniforme.
Quindi un repertorio terminologico è una lista di termini con delle definizioni e con la loro traduzione.
THESAURI
I thesauri sono più strutturati, ci forniscono più informazioni. Ci fanno vedere che il lessico non è
un’identità non strutturata, non è una lista di parole, ma ha una sua organizzazione interna.
I thesauri sono insiemi di termini che possono essere semplici e complessi, connessi attraverso varie
relazioni semantiche, che però sono limitate e standardizzate → tutti i thesauri utilizzano questo stesso tipo
di relazioni semantiche.
Nel caso dei repertori terminologici, non c’è una nozione di senso, così come nei thesauri. Questo perché
c’è la presupposizione che i termini debbano essere non ambigui, cioè il termine è scelto perché non è
ambiguo.
Che tipi di relazioni semantiche si trovano nei thesauri?
5
Nei thesauri si trovano relazioni gerarchiche, che nella terminologia dei thesauri vengono chiamate Broader
Term (BT) e Narrow Term (NT) e corrispondono alla distinzione tra iperonimo e iponimo.
 t1 BT t2 (vuol dire che t2 è un termine più generale di t1) → “autorità” è un BT di “autorità di gestione”.
 t1 NT t2 (vuol dire che t2 è un termine più specifico di t1) → “autorità di gestione” è un NT di “autorità”
Nel primo caso t2 è un iperonimo, nel secondo caso è un iponimo.
Ci sono altre relazioni chiamate associative o preferenziali. I thesauri ci forniscono informazioni sui sinonimi
di un termine e ci dicono che non tutti i sinonimi sono equivalenti, cioè che una delle varianti dell’insieme
sinonimico è da preferire rispetto agli altri.
Ad esempio la relazione UF (Used For) in cui:

 t1 UF (t2, …, tn) vuol dire che t1 è sinonimo di tutti i termine seguenti ed è il termine preferito per
l’indicizzazione → tra tutti quei termini, bisogna usare il termine a sinistra, quindi ad esempio
“assistenza al paziente”, “cure infermieristiche”, “cure mediche” sono considerati sinonimi, ma il primo
termine “assistenza al paziente” è quello da usare.
Questo deriva dal fatto che c’è una forte variabilità, cioè lo stesso concetto può essere espresso in modalità
diverse. Le origini di questa diversità sono convenzioni diverse di una comunità → le convenzioni
linguistiche sono entità sociali, soggette a mutamenti diacronici, che cambiano nel tempo, diastratici, ci
sono termini più elevati di altri, più tecnici di altri.
Qui però viene indicato il termine che l’authority considera da preferire ufficiale rispetto agli altri.
La relazione opposta è USE, che è il simmetrico di UF.
L’ultima relazione è RT (Related) che permette di individuare termini semanticamente associati o connessi:
 t1 RT (t2, …, tn) → il termine “biotecnologie animali” ha una relazione di RT con “animali”, “brevetti”,
“sperimentazione animale”, non sono sinonimi ma appartengono alla stessa sfera semantica.
6
Le principali organizzazioni internazionali hanno dei thesauri che rappresentano una sorta di deposito della
conoscenza di quel determinato dominio e del modo in cui gli individui di quella comunità hanno
concordato di esprimere.
Un esempio nel dominio dell’arte

è il thesaurus Getty AAT → ci
fornisce un’organizzazione di
termini del dominio artistico.
Esempio di ricerca: cathedral, ci
sono varie traduzioni nelle
diverse lingue e c’è
un’organizzazione gerarchica, i
termini più in alto sono termini
BT dei termini più in basso. Si può
vedere che cathedral ceilings è un
termine più ristretto di ceilings.
Nel dominio medico il più famoso thesaurus è UMLS → repertorio ufficiale di tutta la terminologia
dell’ambito delle scienze biomediche. produzione specialistica in ambito biomedico.
EuroVoc è un thesaurus multilingue prodotto dall’UE. È il thesaurus ufficiale dell’UE. Quindi l’UE ha un
sistema di vocabolari europei, con una serie di vocabolari controllati.
Esempio di ricerca: “rifiuti industriali” viene utilizzato per una serie di elementi (“effluenti industriali”,
“fanghi rossi”, ecc.), che sono considerati termini sinonimi. Però invece di “scarti industriali” è giusto usare
“rifiuti industriali” → relazione UF. C’è una relazione BT: “rifiuti industriali” è un NT di “rifiuti”. Ci sono
anche i termini RT: “inquinamento industriale” e “sottoprodotto metallico” sono semanticamente associati
al termine cercato. Poi c’è un sottodominio, quello dell’ambiente, in cui ci sono aree concettuali in cui sono
organizzati i termini.
Questo thesaurus quindi è una serie di gerarchie in tutte le varie lingue.
Quello che troviamo in un thesaurus è più ricco e strutturato, perché oltre alla traduzione ci fornisce le
diverse organizzazioni di tipo gerarchico.
7
RETI SEMANTICHE
Un livello ulteriore sono le reti semantiche. Ci forniscono delle informazioni aggiuntive su due livelli:
 informazioni che riguardano i sensi delle parole;
 arricchiscono il numero di relazioni semantiche che connettono le parole stesse.
I thesauri, così come i repertori terminologici, assumono implicitamente una sorta di rapporto 1:1 tra
concetto e termine, non esistono termini ambigui, cioè un concetto sta a un particolare tipo di termine. I
thesauri ci forniscono anche una sorta di accesso per concetto: quando andiamo a cercare un termine in un
thesaurus, quello che cerchiamo in realtà è un concetto; quando consultiamo un classico dizionario
facciamo ricerca per senso, ci fornisce tutti i possibili significati e usi di quella parola.
Uno dei modelli più sofisticati di analisi della terminologia lessicale di un certo dominio sono le reti
semantiche. Il prototipo di rete semantica è WordNet.
WordNet nasce per rappresentare il lessico monolingue dell’inglese americano, nasce come un lessico
generalista, non quello di dominio. Sono state fatte versioni multilingui di WordNet → lo stesso tipo di
architettura è stato espanso a livello multilingue, e viene utilizzato a livello traduttivo. Di WordNet sono
state fatte diverse versioni di dominio: esistono WordNet nell’ambito giuridico, medico, archeologico, ecc.
Quindi lo stesso tipo di organizzazione viene anche utilizzata per coprire particolari domini e varianti
linguistiche.
WordNet è un incrocio tra un lessico e un thesaurus → è una rete semantica (o rete concettuale).
WordNet è stato creato all’università di Princeton nella metà degli anni ’90 da parte di uno psicolinguista,
George Miller, e da una linguistica computazione e lessicografa, Christiane Fellbaum. L’idea di Miller era di
voler usare una metodologia tipica della psicolinguistica, quella delle reti semantiche, per rappresentate su
ampia scala il lessico di una lingua come l’inglese. WordNet ha avuto vari sviluppo, ne è stata creata una
versione europea (Euro WordNet), una asiatica, ecc → copertura amplissima di lingue.
Una rete concettuale è l’idea che noi esprimiamo il lessico come una rete i cui nodi sono concetti espressi
da termini lessicali, collegati da diverse tipologie di relazioni. Come nel thesaurus, possiamo vedere una
struttura a catena → la stessa relazione di iperonimia e iponimia è fondamentale in WordNet.
In WordNet ci sono due cose in più: noi rappresentiamo uno dei sensi di una parola, il fatto che una parola
possa esprimere più di un concetto, e le relazioni che legano questi concetti sono molto più ricche e più
ampie di quelle poche viste nell’ambito dei thesauri.
Se una rete concettuale è una rete i cui nodi sono concetti, come rappresentiamo i concetti? La soluzione di
WordNet è usare synset. Nella visione di WordNet un concetto è ciò che è espresso da parole sinonime,
cioè l’idea di rappresentare un concetto con un insieme di parole, chiamati synset, che esprimono un
determinato concetto e che quindi sono dei sinonimi. Synset = synonymy set (insieme di sinonimi).
Quindi ad esempio si può esprimere uno dei significati della parola automobile con un insieme di parole che
lo esprimono, cioè “automobile”, “macchina” e “auto”.
8
La convenzione è che normalmente i synset vengono rappresentati tra parentesi graffe. Un synset è un
insieme di parole sinonime e rappresenta un concetto espresso da queste parole.
Quindi se WordNet è una rete di concetti, se i concetti sono espressi da synset, WordNet è una rete i cui
nodi sono dei synset e i legami di questa rete sono relazioni tra synset.
Come si rappresenta il fatto che una parola abbia più di un significato? Se una parola ha più di un significato
vuol dire che esprime più di un concetto, quindi vuol dire che quella parola appartiene a più di un synset.
Ad esempio la parola “macchina” è ambigua: è un sinonimo di “auto”, ma vuol dire anche “macchinario”.
Quindi la parola “macchina” sarà associata a due synset (a due insiemi di sinonimi):
 il primo synset, {macchina, automobile} esplicita il concetto di macchina come auto;
 il secondo synset, {macchina, macchinario} esplicita l’altro significato di macchina come machine.
Un synset può rendere esplicito un concetto attraversi i diversi sinonimi che lo caratterizzano.
Esempio di ricerca: car. Ci vengono

date una serie di entrate, questo ci
dà l’idea che WordNet codifica i
sensi, ciascuna di queste righe è un
determinato senso della parola
(come un dizionario). Il senso è
rappresentato da un synset.
Accanto al synset c’è una glossa,
che è utilizzata per dare
informazione sul significato che
quel synset vuole rappresentare, e
viene dato anche un esempio.
WordNet è stato creato soprattutto per essere utilizzato dalle macchine, quindi come sistema
computazionale che aiutasse i sistemi automatici ad avere informazioni sui significati delle parole. Per
questo ha una doppia organizzazione: da un lato un’organizzazione leggibile dagli esseri umani, dall’altro
una struttura facilmente leggibile da sistemi computazionali.
9
Dai diversi synset di car si possono identificare diversi significati (“automobile”, “vagone ferroviario”,
“ascensore”). Ci sono delle relazioni per cui è possibile identificare iperonimi, iponimi e altre parole
associate ad essi. Se una parola ha più di un senso, si trova associata a più di un sysnet (come nel caso di
car). I synset non sono delle entità isolate, ma sono connesse ad altri synset, come in un thesaurus. Quindi
troviamo una relazione tassonomica, come si può trovare nel thesaurus: relazione BT e NT (si trovano i tipi
di macchine). WordNet non contiene solo parole singole, ma anche polirematiche, quindi termini
complessi.
Tra gli iperonimi, si trova l’iperonimo diretto car. Poi ci sono inherited hypernyms (l’auto è un tipo di veicolo
a motore, mezzo di trasporto, strumento, ecc.) → gerarchia.
WordNet è una gigantesca tassonomia che ha come nodo primario entità, e poi suddiviso in concetti
sempre più specifici.
WordNet è da un lato un thesaurus, dall’altro un dizionario: se cerchiamo “veicolo a motore”, wheeled
vehicle, è come se andassimo a cercare il concetto di veicolo a motore e ci permette di vedere anche quali
sono tutti i suoi elementi più specifici.
WordNet ci permette, a differenza dei thesauri, di fare delle ricerche onomasiologiche e semasiologiche →
ci permette di vedere come un concetto viene rappresentato in una lingua e come una parola si ripartisce
in diversi tipi di sensi.
Nel caso di car, si vedono altre relazioni, ad esempio quella di meronimia (che non si trova nei thesauri) →
sono relazioni di parte, cioè ci fornisce quali sono le parti dell’auto (acceleratore, airbag, specchietto
retrovisore, ecc.).
WordNet ci fornisce una struttura più ricca.
Gli elementi di WordNet sono synset, cioè insiemi di sinonimi. Se prendiamo l’esempio di bank, notiamo
che ci sono molti synset che contengono soltanto bank.
Ogni parola è sinonimo di se stessa. Il synset diventa uno strumento di rappresentazione del significato. La
nozione di sinonimia è abbastanza rara nel linguaggio, e non sempre è possibile esprimere un concetto di
una parola con sinonimi della stessa lingua. Quindi al di là della sua origine (un synset è un insieme di
sinonimi e un concetto viene espresso per parole sinonimiche), il concetto di synset è diventato poi uno
strumento per rappresentare semplicemente il significato di una parola all’interno di WordNet. Infatti,
quello che veramente conta dentro WordNet, non è il contenuto dei sinonimi, ma la posizione dei synset
nella rete dei concetti. La nozione di rete semantica sta in questo: una rete semantica è una rete che
10
rappresenta il significato di una parola grazie alla sua posizione all’interno della rete, perché questa
posizione è determinata dalle diverse relazioni che questa parola ha con altre parole → è una visione molto
saussuriana, del concetto di langue come sistema di relazioni tra elementi.
Quindi ad esempio il primo synset di bank è sloping land, ma poi si trova anche bank come “banco del
casinò”. Tutte e due queste parole hanno bank come unica parola.
Gli iperonimi di bank → mentre

nel primo synset bank è un tipo
di terreno inclinato, il secondo
senso è un topo di asset, cioè di
cose che si possiedono, è
addirittura un’entità astratta.
Quindi questo synset di bank
come riva geografica, banco del
casinò, sono in luoghi molto
diversi della nostra rete.
Dentro WordNet quello che conta non è tanto il contenuto del synset stesso, l’insieme delle parole che lo
formulano, ma le relazioni che questo synset ha con altre parti del lessico, quindi la sua posizione nella rete
semantica.
WordNet è una sorta di elemento

bicefalo, quindi ha una struttura sia
come dizionario che come thesaurus.
Altra caratteristica di WordNet rispetto
ai thesauri tradizionali → nei repertori
terminologici e nei thesauri si ha a che fa
con elementi di tipo nominale (nomi,
sintagmi nominale), nei WordNet si
trovano anche verbi, aggettivi, avverbi.
11
Aree del lessico diverse sono caratterizzate da relazioni semantiche diverse: nel campo dei nomi, le
relazioni fondamentali sono relazioni di tipo tassonomico, ma anche la relazione di olonimia (il tutto per
una parte) e meronimia (parte di). Al contrario, negli aggettivi la relazione fondamentale è una relazione di
antonimia: gli aggettivi noi li organizziamo spesso per rapporti di opposizione, ad es. “buono/cattivo”,
“veloce/lento”, mentre è difficile dire qual è l’iperonimo di “veloce” o “buono”. La relazione di iperonimia
trova una sua esplicazione nel dominio degli oggetti, ma non nel dominio delle proprietà.
Lo stesso nel caso dei verbi → qui la relazione di antonimia è fondamentale. Una relazione fondamentale in
WordNet è quella di troponimia (viene usata nel caso die verbi): verbo che esprime il modo di fare l’azione
di un altro verbo.
12
Esempio di troponimia: verbo walk.
C’è anche l’iperonimo, però la lista è
breve. I troponimi di questo verbo
indicano modi di camminare: es.
spacewalk, ambulate, ecc.
C’è anche l’antonimo: un opposto di
camminare è “correre”, o “andare su
un mezzo”.
La relazione di entailment è che se io
cammino, sto muovendo dei passi.
13
Esistono anche versioni multilingua di WordNet, in cui si può vedere come un concetto viene tradotto nelle
diverse lingue.
Di WordNet ce ne sono tantissimi, per le diverse lingue del mondo. Questo allineamento viene fatto a
livello di synset → questi multi-WordNet hanno preso i synset dell’inglese e li hanno tradotti nelle altre
lingue.
28/04/2022
Lessici e thesauri sono il risultato di un filtraggio e di un’analisi per mano di lessicografici, esperti e altro.
Spesso però si ha la necessità di guardare gli usi linguistici alla fonte; quindi, di consultare dati che siano il
più possibile realistici per quanto riguarda un determinato dominio, e ciò riguarda sia le traduzioni che
hanno a che fare con un linguaggio più generale, ma anche le traduzioni di testi specialistici. Si ricorre
all’uso di corpora per guardare e verificare usi linguistici.
I corpora → sono delle risorse digitali, ovvero collezioni di testi che forniscono informazioni per quanto
riguarda l’organizzazione e l’uso delle unità linguistiche. Una delle piattaforme più sofisticate per l’analisi e
la consultazione di corpora è Sketch Engine.
14
Esistono diverse tipologie di corpora che vengono classificati secondo i parametri di:
-generalità, (cioè se si tratta di corpora generici ad ampio spettro per quanto riguarda la capacità di
rappresentare una determinata lingua);
-modalità, (cioè si distingue tra scritto e parlato);
-cronologia,
-lingua, (dimensione mono o plurilinguistica).
TIPI DI CORPORA
Una prima differenza fondamentale è quella tra corpora specialistici e corpora generali.
Il discrimine tra queste due categorie è generalmente tenue:
Il corpus specialistico contiene testi di una determinata categoria, dove questa categoria può essere legata
a diversi parametri. Es. categoria di una particolare area semantica o dominio semantico (es. linguaggio
giuridico) oppure tipologie di corpora che hanno a che a fare con particolari parlanti che lo hanno prodotto
(es. corpora di linguaggio infantile, corpora di interazione tra adulto e bambini, corpora di apprendenti). O
ancora corpora che contengono determinati generi, (es. corpora di testi giornalistici).
Il corpus generale (o di riferimento) ha l’ambizione di essere trasversale rispetto alle diverse varietà di
lingua, di registro, di testo che esso contiene. L’idea di base è quella di essere un corpus che ambisce a
descrivere e contenere testi che rappresentano una lingua in senso generale (come per es. italiano,
britannico e tedesco).
Spesso queste dimensioni di generale e specialistico si sovrappongono, poiché un corpus può essere
specialistico per una certa dimensione, ma può essere generale per un’altra dimensione.
Es. Un corpus giornalistico, come quello dei testi della Repubblica, da un punto di vista del genere testuale
è un corpus specialistico contiene solo testi di tipo giornalistico, ci fornisce informazioni e dati su questa
particolare variante linguistica. La Repubblica, a differenza di testate come la Gazzetta dello Sport, è un
giornale generalista che tratta economia, politica, sport, cultura ecc. dal punto di vista dell’argomento è un
corpus di tipo generale. L’argomento influenza soprattutto il lessico che troviamo attestato in un
determinato corpus.
15
Altro criterio fondamentale è la sorgente, il medium con cui sono stati i testi. La maggior parte dei corpora
con cui andiamo a lavorare sono corpora del linguaggio scritto, di testi scritti che sono stati digitalizzati. I
corpora di parlato sono corpora che contengono trascrizioni di linguaggio parlato, sono però corpora di
dimensioni più piccole rispetto a quelli scritti per via della complessità di trascrizione. Esistono inoltre
corpora multimediali, quindi che contengono audio e video, come corpora che contengono interviste (es. il
Ted corpus che contiene i TedTalks), accanto alla registrazione video c’è la loro trascrizione.
CORPORA MULTILINGUE
Altro criterio con cui si classificano i corpora è la composizione linguistica del corpus. Quando andiamo a
lavorare su corpus bi-/plurilingue, bisogna tracciare una distinzione fondamentale tra corpora paralleli e
corpus comparabili.
I corpus paralleli contiengono uno stesso testo tradotto in più lingue, sono spesso allineati, nella versione
che viene consultata (sono allineanti a livello di frase o di paragrafo): ogni frase o ogni paragrafo di una
certa lingua viene collegata col suo traducente nella lingua L2.
I corpora paralleli sono importanti per due ragioni.
1) ci forniscono delle indicazioni di quelli che sono esempi di traduzioni che sono state realizzate. La
maggior parte di corpora paralleli sono di dominio specialistico. Ci forniscono una visione sinottica
di come particolari tipi di espressione sono tradotte in una o nell’altra lingua. Un corpus parallelo è
già una sorta di memoria di traduzione, una sorta di repertorio di esempi di traduzioni già fatte.
2) L’altra ragione per cui i corpora paralleli sono così importanti è perché su di essi si addestrano i
sistemi di traduzione automatica. I sistemi di traduzione automatica imparano a tradurre a partire
da corpora paralleli.
Sono diventati così importanti proprio perché forniscono una disponibilità maggiore abbinata ad algoritmi
sofisticati basati su modelli statistici o reti neuronali che ha permesso un salto di qualità della traduzione
automatica di ultima generazione. Bisogna però tenere distinti dai corpora paralleli i corpora comparabili,
contenenti testi in originale, quindi non in traduzione, ma aventi una composizione comparabile tra le
diverse lingue. Di fatto i testi sono stati selezionati in maniera tale da avere testi che hanno caratteristiche
comparabili o simili tra le diverse lingue. Per esempio, potremmo avere un corpus comparabile di
Facebook, in cui sono stati scaricati post in diverse lingue. La comparabilità implica la selezione di criteri
16
simili, es. simili fasci di tempi, lo stesso periodo, le stesse parole chiave. Ad esempio, un corpus comparabile
del linguaggio giornalistico potrebbe essere un corpus che in italiano contiene testi tratti dalla Repubblica, il
Corriere, la Stampa e in francese contiene testi tratti da Le Monde e Le Figaro, tipologie di giornali che sono
simili dal punto di vista della struttura. I corpora comparabili ci danno delle informazioni diverse dai corpora
traduttivi (paralleli), non ci da delle informazioni su come vengano tradotti certi elementi, ma ci permette
di fare delle analisi sul lessico nelle diverse lingue o modalità di descrizione di strutture nelle diverse lingue.
Esistono vari tipi di corpora paralleli. Bisogna tenere a mente che i c. paralleli richiedono di avere a
disposizione delle traduzioni. La maggior parte dei c. paralleli nasce da istituzioni che sono intrinsecamente
plurilingue. Sono corpora quindi che contengono testi di tipo specialistico, che vengono da istituzioni che
per statuto sono obbligate a produrre testi in traduzione.
Uno dei primi corpora paralleli è stato il Canadian Hansard Corpus, gli Hansard sono gli atti del Parlamento
canadese. Gli atti parlamentari canadesi sono scritti sia in inglese che in francese. Il Canadian Hansard
Corpus contiene 1,3 milioni di frasi che sono allineanti a livello di frase, o meglio di paragrafo.
L’allineamento fornisce delle informazioni specifiche, un ancoraggio a livello di frase. Esiste però anche un
allineamento a livello di parola, che ci permette di andare a indicare quelle che sono le parole e le loro
traduzione nelle altre lingue. L’allineamento a livello di parola presenta però delle problematiche: non è
detto che in una traduzione il rapporto della distribuzione delle parole sia 1:1, cioè una parola in una L1 può
essere tradotta in più parole o addirittura non essere tradotta nella L2. Spesso c’è una sorta di
disallineamento a livello di parola. Sarebbe meglio parlare di allineamento a livello di unità lessicale, per cui
un’unità lessicale può una parola semplice o una multi-word-expression (una struttura idiomatica, termine
complesso).
Molti più ampi e molto più usati sono altre tipologie di corpora paralleli.
Europarl (European Parliament Proceedings Parallel Corpus, 1996-2011) che offre traduzioni in molte
lingue. Nell’EU gli atti del Parlamento europeo devono essere tradotti in tutte le lingue ufficiali dell’unione.
Europarl contiene un corpus allineato di traduzioni. Include versioni allineate a livello di frase in 21 lingue
17
europee, l’inglese viene usato come lingua pivot, ossia ci sono allineamenti tra L1 e L2 ma passano
attraverso l’inglese. L’inglese fa da “hub”: francese > inglese > tedesco. Le traduzioni non sono state fatte in
tutte le lingue, ma sono state fatte passando per l’inglese. Europarl è importante anche perché su di esso
sono stati addestrati molti sistemi di traduzione statica. Europarl è da una parte un corpus specialistico se
andiamo a vedere la tipologia di testo, essendo anche parlamentari sono registrazioni di interventi che
sono sia scritti che fatti a braccio e successivamente trascritti. È caratterizzato da uno specifico registro
stilistico: europeese, un ibridazione tra le varie lingue nata una particolare terminologia burocratica. Però il
parlamento si occupa di diverse tematiche come medicina, diritto, guerre, quindi è un corpus abbastanza
generico perché tratta un ampio spettro di livelli.
Un corpus più ampio e recente è Eur- Lex, cfr. la matrice sulle slides. La matrice ci informa sulla quantità di
testi presenti nelle varie traduzioni in tutte le lingue, dove M sta milioni di frasi. Es. 12 M di frasi di testi
greci tradotti e allineati in bulgaro, i testi greci allineanti i lituani sono 15M. Le dimensioni sono abbastanza
simili, ma ci sono lingue in cui ci sono più traduzioni disponibili, per es. il croato ha un numero di testi
tradotti e allineati più basso rispetto all’inglese, all’italiano e al francese che hanno una disponibilità più alta
di testi tradotti e allineati.
La dimensione del corpus si calcola attraverso il numero delle parole (token), cioè il numero di occorrenze
delle parole che ritroviamo all’interno del corpus. La regola aurea è The larger, the better, ovvero la
18
dimensione del corpus conta nell’analisi che bisogna condurre. C’è una tendenza all’utilizzo di corpora
sempre più ampi.
I primi corpora generali digitali usati per riferimento ad uso linguistico compaiono nei primi anni ’60-’70 (il
Brown corpus), che contavano milioni di parole. I corpora di seconda generazione, come ad esempio il
British national corpus, contavano cento milioni di parole (anni ’80-’90). Oggi arriviamo a centinaia di
milioni di parole o addirittura nel caso di quelli di ultima generazione a miliardi di parole.
Una piattaforma molto ricca e avanzata è quella di Sketch Engine, nata dalla collaborazione anglo-ceca tra
l’università di Brighton e quella Brno finalizzata proprio per mettere a disposizione i corpora di moltissime
lingue per studi di tipo lessicografico e per traduzioni.
È una piattaforma con molte funzionalità, ci sono una grande quantità di corpora su lingue di tutti i tipi: es.
storici, brexit corpus, Covid corpus, child corpus, europarl. È presente anche i corpora OPUS2, è un corpus
che ha una funzione di sottotitoli di film, la sottotitolatura è un'altra metodologia per creare dei corpora
paralleli, poiché i sottotitoli vengono tradotti nelle varie lingue. I corpora dei sottotitoli sono molto più
vicini al parlato, sono dialoghi scritti.
Su sketch Engine è possibile vedere quante parole e token sono contenuti nel corpus. Il problema della
nozione di token è legato all’occorrenza e contiene cose che parole non sono come la punteggiatura (es.
virgola). Nei token possono essere inclusi anche i segni di punteggiatura. Per parole si intendono le
sequenze alfanumeriche. Il concetto di token è ambiguo, significa intrinsecamente occorrenza [es. Il cane
rincorre il gatto. Ho 2 token di “il”]. Nell’approccio linguistico computazione con cui sono elaborati questi
corpora, token indica una qualsiasi occorrenza di segni. I segni possono essere alfabetici, numeri o anche
punteggiatura. Un token è qualcosa che noi riteniamo unitario. In corpus di tweet potremmo trovare come
token parlamento e come altro token #parlamento. Sono considerati due elementi di tipo diverso e sono
trattate diverse.
Su Sketch Engine ci vengono fornite delle informazioni sulla tipologia di corpus. Ad esempio, Opus2 English
ci dice che è un corpus parallelo: English corpus of OPUS2 (open source parallel corpus).
Corpus Paisa (Italian web corpus) elaborato dall’Unipi e altri.
La consultazione di un corpus ci permette di vedere come vengono usate le parole. Ci forniscono diverse
informazioni in cui le parole ricorrono.
Nella ricerca di una parola possiamo anche selezionare part of speech, la categoria morfo-sintattica della
parola. Tutti i corpora sono lemmatizzati o post taggati, cioè sono stati annotati con la categoria morfo-
sintattica. Possiamo fare ricerche distinguendo tra le diverse categorie morfosintattiche, ad es possiamo
distinguere tra ‘amo’ come verbo e ‘amo’ come sostantivo, tra ‘diritto’ come sostantivo e ‘diritto’ come
aggettivo.
Es. diritto come nome e otteniamo le concordanze della parola diritto in formato KWIC (keyword in
context). La keyword è la parola che abbiamo ricercato e il contesto è a sinistra o a destra un certo span di
testo, ci permette di fare un’indagine come è usata la parola.
19
La parola è stata cercata per lemma e ci viene restituito le occorrenze della parola nelle forme flesse
‘diritto, diritti’. La frequenza del lemma diritto è di 74'519, cioè è il numero di volte che il lemma diritto
ricorre all’interno del corpus. Sotto abbiamo una stima della densità, ci dice che ci sono 278,5 occorrenze di
‘diritto’ per un milione di token, ovvero quanto è la percentuale media della probabilità di trovare il lemma
diritto all’interno di corpus formato da un milione di tokens. Ci mostra anche da quale testo viene tratto.
È bene ricordare che Paisa è un corpus di testo web che contiene informazioni scaricate dal web, es
Wikipedia altre fonti. Quella che vediamo nello screenshot è stata scaricata da un blog, ci viene fornito
anche il sito in cui è stato scaricato.
Left context e right context mostrano in che posizione si trova la parola nel testo. Possiamo ordinare per
contesto sinistro, es le informazioni possono essere ordinate appunto per il contesto sinistro.
Le occorrenze sono state ordinate per le occorrenze dei caratteri che stanno a sinistra. Le prime caratteriste
per cui sono stati ordinati sono le virgolette, perché questi sistemi usano il sistema informatico di
ordinamento (sistema basato sulle tabelle di caratteri, in cui prima viene la punteggiatura, poi i caratteri
maiuscoli e successivamente quelli minuscoli). Gli elementi che conteggiano la punteggiatura sono stati
messi per primi.
20
Possiamo scegliere anche diritto come aggettivo.
Opzione filtro
Il lemma diritto come aggettivo ricorre solo 487 volte nel corpus. Un’opzione interessante è quella di
filtrare le co-occorrenze a secondo della parole che gli stanno accanto
Ad esempio, voglio sapere quante volte la parola diritto compare con la parola cittadino, setto quale l’altra
parola che compaia entro 5 parole a desta della parola target (KWIC).
Le concordanze sono molte di meno si passa da 74519 ad un centinaio. Mostra i casi dove la parola
cittadino a destra di diritto. Le occorrenze di diritto nel corpus passano da 74519 a 174. Altro filtraggio per
range di diritto mostra ancora meno occorrenze della parola cittadino a sinistra (solo 84 occorrenze).
Questi sistemi utilizzano una metodologia di tokenizzazione molto semplice di organizzazione; infatti, frasi
idiomatiche come tirare le cuoia sono tre token o ad hoc sono due token. L’utilizzo dei corpora ci permette
di fare delle ricerche interessanti dal punto di vista delle occorrenze nei testi monolingue.
21
Un’altra funzione interessante di Sketch Engine è word sketch, ci offre una visione sinottica di tutte le
strutture in cui la parola appare. Ci fornisce una visione di tutte le costruzioni in cui un particolare termine è
inserito.
Per esempio ‘dei diritti umani’, il caso in cui diritto viene modificato da un aggettivo, o ancora diritto è
seguito dal sintagma preposizionale (pp_) ‘diritto di voto’. Ci mostra anche quando diritto si trova
congiunto ad altre espressioni: diritti e ‘doveri’. È una funzionalità tipica di Sketch Engine, a cui appunto si
deve il nome word sketch, in cui Sketch è una visione sinottica di tutte le costruzioni in cui un particolare
termine è inserito, per es. dato un nome i verbi di cui compare come complemento oggetto, come
soggetto. Prendiamo come esempio preN_V in cui diritto capita come oggetto del verbo (‘acquisire i diritti’,
‘detenere i diritti’ ecc..). Da notare anche come emergono sensi diversi di diritto, diritto come detenere
diritti di proprietà vs. difendere i diritti dell’uomo.
Su Eur-Lex abbiamo anche attiva la funzione parallel concordance, perché è un corpus parallelo ed è
possibile ricercare delle concordanze a livello parallelo (ci dice come una parola è stata tradotta in un’altra
lingua).
22
Ci dà come risultato le concordanze parallele: il testo originario in italiano in parallelo la versione inglese e
la versione in tedesco. L’allineamento è per paragrafo, per frase. Il sistema ci sottolinea la traduzione della
specifica traduzione diritto > ing. rights, ted. Stimmerechts. Stimmerechts è diritto di voto, non è la
traduzione diretta di diritto, ma è un composto in cui è inglobato anche Stimme (voto). Sketch Engine
lavora a livello di token, quindi elementi separati da spazi e ce lo riporta in questa maniera. Non trova
l’equivalente diretto di rechts e ci linka tutto il composto. Tutte queste forme di annotazione, la
lemmatizzazione, la part of speech e l’allineamento per parola vengono elaborati in maniera automatica. Ci
sono dei software che si occupano di allineamento attraverso degli algoritmi statici per andare a
identificare, data una coppia di testi, qual è la parola che traduce un’ altra parola nell’altro testo, però
bisogna aspettarsi una buona quantità di errore.
Diritto di voto è nel primo caso ‘voting rights’ e nel secondo caso ‘sul diritto del mare’ viene tradotto ‘on
the Law of the Sea’, per qui diritto è in altro senso.
23
Non c’è un corrispettivo diretto di ‘hanno il diritto di voto’ nel testo inglese (in questo caso noi lo
individuiamo in ‘are entitled to vote’) e quindi il sistema impazzisce e fa un link sbagliato. Un allineamento
funziona tanto meglio quando la stringa della L1 è simile alla stringa della L2 a livello di unità. Tanto più le
stringhe sono traduzioni libere e non letterali, tanto è più difficile l’allineamento.
Nella funzione parallela possiamo filtrare le occorrenze per la lingua sorgente.
Come possiamo notare la parola diritto è estremamente frequente, come in combinazione con umano,
siamo in un corpus specialistico. Si sono tradotti sempre diritti umani > in tedesco Menscherechte. Si
possono cercare anche per verbi, come per esempio difendere.
Le concordanze a livello multilingue ci forniscono delle informazioni sulle traduzioni e anche sul contesto
della traduzione, soprattutto in quale tipo di testo e frase quel determinato termine è tradotto.
Questo è un esempio
in cui il programma non
ha trovato un
corrispondente diretto.
[domanda in classe]
Questi corpora
dobbiamo immaginare che siano allineanti a livello di paragrafo e di frase, non dobbiamo trovare
allineamento di tutti gli elementi, ma sono di alcune parole ancora. L’allineamento viene fatto a livello di
ancore che vengono recuperate automaticamente, possono essere nomi propri, cifre, alcune parole note, le
24
quali permettono di stabilire ad un primo livello un allineamento di frase o di paragrafo. Una volta allineate
a livello di frase, vengono allineate a livello di unità lessicale. Nell’es riportato c’è il disallineamento tra la
parola che noi abbiamo cercato e la parola non realizzata nell’altra lingua. Tutto il processo
dell’allineamento è la base per la traduzione automatica, anche le translation memories fanno affidamento
sui corpora paralleli. Spesso troviamo corpora paralleli nelle memorie di traduzione.
**domanda sull’inglese lingua pivot: inglese solo in contesto europeo o anche a livello mondiale? Nel caso
mondiale viene usata come lingua pivot per la quantità di dati che ci sono a disposizione, ma anche perché
tuttora la maggior parte delle big companies che si occupano di traduzione automatica sono anglosassoni. I
leader della traduzione automatica oggi sono Google, Amazon, Facebook a livello di traduzione automatica
generalista. A livello di traduzione automatica specialistica, uno dei leader è l’UE, che ha un sistema di
traduzione automatica specializzata nell’europeese. Le altre sono tutte grandi compagnie che partono
dall’inglese, questa è una delle ragioni per cui le traduzioni da e per l’inglese nell’altre lingue funzionano
molto meglio rispetto a traduttori L1 ≠ da inglese L2 ≠ da inglese. Tutta la ricerca della linguistica
computazionale nella traduzione automatica è di stampo americano. La traduzione automatica nasce nei
anni 40-50 in America dal russo all’inglese nel contesto della guerra fredda. Dopo la caduta delle torri
gemelle si è sviluppato l’interesse per la traduzione arabo-inglese. La lingua pivot è stata determinata dalla
lingua che è stata fondamentale nello sviluppo delle tecnologie informatiche.**
Altro corpus parallelo di tipo generico è Opus2 Italian, a differenza di EUR-Lex ed Eurparl contiene lingue
extraeuropee, ad es. cinese, ebraico ecc.
È diventato uno dei corpus di riferimento della traduzione automatica anche lingue non eu. Una delle
ragioni per cui Google sta dominando la traduzione automatica nel mercato è la sua grande disponibilità di
testi bilingue, testi che nascono in Google stesso.
Bisogna però ricordare che un corpus, pur contenendo anche miliardi di parole, è sempre una porzione
finita di un sistema potenzialmente infinito, il linguaggio. Bisogna stare attenti perché il corpus va
interpretato come un campione di linguaggio, una finestra limitata a partire dalla quale dobbiamo
ricostruire la grande ampiezza delle strutture e della conoscenza della lingua. Uno dei criteri classi del
corpus linguistics da tenere presente è quello della rappresentatività, cioè un corpus idealmente deve
essere un campione rappresentativo di una determinata lingua, dovrebbe essere in grado quindi di tenere
traccia di quelle che sono le diverse tendenze, variabilità delle strutture della lingua. Il corpus dovrebbe
essere una sorta di modello in scala di una lingua nel suo complesso. Il criterio di rappresentatività è
abbastanza facile da ottenere se lavoriamo su corpora di tipo specialistico, che presentano un alto grado di
rappresentatività della lingua che vogliamo descrivere: es. Eur-lex non contiene tutta la legislazione
europea, rimane un insieme finito, però la legislazione europea ha un certo numero limitato di tipologie.
Questo corpus avrà un elevato grado di rappresentatività delle tipologie di elementi che compongono la
terminologia linguistica europea.
La lingua però è sempre dinamica, per es. Con l’arrivo della pandemia anche la terminologia è cambiata e
nuove parole sono entrate a far parte del lessico. Il corpus è una sorta di fotografia di uno stadio della
lingua da una certa angolatura, dal momento in cui abbiamo scattato la fotografia il tempo e il luogo
possono cambiare, possono comparire e uscire di scena degli elementi. Se abbiamo dei corpora generali, il
grado di rappresentatività è ancora più difficile da ottenere, se siamo interessati a lavorare sul corpus della
lingua inglese è molto più difficile crearne uno che sia altamente rappresentativo, poiché la lingua inglese è
25
una realtà dalle mille sfaccettature (romanzi, giornali, parlato, scritto, saggistica).
I corpora generali hanno un grado di rappresentatività minore rispetto a quelli tecnici. Molti corpora
generali sono bilanciati, ovvero un corpus che contiene testi di tipologie diverse, in maniera tale che la loro
distribuzione all’interno del corpus sia il più possibile equilibrata rispetto a quella che è la presunta
struttura della lingua nel suo complesso. Un corpus bilanciato è non quello che contiene solo una data
tipologia di genere testuale, sono sbilanciati Paisa, Europarl.
Un classico esempio di corpus bilanciato è il British National Corpus creato per scopi lessicografici in
partecipazioni di case editoriali come la Oxford University Press e altre, interessate per la produzione di
dizionari ad un corpus di riferimento della lingua. All’interno del BNC troviamo testi scritti, trascizioni di
testi della lingua parlata, appartenenti a domini diversi.
26
A dispetto di tutte le affermazioni di bilanciamento bisogna ricordare che un corpus non è mai
perfettamente rappresentativo della lingua. Noam Chomsky è sempre stato un grande oppositore dell’uso
dei corpora, nel 1962 affermò «Any natural corpus will be skewed» = Ogni testo sarà sbilanciato. Bisogna
sempre tenere a mente che sono frammenti parziali, incompleti del linguaggio. È destino di ogni corpus,
anche quello costituito seguendo tutti i crismi della rappresentatività, di essere dei modelli fuori scala,
ovvero normalmente finiscono per mancare costruzioni lessicali importanti, ma possono essere anche
presenti eccessivamente strutture sono poco importanti nell’uso.
Si prenda ad esempio il corpus ItaWaC (corpus molto grande di testi web), se si va a cercare quelli che sono
gli oggetti che più frequentemente ricorrono dopo il verbo strisciare (PostV_N), il nome più frequente è
notizia, non ci da nessun tipo di dato sulla rappresentatività nell’uso. Ci dà una rappresentazione
deformata. Sempre andando a cercare su ItaWac il lemma prendere tra le parole più frequenti che seguono
troviamo: sopravvento, spunto, atto, decisione ecc.. Sono strutture semi-idiomatiche, l’uso di prendere
come verbo supporto (strutture in cui si ha un verbo generico come fare, prendere, dare e un sostantivo su
cui pende la carica semantica). L'uso letterale di prendere come prendere un taxi, prendere una pillola,
prendere un treno è molto più basso nella frequenza. L’uso molto più frequente nel linguaggio è di tipo
semi-idiomatico.
27
Non bisogna mai fidarsi quando ci viene detto che il corpus è bilanciato, rappresentativo. Come afferma la
lessicografa Atkin: “Knowing that your corpus is unbalanced is what counts”. Qualsiasi corpus è frutto di
vincoli pragmatici che portano alla sua costruzione, es. temporali, di budget (la possibilità di fare
investimenti, acquistare testi), legati alla reperibilità dei testi (perché o coperti da copyright, o non
digitalizzabili).
Una volta costruire corpora di Facebook era più semplice, dopo Cambridge Analytica FB ha cambiato le
policy di accesso all’utilizzo di dati; mentre è più facile ad accedere ai dati di Tweeter e quindi si avranno più
corpus legati ad esso.
Quello che conta è sapere cosa c’è dentro il corpus, bisogna sempre stare attenti quando si va a cercare
una determinata occorrenza di parola e controllare da che testo è stata tratta.
04/05/2022
I corpus vanno sempre contestualizzati per quanto riguarda i tipi di testi che li compongono.
Molti dei corpora di grandi dimensioni nascono per un doppio scopo:
1) scopo applicativo → ad esempio i corpora paralleli sono usati per sviluppare sistemi di traduzione
automatica;
2) come fonte di dati.
C’è stato un cambio di passo nel modo di guardare ai dati di corpora: mentre nelle prime generazioni di
corpora, come nel British National Corpus, c’era l’idea di usare grandi metodologie per cercare di
massimizzare la rappresentatività del corpus, ad esempio scegliendo tipi di testi molto diversi per cercare di
coprire lo spettro degli usi linguistici. In realtà è invalso poi un certo scetticismo nei confronti della
possibilità di avere dei corpora che siano rappresentativi di una lingua generale → questi sono corpora
generali, ad ampio spettro; su corpora specialistici è più facile ottenere delle strutture rappresentative. Con
i corpora generali la rappresentatività è più difficile.
Kilgarriff e Grefenstette in un lavoro del 2003 dicono che al di là di domini specializzati e molto ristretti noi
non sappiamo di cosa possono essere rappresentativi i corpora esistenti. Se noi vogliamo sviluppare un
corpus dell’inglese generale, come il BNC, vorremmo che fosse rappresentativo dell’intero inglese, quindi
dovremmo anche definire cosa si intende per popolazione linguistica dell’inglese, quali sono tutte le
tipologie di eventi della lingua di cui dovrebbe essere campione il corpus. Il problema è che definire le varie
tipologie di testi che possono comporre la lingua inglese nel suo insieme è impossibile o comunque
estremamente difficile.
Soprattutto derivata anche dall’uso di corpora in una dimensione più applicativa, è invalso una prospettiva
molto più pragmatica che privilegia la quantità sulla qualità → la cosa più utile è avere tanti dati a
disposizione, piuttosto che essere preoccupati di criteri di bilanciamento (che possono massimizzare la
presenza nel corpus di testi di varia natura).
28
Anche con le tecnologie attuali, certe tipologie di testo non sono disponibili, ad esempio per problemi di
copyright: i libri sono tutti coperti da copyright, anche i giornali. Quindi ci sono tipologie di testi impossibili
da raccogliere dentro i corpus. Altri testi possono essere non digitalizzati, quindi si dovrebbe fare tutta la
digitalizzazione dei testi. Il risultato è che se vogliamo avere grandissime quantità di testo, l’unico modo è
rivolgersi là dove queste grandi quantità di testo sono disponibili a poco prezzo e facilmente recuperabili.
L’unica fonte che ci dà questa possibilità è internet.
Da un lato c’è l’idea che more data is better data, cioè i dati migliori sono quelli che vengono in grande
quantità. La fonte primaria dove recuperare i dati è quella dove i dati sono già in formato digitale, cioè il
web. Perciò, dall’inizio degli anni 2000 in poi la stragrande maggioranza dei dati che si trovano sono già
digitalizzati e provengono dal web, soprattutto i corpora di più grandi dimensioni.
Ci sono due modi per utilizzare il web come corpus (→ idea di utilizzare il web come un grande corpus): uno
che è andato di moda per un certo periodo e tendiamo a usare anche ora in maniera più informale, cioè
quello di usare il web come un corpus in cui cerchiamo dati linguistici usando i motori di ricerca, ad es.
Google → abbiamo bisogno di informazione sull’uso di una particolare espressione linguistica, prendiamo
Google, ci mettiamo un’espressione e utilizziamo anche il numero di hits (di risultati) che il motore di
ricerca ci restituisce come una sorta di stima della frequenza dell’espressione linguistica. Il problema è che
questo tipo di uso diretto dei motori di ricerca come fonte dei dati linguistici, che è andato di moda per
molto tempo, è pericoloso, non affidabile.
29
Kilgarriff pubblica un articolo nel 2007, Googleology is bad science: secondo Kilgarriff l’uso dei motori di
ricerca per raccogliere dati linguistici deve essere fatto con cautela e non è sempre affidabile. Questo per
varie ragioni:
- quando facciamo una ricerca su internet, abbiamo sempre a che fare con un algoritmo, di cui non si
conoscono le strutture interne, che ci fornisce dei risultati che sono falsati o guidati per ragioni
commerciali → questo significa che i risultati che otteniamo sono fortemente dipendenti dal
motore di ricerca;
- inoltre questi dati sono quasi sempre non replicabili, cioè se usiamo la stessa parola in due giorni
diversi sullo stesso motore di ricerca possiamo trovare risultati diversi → questo perché questi
algoritmi si basano su un processo di indicizzazione di ricerche che è in continuo divenire, cambia
continuamente.
L’altra cosa a cui bisogna stare attenti è che nel web c’è di tutto. Quando facciamo una ricerca su Google
non sappiamo neanche se quello che andiamo a cercare sia stato prodotto da un parlante nativo o no, il
web contiene oggigiorno grandi quantità di testi tradotti automaticamente, quindi non sappiamo se sia un
testo stato tradotto da un essere umano o da una macchina → poco controllo.
30
L’altro modo è costruire corpora scaricando automaticamente pagine web. Anche qui avremmo problemi.
Ma questo ha una serie di vantaggi, perché ci sono programmi chiamati Web Crawlers che permettono di
scaricare pagine web su cui si possono imporre determinati tipi di controlli (sull’indirizzo, sul tipo di
linguaggio, si possono anche fare dei controlli per quanto riguarda il contenuto in quanto questi programmi
permettono di scaricare materiale dal web usando parole chiave che permettono di selezionare il tipo di
contenuto con cui abbiamo anche fare).
Il web è una fonte di dati fondamentale per la creazione di corpora contemporanei perché è abbondante di
materiale monolingue e multilingue, quindi è facilissimo assemblare corpora di grandi dimensioni in poco
tempo. Inoltre abbiamo anche una serie di tipologie di testi che fanno parte di quel particolare registro che
è la lingua del web stesso.
Il web ha poca rappresentatività rispetto alla lingua, è al massimo rappresentativo della lingua del web: il
modo di scrivere sul web appartiene a un particolare sottoinsieme, i testi appartengono a un particolare
registro linguistico. D’altro lato, la lingua del web ha altri vantaggi: è più vicina a quella parlata, quindi se
abbiamo bisogno di dati linguistici che riguardano non domini specialistici ma più prossimi alla lingua
parlata i corpora web sono una delle modalità più rapide con cui costruirlo.
31
I corpora contemporanei sono tutti fatti di testi web.
Sketchengine.eu → molti dei corpora che troviamo, ad esempio corpus italiano, sono corpora web.
Uno dei più grandi è Ten-Ten che è un corpus che conta circa 12miliardi di parole, tutti di testo scaricato dal
web.
La stragrande maggioranza di dati digitalizzati è fatta di questo tipo di testo. Il che è un problema perché
finisce che la nostra analisi è di tipo web-oriented e tutti i nostri dati sono orientati verso un tipo di
linguaggio che ha delle specificità.
32
C’è un altro problema di cui bisogna tenere conto.
Questo è un corpus bilanciato, Colfis, sulle abitudini dei parlanti, quindi contiene libri, quotidiani, periodici
→ circa 4 milioni di parole token. Se lo confrontiamo col corpus di Repubblica è l’unico corpus giornalistico
di grandi dimensioni esistente per l’italiano, circa 380 milioni di parole. Mentre Paisà è un corpus web.
Ma quelle dimensioni spariscono se confrontate con itWac, che contiene 1.6 miliardi di parole, e itTenTen
che ne contiene 2.6 miliardi.
33
Il corpus Google arriva a 40 miliardi di parole. C’è stata una crescita esponenziale di testi su cui fare le
ricerche. Una delle cose da chiedersi è se è necessario questo ampliamento esponenziale dei dati su cui
andare a lavorare. Più grande è il corpus più è difficile lavorarci sopra.
I corpora sono annotati, ad esempio lemmatizzati, oppure sono annotati con la parte del discorso. In
corpora di grandi dimensioni tutto questo è fatto in maniera automatica, è fatto con strumenti che, seppur
con prestazioni che sono molto migliorate, commettono errori (questi errori su 100 parole ne sbagliano 1,
su 2 miliardi di parole c’è un alto tasso di errori quindi). Questo significa che questi corpora hanno anche
tanto rumore di cui tenere conto.
Perché lavorare su questi corpora di grandi dimensioni? In parte è legato alle possibilità maggiori che
abbiamo, più testo, computer più potenti, strumenti più sofisticati. Ma perché dobbiamo usarlo? Dobbiamo
farlo perché bisogna sempre tenere presente un aspetto che caratterizza i corpora e il modo in cui le parole
sono distribuite all’interno dei corpora.
34
La caratteristica fondamentale dei dati linguistici è che la distribuzione delle frequenze segue la legge di
Zipf → è un’ipotesi teorica che è stata introdotta da un linguista, George Kingsley Zipf, nel 1949. Egli prese
dei libri (nel ’49 lavorava su poche quantità di dati), in particolare lavorò su Alice nel paese delle meraviglie,
e andò a calcolare la frequenza delle parole: per ogni parola ne calcolò la frequenza ordinandole per
frequenze discendenti. A questa serie di frequenze discendenti assegniamo un ordine, un rango: rango 1 è
la prima parola più frequente, rango 2 la seconda e così via. C’è un punto in cui le parole cominciano a
ricorrere lo stesso numero di volte, ma è indifferente l’ordine in cui vengono messe, l’importante è che
venga dato un rango di numero diverso.
Zipf fece vedere che la frequenza della parola è inversamente proporzionale al suo rango: f(z) = C/za → se
prendiamo z (il rango di una parola), la sua frequenza è uguale al rapporto tra la costante C e il rango stesso
elevato a un’altra costante a. La costante C è una costante che è equivalente alla frequenza più alta che
ritroviamo in un corpus: se la parola più frequente ricorre 10.000 volte, C = 10.000. a è un indice che
approssima a 1, quindi si può anche ignorare.
Se z è rango, allora vuol dire che la parola più frequente ha frequenza massima C. La parola di rango 2,
quindi la seconda parola più frequente, avrà una frequenza che è la metà della frequenza della prima
parola. La parola di rango 3 avrà frequenza un terzo della frequenza massima.
All’inizio abbiamo parole che ricorrono con frequenze molto alte, ma queste frequenze calano
drasticamente. La legge di Zipf predice che dentro un testo la seconda parola più frequente ha già
frequenza dimezzata rispetto alla prima. Man mano che le frequenze scendono, la discesa delle frequenze
rallenta: la differenza che c’è tra la parola di rango 1 e la parola di rango 2 è più grande che tra una parola
di rango 1000 e parola di rango 1001.
Quindi Zipf trova che le frequenze di un testo hanno questa distribuzione:
In un grafico in cui si usa il logaritmo delle parole abbiamo questo andamento, una sorta di retta.
La curva spessa è la distribuzione frequenza per rango all’interno del British National Corpus; la retta sottile
invece è l’andamento predetto dalla legge teorica. L’andamento si sovrappone abbastanza bene, tranne
che in testa e in coda delle parole.
La conseguenza fondamentale della legge di Zipf è che in un corpus , ad esempio nel BNC, abbiamo poche
parole, quelle in alto, che hanno frequenze altissime, e abbiamo una grandissima quantità di parole che
hanno frequenze molto basse. Questo significa che le frequenze delle parole sono diverse dalla
distribuzione normale: misurando l’altezza delle persone in un gruppo, la maggior parte delle persone
hanno un’altezza vicina al valor medio, ci sono persone che hanno un’altezza elevata o molto bassa, ma
sono comunque una minoranza, quindi la stragrande maggioranza delle persone hanno un valor medio. Se
tracciassimo una curva, si formerebbe una curva a campana, in cui l’apice della campana si avvicina alla
media, mentre le parti in basso sono i valori estremi.
35
I dati linguistici in un testo si distribuiscono in maniera completamente diversa: ci sono poche parole ad
altissima frequenza e un’enorme quantità di parole che ricorrono pochissime volte.
Man mano che il rango aumenta troviamo parole molto poco frequenti, fino agli ultimi gradoni che sono le
parole che ricorrono una volta sola.
Quello che la legge di Zipf ci dice è che da un lato abbiamo poche parole con frequenze enormi → queste
parole sono quelle funzionali (congiunzioni, preposizioni, articoli, ecc.), un verbo come “fare”, “prendere”,
“dare”, aggettivi come “buono”, “cattivo”, nomi come “persona”, “cosa”. A fronte di questi grandi giganti
che ricorrono una quantità enorme di volte, troviamo una grandissima quantità di parole ricorrono a
frequenze bassissime. Qui però ci troviamo da un lato degli errori, come semplici errori di battitura, ma ci
troviamo anche delle parole interessanti ma che sono rare e ricorrono pochissime volte.
In un corpus i dati sono distribuiti in questo modo. Si potrebbe pensare che si hanno questi risultati perché
Alice nel paese delle meraviglie è piccolo. Ma se prendo un corpus di miliardi di parole, la distribuzione non
cambia: se prendiamo corpora più grandi, la distribuzione di dati non cambia.
I gradoni sono gli hapax, sono le parole che ricorrono una volta sola, o due o tre volte.
Nella slide abbiamo 4 corpora:
- Brown Corpus → 1 milione di parole
- BNC → 100 milioni
- Wikipedia → 400 milioni
- ukWaC: 1.8 miliardi
In tutti questi casi la distribuzione è identica.
Questo fenomeno si chiama fenomeno dell’invarianza di scala: se prendiamo dati a scali di grandezza
diversa la distribuzione rimane identica.
Quello che ci fa vede la legge di Zipf è che comunque grande sia il corpus, avremo sempre la stessa
distribuzione: poche parole che ricorrono tantissime volte e enorme quantità di parole che ricorrono
pochissime volte.
La legge di Zipf è interessante perché condiziona il modo in cui possiamo andare a lavorare sui dati di un
corpus. Anche se il Brown Corpus contiene 1 milione di parole, ci sono tantissime parole che non sono state
viste dai programmi, e che verranno aumentate con il BNC. Quindi man mano che aumento le dimensioni ci
sono sempre nuove parole che entrano nel corpus e che non ho visto prima. Il BNC avrà tantissime parole a
bassissima frequenza. Passando da 100 milioni a 400 milioni, delle parole che prima ricorrevano 2 volte
ricorreranno 100 volte, però al tempo stesso ho imbarcato un’enorme quantità di nuove parole che
ricorrono a bassissima frequenza. Se passo a 1 miliardo, lo stesso.
36
La conseguenza di questo è che:
- il linguaggio è un sistema aperto, quindi i corpora sono campioni limitati. Anche con 1 miliardo di
parole non si può campionare l’intero spettro della popolazione linguistica, quindi ci sono sempre
enormi quantità di cose che nei corpus non si vedono;
- il linguaggio è un sistema che continua a creare nuove parole, quindi quello che non troviamo in
corpus non siamo sicuri che non sia possibile → il fatto di non aver trovato qualcosa in un corpus
non esclude la possibilità che questo sia possibile;
- per quanto grande sia il corpus, abbiamo sempre una grandissima quantità di elementi su cui
abbiamo pochissimi dati linguistici perché le frequenze sono bassissime, quindi l’unica strategia che
ho per aumentare l’evidenza linguistica su cui fare le mie analisi è aumentare le dimensioni del
corpus, perché in questo modo dati che avevano poca attestazione prima magari hanno una
maggiore attestazione successivamente.
La legge di Zipf ci dice che i corpora sono pieni di dati rari, su cui abbiamo poche evidenze a disposizione, a
fianco di altre tipologie di dati di cui abbiamo quantità smisurate di evidenza.
In Colfis, i lemmi con frequenza > 50 sono solo il 6% di tutti i lemmi, sono circa 5000. In Repubblica sono
l’8% e in itWaC sono il 3%, però il numero è più alto.
I lemmi che hanno frequenza maggiore a 100 sono in quantità minore: Colfis 3%, Repubblica 6% e itWaC
2%.
Questo significa che i dati nei nostri corpora sono rari, abbiamo poche con un numero consistente sul cui
uso abbiamo tanta evidenza. Quindi si continua ad aumentare la dimensione dei testi dei corpora per avere
più evidenza a disposizione. Paradosso → da un lato abbiamo bisogno di aumentare i testi a disposizione
per avere più evidenza, quindi li prendo dal web, che però significa indirizzarsi verso un linguaggio specifico
che esclude gli altri (magari non troviamo parole comuni solo perché il testo fa parte di un linguaggio
specifico). Questo ci suggerisce cautele che dobbiamo usare quando usiamo risorse digitali come i corpora
per fare analisi di tipo linguistico.
37
Il Google Books Corpus è il risultato dello sforzo di Google di digitalizzare grandissime quantità di testi per
creare una sorta di biblioteca digitale universale. Google non ha digitalizzato tutti i libri (per ragioni di
copyright): i dati che troviamo sono un sottoinsieme di libri.
Il Google Books Corpus ha vari vantaggi:
a. è un corpus multilingue;
b. è uno dei pochi corpora diacronici multilingui, in cui sono possono fare ricerche anche in fasce
temporali e vedere come l’uso delle parole cambi a seconda dell’epoca;
Il Google Books corpus viene abbinato con una particolare di esplorazione, il Google Books Ngram Viewer,
che permette di esplorare la dinamica di dati → l’idea è quella di sfruttare il Google Books Corpus per
vedere come l’uso delle parole cambia nel tempo come indicazione anche per studi di tipo socioculturale,
cioè è una risorsa per la culturomics (vedere come il pensiero cambia andando a vedere come le parole
sono usate all’interno dei testi, come cambia un certo concetto sulla base dell’uso delle parole che
esprimono quel concetto in una determinata lingua).
Ci permette di fare esplorazioni di tipo diacronico, andando a vedere come cambia la distribuzione delle
parole nei testi. È un classico esempio di corpus comparabile, perché contiene tutti libri.
Sul sito si può selezionare la fascia, ad esempio per l’inglese si ha una fascia che va dal 1800 al 2019, quindi
una bella sezione diacronica. Se cerchiamo per l’italiano “guerra fredda” ci dà la distribuzione di frequenza
del termine nei diversi libri nelle fasce temporali. Più è alta la curva più è frequente quel termine nei testi di
quel periodo. In realtà non è una vera frequenza, ma si chiama densità, una sorta di frequenza relativa.
Il termine “guerra fredda” si vede che comincia a comparire alla fine degli anni 1940, ha un picco negli anni
2000 e poi ridiscende.
38
Parola cercata: “terrorismo”. In Italia il terrorismo inizia soprattutto negli anni ’70, finisce negli anni 2000,
poi c’è un altro picco che si riferisce al terrorismo internazionale. Quindi posso andare a vedere la
distribuzione delle parole come cambia nei testi.
Possiamo vedere anche in quali testi compare.
Si possono fare ricerche anche in base a strutture sintattiche: quando qualcosa compare come soggetto,
come complemento oggetto, e così via.
Come studiare i contesti in cui ricorrono le parole per avere informazioni sul loro uso e significato.
I termini di dominio sono un fenomeno riconosciuto sotto il termine di collocazione → i termini sono delle
espressioni complesse, fortemente convenzionalizzate, che appartengono a un determinato dominio e
registro linguistico. Se prendiamo un thesaurus o un lessico di qualche tipo, questi sono già il risultato della
scelta del lessicografo o del terminologo, ma noi vorremmo cercare anche questi tipi di espressione
all’interno di un testo: quali sono le espressioni più tipiche che ricorrono con la parola “diritto”, quali sono
quelle che ricorrono con un aggettivo come awful. Quindi vogliamo vedere come utilizzare i contesti in cui
le parole ricorrono all’interno di un corpus per avere informazioni sull’uso e il significato, nell’idea che ci sia
rapporto stretto tra uso della parola e la sua interpretazione linguistica. Questo tipo di approccio fu
39
inaugurato dal linguista inglese John Rupert Firth, negli anni ’50, che introdusse il termine di collocazione
l’idea che per capire il significato di una parola è necessario andare a vedere i contesti in cui essa ricorre e
le altre parole con cui ricorre. A seconda del tipo di contesto in cui questa parola ricorre, posso derivare
anche diversi sensi della parola.
È fondamentale avere dei metodi che ci permettono di esplorare i contesti linguistici in cui le parole
compaiono, perché questo ci fornisce dati di prima mano sul modo in cui le parole sono usate nei testi e ci
guida verso il loro significato.
Ci sono due tipi di metodi da utilizzare:

 Metodi qualitativi → quelli delle concordanze, che ci permettono di andare a trovare esemplari
linguistici dell’uso della parola. Il problema delle concordanze è che ci danno tuti i contesti in cui
una certa parola è stata trovata all’interno del corpus ma non ci permettono di fare delle
generalizzazioni, quindi capire se ci sono degli usi più tipici degli altri. Per questo abbiamo bisogno
di metodi quantitativi.
 Metodi quantitativi → ci permettono di andare a identificare i contesti più prototipici di una parola
e ci permettono di identificare gli usi più idiomatici.
Quindi abbiamo bisogno sia di corpora che ci danno esempi interessanti sull’uso di termini, ma anche che ci
permettono di avere dati quantitativi affidabili per capire quali usi sono più prototipici e quali meno.
40
Preferenze combinatorie delle parole → come identificare combinazioni di parole che sono significative sul
loro uso e che possono essere la fonte di partenza di termini tecnici di un certo ambito o di espressioni più
tipiche con cui una determinata parola ricorre.
05/05/22
Per capire il concetto dell’associazione di parole bisogna pensare che ci sono diverse modalità che
definiscono le potenzialità combinatorie dell’espressione linguistica. Ci sono alcune potenzialità
combinatorie determinate da tratti generali (morfosintattici, semantici) delle parole: parole che si
accompagnano ad altre parole in virtù del fatto che esse appartengono a determinate classi. Ad esempio la
frase “Gianni ha visto un topolino grigio” → il fatto che “grigio” si combini con “topolino” dipende da tratti
generali di queste parole, cioè topolino è un nome concreto, grigio è un aggettivo di colore. La possibilità di
combinarsi di quest’espressione è determinata non da quel lessema specifico ma dai tratti più generali che
quel lessema condivide con altri lessemi della lingua. Il fatto che questa combinazione sia determinata da
tratti generali p quello che rende possibile il fatto di sostituire alcuni di questi elementi con altri che
appartengono alla stessa classe → possiamo immaginare queste classi come classi paradigmatiche per cui
gli elementi di queste classi possono essere sostituiti da altri e ottenere altre combinazioni (es. “Gianni ha
mangiato la fragola rossa”).
Ci sono altre combinazioni lessicali che si basano su dei legami che non sono descrivibili in modo netto, non
sono riconducibili a classi linguistiche generali → sembrano combinazioni che sono specifiche di particolari
termini lessicali. Esempio: “Gianni ha la vista lunga” → “lungo” è sinonimo di “ampio, esteso”, ma non
posso dire “Gianni ha la vista ampia/estesa”, è un’espressione che un parlante non utilizzerebbe mai. Altro
41
esempio: “A notte fonda c’era la luna piena” → un sinonimo di “fondo” è “profondo”, ma non posso dire “a
notte profonda”. Questo vuol dire che “notte” + “fonda” formano un’unità che non è riconducibile ai
significati degli elementi che lo compongono, quindi c’è un legame che non si trasferisce a parole sinonime
di “notte” o “fonda”. Lo stesso vale per l’esempio “alta stagione”, non posso dire “elevata stagione”.
La differenza è che queste combinazioni riguardano specifici lessemi e che non sono trasferibili a lessemi
simili o che appartengono alla stessa classe semantica.
Il termine collocazione fu coniato da Firth negli anni ’50 ed esprime l’idea di combinazioni di due o più
parole caratterizzare da un elevato grado di associazione reciproca, cioè formano un legame che è
determinato dal fatto che tendono a ricorrere molto spesso insieme.
Definire il concetto di collocazione è quasi impossibile, è un ambito molto vago, ma è un fenomeno cruciale
della lingua, spesso sottovalutato per quanto riguarda l’importanza che ha nell’organizzazione del lessico. È
un aspetto molto ampio che si può caratterizzare in molti modi, presenta molti tipi di fenomeni:
✓ Argomenti o modificatori tipici → ci sono argomenti prototipici di un determinato predicato o aggettivi
prototipici di un particolare sostantivo (es. “lavare le mani”, “mangiare un panino”, ecc.: io posso dire
anche “mangiare del topinambur”, sono entrambi cibi, ma “panino” ha un effetto nella nostra memoria
diverso da “topinambur” perché è usato più frequentemente, presenta delle caratteristiche più
tipiche).
✓ Argomenti o modificatori idiosincratici → es. “accarezzare l’idea di fare un viaggio”, letteralmente non
si accarezzano le idee (si può accarezzare un cane, una guancia, ecc.), eppure questa espressione ha
una sua tipicità, come anche “accampare una scusa”, “sedare una rivolta”, “acerrimo nemico”, in cui
“acerrimo” è modificatore solo di alcuni sostantivi, non dico “acerrimo collega”. L’idea è che ci sono
caratteristiche specifiche di queste espressioni che le rendono particolarmente complesse, ad esempio
nella traduzione. Sono tutte espressioni che hanno una loro idiosincrasia nella lingua e non possono
essere spiegate se non con dei tratti molto specifici degli elementi che si combinano.
✓ Costruzioni idiomatiche → es. “tirare le cuoia”, “tagliare la corda”, “battere cassa”. Tipicamente queste
costruzioni vengono insegnate, mentre gli argomenti idiosincratici no.
✓ Costruzioni a verbo supporto → “fare attenzione”, “prendere posto”, “prendere atto”. Sono
espressioni in cui il contenuto semantico è più portato dal nome che dal verbo. Non si possono tradurre
letteralmente.
✓ Nomi propri composti → es. “Stati Uniti d’America”, ecc.
✓ Termini tecnici → es. “sistema operativo”, “regime alimentare”. L’espressione “conferire rifiuti” è
un’espressione tecnica per indicare di mettere i rifiuti da qualche parte, mentre “conferire” vuol dire
altro.
42
Capiamo quindi che questo fenomeno è molto complesso. Nella letteratura si trovano anche diverse
definizioni: ci sono approcci che identificano tutte quelle nella lista come collocazioni, altri considerano
collocazioni solo argomenti e modificatori idiosincratici.
Questo è un fenomeno diffusissimo nella lingua.
Ad esempio si dice “accampare una scusa” ma si dice anche “accampare un pretesto” → ci sono elementi
che sono un po’ più sostituibili rispetto ad altri in queste espressioni.
“tirare le cuoia” o “tagliare la corda” hanno un significato non riconducibile alle loro parti. Invece con
“rompere il ghiaccio” abbiamo una percezione diversa, “ghiaccio” come “imbarazzo” e “rompere” come
“far cessare”.
Ci sono due modi di definire il concetto di collocazione:

 Collocazioni come concetto empirico → sono tutte quelle combinazioni di parole che sono molto
ricorrenti all’interno di un certo uso linguistico o di un certo tipo di corpus, ad es. i termini tecnici.
 Collocazioni come concetto teorico → esistono espressioni che proprio perché sono usate spesso
insieme finiscono per acquisire significati di tipo aoristico, che vanno al di là del senso letterale, cioè
vengono alterati i legami semantici tra le due parole arricchendolo con significati più idiosincratici. Ad
esempio “guidare un’auto” → sono due parole che troviamo insieme in qualsiasi corpus; “diritti
umani” → espressione che ricorre frequentemente in un certo uso linguistico. Questi due esempi non
hanno specificità lessicali che non siano riconducibili ai significati delle espressioni che ne fanno parte.
Un’espressione come “tagliare la corda” o “accampare una scusa” non son solo espressioni che
ricorrono spesso insieme, ma hanno finito per sviluppare un contenuto semantico che non è
necessariamente riconducibile ai significati originali di queste parole.
43
Non c’è una possibilità di dare definizioni necessarie e sufficienti per indicare cos’è e cosa non è una
collocazione → non è possibile stabilire dei tratti necessari e sufficienti che tutte queste espressioni
linguistiche hanno. Ma si possono immaginare dei tratti peculiari delle collocazioni che queste possono
possedere a gradi di tipo diverso:
- Elevata convenzionalità → tipicamente le collocazioni sono modi convenzionali di esprimere un
determinato tipo di concetto, che sono tipici di una qualche varietà linguistica, ad es. “battere
moneta” è diventato un modo convenzionalizzato per riferirci a un particolare atto di “coniare”.
- Ridotta composizionalità semantica → molto spesso le collocazioni hanno un significato che non è
riconducibile semplicemente dai significati delle parole che le formano. Ci sono delle collocazioni
che hanno questi tratti in gradi diversi: l’espressione “battere moneta” ha perso un elevato grado di
composizionalità, perché l’oggetto non è battuto letteralmente.
- Forte rigidità strutturale → molto spesso queste espressioni sono resistenti a modificazioni
aggettivali o avverbiali, o possono ricorrere solo in particolari forme flesse o contesti sintattici. Ci
sono casi in cui posso sostituire una collocazione con un’espressione quasi sinonimica, come
“accampare una scusa/accampare un pretesto”. Ma un’espressione come “rompere il ghiaccio”
non può diventare “spezzare il ghiaccio”, perché perde il senso idiomatico dell’espressione
originaria. Il senso idiomatico si può comunque comprendere, ma qualcosa non funziona, non è
un’espressione italiana. Se pensiamo alla possibilità di passivizzare, la frase “Gianni ha tirato la
corda” (senso idiomatico di arrivare al limite della sopportazione) trasformata al passivo “La corda
è stata tirata da Gianni” perde il senso idiomatico.
L’area delle collocazioni è una struttura continua, uno spazio molto graduale:
Agli estremi ci sono strutture molto frequenti, ma anche pienamente composizionali (es. “mangiare un
panino) e espressioni idiomatiche fortemente convenzionalizzate e modificabili (es. “mangiare la foglia”). In
44
mezzo c’è tutto uno spettro di elementi che variano a seconda del grado di convenzionalizzazione, di
composizionalità, di rigidità strutturale. Ci sono elementi estremamente rigidi come altri facilmente
modificabili.
Ci sono stati degli sforzi di definire le parole attraverso le loro combinazioni → dizionari di tipo
combinatorio. John Sinclair parla di due principi che regolerebbero la lingua:
- Open Choice Principle → corrisponde al fatto che ci siano espressioni lessicali che si possono
combinare tra loro grazie a dei principi generali che le caratterizzano (ad es. “mangiare” vuole dei
complementi oggetti che siano cibo e un soggetto animato).
- Idiom Principle → i parlanti hanno a disposizione macrostrutture linguistiche precostituite che
usano come delle molecole linguistiche e che sono usati in maniera stereotipata e
convenzionalizzata.
C’è una buona parte della teoria linguistica che si è concentrata sul primo aspetto, sull’individuare quali
sono i tratti generali che reggono le combinazioni linguistiche. In realtà l’idiom principle è molto più
dominante nella lingua rispetto all’open choice principle. Le espressioni idiomatiche non sono solo
stranezze del linguaggio, ma ne sono una parte fondamentale. Esse sono anche la parte più complessa
quando lavoriamo a livello multilingue.
Quindi da un lato l’uso di collocazioni, così come di termini, indicano il modo convenzionalizzato di
esprimere quel concetto in quel dominio. Dall’altro bisogna pensare che non c’è corrispondenza
interlinguistica tra le collocazioni. Normalmente si tende a fare una dicotomia tra espressioni
composizionali come “mangiare un panino” e espressioni idiomatiche come “mangiare la foglia”, in mezzo
c’è un mare di cose più complicate di questi due estremi.
45
Le collocazioni sono legate al loro frequente uso nel linguaggio. È difficile dare delle definizioni specifiche
per dire cosa è una collocazione e cosa no. L’unico modo per definire cosa è una collocazione è un alto
grado di associazione reciproca.
Questo ha portato allo sviluppo di metodi che hanno lo scopo di identificare nei corpora quelle che sono le
sequenze linguistiche che possono essere identificate come collocazioni e quelle che sono le collocazioni
più caratteristiche in un particolare tipo di lessema. I corpora si possono usare per vedere le associazioni
più tipiche di una parola, cioè le sue collocazioni. Per questo si usano i metodi quantitativi che si basano sui
contesti in cui una parola ricorre → ci permettono di ricavare anche una visione sinottica delle
combinazioni più tipiche che caratterizzano una parola.
Questo ci permette di sviluppare una serie di metodologie quantitative per misurare il grado della forza di
associazione. L’area delle collocazioni è uno spazio continuo, e all’interno di questo spazio ci sono parole
più collocazionali.
Molte di queste misura si trovano dentro sketchengine.
Tutte queste misure si basano su un principio generale: se due o più parole formano una collocazione in
una certa varietà linguistica, è molto probabile che nei testi rappresentativi di tale varietà esse ricorrano
insieme in maniera statisticamente significativa.
Due parole sono tanto più collocazioni quanto più ricorrono insieme → per trovare le collocazioni di una
parola si potrebbe andare a vedere quali sono le parole che ricorrono più frequentemente insieme ad essa,
questo vorrebbe dire usare come indicatore di una collocazione la frequenza assoluta della coppia (il
numero delle volte che una parola ricorre con un’altra, ad esempio nella prima colonna i numeri scritti
accanto agli aggettivi). Se si usa questo criterio non si ottengono risultati interessanti, ci vuole qualcos’altro.
Esempio: termine “nemico”. Nella colonna a sinistra ci sono gli aggettivi che ricorrono più frequentemente
46
insieme a “nemico” nel corpus itWac. Nel corpus ci sono più di 19.500 coppie (riga azzurra). Poi ci sono gli
aggettivi ordinati per frequenza discendente. È più una collocazione “nemico giurato” o “nemico nuovo”?
La prima, “nemico giurato” che però ricorre molto meno di “nuovo”.
A destra ci sono le stesse coppie aggettivo + nome, però ordinate per un altro indice che è una misura di
associazione e tiene conto di altri parametri. Infatti “acerrimo” qui è in prima posizione, “peggior” e
“giurato” sono in una posizione molto più alta, mentre “nuovo” è sparito.
Lo scopo della misura di associazione è quello di fornirci una stima della forza di associazione più sofisticata.
Infatti nella seconda colonna gli elementi in cima sono più riconoscibili come collocazioni.
Per misurare la forza di associazione tra due parole non si può vedere soltanto quante volte le due parole
ricorrono insieme, ma bisogna anche confrontare il numero di volte in cui ricorrono insieme con il numero
di volte in cui l’una ricorre indipendentemente dall’altra. “grande nemico” non ha i tratti della collocazione
perché è vero che “grande” ricorre con “nemico” 768 volte, ma la frequenza di “grande” nel corpus è di più
di 2 milioni di volte. Quindi 768 sono un’inezia rispetto al numero di volte in cui “grande” ricorre con altre
parole. Quindi “grande”, pur essendo molto frequente con “nemico”, non è un elemento che lo caratterizza
appieno, perché ricorre in maniera più frequente anche con altre parole.
Invece “giurato” ricorre meno volte con “nemico”, 453, però ricorre più con “nemico” che con altre parole.
Quando vogliamo misurare la forza di associazione dobbiamo confrontare quante volte io vedo due parole
insieme (→ frequenza osservata) con la frequenza attesa. La frequenza attesa di una coppia è la frequenza
che noi ci aspetteremmo di trovare se le due parole ricorressero insieme per puro caso. L’idea è che più è
grande la frequenza attesa, meno è significativa la frequenza osservata: nel corpus la frequenza osservata
di “grande” con “nemico” è 768, ma se estraessi a caso coppie di parole dal corpus, otterrei un numero che
potrebbe essere addirittura più alto di 768. Quindi 768 ha poco valore perché potrebbe essere legata al
puro caso, quindi quelle 768 volte non ci dicono che quelle parole sono legate da un particolare tipo di
relazione che caratterizza solo quella coppia di parole.
47
Una delle misure di associazione più usate è Mutual Information. Se io ho due eventi il cui accadere insieme
è puramente casuale, la probabilità del loro accadere insieme è uguale al prodotto della probabilità dei due
eventi. Due eventi sono indipendenti se l’accadere dell’uno non condiziona l’accadere dell’altro.
La mutua informazione fa questo: confronta qual è la probabilità di trovare due parole insieme rispetto alla
probabilità di trovarle una indipendentemente dall’altra facendo il loro prodotto.
Se due parole sono del tutto indipendenti dal punto di vista statistico (= la probabilità del loro verificarsi
insieme è casuale), numeratore e denominatore sono identici. Se due eventi sono statisticamente
indipendenti, la probabilità del verificarsi insieme è identico al prodotto delle loro probabilità. Quindi se
due parole sono indipendenti l’una dall’altra, il loro valore approssima a 1 e il logaritmo di 1 è 0. Quindi la
mutua informazione è 0 quanto più le due parole sono statisticamente indipendenti l’una dall’altra.
Invece più è alto il numeratore rispetto al denominatore, le due parole le osservo insieme in un corpus più
di quanto le osserverei se andassi in modo casuale.
Quindi più alto è il rapporto di quella frazione, tanto maggiore è la forza di associazione che c’è tra quelle
parole.
48
La probabilità di una parola si stima con le frequenze → la probabilità del bigramma u,v è uguale al
rapporto tra la frequenza di quella coppia di parole e il numero di elementi complessivi all’interno del
corpus. Così come la probabilità di una parola è uguale al rapporto tra la frequenza di quella parola e
l’insieme delle parole del corpus.
Su sketchengine si possono trovare le collocazioni. Esempio con la parola “diritto”.
Scegliendo il range 3, mi dice le collocazioni che ricorrono in un range di 3 parole dopo la parola “diritto”.
Quindi permette di andare a vedere a quale distanza dalla mia parola target voglio andare a trovare le
collocazioni. A destra ci sono le misure di associazione: T-score, MI (mutua informazione), ecc.
49
L’opzione in basso mi permette di selezionare la frequenza minima della coppia che deve essere
considerata. Quindi il programma misura la forza di associazione soltanto per coppie di parole che ricorrono
almeno 5 volte, ad esempio, all’interno del corpus.
Risultati:
Se ordinati per frequenza discendente, ci sono “diritto intellettuale”, “diritto d’autore”, però le cose più
frequenti non sono le più interessanti.
50
Questi sono i risultati ordinati per mutua informazione:
Sono tutti errori. Questo è legato al fatto che la mutua informazione ha un problema, è sensibile agli eventi
rari e tende a promuoverli.
Se settiamo la frequenza minima a 20, i risultati migliorano:
Ad esempio “diritto all’oblio” è una classica collocazione, è un termine tecnico del diritto.
Si alza la soglia di frequenza a 50. I risultati sono molto migliori:
51
La mutua informazione è sensibile agli eventi rari. In qualsiasi corpus, i bigrammi che hanno frequenza 1,
finiscono per avere valori massimi di muta informazione. Questi sono tutti hapax, cioè bigrammi che
ricorrono una volta sola:
Quindi se abbiamo bigrammi a basse frequenze, la mutua informazione non è indicativa.
Ci sono due soluzioni:

1) Aumentare la soglia di frequenza → prendo solo coppie di parole che hanno una frequenza sopra
una certa soglia
2) Usare misure di associazione diverse che non sono sensibili agli eventi rari, come la Local Mutual
Information che fa il prodotto della mutua informazione per la frequenza assoluta del bigramma.
52
Su sketchengine si seleziona range 2 e come misure di associazione T-score e Log Likelihood. I risultati
saranno molto migliori che per MI, anche senza aver settato una soglia di frequenza.
T-score privilegia candidati molto frequenti.

I risultati per Log Likelihood sono simili a T-score:
Mettendo come frequenza minima 50, i risultati per MI hanno frequenze più basse che per T-score. Quindi
la mutua informazione tende sempre a privilegiare collocazioni più rare, mentre T-score e Log Likelihood
privilegiano collocazioni più frequenti.
A seconda della misura utilizzata si avranno collocazioni diverse.
Le collocazioni vengono anche filtrate e popolano i lessici terminologici, i thesauri e altro. La differenza è
che quelle sono strutture statiche, repertori congelati in una certa fase, mentre questi strumenti visti
adesso permettono di fare una ricerca più dinamica.
11/05/2022
In questa e nella prossima lezione vedremo gli strumenti di ausilio alla traduzione. Finora, lavorando sulla
dimensione digitale, abbiamo visto elementi legati alla dimensione multilingue, che consentono di andare a
esplorare dentro i corpora o repertori terminologici elementi utili anche per portare a termine una
traduzione, o capire quali sono i termini migliori per la resa traduttiva, soprattutto in domini specialistici.
Oggi vedremo dei tools che fanno qualcosa di più, ovvero sono finalizzati proprio a riciclare traduzioni per
noi e, nel caso specifico della traduzione automatica, fare la traduzione per noi. Vedremo che c’è una
differenza fondamentale fra queste due tipologie di strumenti. Partiremo da quelli che vengono chiamati
CAT tools, cioè letteralmente Computer-Aided o Computer-Assisted Translation tools, sono strumenti che
assistono il traduttore senza pretendere di essere loro stessi dei traduttori. Quelli da cui partiremo oggi
sono strumenti abbastanza stupidi, fanno delle cose molto utili ma molto semplici, mentre si differenziano
invece dai sistemi di traduzione automatici e dai traduttori automatici, che imparano a tradurre e fanno
letteralmente la traduzione per noi, anche se poi vedremo che in realtà l’uso di questi strumenti è sempre
più sinergico con il traduttore umano, quindi anche la traduzione automatica deve essere vista più come
uno strumento di supporto alla traduzione, o almeno per certi tipi di traduzione, piuttosto che un vero e
proprio rimpiazzo alla traduzione umana.
53
Il primo tipo di CAT tool è il classico esempio di uno strumento di assistenza alla traduzione ed è la
Translation Memory (TM), che poi vedremo bene con il prof. Cerri (che farà esercitazioni pratiche su un
sistema di Translation Memory). La TM è semplicemente uno strumento che di fatto sfrutta traduzioni
esistenti per suggerire quella che è la traduzione migliore di un determinato passaggio che si deve tradurre.
È un sistema che permette di riciclare traduzioni già fatte, graduandole anche per quanto riguarda la
similarità rispetto al TP che dobbiamo tradurre. Di fatto una caratteristica fondamentale di un CAT tool è
che normalmente è caratterizzato da questo nucleo centrale, formato da questa memoria di traduzione
(TM, una memoria o un repository di traduzioni già fatte) spesso abbinate anche alla banca terminologica,
tipo IATE (v. prima lezione, repertori terminologici e thesauri) e un editor testuale che permette anche di
modificare la traduzione.
L’idea è quella che alla base del concetto di TM sta l’idea che spesso, in particolari domini specialistici, ci
troviamo a tradurre dei testi che hanno un alto grado di ripetitività, per cui c’è un’alta probabilità di
ritrovarsi a tradurre elementi che sono già stati tradotti, o da noi o da altre persone che hanno lavorato
sullo stesso dominio e sugli stessi testi. Invece che tradurre ex novo possiamo riutilizzare quella traduzione
già fatta andandola a recuperare.
Non sempre i testi che sono stati fatti tradurre, pur essendo simili, hanno un grado di similarità: ci sono
testi che possono essere esattamente la copia conforme di testi già tradotti, o testi che si differenziano per
alcuni elementi. Quello che fa la TM è andare a trovare quella che è la traduzione del pezzo che è più simile
a quello che si sta traducendo.
In cosa consiste la TM? È di fatto un corpus parallelo, sono una sorta di testi paralleli (proprio come
abbiamo visto per i corpora paralleli), con la differenza che mentre i corpora paralleli erano corpora su cui
noi andavamo a cercare singoli item (es. elementi lessicali), qui l’idea è di andare a vedere quali brani della
lingua L1 hanno già una traduzione nella lingua L2. Dato un brano della lingua L1 che si vuole tradurre, la
TM va a cercare altri pezzi della L1 che sono già stati tradotti e che sono disponibili nel corpus parallelo e
che sono più simili al testo che dobbiamo tradurre in L2. Quando abbiamo lavorato sui corpora paralleli
avevamo dei corpora, testo 1 e testo 2, e si faceva una ricerca sulla parola in una lingua, e questo ci dava le
frasi allineate in cui si ritrovava il potenziale traducente di quella parola nelle altre lingue. Qui l’idea è
diversa. La struttura di base è comunque la stessa: sotto c’è un corpus parallelo di traduzione alla base: ci
sono delle traduzioni di testi già fatte della lingua L1 con la loro traduzione nella L2. Supponendo di voler
tradurre una frase in inglese, cosa fa la TM? Dato il mio repertorio di corpora allineati di traduzioni esistenti
vado a cercare quella frase in inglese (L2) che è più simile alla frase che sto traducendo e restituisco la sua
traduzione nella lingua di arrivo.
54
Dentro la TM c’è semplicemente un grande corpus parallelo di traduzioni che sono allineate a livello di
segmento / unità traduttiva. Questo segmento generalmente è caratterizzato dai segni di punteggiatura
forte (lo avevamo già visto nei corpora paralleli). Quindi, cos’è una Translation Unit? È una coppia di frasi e
segmenti della L1 e della L2 che sono nella nostra TM.
La TM è qualcosa che accumula le nostre traduzioni, questo significa che mentre si traduce un testo in una
TM le nostre traduzioni automaticamente entrano a far parte della memoria traduttiva, e vengono
immagazzinate. Ma al tempo stesso possiamo utilizzare e importare delle TM (dei corpora) dentro lo
strumento che contengono delle traduzioni fatte da altri. Essenzialmente quello che fa la TM è dire: dato un
segmento A che devo tradurre dall’inglese, vado a cercare nella mia TM i segmenti in inglese che sono più
simili al segmento che devo tradurre e, per il segmento più simile, riporto la traduzione. La cosa
fondamentale però, quando si usa il termine “simile”, è questa: non sempre si traducono dei pezzi di testo
che sono l’esatta identica replica di quello che ho già tradotto prima. In questo caso si dice che c’è un
match al 100% (traduco esattamente la stessa fase). Ma la TM permette di fare anche dei match parziali: ci
restituisce anche le traduzioni di segmenti che non sono assolutamente identici a quello che si deve
tradurre, ma che sono simili entro una certa percentuale, sono quelli che si dicono un fuzzy match, un
match che non è esattamente perfetto ma che ha un certo grado di corrispondenza. Più alto è il grado di
corrispondenza e minore sarà il lavoro che dovremo fare per fare la traduzione del TP.
Su cosa si basa il match? Ci sono degli algoritmi di match che usano vari aspetti: prima di tutto la capacità di
allineare la frase di partenza con la frase che è già presente nella sua TM (ad es. i tipi di parole che contiene
o le sequenze di parole che contiene). Chiaro che se 2 frasi sono perfettamente identiche c’è una
corrispondenza del 100% oppure potrei avere delle frasi che al posto di una parola hanno un sinonimo, e
questo significa avere un grado minore di match, e così via.
L’idea è quella di riciclare e riutilizzare le traduzioni già esistenti. Quando si prende un testo (lo vedremo
anche con il tool che useremo con Cerri) e si inserisce una TM, il tool automaticamente lo divide in
segmenti e poi va a fare un confronto per ciascun segmento nella L1 con quelle che ha memorizzato e le
sue traduzioni, e ci restituisce la traduzione automatica di quei segmenti che hanno il match maggiore.
Quindi è un sistema stupido che va a cercare quelli che sono i pezzi di testo della lingua che dobbiamo
tradurre che sono più simili a quelli che si stanno traducendo, e restituisce la traduzione esistente.
55
La TM è semplicemente un database di traduzioni abbinato a un semplice algoritmo che permette di
andare a trovare quelli che sono i frammenti di testo memorizzato più simili a quelli che si stanno
traducendo. All’inizio non avrò nulla / mi devo creare la TM da zero, ma poi, come succede in MateCat, i
sistemi di TM hanno database anche già strutturati e permettono di partire da zero. Al tempo stesso le TM
sono legate anche a particolari domini applicativi che si possono utilizzare. Molto spesso quando si deve
tradurre un testo per una determinata azienda, è probabile che se è grande e ha un suo ufficio di
traduzione, danno subito loro una TM che permette di andare a utilizzare i pezzi di traduzione già
disponibili.
L’idea è che la TM è utile quando si traducono testi con alto grado di ripetitività. Ovvio che se traduco la
letteratura, la TM è poco utile in un testo letterario. Ma se si prende un testo di tipo specialistico la TM è
molto utile perché vi permette di risparmiare tempo andando a tradurre quelle parti che normalmente
rimangono costanti in un testo e andando a concentrarvi sugli aspetti di differenza. Es. testo giuridico = ha
tutte delle strutture e un tipo di template che è standard, il template è qualcosa che probabilmente è
identico a una grande quantità di altri documenti che sto traducendo e che posso riutilizzare.
56
C’è un’altra ragione che rende le TM importanti. Non soltanto per far sì che il traduttore risparmi tempo, e
quindi che si velocizzi il processo traduttivo, ma anche per far sì che il processo traduttivo sia sempre più
standardizzato rispetto alle esigenze di una certa azienda o dominio. Era la stessa cosa che si diceva a
proposito dei repertori terminologici all’inizio: l’idea della terminologia è quella di adeguarsi a una serie di
termini convenzionali di un determinato dominio. Un thesaurus indica non soltanto i termini che sinonimi
ma anche il termine che è da preferire rispetto alle potenziali alternative. Lo stesso avviene per quanto
riguarda la traduzione: è importante adeguarsi a quelli che sono gli standard e alle tipologie traduttive di un
determinato contesto. La TM ci dice quelli che sono gli esempi traduttivi che il committente ritiene essere
lo standard a cui il traduttore deve adeguarsi. Se ho due documenti dello stesso tipo vorrei che lo stile
traduttivo fosse il più possibile standard. È un po’ la stessa questione anche per i tesauri, soltanto che
questi lo fanno a livello lessicale, le TM a livello di strutture intere di traduzione. Ci potrebbero essere
termini particolari per indicare come montare un determinato oggetto (es. Poltrone e sofà) o come è stato
montato, e voglio utilizzare quella traduzione in un certo ambito. Oppure, questo avviene anche in testi più
sofisticati, come le traduzioni di un atto giuridico o di un atto normativo, aldilà dei singoli termini lessicali
potrei avere delle strutture frasali che hanno una struttura abbastanza ripetitiva e che voglio siano tradotte
in modo standard. Quindi il concetto della TM è questo: da un lato risparmiare tempo per il traduttore e la
sua capacità di svolgere testi abbastanza ripetitivi in maniera semplice e rapida, ma anche garantire che le
traduzioni siano il più possibile standardizzate rispetto a quelli che sono gli usi convenzionali di un certo
committente o di un certo dominio.
Le TM possono partire dal nulla, per esempio quando si prende un CAT tool come MateCat o Trados si può
creare la propria TM, ma la cosa fondamentale è che si possono sfruttare delle TM esistenti, che possono
anche essere fornite dal committente stesso. Se si traduce per la Fiat si avranno sicuramente delle
indicazioni e delle memorie traduttive per una determinata società, date al traduttore. Se si traduce per
l’Unione Europea ci sono delle norme traduttive che la Commissione Europea, o comunque le persone del
settore della traduzione alla Commissione, da seguire. C’è proprio un formato di interscambio delle TM
chiamato .tmx (translation memory exchange) che permette di esportare e importare le memorie
traduttive all’interno delle TM.
57
Quando è utile la TM? Innanzitutto, soprattutto in alcuni casi, non solo è importante o utile utilizzarla ma è
necessario usarla. Molte aziende che cercano traduttori ne cercano che abbiano competenze nell’uso delle
TM, tipo Trados o altri strumenti, perché vogliono che le traduzioni siano certificate rispetto a determinate
strutture che sono accettate da quelle realtà aziendali.
Chiaramente una TM è tanto più utile e usabile quanto più è ripetitivo il testo. Se ho un testo come il
classico manuale, o un testo giuridico, o anche scientifico (ad es. testi con struttura ripetitiva come la
descrizione di un esperimento medico, non richiede fantasia creativa, magari c’è la parte più creativa e di
discussione dell’introduzione o della descrizione, ma poi la parte centrale in cui riporto i risultati della
sperimentazione medica è abbastanza standard).
Una delle cose che si possono fare nella TM è settare il livello di soglia che si vuole ritenere accettabile per il
matching tra la frase che si sta traducendo e le frasi di cui esistono già traduzioni nella TM. Si può settare
una threshold, ovvero una soglia di similarità. Questo significa che il sistema traduttivo ci restituisce solo
traduzioni di pezzi / frasi / segmenti la cui similarità con il segmento che si deve tradurre è superiore alla
soglia che si è stabilita. Ad esempio, se ho una soglia del 75%, nel momento in cui do alla TM il pezzo di
segmento da tradurre lui restituisce le traduzioni soltanto dei segmenti che hanno una similarità con il
nostro segmento superiore al 75%. Gli algoritmi di similarità sono molti, di solito si basano sulla
sovrapposizione del lessico (o overlap), ma tengono anche conto di aspetti sintattici (es. se dico: il giudice
ha condannato l’imputato, vorrei che mi restituisse frasi attive piuttosto che una frase come: l’imputato è
stato condannato dal giudice, che è passiva, anche se molto simile). Gli algoritmi di match tengono conto
58
soprattutto della sovrapposizione lessicale, ma anche in parte della sovrapposizione delle strutture
linguistiche dei segmenti di frase da tradurre.
Quando si traduce generalmente la TM immagazzina le traduzioni che facciamo. La TM non funziona a
livello di parola ma a livello di segmento, sono segmenti traduttivi. Questa è anche la differenza con il
sistema di traduzione automatica in cui in teoria che può tradurre non soltanto la singola parola (anche se
può essere ambigua perché è senza contesto, comunque posso prendere ad es. Google Translate, metto
una parola tipo “dichiarazione” e lui mi traduce in EN “declaration”. Poi si deve capire che può essere
tradotto in vari modi ma comunque più o meno una traduzione la dà, anche se out-of-context). Ma nel caso
della TM la traduzione avviene a livello di segmento, non a livello di singola parola.
Quindi, nel momento in cui si setta il sistema, ovvero il threshold di similarità, la TM restituisce i segmenti
traduttivi di quegli elementi che nella sua memoria hanno un livello di similarità più alta di quella soglia
rispetto a quello che si sta traducendo. Ecco che entra in gioco l’editor, il caso migliore è quello in cui trovo
esattamente la traduzione del segmento e lo si può accettare come traduzione giusta, e quindi validarlo,
oppure, ed è la situazione che capita più di frequente, posso fare degli aggiustamenti. Ecco perché la TM si
accompagna sempre a un editor che permette di modificare la traduzione stessa, perché una delle cose che
capitano più spesso è che i testi sono simili ma non esattamente identici, ci sono dei pezzi di traduzione che
assomigliano al segmento da tradurre, non hanno similarità del 100% ma comunque alta e necessitano
comunque di qualche aggiustamento.
Come vedremo utilizzando MateCat, i sistemi di TM contemporanei, come tutte le TM più in generale, non
sono intelligenti, hanno traduzioni fatte da umani e un algoritmo per trovare i pezzi più simili con quello
che si sta traducendo utilizzando traduzioni già memorizzate; quindi, non sono un sistema che impara a
tradurre per l’essere umano. Però, sempre di più, le TM sono abbinate alla traduzione automatica. Quindi
in realtà quello che fanno ora le TM è incorporare i traduttori automatici e, nel caso in cui il pezzo da
tradurre non sia stato trovato, forniscono la traduzione automatica. Ci sono due scenari possibili: stiamo
traducendo, lui trova un pezzo con un alto grado di similarità con quello che si sta traducendo e ci riporta la
traduzione esatta, se non lo trova chiama il traduttore automatico e fornisce la traduzione automatica del
pezzo. In Matecat queste due funzionalità (TM e traduzione automatica), e poi post-editing da parte del
traduttore, sono sempre più integrate. È importante sapere tutte le informazioni che ci dà il sistema su cosa
e cosa: se un pezzo è stato trovato nella TM, quant’è il grado di similarità rispetto a quello che noi abbiamo
tradotto e quanto invece è stato tradotto automaticamente? Questo dà un feedback sulla traduzione
fornita di quel segmento e sul suo grado di affidabilità.
Perché si chiamano Computer-Aided Translation tools? Lo vedremo anche per la traduzione automatica,
dobbiamo sempre pensarli integrati al lavoro del traduttore. Tutti questi sistemi non riducono o vanno a
detrimento delle competenze del traduttore, semplicemente velocizzano il lavoro del traduttore e c’è tutta
una serie di task che il traduttore deve sempre continuare a fare, sono quelli di controllo / supervisione, che
sono essenziali. A meno che non si traducano manuali di lavastoviglie, che sono sempre identici (anche se
anche qui qualche differenza c’è), c’è comunque un lavoro sofisticato per andare a vedere quali sono i
cambi / le correzioni da fare.
59
Vediamo un esempio: dobbiamo tradurre la frase: There are 4 ways to change print settings for this printer
(da un manuale di stampanti). Uso la TM e questa mi dà delle traduzioni di pezzi con un certo grado di
corrispondenza con quello iniziale che devo tradurre. Quindi l’elemento da tradurre è sistemato in alto, il
sistema ci fornisce delle traduzioni che corrispondono a segmenti che sono stati ritrovati nella memoria con
un certo grado di similarità / di match con quello da tradurre. Il primo caso è il più semplice, è quello del
perfect match, non c’è nessuna differenza, trovo esattamente la stessa frase nella TM. Nel secondo caso
non c’è un match perfetto, ma molto elevato, perché non trovo la stessa frase ma una frase che cambia per
pochi elementi (date, nomi propri, numeri). Quindi non ho trovato esattamente There are 4 ways to change
print settings for this printer ma ho trovato There are 2 ways… Il match è estremamente simile e si deve
cambiare solo il numero. Poi ho i fuzzy match, che hanno livelli diversi e decrescenti di similarità. Nel primo
caso, sempre dopo il TP iniziale, ha trovato la traduzione e dà la frase: There are several ways… Quindi la
TM riporta questa traduzione, che va cambiata per l’indeterminante, trasformare “vari” in “4”, cambiare
l’articolo determinativo con il dimostrativo. Quello sotto è un pezzo ancora simile ma un po’ meno rispetto
ai precedenti. La traduzione è di questa frase: There are several ways to modify the default setting of your
printer. Non c’è change ma c’è modify, c’è default che non c’è nella frase del TP (diverso dai setting
predefiniti) e c’è your invece dell’articolo. In questo caso diminuisce la sovrapposizione delle 2 frasi e
aumenta l’intervento da fare sulla traduzione. Anche in un caso in cui c’è un match del 60% tra le 2 frasi, ho
lo stesso un bel template di frase già tradotta in cui si va a cambiare alcuni elementi della frase originale per
renderla fedele al testo che si deve tradurre, o decidere che alcuni di questi sono semplicemente dei
sinonimi (modificare sinonimo di cambiare) e mantenerli come elemento del TA. Il concetto è che ho un
segmento da tradurre, la TM mi restituisce delle traduzioni, o dello stesso segmento o di segmenti simili
ordinati anche con l’indicazione del grado di sovrapposizione / di similarità tra il segmento trovato e quello
da tradurre.
60
Il problema è quantificare il grado di sovrapposizione tra il testo da tradurre e i testi memorizzati nella TM:
questo viene chiamato fare il Leveraging. Cos’è il Leverage? Letteralmente è la leva che posso utilizzare per
sviluppare una forza. Il Leverage è una sorta di statistica fatta dalla TM prima di iniziare la traduzione sui
livelli di gradi di sovrapposizione tra il testo che si sta traducendo e i testi che sono già stati memorizzati
nella TM. Indica quanti segmenti traduttivi sono identici, quanti invece hanno un grado di sovrapposizione
sopra una certa soglia, e così via. La Leverage Analysis è la quantificazione del grado di sovrapposizione tra
il testo da tradurre e i testi già immagazzinati nella TM, e permette di quantificare il grado di effort che è
richiesto al traduttore.
Per esempio, in questo caso dice che ci sono 1411 329 segmenti, ma soltanto 167 segmenti hanno un grado
di similarità al 100%, ci sono 869 segmenti che sono assolutamente con 0 sovrapposizione, totalmente
diversi. La Leverage Analysis permette al traduttore di stimare l’effort che deve mettere nella traduzione;
quindi, permette anche di fare una stima di quanto tempo si impiega a tradurre un certo testo e di fissare
costo per la traduzione. Più alto è il numero delle ripetizioni e minore è l’effort richiesto per il cambiamento
e più rapido sarà il processo traduttivo.
61
I sistemi di TM sono di varia natura. SDL Trados è il migliore della gamma ma a pagamento. Quello che
vedremo con Cerri è un altro tool altrettanto funzionale che è MateCat, ma è pubblico. È necessario avere
delle licenze per avere questo strumento più sofisticato, ma è pubblico per vedere delle funzionalità base.
Se traduco generalmente per delle compagnie traduttive hanno loro l’accesso a questi sistemi.
Le TM sono uno dei tentativi di automatizzare il processo traduttivo. Sono fortemente connesse alla
nozione di traduzione automatica. Le TM sono nate come una sorta di sistema di backoff (piano B) quando
si è visto quanto fosse complicato raggiungere i sistemi di traduzione automatica che permettessero
effettivamente di tradurre in modo completamente indipendente dall’ essere umano i testi. Da un lato è
chiaro che vorremmo automatizzare la traduzione il più possibile, in certi tipi di domini, non quando si parla
di traduzione automatica ma quella specialistica (per svolgerla il più rapidamente possibile e in modo
standardizzato). Da un lato c’è il processo di automatizzazione della traduzione che ha come suo obiettivo
62
finale quello di avere sistemi che traducono in modo perfetto senza bisogno dell’essere umano. Noi
vedremo la traduzione di testi scritti mentre oggi si parla della traduzione del parlato, speech to speech
translation. Ci sono già strumenti come Google che permettono di parlare e essere tradotti
immediatamente in un’altra lingua. Questo è quello che si cerca di andare, un sistema di traduzione
automatica che sia il più possibile indipendente da essere umano, che permetta di avere delle traduzioni di
alta qualità in modo automatico.
Il problema è che tuttora le traduzioni di alta qualità perfettamente automatizzate sono difficili da
ottenere, soprattutto se si lavora in domini generici. Quindi si sono sviluppate 2 tendenze: una sulla TM,
che è una traduzione umana assistita dalla macchina. Un traduttore umano il cui lavoro è assistito e
velocizzato da macchina. Ecco perché si parla di Machine-Aided Human Translation: è una traduzione
umana che però è supportata da un Tool che velocizza tutto il processo di traduzione.
Accanto a questa c’è l’idea di una traduzione automatica che però sia assistita dall’essere umano. L’idea è
di non avere una traduzione automatica che sia totalmente indipendente dall’uomo, ma è mettere the
human in the loop, ovvero mettere l’uomo nel ciclo del processo di traduzione automatica, lavorando come
post editing. Oggi l’idea è quella di utilizzare sempre di più la traduzione automatica, che ha raggiunto livelli
di accuratezza e sofisticatezza molto elevati, soprattutto per alcune coppie di lingue, combinandola con
l’intervento umano che può fare correzioni all’output della traduzione. L’idea è quella di vedere la
traduzione automatica integrata nel ciclo di traduzione umano. Sono due cose speculari: in un caso
l’individuo traduce andando a recuperare delle traduzioni fatte precedentemente e correggendole,
nell’altro caso la macchina traduce in maniera automatica e l’individuo va a farne le correzioni. Questo
secondo tipo di strategia (usare la traduzione automatica assistita dall’uomo), però, è funzionale nella
misura in cui la traduzione automatica ha raggiunto un certo livello di accuratezza, perché altrimenti le
correzioni che sono necessarie sono così elevate che non merita da esser tradotto, quindi meglio tradurlo
da zero. Oggi, soprattutto per domini scientifici e tecnici, non letterari, i livelli di cambiamento sono così
contenuti che è funzionale utilizzare la traduzione automatica e poi correggerla per ottenere una
traduzione specialistica di alto livello.
La traduzione automatica, o Machine Translation, è interessante sotto molti aspetti. È stata la prima
applicazione di intelligenza artificiale al linguaggio nella storia dell’informatica. L’idea era: cosa c’è di più
complesso per un uomo che fare una traduzione che implica la conoscenza di più di una lingua; quindi, se
voglio sviluppare una macchina intelligente deve essere in grado tradurre in modo perfettamente
automatico testi vuol dire che approssima la sua capacità linguistica in maniera molto vicina a quella
dell’essere umano. Questo è avvenuto nella storia della traduzione automatica, oggi invece i traduttori
automatici più sofisticati sono molto lontani da come l’essere umano traduce qualsiasi cosa. La traduzione
automatica nasce in realtà negli anni 40 più o meno, e ha avuto una serie di up e down incredibili: ci sono
stati momenti in cui si è detto che la traduzione automatica era un problema risolto o che nell’arco di 5
63
anni si sarebbe ottenuto il traduttore automatico perfetto, per poi avere dei periodi di pessimismo totale
sulla capacità di ottenere mai un sistema di traduzione automatica affidabile.
La traduzione automatica, sempre parlando dei traduttori, sembra sempre qualcosa da tenere il più
possibile lontano. Al contrario, la traduzione automatica deve essere intesa sempre più in maniera sinergica
con il lavoro del traduttore. Il traduttore automatico non toglie lavoro al traduttore o ne limita la creatività,
ma è un ausilio / un supporto alla traduzione e come nella TM non sempre ha senso usare la traduzione
automatica per le nostre traduzioni, ma dipende dal tipo di testo. La cosa fondamentale è non andare negli
estremi opposti. Ci sono 2 tendenze della traduzione automatica. Da un lato la tendenza pessimistica che è
quella che dice che la traduzione automatica non serve a niente perché continua a fare una grande quantità
di errori. Vedremo che in effetti anche i traduttori automatici di oggi, i migliori, continuano a fare degli
errori nella traduzione di strutture linguistiche che sono significativi, il che significa che la loro conoscenza
della LA in cui si traducono le strutture linguistiche è ancora superficiale. Spesso questo ha indotto un
atteggiamento luddista del traduttore, ha indotto a pensare che la traduzione automatica non serve e che
fa schifezze. Ma questo significa al tempo stesso non capire che, anche se è vero che la traduzione
automatica ha ancora degli elementi che hanno lacune, in realtà in molti casi ha ormai raggiunto dei livelli
di qualità altissimi e ignorarla significa perdere delle potenzialità importanti. Qui non si sta parlando di voler
tradurre una recensione di TripAdvisor per sapere in quale ristorante mangiare in Cina, lì è chiaro che se
anche traduco 3 parole su 10 o in modo sgrammaticato non importa, importa capire il senso che emerge
dalla frase. Qui ci interessa capire se si può utilizzare per traduzioni di qualità.
L’altro atteggiamento è quello iper-ottimista, quello che ritiene che il problema sia risolto, che si hanno dei
traduttori automatici che più o meno sono perfetti. Un aneddoto a riguardo è quello che, oggi, i maggiori
investitori nella traduzione automatica sono le big companies del web, essenzialmente sono Google e
Facebook, seguite da Amazon come terza, per Alexa e il resto. Mark Zuckerberg, che ha il suo laboratorio di
intelligenza artificiale di Facebook, circa 3 mesi fa (2022) è venuto fuori un titolo di giornale che diceva (ad
esempio dei miti che ci sono nella traduzione automatica): abbatteremo con la traduzione automatica i
limiti di Babele. Zuckerberg diceva che ci sarebbe stato un investimento ancora più massiccio nella
traduzione automatica da parte di Facebook. Anche qui si ritrova l’idea di avere il traduttore universale, che
per qualsiasi lingue (non si parla più di coppie come inglese-italiano ma come pashtu-cinese, ucraino-
islandese), anche per coppie di lingue per le quali si hanno poche risorse a disposizione, perché i traduttori
automatici imparano sulla base di dati di traduzione (c’è bisogno di avere dati paralleli per farli imparare da
questi corpora) si avrà un traduttore universale. E quindi, come diceva il titolo di prima, finirà l’era di
Babele. Questi sono i miti che circolano tutt’ora attorno alla traduzione automatica e gli investimenti
enormi su queste strutture. Per il professore la storia della traduzione automatica è costellata di episodi in
cui si dice che la traduzione automatica è risolta quando non lo è assolutamente. La realtà sta nel mezzo,
sta in sistemi di traduzione automatica che sono sempre più sviluppati, la cui qualità dipende dalle coppie
di lingue, non tutti i sistemi di traduzione automatica sono uguali. Cambia molto dal tipo di coppie di lingue
(anche se si troveranno tutte le coppie di lingue, il livello di accuratezza sicuramente sarà più alto nella
64
coppia inglese-italiano che in inglese-swahili), e cambiano anche per ragioni di quantità di risorse e di
distanza tra le lingue (più le lingue sono distanti più i traduttori automatici imparano peggio la traduzione
tra le 2 lingue). Per questo motivo i sistemi di traduzione automatica oggi sfruttano anche le similarità tra le
lingue, chiaramente tradurre dall’inglese all’italiano / spagnolo, per una questione di similarità tra le
strutture sintattiche, è molto più facile che dall’italiano al cinese, che ha una morfologia completamente
diversa.
Dall’altro lato, se quindi i sistemi di traduzione automatica sono sempre migliori, c’è un cambiamento di
prospettiva del traduttore. Infatti, è l’essere umano a cambiare il ruolo della traduzione automatica, che è
vista sempre di più come integrata nel sistema della traduzione, il traduttore viene visto sempre di più
come incaricato del lavoro di post-editing della traduzione. Invece che tradurre da zero, come si faceva
nella TM, il compito del traduttore diventa proprio quello di correggere / riadattare / rivedere le traduzioni
già fatte automaticamente dal sistema.
Cos’è la traduzione automatica? È un sistema che è in grado data una frase che anche non ha mai visto
prima (e questa è la cosa fondamentale) di tradurla.
Differenza tra la TM e la traduzione automatica: la memoria di traduzione si basa sulla similarità tra una
frase che si sta traducendo e frasi già tradotte. Il sistema di traduzione automatico è un sistema che, data
qualsiasi frase, anche una mai vista prima, dovrebbe essere in grado di tradurla. Il sistema di traduzione
automatico, a differenza della TM, è un sistema che deve avere incorporato delle conoscenze tra LP e LA e
tra le relazioni che esistono tra entrambe le strutture della lingua sorgente e della lingua target. Deve avere
incorporato delle conoscenze interlinguistiche e delle conoscenze interlinguistiche di associazione fra le
lingue. Ecco perché il sistema di traduzione automatico è parte del grande reame dell’intelligenza artificiale,
perché un sistema automatico deve aver acquisito delle competenze linguistiche generali come quelle che
un essere umano che ha imparato una lingua ha, e che esplica nella sua capacità di realizzare una
traduzione.
La storia della traduzione automatica è interessante perché ci fa vedere le diverse fasi del sistema di
traduzione automatica. La traduzione automatica è stata una delle prime applicazioni dell’informatica ai
testi. In realtà, il punto di partenza furono gli studi durante la IIWW per la decriptazione dei messaggi
segreti (pensiamo a The Imitation Game, il lavoro di Touring a Bletchley Park per decifrare Enigma: di fatto
quello che stavano facendo oltre a creare il primo grande computer è un sistema di traduzione automatica.
Il traduttore automatico era un sistema che doveva tradurre messaggi crittografati in tedesco. Es. un codice
non è altro che un’altra lingua e semplicemente non abbiamo una chiave traduttiva. Quello che fecero loro
era trovare una chiave traduttiva per volgere i messaggi crittografati in messaggi in tedesco, per
comprenderli.) Quindi la traduzione automatica nasce di fatto dagli studi delle applicazioni informatiche per
i processi di decriptazione. Uno dei primi e grandi esperti e propugnatori della traduzione automatica è
Warren Weaver, che è uno dei padri della teoria dell’informazione contemporanea. Scrisse nel 1949 il
Translation memorandum in cui dice che era possibile usare i nuovi computer per fare dei sistemi di
traduzione automatica. In una famosa citazione, Weaver dice: quando penso ad un articolo in russo, mi dico
65
che in realtà è scritto in inglese ma è stato codificato in qualche insieme strano di simboli e comincio a
decodificarlo. L’idea è quella della metafora che indica che tradurre significa ricodificare. Così come erano
stati applicati dei computer per decodificare in una qualche strana sequenza alfabetica il tedesco, così
potevo immaginare di prendere dei testi in russo e decodificarli in inglese, era come se il russo fosse un
modo strano per nascondere il contenuto del messaggio in inglese. Cosa vuol dire quindi la traduzione?
Trovo un messaggio in L2 che è l’equivalente semantico del messaggio di L1, ha lo stesso contenuto
informativo, ma è come se questo fosse stato codificato in 2 serie di simboli, da un lato i simboli inglesi e
dall’altro quelli russi. Il processo di traduzione automatica era visto come un processo di decodifica. La
metafora che diceva Weaver era questa: supponiamo di avere un messaggio originale in inglese e a questo
è stato passato dentro una strana macchina che lo ha trasformato in russo, che è quello che io osservo. Il
mio compito come traduttore è quello di cercare di ricostruire il messaggio originale in inglese, prima che
passasse attraverso questa macchina particolare che lo ha riarrangiato in russo. Questo era esattamente
quello che capitava con la macchina Enigma: i tedeschi, quando dovevano criptare il messaggio,
prendevano il messaggio in tedesco, lo passavano dentro Enigma che mischiava e lo traduceva in un
sistema di simboli e combinazioni numeriche la cui chiave cambiava continuamente, e che venivano poi
prodotte dalla macchina. L’altro soldato tedesco che lo doveva ricevere aveva la macchina opposta che
permetteva di decodificare e riconoscere il messaggio originale. Gli inglesi, non avendo questa macchina,
dovevano cercare di individuare quello che era messaggio originario sulla base di quello che osservavano.
Infatti, cosa fecero gli inglesi di Alan Touring per codificare il messaggio prodotto con Enigma? Sfruttarono il
fatto di avere degli agganci. Avevano tanti esempi di messaggi crittografati e cominciarono a capire che
c’erano delle regolarità/ strutture con cui questi messaggi iniziavano sempre es. saluti standardizzati dei
nazisti prima che iniziassero a parlare. Cominciarono a capire che c’erano delle regolarità in questi messaggi
nel modo in cui erano combinate le parole. Sfruttando queste regolarità riuscirono a trovare pian piano
delle regole che permettevano di ricavare il messaggio originale codificato. Questo non è così diverso da
quello che fanno i traduttori automatici contemporanei, anche se lo fanno in modo in modo più sofisticato
e su tante tipologie testi e in tempi molto più rapidi. Negli anni 50 quindi, subito dopo la IIWW, ci fu il primo
boom della traduzione automatica e il Translation memorandum di Weaver di fatto prometteva la
possibilità rapida di creare traduzioni perfettamente automatiche, di alta qualità, su qualsiasi tipo di testo
senza l’intervento umano. Questi sistemi iniziali si basavano su aspetti puramente lessicali, cercavano di
tradurre una frase andando a rimpiazzare una parola in russo con il suo equivalente della parola in inglese,
ma ignoravano l’ambiguità e la struttura frasi, erano molto rudimentali.
La traduzione automatica da sempre ha ricevuto grandi finanziamenti dall’apparato militare e
dall’intelligence, per queste ragioni. Tutti i primi grandi generatori di traduzione automatica si sono
concentrati soprattutto sulla traduzione russo-inglese: si era nel pieno della guerra fredda e c’era
l’interesse di tradurre documenti russi sovietici al tempo in inglese. Nel 1954 la nascente IBM fece la prima
dimostrazione a Georgetown University di un sistema di traduzione automatico che traduceva solo 49 frasi
tradotte dal russo all’inglese, per un vocabolario di circa 250 parole; quindi, il nulla ma eppure è stato il
primo traduttore automatico. La cosa curiosa era come avveniva. Ci sono filmati dell’epoca in cui si vedono
giornalisti che intervistano gli scienziati che stavano lavorando ai sistemi di traduzione automatica all’epoca
e gli chiedono, alla domanda di come sarà il futuro di questi sistemi, rispondono che in pochi anni il
traduttore automatico rimpiazzerà il traduttore umano, e qui eravamo negli anni 50. Siamo ancora lì, ma
già negli anni 50 si diceva. È per dimostrare quanto venga sottovalutata la complessità delle strutture
linguistiche nel processo traduttivo.
66
67
All’inizio degli anni 60, dopo momenti di grande entusiasmo, ci fu l’inizio di una sorta di delusione / stallo e
gli scienziati di questo periodo affermano che questo obiettivo è molto più lontano di quanto
immaginavano. Poiché si scopre che in realtà per tradurre si ha bisogno di varie conoscenze semantiche,
enciclopediche, linguistiche che non sono riducibili alla semplice associazione di parole tra due lingue, come
se fosse un dizionario. Il target non era tanto la letteratura, quanto altri tipi di documenti. Il target era
quello di avere un sistema open domain, che fosse in grado di tradurre qualsiasi tipo di testo (lettera, libro,
resoconto dissidente, rapporto militare). Questa progressiva acquisizione di consapevolezza della
complessità del processo traduttivo portò nel 1866 all’ALPAC report. Fu un rapporto di una commissione di
esperti nominati dal governo degli Stati Uniti a cui era stato chiesto di valutare l’effettiva possibilità di
realizzare un sistema di traduzione automatico e l’effettivo stato dell’arte della traduzione automatica
dell’epoca e quanto fosse effettivamente realistico l’obiettivo che si erano prefissati. Si radunarono tutti i
linguisti computazionali e informatici dell’epoca, era veramente una sorta di grande effort come obiettivo.
Il problema è che l’esito dell’ALPAC report fu estremamente negativo. Giudicò irrealizzabile l’obiettivo della
traduzione automatica, dicendo che i traduttori automatici erano lenti (all’epoca i computer erano giganti e
lenti, prima del personal computer) quindi i risultati erano deludenti, il grado di qualità era di molto
inferiore a quello degli esseri umani e tutti i finanziamenti che erano investititi non erano ripagati dalle
effettive prestazioni del sistema. Quindi l’ALPAC report si concludeva con una sorta di raccomandazione a
cessare la ricerca sulla traduzione automatica e spostarla piuttosto verso la ricerca sulla TM o su altre
branche della linguistica computazionale. L’ALPAC report ebbe un effetto dirompente, decretò una sorta di
stop su tutta la ricerca sulla traduzione automatica. I sistemi di traduzione automatica dell’epoca
68
funzionavano a regole, ovvero erano i linguisti che davano al computer le regole di traduzione per
trasformare una frase da L1 a L2, erano gli esseri umani che davano tutte le regole di traduzione ai sistemi
di traduzione automatica. Comunque, nonostante ci fosse stato un giudizio negativo / pessimistico sulla
traduzione automatica, la ricerca non si è fermata ed è continuata soprattutto in paesi con un alto tasso di
multilinguismo. Per esempio, in Canada e soprattutto in Europa. La CEE di allora, che precedeva l’attuale
Unione Europea, aveva bisogno di sistemi di traduzione automatica in maniera massiccia, per aiutare i
sistemi e il processo di traduzione dei documenti dell’UE nelle varie lingue. Per cui l’UE e la Commissione
Europea comprarono un sistema di traduzione chiamato Systram che poi è diventato il cuore del sistema di
traduzione automatica che poi tutt’ora è utilizzato, dalla Commissione. La Commissione Europea, infatti, è
stata uno dei maggiori sostenitori e finanziatori dello sviluppo della traduzione automatica. È cambiato
anche il fatto che sono state ridimensionate le aspettative e ci si è concentrati molto di più soprattutto sulla
traduzione specialistica, cioè una traduzione automatica che fosse ottimizzata per lavorare in domini
ristretti. Per domini ristretti si intende lavorare su tipologie di testo più standardizzate, per es. uno dei primi
sistemi di traduzione automatica applicativi e commerciali lavorava sui bollettini meteorologici. Si tratta di
tradurre strutture standard e ristrette. Quindi si è detto che è vero che la traduzione automatica può
fornire dei risultati di grande qualità a livello di open domain ma può funzionare bene anche a livello di
domini specialistici e ristretti.
Il grande salto che c’è stato nella traduzione automatica è stato grazie allo sviluppo a partire da anni
Novanta e inizio anni 2000 (ma soprattutto a inizio anni Novanta) della traduzione di tipo statistico e degli
algoritmi di apprendimento automatico e non ultimo le reti neurali, che rappresentano la nuova frontiera
della traduzione automatica. Tutti i sistemi di traduzione automatica sono basati oggi sulle reti neurali. E
questo ha permesso il salto di qualità traduttivo enorme. Negli anni Ottanta e Novanta sono cambiati anche
i computer, che sono diventati più potenti, e poi è comparso Internet e sono diventati disponibili sempre di
più corpora paralleli / multilingue, come quelli che abbiamo visto, e si sono sviluppate una serie di
metodologie che permettevano di cambiare completamente il paradigma di addestramento di costruzione
dei sistemi di traduzione automatica. Non si parlava più di sistemi a cui noi insegnavamo a tradurre, ma si è
passati a dei sistemi che imparavano a tradurre andando a ricavare le regole di traduzione
automaticamente a partire da corpora paralleli. Questa è chiamata la traduzione automatica di tipo
statistico o data-driven, in cui è il sistema che impara a tradurre sfruttando esempi di traduzioni
immagazzinati precedentemente.
69
Non è che la traduzione automatica oggi equivale alla TM, ma usano gli stessi dati. La TM è semplicemente
un magazzino di traduzioni che poi si vanno a recuperare, mentre quello che fanno i sistemi di traduzione
automatica è partire da dei corpora paralleli di traduzioni e usarli per imparare a tradurre, e imparare il
modo in cui si traduce il linguaggio a partire da esempi di traduzioni. Sono modelli che sono in grado di
generalizzare i dati presenti in esempi di traduzione per acquisire delle regole generali di traduzione, che a
questo punto possono applicare anche a dei testi nuovi che non hanno mai visto prima.
I sistemi di traduzione automatica e le TM sono due cose diverse, la TM e la traduzione automatica
sfruttano lo stesso tipo di dati, ovvero i corpora paralleli di traduzione. La TM va semplicemente a vedere
quello che ha trovato nella sua memoria e ci fornisce dei pezzi di traduzione da testi simili a quello da
tradurre. Un sistema di traduzione automatica, invece, sfrutta i corpora paralleli per imparare delle regole
di traduzione generali, ovvero delle regole di corrispondenze tra le strutture linguistiche tra due lingue, per
poi applicarle anche a dei testi che non ha mai visto prima. La differenza sostanziale è che la TM traduce
solo cos’ha nella sua memoria, al contrario un sistema di traduzione automatico traduce cose anche mai
viste prima, sfruttando quelle regole che lui ha desunto dagli esempi di traduzione. Il sistema di traduzione
automatica e la TM hanno la stessa differenza tra imparare e memorizzare (memorizzare significa che so
tradurre solo quanto è già stato tradotto prima o al massimo qualcosa con un qualche grado di similarità,
ma al contrario imparare a tradurre significa anche tradurre qualsiasi struttura, anche mai vista prima).
Il problema è che, siccome anche i sistemi di traduzione automatica imparano sulla base di traduzioni di
esempi già visti prima, è chiaro che la loro capacità di tradurre sarà tanto migliore quanti nuovi testi sono
più simili a quelli su cui lui ha imparato le regole. Un sistema di traduzione automatico che ha imparato a
tradurre a partire da testi giuridici sarà bravo a tradurre testi giuridici, se gli do a tradurre un testo medico
me lo traduce ma lo farà molto peggio che nell’altro caso. Ma ha imparato a tradurre anche cose mai viste
prima. La base per la traduzione in entrambi (TM e sistemi di trad. automatica) è sempre la stessa, ossia i
corpora paralleli.
Nella storia della traduzione automatica si è visto che bisogna fare compromesso tra qualità elevata e
traduzione open domain. Da un lato ci sono varie soluzioni: o si afferma che non si pensa a traduzione
automatica come a un sistema stand alone, ci immaginiamo di integrarla con l’essere umano, non usiamo il
prodotto finale unicamente dalla automatica (ed è quello che vedremo). L’altra possibilità è dire che ci si
accontenta anche di traduzioni non molto accurate. O III scenario, mi limito alla traduzione automatica in
domini estremamente specialistici perché so che lì la qualità è molto alta.
Uno scenario B qual è?
Tipo TripAdvisor, non mi interessa avere una traduzione di alta qualità, me ne basta una scadente purché
mi faccia capire il senso del TP, non importa se la traduzione è scorretta. Lo scenario C è quello in cui ho
domini molto ristretti, il traduttore automatico è estremamente specializzato su quei testi e dà risultati
molto alti. Questo significa che potrò usare le mie traduzioni automatiche come sono ma solo in domini
ristretti es. il dominio meteorologico, posso farlo solo quando vado a tradurre testi di un dominio molto
specialistico su cui il sistema è stato addestrato. Generalmente, se voglio utilizzare un sistema di traduzione
70
automatica generalista, tipo Google Traslate, devo immaginare di abbinarlo quasi sempre a un sistema di
post-editing, di correzione della traduzione. Da un lato ho l’automazione totale, alta qualità e possibile
traduzione di tutto, che è un po’ il sogno: tradurre tutto quello che voglio in modo perfetto e automatizzato
completamente, più o meno come in Guerre Stellari, in cui c’è un traduttore universale che traduce
qualsiasi cosa in modo fluente e conosce tutte le lingue della galassia.
Ma in realtà questo non funziona, e ci sono vari scenari. Da un lato posso avere testi di alta qualità e molto
automatizzati, ma questo funziona solo in un dominio molto ristretto e con testi molto specialistici. Oggi
tutti i manuali sono tradotti automaticamente (es. manuali di elettrodomestici) anche se a volte si nota
qualche errore, la qualità è comunque alta perché è molto standardizzato ed è difficile che si facciano molti
errori. Potremmo anche dire che traduciamo qualsiasi cosa (recensioni di film, recensioni di alberghi,
qualsiasi documento) e mi accontento di avere una bassa qualità (es. recensioni TripAdvisor), perché non
sono interessato tanto alla qualità del testo ma sono interessato a comprenderne il senso, anche se è una
traduzione imperfetta. Quando usiamo questo tipo di traduzioni, e se andiamo all’estero ci capita di vedere
quelle che sono traduzioni automatiche, che hanno errori, ma ci interessa sapere se il ristorante è buono,
quindi, anche se ci sono delle frasi che sembrano sgrammaticate, se sono tradotte sufficientemente bene
va benissimo. Prendo solo il contenuto e ne capisco il senso. Ma se io invece voglio avere una traduzione di
alta qualità con qualsiasi tipo di testo, allora qui devo avere l’intervento umano con il post-editing, cioè
integrare la traduzione automatica con il processo traduttivo da parte del traduttore umano.
Domani vedremo come funzionavano prima i traduttori automatici, e perché non funzionavano, e quello
che ha permesso oggi di averne che funzionano bene. Ma con una variante importante: oggi il traduttore
automatico si comporta in modo molto diverso da quello che ci si aspetta da un traduttore umano,
permettono di tradurre in modo molto diverso ma senza di fatto comprendere niente di quello che è il
significato del testo. Mentre noi partiamo sempre dall’ipotesi che un traduttore traduce se prima ha capito
il significato del testo sorgente e lo rende nel testo di arrivo, mentre i traduttori automatici oggi non fanno
niente di tutto questo, semplicemente accoppiano testi in una lingua e nell’altra senza avere cognizione di
quello che stanno traducendo.
12/05/2022
Gli approcci a regole
71
Consistono nell’idea che noi esseri umani a forniamo le regole delle procedure traduttive cioè le regole che
permettono di trasformare una frase da SL a TL.
Anche qua ci sono diversi tipi di approccio:
- Traduzione diretta → consiste in una sostituzione parola per parola delle frasi da SL a TL, funziona
solo con strutture simili di L1 e L2.
- Traduzione transfer → creazione di una serie di regole che permette di trasformare le strutture
sintattiche della lingua di partenza alla struttura sintattica della lingua di arrivo; Es. in italiano “è
arrivato un treno” non posso dire “is arrived a train” ma devo tener conto che in inglese esiste un
soggetto preverbale, ho bisogno di alcune regole che trasformano le strutture sintattiche.
- Traduzione interlingua → Cerca di mimare la visione del modo in cui gli umani traducono. L’idea di
base è prendere una frase nella lingua sorgente, capiamo e traduciamo il significato nella lingua di
arrivo. L’approccio interlingua permette di tradurre prima di tutto la frase di partenza in una sorta
di rappresentazione semantica astratta in un altro linguaggio o metalinguaggio che rappresenti il
contenuto semantico della frase per rendere quella frase nella lingua di arrivo.
Quindi in tutti questi passaggi c’è l’idea che la traduzione automatica ha una parte di analisi della struttura
linguistica per arrivare a rappresentazioni sempre più astratte rispetto alla superficie e poi una fase di
generazione che a partire da rappresentazioni più astratte generano le strutture della lingua di arrivo.
La caratteristica che accomuna questo tipo di approccio della prima generazione di machine translation e
quello di essere fortemente basata sulle strutture linguistiche cioè è una traduzione basata sull'analisi
linguistica delle strutture di traduzione. quindi diciamo che si fonda un’idea che il sistema automatico
analizzi e comprenda una struttura linguistica per renderla nella lingua di arrivo. Sono approcci fortemente
basati sull’analisi linguistica. Per quanto riguarda i primi due tipi di approccio il diretto e il transfer vedono
un problema: quello delle coppie traduttive.
72
Se noi dobbiamo tradurre 5 lingue tra di loro, con le possibili combinazioni dobbiamo sviluppare dei moduli
di traduzione diretta o di traduzione transfer per ciascuna di queste combinazioni. Se ho 5 lingue ho 20
possibili traduzioni che devo sviluppare. Questo ha fatto sì che una delle idee per risolvere questo fu più
economico un approccio interlingua che è una sorta di rappresentazione che si suppone possa essere
indipendente dalle diverse lingue e che rappresenti una sorta di ponte tra le diverse lingue per fare una
traduzione. Se noi possiamo tradurre le frasi delle lingue sorgenti in questa sorta di linguaggio astratto che
rappresenta il significato delle varie lingue e ritradurre il significato nelle lingue target abbiamo anche la
possibilità di velocizzare rapidamente il sistema traduttivo e la possibilità di sviluppare tanti sistemi di
machine translation avendo un unico modo di interlingua che questi sistemi condividono. Anziché avere
tante coppie traduttive basta avere dei moduli che trasformano per ciascuna lingua le strutture linguistiche
in queste interlingue e altrettanti moduli che generano la lingua d’arrivo a partire dalla rappresentazione
semantica.
Significa chiaramente risparmiare e ridurre la complessità del sistema delle traduzioni automatiche.
L’idea dell’interlingua → sembra essere ciò che succede quando noi traduciamo (parte da L1 ne decodifica
il significato e l’interlingua è questa sorta di rappresentazione semantica astratta del significato di una frase
sorgente e poi si genera dalla rappresentazione semantica le strutture della lingua di arrivo. Il problema è
che questi sistemi non hanno mai funzionato in modo effettivo soprattutto quello interlingua che sembra
così vicino al modo in cui gli uomini traducono ma è il meno capace di fornirci delle rappresentazioni o delle
strutture traduttive soddisfacenti.
Ecco perché siamo arrivati poi a sviluppare dagli anni 90 il metodo che si basa su un approccio di tipo
statistico → abbiamo approcci chiamati statistici o approcci example based che di fatto adottano un
approccio diverso: invece di insegnare noi le regole di traduzione e specificare le regole per tradurre le
strutture della lingua sorgente alla lingua di arrivo, dobbiamo fornire al sistema di traduzione automatica
degli esempi di traduzione (che sono nei corpora paralleli) quindi di fatto l’idea è che forniamo al sistema
dei corpora paralleli e abbiamo degli algoritmi che estraggono da questi corpora dei pattern traduttivi che
permettono di definire degli schemi di traduzione. Questo tipo di approccio è quello che si è sviluppato a
partire da anni 90 ed è dominante tutt’ora. L’apporci basato sulle reti neurali è l’evoluzione di questo
approccio di tipo statistico perché le reti neurali non sono altro che algoritmi che imparano a partire da
esempi nei corpora paralleli.
73
Alla base di questo ci sono gli algoritmi machine learning di apprendimento automatico che sono algoritmi
generali che imparano a portare a termine un compito a partire da un esempio di quei punti (esempi di
traduzione di corpora paralleli). Questi algoritmi sfruttano le distribuzioni statistiche che si trovano nelle
traduzioni per imparare u modello della traduzione che permette di essere generalizzato nuove tipologie di
testo.
Quindi si parte da un insieme di corpora paralleli chiamati anche corpora di addestramento che possono
essere ampi ma sono comunque sempre finiti. Questi corpora paralleli vengono usati per addestrare un
algoritmo machine learning che si crea un modello statistico della traduzione generale che permette al
sistema di tradurre anche le strutture, frasi che non erano presenti nella fase di addestramento. Si parte da
un insieme di dati finiti usati per l’addestramento a un modello di traduzione statistica in grado di fornire o
generare delle traduzioni anche per un numero infinito di documenti. La cosa fondamentale è che il sistema
impara induttivamente i pattern di traduzione a partire da esempi.
Quelle che sono le traduzioni più probabili di una parola o di una sequenza, una volta tradotti i segmenti, i
modelli usano un target language-model cioè usano un modello che permette di capire quali sono le
determinazioni di queste parole legittime nella TL.
74
Quindi si parte da una serie di corpora paralleli di testi paralleli nella SL e queste strutture sono allineate a
livello di frase ma poi il sistema le allinea anche a livello di parole e il sistema impara le probabilità con cui
l’espressione della lingua L1 vengono tradotto in L2 (es. se vediamo come si traduce verbo essere → si
traduce quasi sempre con è tranne in alcuni casi). Potremmo dire che la probabilità di traduzione è 3 su 4.
Questo modello ricava le probabilità di traduzioni analizzando molti dati quindi si impara a capire le
traduzioni più probabili e le usa per andare a identificare la traduzione sulla base delle probabilità ricavate.
Il sistema non fa nessun tipo di analisi linguistica, né sintattica né semantica, si basa solo su esempi di
traduzione e trova associazioni tra parole e esempi di parole per individuare la traduzione più probabile
nella TL. Tutto ciò dipende dai dati di partenza, questi dati e modelli saranno molto sensibili ai dati su cui
vengono addestrati. Questo significa che siccome tutti i dati linguistici hanno una distribuzione di tipo equa
ci saranno problemi in pochi dati o costruzioni attestate all’interno del modello. Ciò che fa il modello è
usare queste probabilità di traduzione per andare a generare e tradurre nuovi testi. Naturalmente questi
modelli acquisiscono una loro capacità di generalizzare che sarà anche molto influenzata dalla similarità tra
nuovo testo da tradurre rispetto a quelli su cui sono stati addestrati. È chiaro che tutti i modelli (essendo
example based) abbiano rese migliori su quelle determinate dalla similarità del testo di arrivo rispetto al
testo di partenza.
75
Lo stesso tipo di approccio è quello che è basato sulle reti neurali (neural machine translation): l’approccio
è sempre lo stesso. Le reti neurali le possiamo vedere come una sorta di algoritmo di machine learning
molto sofisticato, c’è un algoritmo che estrae modelli generali a partire da alcuni dati di addestramento.
Quindi la neural machine si basa su corpora paralleli ma usa algoritmi più sofisticati per andare a ricostruire
le strutture linguistiche.
La grande novità tra la machine translation neurale rispetto alla statistica?
Nella statistica si procede nella traduzione di segmenti della frase, essenzialmente il modello parte da
parole e sequenze di parole e vede qual è la traduzione più probabile sulla base del corpus di
addestramento. Quindi il modello è in grado di ricavare conoscenze traduttive inizialmente per segmenti
abbastanza limitati di testo, possono arrivare fino a sequenze di 4/5 parole non di più, anche perché il
problema è che trovare sufficienti esempi è molto difficile. I dati sono così sparsi che abbiamo poche
evidenze per individuare le associazioni. I modelli di trad statistica piu tradizionale hanno piu difficoltà a
ricavare traduzioni corrette per sequenze molto lunghe, creano traduzioni localmente corrette ma se
vediamo la naturalezza di pezzi di testo più ampio queste non sono corrette.
Un vantaggio delle reti neurali è che hanno maggiore capacità di ricostruire o tenere traccia delle
dipendenze linguistiche all’interno di seuqenze piu lunghe. Quindi significa che hanno maggiore probabilità
di fornirci traduzioni più corrette rispetto alla traduzione statistica di prima generazione. Uno dei modelli di
tra automatica basata sul tipo neurale è quello di google translate → immaginiamo una rete neurale come
un algoritmo che traduce una frase di input in un vettore cioè una sequenza numerica, questa sequenza
numerica è fatta in modo da codificare varie informazioni riguardo alla struttura della frase (che riguardano
soprattutto il modo in cui le parole si succedono). Questo vettore interno non fa altro che codificare le
informazioni sulla distribuzione statistica degli elementi. A partire da questo vettore viene generata la frase
di arrivo, in altri termini queste reti sono addestrate in modo tale da prendere l’input (per esempio da frase
in tedesco) e sono addestrate a generare una frase corrispondente (in inglese, per esempio). Quindi ancora
le reti non fanno altro che prendere l’input addestrate su coppie di frasi delle due lingue usando corpora
paralleli e sono addestrati a imparare sulla base delle corrispondenze degli elementi tra una lingua e l’altra.
C’è stato un progressivo miglioramento dei sistemi di traduzione automatica attraverso il progresso
tecnologico. Oggigiorno i sistemi di traduzione automatica hanno raggiunto dei livelli di accuratezza
incomparabilmente più elevati. I sistemi di traduzione automatica hanno performance diverse a seconda
del tipo di testo con cui le avviamo. Sono molto sensibili ai dati su cui sono addestrati e per tale ragione
hanno performance variabili.
Testo tradotto interamente da Google Translate senza correzione, senza intervento umano. Abbiamo un
livello di fluidità e correttezza quasi umano. Se poi andiamo a vedere esempi traduttivi più particolari
vediamo che in realtà questi sistemi continuano a sbagliare, hanno una grande quantità di limiti, il grado di
intervento necessario è consistente.
76
Es. → l’articolo di giornale viene tradotto in modo non corretto. La frase in fondo per esempio… il sistema
non è che non sa tradurre “centro destra” ma in una parte riesce a tradurre e in un’altra no. Essendo i
traduttori basati su dati complessi è normale che talvolta non sia chiaro del motivo per cui accade questo.
C’è una certa difficoltà nel tenere conto di relazioni anaforiche, che implicano andare ad analizzare
elementi a una certa distanza all’interno del testo. C’è una differenza tra italiano come lingua pro-drop
rispetto all’inglese.
L’uso di espressioni figurate “se n’è andato” → has gone away ma la traduzione corretta sarebbe “has
passed away” vediamo che questi sistemi non hanno capacità di interpretare il significato del contesto, ne
capacità semantica, semplicemente inseriscono la traduzione più probabile.
77
Vediamo la differenza tra una traduzione letterale di McEwan che rende la frase quasi agrammaticale.
Adopter = adottante, traduzione letterale ma è inadatta. In questo caso il sistema marca la differenza tra
una traduzione automatica applicata a un testo letterario e la traduzione umana. Anche qua dipende molto
dalla tipologia di testo, dall’adattibilità, utilità del traduttore automatico.
MT is fragile and brittle
Possiamo vedere come la traduzione automatica abbia difficoltà nel tradurre strutture linguistiche, per
esempio la classica struttura risultativa: “Gianni si è ubriacato fino a sentirsi male” → se la traduciamo
letteralmente “John si è bevuto malato”.
Lo stesso accade nel secondo esempio → ha copiato la lettera Maria non carlo viene come se Maria fosse il
complemento oggetto di lettera. Il sistema ci fornisce due frasi diverse cambiando soltanto lettera con
compito, è una cosa che il sistema fa, rende modelli difficili da interpretare, è difficile andare ad
interpretare, si vede la fragilità di questi modelli, basta alterare le strutture minime per ottenere traduzioni
diverse.
Quando si parla di Machine Translation si parla di sistemi di traduzione di intelligenza artificiale. Quanto
sono intelligenti questi sistemi? Molto se si intende intelligenza in senso di fornire output simili a quelli
umani, ma in realtà non hanno alcuna intelligenza. L’articolo dice che un programma di trasmissione non
comprende il cinese, simula usando dei pattern probabilistici, non hanno conoscenza del testo, solo
sfruttano pattern nel corpus parallelo per trovare la traduzione. Abbiamo visto che ci sono dei sistemi di
traduzione automatica con performance molto diverse dipendono dalle coppie delle lingue perché in base a
quanto sono simili/diverse le strutture delle lingue di partenza e da quanti dati sono disponibili, sono
sensibili anche a fenomeni di polisemia per esempio o di ambiguità, espressioni idiomatiche, peculiarità
sintattiche, espressioni anaforiche… etc.
Quindi da un lato siamo lontani dalla visione di un sistema di traduzione automatica e autonomo, per il
paradigma che si è andato affermando e quello di mettere l’uomo nella traduzione, non immaginare che i
78
sistemi di traduzione automatica lavorino in modo indipendente e autonomo, ma usare l’uomo per il
traduttore nel ciclo dello sviluppo.
Abbiamo visto come questi sistemi se vengono addestrati su corpora paralleli sfruttano il prodotto dei
traduttori, ma la cosa fondamentale è che possiamo immaginare che l’output del sistema machine
translation possa essere corretto dal traduttore umano attraverso un’operazione di post-editing. Anche il
paradigma che si è affermato come più dominante, non ci aspettiamo che il sistema di trad automatica ci
fornisca qualcosa di stand alone ma ci aspettiamo che si sia integraro nel sistema traduttivo.
Questo è ciò che viene fatto alla commissione europea, è usato regolarmente per tradurre i documenti, è
un sistema statistico ed è abituato a lavorare sui documenti, questo significa che ha performance alte per
documenti, prodotti della commissione, atti normativi etc. Abbiamo un sistema che traduce soprattutto
agenzie standard, atti normativi, legali…
79
viene integrato questo sistema di traduzione automatica nel flusso traduttivo inseriamo l’uomo nel ciclo
della traduzione → li possiamo inserire in 2 momenti:
- Operazione di pre-editing, l’idea è quella di rendere l’input più semplice per far lavorare il
traduttore automatico cioè rimuovere nel TT una serie di complessità strutturali.
- Post-editing: si prende il sistema di traduzione automatica, si fa tradurre un testo e poi si corregge

la traduzione del sistema automatico in modo da ridurre errori e tra l’altro la cosa interessante è
che queste traduzioni potrebbero essere rimesse nel ciclo di traduzione automatica per eventuali
nuovi aggiustamenti.
80
Nel pre-editing possiamo immaginare una frase complessa che viene semplificata (magari spezzando la
frase in 2 frasi più semplici).
81
Modificare il testo di origine ha sempre dei limiti: da un lato si può semplificare ma si deve stare attenti a
non alterare il significato soprattutto se lavoriamo in domini specialistici.
Il secondo tipo di uso è quello di post editing → consiste nell’idea di modificare il testo di arrivo per
renderle più fluide. Anche qua dipende da diversi tipi di parametro (quanto è costoso il post editing, un
testo letterario chiederà interventi più costosi, mentre testi specialistici saranno più facili da fare anche in
post editing).
La quantità di post editing necessario dipende quindi dalla complessità del testo e dal livello di accuratezza
che vogliamo ottenere.
Quindi possiamo immaginare come l’immagine del traduttore in rapporto al traduttore automatico sia
cambiato, non si vede come un’alternativa, ma qualcosa che affianca.
82

TPT (Prof. Lenci)

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

TPT (Prof. Lenci)

Caricato da

Copyright:

Formati disponibili

Corso del prof.

La terminologia si occupa di studiare le strutture e le problematiche di termini complessi.

Ad esempio la relazione UF (Used For) in cui:

Un esempio nel dominio dell’arte

Esempio di ricerca: car. Ci vengono

Gli iperonimi di bank → mentre

WordNet è una sorta di elemento

Ci sono due tipi di metodi da utilizzare:

Ci sono due modi di definire il concetto di collocazione:

Su sketchengine si possono trovare le collocazioni. Esempio con la parola “diritto”.

Quindi se abbiamo bigrammi a basse frequenze, la mutua informazione non è indicativa.

Ci sono due soluzioni:

T-score privilegia candidati molto frequenti.

- Post-editing: si prende il sistema di traduzione automatica, si fa tradurre un testo e poi si corregge

Potrebbero piacerti anche