Zairja

JOHANNA MONTI - DALLA ZAIRJA ALLA TRADUZIONE
AUTOMATICA. RIFLESSIONI SULLA TRADUZIONE NELL’ERA

DIGITALE
CAPITOLO 1 – TECNOLOGIE PER LA TRADUZIONE. DEFINIZIONI, USI E MODELLI

CLOUD
La traduzione automatica, in inglese Machine Translation o anche Automatic Translation, è un
processo messo in atto da un software che, dato un testo di partenza, scritto oppure orale, traduce
automaticamente un testo di arrivo senza nessun intervento umano.
La traduzione automatica viene generalmente intesa come un sottocampo della linguistica
computazionale, il cui obiettivo è quello di sviluppare modelli computazionali della lingua, ovvero
modelli di funzionamento del linguaggio naturale che possono essere trasformati in programmi
automatici.
Se fino a qualche anno fa la traduzione sembrava essere una ricerca di frontiera e sperimentale, in
grado di produrre risultati ben lontani per la qualità dalla traduzione effettuata da traduttori
professionisti, con i più recenti approcci la distanza si è notevolmente ridotta, tanto che alcuni
ricercatori hanno affermato che la traduzione automatica raggiunge quasi gli stessi livelli di
accuratezza e precisione rispetto ai traduttori umani.
Anche se tali affermazioni devono essere presi con cautela, nella realtà dei fatti i sistemi sono
significativamente migliorati negli ultimi anni e sono usati quotidianamente da milioni di utenti in
tutto il mondo grazie alla loro diffusione e popolarità su internet. Un esempio di software di
traduzione automatica può essere Google Traduttore, che nel 2016 ha tradotto una media di 143
miliardi di parole in diverse lingue.
Secondo la classificazione ei linguisti Hutchins e Somers, la traduzione umana e quella automatica
sono poste a due estremi di un continuum, in cui nel mezzo sono presenti due forme di traduzione
assistita, che si differenziano per un maggior o minor coinvolgimento dell’essere umano.
In questa rappresentazione, la traduzione umana è definita Traditional Human translation, mentre
la traduzione automatica è definita Fully automatic high quality translation ed implica il massimo
grado di automazione del processo e nessun intervento umano. Questo tipo di sistema di traduzione
è stato sviluppato proprio per ottenere traduzioni di qualità comparabile a quella umana, ma di fatto
questo obiettivo non è stato ancora raggiunto, ragion per cui il risultato della traduzione automatica è
chiamato traduzione grezza, e necessita di revisioni umane come atti di pre-editing o post-editing
per essere perfezionata. Azioni di pre-editing sono interventi realizzati in via preliminare per rendere
il testo più semplice da tradurre, mentre le azioni di post-editing sono azioni posteriori che hanno lo
scopo di revisionare la traduzione grezza.
Hutchins e Somers definiscono l’interazione fra traduzione umana e traduzione automatica con
l’espressione Computer-assisted Translation, che comprende due tipologie di traduzione:
- La Human-Aided Machine Translation, che indica una traduzione prevalentemente
automatica in cui la figura umana interviene per risolvere dei problemi relativi al testo;
- La Machine-Aided Human Translation, che indica una traduzione realizzata
prevalentemente da una figura umana, che però si serve di alcuni strumenti di ausilio
automatici quali i correttori ortografici, correttori grammaticali, stilistici, e così via.
Un’altra distinzione che riguarda la traduzione automatica è quella che riguarda la distinzione dei
software in base all’uso che se ne fa di essi. A tal proposito, distinguiamo software ad:
-uso domestico; si tratta di software di traduzione automatica in cui le unità di input e di output sono
frasi fatte complete, necessarie per affrontare la vita quotidiana;
-uso professionale; si tratta di software di traduzione automatica progettati per l’uso da parte di
traduttori professionisti, quindi sono software altamente specializzati;
-uso aziendale; si tratta di software di traduzione automatica progettati per le aziende, basati sulla
condivisione delle risorse con tutti gli utenti;
-Software per siti web; si tratta di software di traduzione automatica progettati proprio per la
traduzione di intere pagine web;
-Dispositivi mobili; sono software progettati per l’utilizzo con palmari e telefonini;
-software per uso vocale; software progettati per tradurre il parlato.
Inoltre, è possibile distinguere questi software anche in base al loro approccio. A tal proposito, quindi,
distinguiamo tra:
- Software ad approccio linguistico, quindi basati sulle regole;
- Software ad approccio empirico, basati su esempi pratici;
- Software ibridi, che prevedono la combinazione dei due approcci.
Lo stesso John Hutchins individua quattro principali usi della traduzione automatica, ovvero:
- Traduzione automatica come dissemination tool;
- Traduzione automatica come information access tool;
- Traduzione automatica come assimilation tool;
- Traduzione automatica come interchange tool.
La traduzione automatica come dissemination tool si riferisce all’uso della traduzione grezza come
base per una traduzione finita. Si tratta dello scopo principale per cui vengono utilizzati i sistemi di
traduzione automatici, soprattutto nel settore delle traduzioni di testi tecnico-scientifici, il cui scopo
è comunicare al lettore informazioni che siano meno ambigue e più precisi possibili.
Questi sistemi di traduzione automatica, se opportunamente addestrati con corpora e terminologia
specifica, possono dare risultati qualitativamente ottimi ed economicamente vantaggiosi, soprattutto
nei casi di grossi volumi di traduzione. Grazie a queste piattaforme la traduzione automatica assolve
alla sua funzione di dissemination tool, in quanto l’utente ha la possibilità di accedere gratuitamente
a una serie di strumenti tecnologici, che integrati tra loro, sono in grado di produrre traduzioni
pubblicabili.
Uno dei primi servizi di questo tipo è stato lanciato da Google nel 2009 con il nome di Google
Translator Toolkit, in cui si mette a disposizione il motore di traduzione automatica Google
Traduttore all’interno di un ambiente di traduzione, in cui gli utenti possono usare memorie di
traduzione e glossari (raccolta di termini specifici) per la revisione dei testi.
La traduzione automatica come Information Access Tool, invece, riguarda la possibilità di accedere
ad informazioni già in lingua, in quanto vi sono alcuni software che consentono di cercare documenti
già in lingua straniera attraverso la traduzione della chiave di ricerca.
Una piattaforma che consente questo tipo di traduzione è ancora una volta Google, attraverso due
alternative.
La prima alternativa, è introdurre la chiave di ricerca in lingua tradotta; in questo caso, Google, ci
mostra i risultati in lingua ma, essendo il mio ID italiano, mi porta l’opzione automatica -traduci
questa pagina-, che mi permette di tradurre nella mia lingua.
La seconda alternativa è meno immediata, ma comunque funzionale: cerco informazioni nella mia
lingua naturale, e dopo averle trovate, clicco meccanicamente l’opzione traduci questa pagina, che è
comunque presente in tutte le pagine google.
Questo tipo di applicazione viene usato anche dai fornitori di servizi e-commerce come Ebay o
Amazon che devono risolvere in maniera efficiente le problematiche linguistiche per rispondere alle
esigenze di ogni cliente.
La traduzione automatica come Assimilation tool, invece, viene usata per l’immediata comprensione
di un testo straniero, quindi per tradurre testi brevi o pagine web allo scopo di comprendere in linea
di massima il contenuto, ma sarà poi l’utente a revisionare la forma. Il primo sistema ad essere offerto
con questa modalità sul web è stato Babel fish, ma attualmente ne esistono moltissimi come Google
Traduttore, Microsoft Translator ed altri ancora.
La traduzione automatica come Interchange tool, infine, viene utilizzata in contesti in cui la
comunicazione tra persone che parlano lingue diverse deve avvenire in tempo reale, come nelle
chatroom. Un esempio di questo uso della traduzione è Skype Translator, che traduce in tempo reale
testi orali.
Oltre a questi usi della traduzione automatica tradizionali, ne esistono altri due: l’entertainment tool
e il learning tool.
L’entertainment tool consiste nell’utilizzo della traduzione automatica a scopo puramente ludico e
per mera curiosità, mentre il learning tool consiste nell’uso della traduzione automatica per
apprendere una lingua straniera, solitamente è utilizzato dagli studenti di scuola media o superiore
per svolgere i compiti a casa in lingua straniera.
È indubbio che la traduzione automatica ha raggiunto la popolarità presso il grande pubblico grazie
ad internet; grazie ad internet si è sviluppato anche il concetto del cloud, un sistema secondo cui
internet fornisce la possibilità di archiviare dati, non sul nostro pc, ma su un server che è collegato ad
internet e a cui si può accedere da qualsiasi dispositivo (ipad, cellulare, computer).
Sulla base dei cloud possiamo distinguere quattro tipologie di traduzione automatica:
- Traduzione automatica;
- Traduzione assistita;
- Traduzione automatica e assistita;
- Traduzione automatica assistita e strumenti per la gestione dei progetti di traduzione.
La traduzione automatica permette di tradurre testi in tempo reale e a costo zero, ma il limite di questa
tipologia di offerta è caratterizzato dal fatto che non vi è la possibilità da parte degli utenti di
personalizzare i risultati ottenuti.
La seconda tipologia è costituita solamente da tecniche di traduzione assistita, ovvero si basa nelle
traduzioni sulla memoria di traduzione. Le memorie di traduzione sono degli strumenti che
consentono di archiviare delle traduzioni. Un traduttore che utilizza un software, traduce all'interno
di questi sistemi un testo, e nel momento in cui traduce, il sistema archivia, registra la sua traduzione.
A cosa serve questo?
Se si traduce un testo nuovo, il sistema consente di andare a controllare nel database se già esiste una
relativa traduzione ed eventualmente la si propone all’utente recuperandola dal database.
Vi è poi la traduzione automatica integrata a quella assistita, consente di usare sia la traduzione
automatica sia le memorie di traduzioni, quindi di recuperare eventuali traduzioni fatte in precedenza
ed in più vi è anche un glossario da poter valutare. Quindi si tratta di una traduzione automatica che,
se non soddisfa, offre la possibilità di accedere a memorie di traduzione.
L’ultimo modello cloud di applicazione è quello di traduzione automatica assistita integrato con
strumenti per la gestione di progetti di traduzione. Si tratta di un sistema di traduzione inclusivo e
collaborativo, in quanto vi sono alcune funzioni che permettono di creare dei gruppi di traduzione,
permettono di distribuire i contenuti da tradurre ai diversi utenti, permettono di controllare lo stato di
avanzamento della traduzione, e così via. Un esempio di tale modello è The Translation Network di
LingoTek.
CAPITOLO 2 – TRADUZIONE AUTOMATICA E TEORIE DELLA TRADUZIONE
Nonostante la traduzione automatica si sia affermata come oggetto di studio a partire dal secolo scorso e
nonostante abbia profondamente modificato il processo di traduzione da una lingua all’altra, per lungo tempo
la teoria della traduzione ha ignorato il fenomeno.
Le prime tracce di traduzione automatica nella teoria della traduzione
In una fase iniziale degli studi sulla traduzione, ovvero intorno agli anni ‘6o e ’70, ci sono stati alcuni studiosi
che hanno mostrato un lieve interesse per la tecnologia, come Catford e Nida.
Catford, ad esempio, con la sua definizione di traduzione come processo finalizzato a ricreare un’equivalenza,
ipotizza che esistono delle regole di traduzioni le quali sono formalizzabili e quindi trasformabili in algoritmi
traduttivi, ovvero regole automatiche.
Nida, dal canto suo, descrive il processo traduttivo come un processo a tre fasi – analisi, trasnfer
(trasformazione) e ristrutturazione -, e questo processo a tre fasi è lo stesso modello che effettivamente
caratterizza la traduzione auomatica.
Tuttavia, si tratta di primi contatti tra i due tipi di traduzione superficiali e quasi casuali, se così possiamo
definirli.
Una prima indicazione che la teoria della traduzione avrebbe dovuto in qualche modo occuparsi delle
tecnologie di traduzione è stata fornita dalla mappa di Holmes, che tra gli Studi applicati inserisce i translation
aids, ovvero gli strumenti di ausilio alla traduzione. Ma al di là di questo piccolo indizio, l’argomento
comunque non viene approfondito a dovere perché ci troviamo in una fase della traduzione automatica ancora
iniziale, in cui non ci si rendeva conto che di lì a poco quel fenomeno avrebbe rivoluzionato il mondo della
traduzione.
Contributi a partire dagli anni ‘80
A partire dagli anni ’80, dunque, ed in maniera via via crescente, si assiste ad un incremento di interesse nei
confronti della traduzione automatica ed iniziano ad essere forniti i primi approcci.
Il primo in assoluto, ad esempio, fu il linguista tedesco Wolfram Wilss, il quale sottolinea i limiti della
traduzione automatica in relazione a quelli della traduzione umana. Egli, a tal proposito, paragona la traduzione
umana ad una black box, in quanto i processi mentali che si attivano nella mente di un traduttore sono oscuri
e non osservabili scientificamente. È proprio questo limite che trascina dietro di sé un altro limite, il fatto che
essendo processi oscuri non sono dimostrabili e quindi trasformabili in algoritmi per la traduzione automatica.
Un altro limite della traduzione automatica è la mancanza di creatività, che invece possiede il traduttore umano.
Quest’ultimo, infatti, è in grado di trovare soluzioni nuove in base allo scopo della traduzione, al contesto, e a
vari fattori, mentre la traduzione automatica può tradurre solo testi che già sono stati tradotti in precedenza.
Un’altra figura che fu una delle prime a fornire un approccio in merito alla questione fu Juan Carlos Sager,
professore di linguistica computazionale, che riflette sulle conseguenze che l’introduzione di tecnologie
potrebbe comportare in un processo traduttivo di tipo industriale, e, analogamente di Wolfram Wills, evidenzia
anch’egli i limiti della traduzione automatica. Secondo Sager, la traduzione è un processo di problem solving,
il cui premo step è quello di comprendere il TP. La differenza fra i due tipi di traduzione, è che la traduzione
umana, per quanto oscura, presenta un grado di comprensione flessibile, in quanto ha a sua disposizione tre
livelli di comprensione: cognitivo, pragmatico e linguistico, mentre la traduzione automatica è fondata su un
insieme di informazioni puramente linguistiche prestabilite, per cui si tratta di una comprensione rigida.
Un altro limite di traduzione automatica dichiarato da Sager è quello della mancanza di compensazione; la
traduzione umana, infatti, è flessibile non solo nella comprensione ma anche nella riproduzione, perché in
mancanza di specifiche forme equivalenti di traduzione attua delle strategie per trovare delle soluzioni,
attraverso l’uso di parafrasi, spiegazioni, sinonimi, uso letterale al posto di quello figurato e viceversa, cosa
che invece la traduzione automatica non è in grado di fare, sempre a causa della rigidità per cui è fondata su
informazioni prestabilite e fisse.
Un altro approccio importante si ebbe nel 1997 con il volume Machine Translation and Translation Theory,
nel quale sono presenti una serie di contributi, come quello di Monika Doherty, Prahl e Petzolt e Margaret
King.
Monika Doherty, ad esempio, analizza e mette in evidenza il ruolo della struttura informativa di un testo
e come questa possa essere differente e decisiva da una lingua all’altra, quindi rappresenta un ulteriore limite
della traduzione automatica.
Prahl e Petzolt, invece, adottano un duplice approccio, sia pratico che teorico.
Da un punto di vista pratico, intendono dimostrare come analizzare le strategie dei traduttori umani possa
essere utile al fine di individuare delle strategie anche da un punto di vista automatico.
Da un punto di vista teorico, invece, si concentrano molto sulla terminologia. A tal proposito analizzano le
diverse espressioni utilizzate per far riferimento ai problemi traduttivi, ovvero Übersetzungsproblem – che
indica un problema di traduzione legato all’ambiguità del testo - Übersetzungsschwierigkeit – che indica un
problema di traduzione legato alla capacità del traduttore - e translation mistmatch, che indica un errore di
traduzione realizzato dal processo traduttivo automatico. A tal proposito, le due autrici, affermano che non
esiste ancora un’espressione in grado di riferirsi a problemi traduttivi tanto automatici quanto umani, quindi
propongono di utilizzare l’espressione problemi di traduzione potenziali e reali, secondo la quale i problemi
potenziali diventano reali quando c’è un deficit di informazioni, a prescindere che esso sia dipeso dal traduttore
umano o automatico.
Un altro concetto ancora discusso dalle due autrici è il concetto di translation target, che indica tutto ciò che
è importante in una traduzione e che dipende dalle circostanze, dalla tipologia testuale e dalla sua funzione, e
che deve essere trasferito nel testo di arrivo. A tal proposito, nel caso in cui possa presentarsi un deficit di
informazioni, le due autrici individuano due possibili strategie per farvi fronte, ovvero la reduction strategies
e la achievement strategies.
La reduction strategies è applicabile quando l’informazione che manca non è rilevante nel testo, per cui si
può compensare con una generalizzazione; la achievement strategies, invece è da applicare quando
l’informazione mancante è rilevante, per cui il traduttore deve ottenere più informazioni possibili al riguardo.
L’ultimo contributo dato nel volume Machine Translation and Translation Theory è stato fornito da Margaret
King, la quale rimarca come la qualità non possa essere definita in base a concetti astratti ma al contrario deve
tener in conto soprattutto dello scopo specifico per cui è stata effettuata la traduzione. Un approccio simile fu
fornito anche da personalità della scuola tedesca come Snell-Hornby nel volume Handbuch Translation, che
anche si sono soffermate sulla valutazione della qualità della traduzione più che sul processo in sé.
Gli ultimi due approcci importanti di questo periodo furono quelli di Reinard Schäler e Paul Bannet.
Per quanto riguarda Schäler, egli affronta un fenomeno attualmente dilagante, ovvero l’uso della traduzione
automatica senza il ricorso alla fase di revisione da parte dei traduttori. Egli a tal proposito cita dei casi
esemplari e sostiene la necessità che i traduttori cambino atteggiamento nei confronti delle teconologie se non
vogliono restare esclusi dal mercato della traduzione.
Bannet, invece, afferma che il processo traduttivo è formato da 4 fasi: fase di input, knowledge
(comprensione), processing (elaborazione), ed output. A tal proposito, egli afferma che, nonostante traduzione
automatica e umana non siano comparabili qualitativamente, il processo automatico può essere osservato al
fine di svelare e individuare anche i processi cognitivi umani, che abbiamo detto essere oscuri. In tale senso
possiamo dire che questo approccio è simile a quello di Prahl e Petzolt, ma al contrario.
Questo è il quadro generale di contributi che sono stati apportati alla teoria della traduzione automatica a partire
dagli anni ’80, anche se, come possiamo capire, si tratta comunque di approcci molto superficiali.
Una svolta importante e concreta, invece, si ha nel 2006, quando Kin Chiew Quah sente la necessità di rivisitare
la mappa di Holmes. Egli, a tal proposito, sostituisce la denominazione Translation aids con translation
technology, e va a specificare meglio quelli che sono gli strumenti tecnologici utilizzati nella traduzione.
La voce Translation technology viene così divisa in Automatic translation tools e Computer Aided Tools.
Nel caso degli automatic translation tools, il processo è interamente automatico, e il traduttore può intervenire
soltanto prima o dopo la traduzione, mentre nel caso dei Computer aided tools il traduttorne governa il
processo di traduzione e può scegliere se e quali strumenti di ausilio utilizzare.
Gli automatic translation tools comprendono le Machine translation stand alone e le Machine translation
network. Le Machine translation stand alone sono software di traduzione installati sui propri dispositivi,
mentre la machine translation network sono software di traduzione che si trovano in rete, come google
translate.
I Computer aided tools, invece, comprendono principalmente i translation tools e i linguistic tools. I
translation tools sono caratterizzati principalmente dalle memorie di traduzione, mentre i linguistic tools sono
strumenti linguistici come dizionari o glossari.
A partire da questa svolta, a mano a mano, Gli studiosi della traduzione si sono interrogati su questa diffusione
delle tecnologie nell'ambito della traduzione e si sono resi conto, alcuni studiosi come Cronin, O’Hagan,
Alonso e Calvo, che si trattava di una vera e propria svolta tecnologica, per cui si può parlare di Technological
turn, la quale viene ufficializzata alla pubblicazione di un’enciclopedia sulle tecnologie della traduzione.
Questo significa che sostanzialmente le tecnologie ormai si sono affermate, sono costantemente presenti sul
mercato della traduzione, vengono utilizzate dai traduttori, vengono anche imposte dai clienti stessi ai
traduttori per lo svolgimento del loro lavoro.
Con l'avvento delle tecnologie, si affermano altri usi della traduzione. La tecnologia ridefinisce anche come
il traduttore si approccia alla traduzione, quindi cambia l'approccio cognitivo alla traduzione, cambiano le
modalità di lavoro e cambia anche la posizione sociale del traduttore. Chi si occupa in maniera particolare del
Technological turn è Michael Cronin, che pubblica nel 2013 il seguente testo intitolato “Translation and
globalization” (traduzione e globalizzazione), che analizza la traduzione nell'era digitale.
Cronin, in particolare, oltre ad analizzare l’aspetto pratico della traduzione automatica, esplora quelli che sono
gli aspetti storici, sociali e culturali di tale svolta, che egli considera determinata da due diversi paradigmi.
Il primo è il paradigma delle 3t: Trade, Technology, Translation. Questo primo paradigma, composto per
l’appunto da Commercio, tecnologia e traduzione, ci fa capire come questi tre elementi siano collegati gli uni
agli altri, quindi ci fa capire come, secondo il punto di vista di Cronin, il commercio ha dato una spinta alla
tecnologia e alla traduzione e di conseguenza tecnologia e traduzione hanno modificato il commercio.
Il secondo paradigma è quello composto da Language, Power and Translation, ovvero linguaggio, potere e
traduzione. Secondo Cronin vi è un forte rapporto tra traduzione, lingua e potere, e soprattutto con lo
svilupparsi della traduzione automatica si è sviluppato ulteriormente il Global English, il potere dell’inglese,
e questo è dimostrabile dal fatto che in tutti i software le migliori traduzioni sono quelle che riguardano le
coppie di lingue con l’inglese.
Sempre nel suo volume, Cronin, afferma che con la traduzione automatica, si sono sviluppati tre nuovi
concetti legati alla traduzione, ovvero i concetti di:
- translation prosumption; è il concetto secondo cui gli utenti delle tecnologie creano contenuti
multilingue e partecipano a traduzioni, pur non essendo traduttori;
- post-print translation literacy;è il concetto secondo cui le traduzioni dell’era digitale possano essere
definite usa e getta, in quanto l’utente accede alla traduzione tramite un software, estrapola le
informazioni di cui ha bisogno, e successivamente la traduzione viene eliminata.
- pluri-subjectivity; è il concetto secondo cui la traduzione automatica ha un doppio risvolto, se così
possiamo definirli, uno negativo ed uno positivo. Quello negativo è quello che riguarda la de-
umanizzazione, ovvero il fatto che la traduzione automatica abbia quasi sminuito il ruolo del traduttore
umano; quello positivo, invece, è che la traduzione automatica ha anche un risvolto politico-sociale,
in quanto vi sono gruppi di persone che approfittano delle nuove tecnologie per creare contenuti
interessanti e per supportare con tali contenuti azioni politiche e sociali importanti.
Altri due approcci che sono stati rivalutati con lo sviluppo della traduzione automatica sono quelli cognitivi e
sociologici.
Gli approcci cognitivi si interrogano principalmente sugli aspetti cognitivi del processo di traduzione, quando
all'interno di quest’ultimo vengono utilizzate le tecnologie. Ci si chiede se effettivamente le tecnologie
modifichino il processo decisionale dei traduttori. La risposta è che alcuni studiosi considerano le tecnologie
come una sorta di estensione della mente umana, in quanto esse permettono al traduttore di archiviare meglio
i dati e soprattutto una quantità maggiore di essi. Quindi le tecnologie non possono essere più considerate come
degli artefatti isolati, ma devono essere intesi come parte di una complessa rete, in cui funzionano come
estensione della memoria umana. A tal proposito, alcuni studiosi come Alonso e Calvo, parlano di Trans-
Human-Translation, ovvero traduzione trans-umana, in quanto la traduzione attualmente è un sistema
complesso che integra azione umana e tecnologie.
Un altro approccio è quello sociologico, che analizza il ruolo che la traduzione automatica svolge all’interno
di un contesto sociale.
Ci sono stati diversi studiosi che si sono occupati – soprattutto in tempi recenti - di questo aspetto, quindi del
ruolo della traduzione atomica in questa rete sociale che riguarda la produzione. Uno di questi è Olohan che
pubblica nel 2017 un saggio intitolato “Technology, translation and society. A constructivist, critical theory
approach.” (Tecnologia, traduzione e società: un approccio basato sulla teoria critica e costruttivista).
Questo saggio critica i Translation studies perché questi ultimi non prendono in considerazione in maniera
adeguata il ruolo delle tecnologie, che invece nascono dietro di sé un forte condizionamento sociale.
Quello che mette in evidenza Olohan è che le scelte tecnologiche non sono mai neutrali, ma sono sempre
dettate da qualcosa o da qualcuno, quindi l’adozione di certe tecnologie ha un carattere obbligatorio.
La prima conseguenza sociale che possiamo analizzare è quella che riguarda il ruolo del traduttore e soprattutto
i profitti del traduttore; L’uso delle tecnologie è come se svalutasse l'uso del traduttore soprattutto poi in termini
economici, perché ovviamente se a un traduttore si richiede di tradurre un testo ex novo vengono applicate
determinate tariffe, se gli si richiede di rivedere un testo già pre-tradotto, la tariffa cambia.
A questo poi si collega un altro aspetto, quello del crowdsourcing, il processo secondo cui i software utilizzano
le conoscenze e le esperienze degli utenti per migliorare i propri processi traduttivi. In linea generale, facendo
riferimento agli utenti generici, questo fattore non è molto considerato, ma se ragioniamo da un punto di vista
professionale, a pensiamo a un traduttore che - utilizzando un determinato strumento - produce una memoria
di traduzione, ci rendiamo conto che in qualche modo quest’ultimo ha dei diritti di proprietà intellettuale
rispetto alla produzione di questi testi, che però non gli viene riconosciuto, e che al contrario invece
contribuisce al miglioramento del software e quindi della multinazionale che c’è dietro.
Moorkens mette in evidenza come l'uso delle tecnologie può contribuire ad una maggiore sfiducia dei traduttori
rispetto al proprio lavoro e al proprio contributo e sull'aspetto della condivisione dei dati.
A tal proposito, Moorkens fa anche delle proposte concrete sulle questioni etiche per il riuso dei dati prodotti
dagli utenti, e si propone di utilizzare un modello che è l'Institutional analysis and Development
Framework, che è un approccio che si usa in ambito sociologico per analizzare i dati forniti dai vari utenti, in
che modo e di che qualità, e dovrebbe portare al riconoscimento di diritti d’autore sui dati forniti, diritto che
ogni utente poi dovrebbe essere libero di vendere o di cedere.
Un'altra autrice interessante in questo filone più sociologico è Minako O'hagan, che fa un esempio concreto
del discorso già introdotto da Moorkens; in particolare O’hagan analizza la Massively Open Translation.
La Massively Open Translation è la traduzione su larga scala che viene effettuata grazie al contributo degli
utenti.
Ad esempio, questo tipo di traduzione viene effettuata da Facebook o anche da Wikipedia. Wikipedia è
un'enciclopedia costruita in maniera collettiva grazie al contributo di chiunque, ed è presente su internet in
tantissime lingue.
Anche facebook è dominato dallo stesso principio. Noi siamo in grado di utilizzare Facebook nella nostra
lingua grazie al contributo degli utenti. Infatti, c'è una funzione presente in Facebook che propone agli utenti
stessi la traduzione, ad esempio, dall'inglese all'italiano di stringhe che compongono l'interfaccia. Se si può
interagire con Facebook in lingua italiana è grazie al contributo degli utenti.
Questo approccio alla traduzione ha fatto sì che Facebook potesse essere disponibile in tantissime lingue, senza
ricorrere ai traduttori, gratuitamente e grazie al contributo dei “fan” di Facebook.
Anche in questo caso ci rendiamo conto di come le multinazionali riescano ad ottenere dei grandi profitti in
termini di traduzione, attraverso il contributo gratuito degli utenti e svalutando in questo modo il ruolo e
l’economia dei traduttori professionisti.
CAPITOLO 3 – LA PROSPETTIVA STORICA: DALLA ZAIRJA A GOOGLE
TRADUTTORE
La traduzione automatica rappresenta in termini moderni uno dei più antichi sogni dell’uomo, ovvero la
possibilità di costruire una macchina intelligente in grado di pensare e agire come un essere umano.
L’idea di un meccanismo in grado di riprodurre il ragionamento umano risale al 1200, quando un famoso
filosofo e missionario catalano, Ramòn Llull, inventò, ispirandosi ad un oggetto visto in viaggio, una sorta di
macchina costituta da una serie di dischi di carta sovrapposti che ruotando componevano delle frasi. L’oggetto
che incontra durante i suoi viaggi tra Spagna e Africa del Nord si chiama Zairja. La Zairja era basata sulle 28
lettere dell’alfabeto arabo, queste lettere corrispondevano a delle categorie filosofiche. Llull immagina una
versione cristiana di questa Zairja, basata su dei dogmi medievali e perciò c costruisce questa macchina “di
carta” per combinare, attraverso la rotazione di dischi di carta, delle frasi che in qualche modo risolvono dei
problemi di teologia, di metafisica e di morale senza doversi preoccupare di pensare. Questo, è semplicemente
un inizio di macchine intelligente, ovviamente non si parla di traduzione, ma si tratta del desiderio dell’essere
umano di produrre automaticamente delle frasi.
La prima idea di un dizionario basato su codici numerici risale all’Illuminismo Europeo e fu sviluppata da
Cartesio e Leibniz. Si chiamava characteristica universalis e si trattava di un dizionario di linguaggio
universale, ovvero un linguaggio basato su principi logici e codici comprensibili universalmente, per facilitare
il commercio e lo scambio di conoscenza tra i popoli.
Sulla base dell’idea di Cartesio cominciarono ad essere pubblicati una serie di dzionari meccanici, ovvero
dizionari basati su un sistema numerico che esprimesse un linguaggio universale. Per citarni alcuni abbiamo
The Universal Caracter di Cave Beck o ad esempio Character pro notitia linguarum universali di Johann
Joachim Becher.
In questo periodo quindi si sviluppano una serie di idee sul concetto di linguaggio universale che consentirebbe
di superare le barriere linguistiche. Si arriva poi, nel 1837, alla costruzione della prima macchina analitica, da
parte dello scienziato inglese Charles Babbage, aiutato dalla matematica Ada Lovelace. La macchina prese
il nome di Analytical Engine, e rappresentava il primo prototipo di un computer meccanico sviluppato per
eseguire compiti generici.
Tutto ciò che è stato detto fin ora corrisponde alla preistoria della traduzione automatica, questo perché si
comincia a parlare di primi approcci di traduzione automatica solo nel secolo scorso, intorno agli anni 30,
quando un ingegnere rumeno brevettò quello che viene chiamato il “Cervello meccanico” (Cerveau
mécanique); questa macchina venne presentata nel 1937 all’Expo di Parigi ed era uno strumento per archiviare,
recuperare, stampare informazioni; aveva diverse funzioni tra cui anche quella di dizionario automatico.
Nello stesso periodo un ingegnere russo, Pëtr Petrovič Smirnov-Trojanskij, presentò in Russia il primo
prototipo di traduttore automatico; in questo caso si trattava di una macchina e l’idea di fondo era che in
qualche modo le lingue fossero accomunate da una struttura logica comune.
Questo processo è basato sull’uso di due traduttori umani che non necessariamente conoscono la lingua di
partenza e la lingua di arrivo. Tale processo prevedeva tre fasi:
1. C’è un primo traduttore che trasforma la lingua di partenza in una forma logica, quindi
sostituendo gli elementi con gli elementi dell’analisi logica in riferimento alla struttura della lingua
originale;
2. Nella seconda fase la macchina trasformava gli elementi di analisi logica della lingua di
partenza in elementi di analisi logica della lingua di arrivo;
3. Vi era poi un secondo traduttore che trasformava gli elementi di analisi logica nella lingua di
arrivo.
Si tratta di prototipi, in realtà questi ultimi non hanno prodotto nessuna concreta conseguenza sulla storia della
traduzione automatica. I veri e propri inizi della traduzione automatica si hanno quando vengono sviluppati i
computer, quindi i calcolatori, e questo succederà solo intorno agli anni ’50.
Gli storici della traduzione automatica fanno risalire l’inizio della traduzione automatica al 1949, quando
Warren Weaver (direttore della divisione di scienze naturali della fondazione Rockfeller), in un suo
memorandum, considera la traduzione automatica un problema di criptografia, ovvero un processo secondo
cui dei messaggi in linguaggio naturale vengono codificati in linguaggio artificiale.
Il progresso della traduzione automatica si ha quando si afferma il computer e quando ci sono dei progressi
rispetto all’Intelligenza Artificiale. Uno dei padri dell’Intelligenza Artificiale è Alan Turing. Turing è famoso
soprattutto per il “Test di Turing”: test ancora utilizzato per capire se realmente una macchina può essere
considerata intelligente come un essere umano.
Ovviamente però, anche i primissimi prototipi di traduzione automatica che si sviluppano in questo periodo,
dimostrano fin da subito dei limiti. Uno dei primi ricercatori in questo campo è Yehoshua Bar-Hillel, il quale,
fin da subito, avverte su quelli che sono i limiti della tecnologia nel replicare il linguaggio naturale umano.
Nel 1951 pubblica un saggio in cui avverte la comunità scientifica sul fatto che la parità qualitativa fra
traduzione automatica e umana è difficilmente ottenibile.
Nel 1954 ci fu un avvenimento importante per la traduzione automatica, ovvero ebbe luogo a Georgetown la
prima dimostrazione pubblica di un sistema di traduzione automatica, che basato su un vocabolario di 250
parole e solo sei regole sintattiche, era in grado di tradurre in inglese un insieme selezionato di 49 frasi russe.
Questa dimostrazione, nonostante fosse di scarso valore scientifico, in quanto limitata a un numero di frasi
incentrate su argomenti generali, provò comunque la fattibilità della traduzione automatica e diede impulso a
un finanziamento di ricerca su vasta scala.
Dall’esperimento di Georgetown in poi, tra gli anni ’50 e ’60, si assistette a un gran fermento nel settore
della ricerca, in quanto nacquero gruppi di ricerca negli Stati Uniti, in Unione Sovietica e nel Regno Unito.
Questi gruppi di ricerca si fondarono sull’approccio della grammatica generativa-trasformazionale di
Chomsky, quindi sul principio che tutte le lingue sono fondate su una serie di principi grammaticali e sintattici.
Questi approcci, tuttavia, furono deludenti, perché cominciarono a scontrarsi con il problema della polisemia,
dell’ambiguità e della complessità del linguaggio naturale, che oltre che dalle regole è caratterizzato
damolteplici particolarità. Essendo ormai diventato chiaro che la sola analisi sintattica non consentiva di
disambiguare la polisemia in maniera appropriata, la ricerca cominciò ad orientarsi verso sistemi basati su
modelli semantici.
Sempre intorno agli anni Sessanta, il governo americano vuole capire se a fronte di questi ingenti
finanziamenti ci siano stati effettivamente dei risultati nella ricerca in questo settore, e quindi, commissiona
un rapporto a dei gruppi di ricercatori che va sotto il nome di ALPAC, che nel 1966, conclude che la traduzione
automatica non è molto più vantaggiosa della traduzione umana, i risultati non sono equiparabili e i tempi sono
anche maggiori.
Questo ha come conseguenza il fatto che il governo americano rallenta e ferma il finanziamento alla ricerca
in questo settore.
La ricerca però non si ferma e si sposta altrove. A partire dagli anni 70 in poi, assistiamo ad una rinascita
della traduzione automatica, ma in contesti diversi rispetto a quello americano, ovvero in Europa e in Canada.
In Canada viene sviluppato il progetto TAUM. All’interno di questo progetto viene realizzato un sistema di
traduzione automatica chiamato 'meteo' per la traduzione dei bollettini metereologici dall'inglese al francese e
viceversa, e quindi, per risolvere il problema del bilinguismo che è presente in Canada. Viene sviluppato questo
sistema che opera efficacemente nel ristretto campo dei bollettini metereologici che sono composti da testi
molto brevi, molto sintetici e appartengono a un dominio ristretto.
Contemporaneamente, sempre in questo periodo, la comunità europea acquista un sistema chiamato
SYSTRAN per tradurre la documentazione che circola all'interno della Comunità Europea.
La cosa più importante è che negli anni 80 si cominciano a diffondere sistemi effettivamente utilizzabili,
soprattutto da grossi enti internazionali come l'ONU, la NATO e l'aeronautica americana.
A partire poi dagli anni ’90 si assiste a un nuovo cambiamento di rotta nel campo della traduzione automatica,
in quanto cominciano a diffondersi i primi servizi anche su internet e soprattutto si afferma un approccio
pragmatico rispetto al problema della traduzione. Il fattore internet e il fattore pragmatico portano alla nascita
di una serie di strumenti soprattutto di traduzione assistita e dunque di ausilio al lavoro del traduttore, come
database terminologici e memorie di traduzione, tutto questo in piattaforme online, , offerte gratuitamente da
una serie di produttori Systranet, Bing Translator, Google Translate che colgono l’occasione di diffondere
questi strumenti tramite internet per ampliare la propria base di utenti e allo stesso tempo per raccogliere dati
preziosi per questi sistemi, che per la loro caratteristica di dare-avere sono chiamati open-source (ne traggono
benefici gli utenti, perché accedono a traduzioni gratuite, ma anche il sistema grazie agli utenti trae beneficio
in quanto sono gli utenti a migliorare la qualità del sistema).
Quindi, attualmente, possiamo dire che il sogno dell’uomo di creare una macchina che agisca come l’uomo è
stato quasi raggiunto, non perfettamente, ma l’idea si avvicina molto a quella originale.
CAPITOLO 4 – L’EVOLUZIONE TECNOLOGICA
I diversi approcci alla traduzione automatica, nel corso del tempo, hanno cercato di risolvere i problemi
derivanti dall’ambiguità e dalla complessità del linguaggio naturale ma, ancora oggi, dopo quasi settant’anni
di storia, non li hanno del tutto risolti. È innegabile, però, che è dagli esordi della traduzione automatica ad
oggi sono stati fatti notevoli passi in avanti grazie alla sperimentazione di diversi modelli e approcci teorici,
che possono essere attualmente divisi in tre gruppi, ovvero:
- Approcci linguistici;
- Approcci empirici;
- Approcci ibridi.
Approcci di prima generazione – a

APPROCCI LINGUISTICI traduzione diretta
A transfer
Approcci a traduzione indiretta
A interlingua
Approcci basati su esempi – o

analogie
APPROCCI EMPIRICI Approcci statistici
Approcci neurali
APPROCCI IBRIDI
Approcci linguistici
Gli approcci linguistici sono quelli che hanno caratterizzato la traduzione automatica fin dagli esordi, e sono
conosciuti anche come approcci a regole o Rule-Based Machine Translaton, in quanto si basano
principalmente su risorse linguistiche come dizionari e grammatiche.
Gli approcci linguistici, a loro volta, sono praticati attraverso tre strategie:
- Metodo a traduzione diretta;

- Metodo a interlingua;
- Approccio a transfer.
Metodo a traduzione diretta

i sistemi a traduzione diretta sono i primi sistemi di traduzione automatica ad esser stati sviluppati e
sono conosciuti anche come sistemi di prima generazione. Si chiamano sistemi diretti in quanto la
traduzione viene effettuata direttamente dalla LP alla LA senza alcun passaggio intermedio, come
avviene invece nei sistemi a interlingua o transfer.
In particolare, il metodo a traduzione diretta è composto da tre fasi:
- Fase di analisi morfologica;
- Traduzione mediante l’utilizzo di un dizionario bilingue;
- Riorganizzazione locale del testo.
Durante la fase di analisi morfologica le parole vengono riconosciute e trasformate mediante un
processo di lemmatizzazione, ovvero le parole vengono ricondotte alla loro forma canonica (i verbi
all’infinito, i sostantivi al singolare, e così via).
Durante la fase di traduzione, le forme canoniche vengono tradotte, mediane il dizionario bilingue, in
forme canoniche della lingua di arrivo.
Durante la terza fase, le forme canoniche della LA vengono ri-trasformate seguendo le proprie
flessioni e caratteristiche, quindi i verbi vengono riconiugati, ove possibile, i sostantivi trasformati al
plurale, ecc, e vengono successivamente riorganizzati seguendo e rispettando l’ordine delle parole
della lingua di arrivo.
È ovvio che questi sistemi ottenessero dei risultati alquanto scarsi, in quanto si trattava di una mera
traduzione parola per parola, senza che intervenisse alcun processo di disambiguazione a livello
semantico o sintattico.
Tra i sistemi di questo tipo, Météo rappresenta un caso di successo perché dimostrò la fattibilità della
traduzione auomatica applicata a una tipologia testuale molto specifica e cioè la traduzione dei
bollettini metereologici. Questo sistema meteo è stato utilizzato per molto tempo dal servizio di
previsioni metereologiche dell’Environment Canada’s Atmospheric Environment, ben 24 ore al
giorno traduceva tutti i bollettini meteorologici dall’inglese al francese. Traduceva circa 8 milioni di
parole all’anno
Metodo a traduzione indiretta – transfer e interlingua
gli scarsi risultati ottenuti dai sistemi diretti costrinsero la ricerca a rivolgersi in altre direzioni, si
affermarono così i sistemi a traduzione indiretta, così chiamati perché tra la frase di analisi e la fase
di traduzione vi era una fase intermedia.
I sistemi a traduzione indiretta furono quindi due, il sistema a transfer e il sistema a interlingua.
Sistema a transfer
Il sistema a transfer era caratterizzato da tre fasi:
- Analisi del testo di partenza;
- Transfer;
- Generazione del testo di arrivo.
La fase di transfer era composta da due fasi: rappresentazione astratta del testo di partenza e
rappresentazione astratta del testo di arrivo.
Ciò significa che il sistema a transfer era composto, in totale, da 4 fasi, così disposte:
-analisi del testo di partenza;
- rappresentazione astratta del testo di partenza → il testo di partenza veniva riformato con una
rappresentazione astratta;
-rappresentazione astratta del testo di arrivo → la rappresentazione astratta del testo di partenza
veniva trasformata in una rappresentazione astratta sulla base del sistema semantico e culturale della
lingua di arrivo;
- generazione del testo di arrivo→ la rappresentazione astratta fatta sulla base del sistema semantico
e culturale della lingua di arrivo veniva trasformato in testo di arrivo.
Il sistema a transfer, pur essendo più complessi, sono sistemi qualitativamente migliori, soprattutto
perché presentano una maggior modularità, ovvero è possibile riutilizzare i dati linguistici delle
rappresentazioni astratte anche per traduzioni successive.
Un esempio di sistema che si è basato su questo approccio è il sistema Logos.
Sistema sviluppato a partire dagli anni ’60, è stato sviluppato fino agli anni ’90. È un sistema
amaricano si è sviluppato sulla base di progetti finanziati dal governo americano per scopi di tipo
bellico e per comprendere testi russi o vietnamiti. Questo sistema ha infatti tra le prime coppie di
lingue sviluppate proprio il russo-inglese e vietnamita-inglese. Questo sistema si basava su un
linguaggio astratto che si chiama Semanto-syntactic Abstaction Language (SAL).
Si tratta di un linguaggio formale organizzato gerarchicamente che comprende tutte le categorie
semantico-sintattiche del lessico di una lingua. Ad esempio, i nomi vengono suddivisi in 10 classi
semantiche: concreti, astratti, non numerabili, deverbali, aspettivi, ecc.. Queste classi a loro volta
vengono suddivise in sottocategorie che aggiungono altre informazioni; si tratta di aspetti importanti
perché sono informazioni semantiche aiutano a “disambiguare” le frasi e quindi a ricreare il
corrispondente esatto nella lingua di arrivo.
Le informazioni che permettono di classificare le parole secondo questo modello sono contenute nei
due dizionari di cui è dotato il sistema, ovvero un primo dizionario contenente parole ad alta
frequenza, il cosiddetto High-frequency dictionary, e il secondo invece contenente oltre 100.000
entrate per ogni lingua.
Il sistema LOGOS, in quanto sistema a transfer, si basa su un’architettura a tre fasi: analisi, transfer
e generazione. Tuttavia, l’architettura che caratterizza questo processo è un’architettura molto
complessa, in quanto ogni fase prevede numerosi moduli.
I primi due moduli, denominati RES1 e RES 2, risolvono casi di ambiguità lessicale ed assegnano ad
ogni parola la corrispondente classe grammaticale con le relative informazioni morfo-sintattiche.
Successivamente, si passa alla fase di parsing, composta da 4 moduli (PARSE 1, PARSE 2, PARSE
3, PARSE 4), durante la quale cui si individuano le strutture profonde utilizzando la grammatica
generativo-trasformazionale di Chomsky.
Man mano che si completa questa fase di analisi si dà avvio anche alla parte di transfer, ovvero si
cercano le corrispondenti strutture nella lingua di arrivo, ed infine si passa alla fase di generazione,
in cui si passa dal SAL alla lingua naturale, nella lingua d’arrivo.
Sistema a interlingua
I sistemi a interlingua si basano sulla convinzione che sia possibile convertire testi in una
rappresentazione astratta che possa essere comune a tutte le lingue. La rappresentazione astratta
intermedia è definita appunto interlingua, e conterrebbe tutte le informazioni necessarie per generare
un testo convertibile in una qualsiasi lingua di arrivo.
I sistemi a interlingua, dunque, constano di due fasi:
- Analisi, fase in cui la lingua di partenza viene trasformata in interlingua, ovvero
rappresentazione neutrale;
- Generazione, in cui l’interlingua viene convertita nella lingua di arrivo.
Come interlingua sono stati usati sia linguaggi formali, sia in alcuni casi linguaggi artificiali come
l’esperanto, ma l’obiettivo di creare una rappresentazione universale in realtà si è rivelato impossibile
da raggiungere.
Tra i vari sistemi di interlingua dobbiamo menzionare il “Knowledge based Machine Translation”,
prototipo dell’università Carnegie-Mellon, basato sull’interlingua concettuale, specifica per un
dominio quello dei computer. Questo sistema venne realizzato per la traduzione di manuali per i
personal computer e la lingua principale era inglese-giapponese. Si basava su un dizionario di 900
parole e 1500 concetti riguardanti l’interazione tra uomo-macchina. Tuttavia, si tratta solo di un
prototipo perché la traduzione automatica non si è mai sviluppata ulteriormente in questo senso.
Approcci empirici
A partire dagli anni ’80 si sviluppò un’altra tipologia di approccio alla traduzione automatica, ossia
gli approcci empirici, vale a dire gli approcci basati su testi reali.
Distinguiamo tre tipologie di approcci empirici:
- approcci basati su esempi o analogie;
- Approccio statistico;
- Approccio neurale.
L’approccio basato su esempi fu proposto per la prima volta nel 1984 dall’informatico giapponese
Makoto Nagao; il suo approccio consiste nel realizzare traduzioni sulla base di traduzioni già
effettuate in precedenza a partire da un testo di partenza. Tali testi di partenza che hanno già una
corrispondenza traduttiva sono chiamati corpora paralleli, e sono simili alle memorie di traduzione,
con la sola differenza che, nel caso delle memorie di traduzione, al traduttore è consentito scegliere
tra varie opzioni, mentre nel caso dei corpora paralleli il traduttore ha a sua disposizioni testi interi
con una traduzione corrispondente, quindi non ha possibilità di scegliere tra più opzioni e la sua
analisi deve essere estrapolata unicamente da quel testo.
Il processo di traduzione mediante questo sistema segue tre fasi:
- matching: in cui si realizza un’analisi del testo di partenza per individuare le unità di traduzione già
presenti nel database bilingue,
- allineamento: le unità di traduzione identificate nel testo di partenza vengono automaticamente
allineate con esempi di traduzioni ed estratte dal database bilingue;
- ricombinazione: il sistema propone al traduttore le traduzioni che ha individuato nel database come
traduzioni possibili delle unità di traduzione del testo di partenza, ricombinate in modo da rispettare
la struttura della frase nella lingua d’arrivo.
Sistemi statistici
Tra i diversi sistemi ad approccio empirico, il sistema predominante nella traduzione automatica è
stato il sistema statistico, utilizzato ad esempio da Google traduttore.
L’approccio statistico è un approccio basato su dati, perciò chiamato data-driven, e sul principio della
probabilità di distribuzione. In questi sistemi non viene usata alcuna conoscenza linguistica esplicita,
ovvero dizionari o grammatiche, ma anche in questo caso la principale fonte di informazioni
linguistiche è fornita da corpora, paralleli o monolingui.
I corpora paralleli – ovvero testi con corrispondenti traduzioni – vengono utilizzati per verificare nella
lingua di arrivo qual è la traduzione più frequente di una parola o di una frase, mentre i corpora
monolingui vengono analizzati per capire quanto è probabile di incontrare una determinata parola in
una determinata lingua di arrivo.
Il processo di traduzione secondo il modello statistico prevede due fasi:
- la fase di training, o encoding, durante la quale il sistema apprende da corpora bilingui le
corrispondenze più probabili per singole parole o gruppi di parole;
- fase di test, o decoding, in cui il sistema usa le informazioni acquisite durante la prima fase per
tradurre i testi. In questa fase i risultati vengono confrontati con i corpora monolingua della lingua di
arrivo e vengono scelte le soluzioni che rappresentano la massima probabilità di occorrenza tra lingua
di partenza e di arrivo.
Esistono diversi tipi di approccio statistico:
- quelli basati sulla parola, o word-based;
- quelli basati su sequenze di parola, o phrase-based;
- quelli basati su modelli sintattici, o syntax-based;
Nel modello statistico word-based, utilizzato per la prima volta dal sistema CANDIDE, la traduzione
era basata su una corrispondenza parola per parola, e utilizzava il concetto del lexical translation
probability distribution, per cui calcolava, per ogni parola del testo di partenza, il numero di
occorrenze di traduzioni equivalenti in un corpus e di conseguenza il grado di probabilità.
Successivamente ci si rende conto che è complicato attenersi alla parola per tradurre e quindi si
comincia a pensare che se si considerano delle sequenze di parole più ampie si possono ottenere
risultati migliori.
Vennero così sviluppati i modelli phrase-based, secondo cui il testo di partenza viene segmentato in
sequenze e successivamente tradotto. Questo sistema fu sviluppato principalmente per far fronte al
problema per cui le corrispondenze tra le lingue sono spesso asimmetriche: possiamo avere
corrisponde tra parole da molte-a-molte, da molte-a-una, una-a- molte, una-a-zero e molte-a-zero.
Per far fronte a tale problematica furono adottati due criteri;
- Il criterio della fertilità, che indica il probabile numero di parole nella lingua di arrivo
corrispondenti ad una parola nella lingua di partenza, come ad esempio per il verbo inglese
bank, che in italiano si traduce con depositare in banca, per cui si ha sistematicamente una
corrispondenza di una a tre.
- Il criterio della distorsione, che permette di avere delle posizioni vuote durante l’allineamento
da eventualmente riempire con parole non presenti nel testo di partenza.
L’ultimo modello è quello sintattico, secondo il quale si cerca di identificare la struttura sintattica
delle frasi, quindi vengono aggiunge informazioni sintattiche oltre che morfologiche, al fine di creare
una traduzione sempre più precisa soprattutto tra lingue con un ordine di parole differente.
Benché nel tempo il modello statico abbia prodotto risultati considerevolmente migliori rispetto ai
sistemi di prima generazione, tuttavia esso presenta dei limiti importanti, come ad esempio
l’impossibilità di reperire grandi quantità di corpora paralleli, soprattutto per le coppie di lingue
formate da lingue inusuali o minoritarie, per le quali non sempre sono disponibili corpora
sufficientemente estesi da poter effettuare il training dei sistemi.
Sistemi neurali
La terza tipologia di sistema dell’approccio empirico è il sistema neurale. Questo tipo di approccio
in realtà non è nuovo, addirittura era stato elaborato - a livello teorico - agli albori dell’intelligenza
artificiale nel 1943, ma è stato poi applicato successivamente, con successo, nell’ambito della
traduzione automatica da Google nel 2014.
Tale approccio prende il nome di sistema neurale perché intende simulare la rete neurologica del
nostro cervello, ovvero il modo in cui il cervello umano ragiona, attraverso l’attivazione dei neuroni
e dei collegamenti tra questi ultimi, che si chiamano sinapsi, le quali trasmettono le informazioni
necessarie per l’elaborazione di concetti complessi da parte del cervello.
Le reti neurali artificiali sono costituite da gruppi definiti di neuroni artificiali, divisi in tre livelli:
- Livello di input; a questo livello sono presenti i neuroni che accolgono gli input e quindi le
informazioni del testo di partenza e dei corpora;
- Livello nascosto; a questo livello intermedio avvengono le operazioni di calcolo della
soluzione.
- Livello di output, in cui vengono prodotti i risultati della rete.
Ogni neurone di ogni livello rappresenta un nodo della rete ed è connesso ai neuroni dei livelli
successivi; la trasmissione di informazioni da un neurone all’altro e da un livello all’altro avviene
attraversi l’invio di stimoli.
I sistemi neurali, così come i sistemi statistici, sono fondati sull’analisi di corpora paralleli, ma la loro
particolarità è che sono in grado di imparare dagli errori, correggendo automaticamente gli errori
durante la fase di apprendimento, che dura poche settimane.
L’apprendimento avviene comparando l’output generato dal sistema con dei riferimenti corretti, ad
esempio traduzioni realizzate da traduttori umani, definite gold standard.
Durante il processo di addestramento il sistema cerca di ridurre a zero la differenza tra il gold standard
e l’output generato dal sistema neurale, modificando gradualmente i parametri della rete. Si tratta di
un processo a tentativi, che procede con errori e correzioni fino a che non si ottiene il miglior risultato
possibile in base ai dati disponibili, apprendendo autonomamente dai corpora le regole di una lingua
naturale e come riprodurle in un’altra lingua.
Questo approccio è diventato l’approccio più utilizzato nel campo della traduzione automatica,
proprio perché produce risultati di gran lunga migliori rispetto agli approcci descritti in precedenza.
Approcci ibridi
Un altro approccio di tendenza e che ha riscosso un grande successo nella traduzione automatica, è
l’approccio ibrido, che integra gli approcci linguistici agli approcci statistici, godendo in questo modo
dei benefici offerti da entrambe le metodologie.
Ci sono diversi modi per combinare i due approcci:
- Accoppiamento di sistemi (seriali o paralleli): vengono combinati i due sistemi senza mai
essere integrati del tutto; in questo caso, generalmente, si utilizza prima l’approccio a regole,
e il post-editing si realizza attraverso l’approccio statistico;
- Adattamento dell’architettura dei due sistemi; in questo caso l’architettura di uno dei due
sistemi viene modificato inserendo delle caratteristiche dell’altro sistema;
- Creazione di un reale sistema ibrido; in questo caso viene creato un sistema integrando
completamento le caratteristiche dei due sistemi.
CAPITOLO 5 – IL PROCESSO DI TRADUZIONE AUTOMATICA E LE COMPETENZE
DEL TRADUTTORE NELL’ERA DIGITALE
L’ampliamento del mercato vissuto negli ultimi anni relativo all’adozione della traduzione
automatica ha avuto e continua ad avere tutt’oggi come inevitabile conseguenza l’incremento della
domanda di servizi di post-editing. Infatti, benché il miglioramento della qualità della traduzione
automatica sia veramente significativo negli ultimi anni, l’intervento umano per ottenere traduzioni
di buona qualità è comunque sempre necessario, seppur in maniera diversa rispetto alle forme
tradizionali.
Nella traduzione automatica, che attualmente è considerato un sistema a sé stante, il traduttore umano
interviene attraverso due azioni: azioni di pre-editing ed azioni di post-editing.
Nella fase di pre-editing, il compito dell’uomo è di preparare il testo di partenza al processo di
traduzione automatica, rimuovendone le ambiguità o segnalando le parti più difficili da tradurre
automaticamente. Nella fase di post-editing, invece, l’uomo ha il compito di risolvere problemi
relativi alla lingua di arrivo.
Pre-editing
Per quanto riguarda il pre-editing, l’obiettivo principale è quello di ridurre i tempi di revisione del
testo di arrivo e migliorarne la qualità. Questa fase è generalmente caratterizzata da interventi che
riguardano:
- Correzione di errori ortografici e grammaticali;
- Eliminazione di parti ambigue o complesse attraverso interventi di esplicitazione
(sostituzione di pronomi con nomi), semplificazione (sostituzione di periodi lunghi con
semplici) o normalizzazione (trasformazione di formi particolari come abbreviazioni o usi
dialettali);
- Trasformazione del linguaggio tecnico in linguaggio controllato.
Quando parliamo di linguaggio controllato facciamo riferimento a un tipo di linguaggio sviluppato
principalmente per applicazioni industriali, utilizzati ad esempio nei manuali di istruzione; essi
derivano da lingue naturali ma sono semplificati, per facilitare la lettura della documentazione tecnica
al personale che spesso non possiede un livello linguistico molto alto.
In generale, la ricerca sul pre-editing e sull’uso di linguaggi controllati ha prodotto molti meno
contributi rispetto agli studi sul post editing, probabilmente perché questa fase è vista come una fase
opzionale, non facente parte del vero e proprio processo di traduzione e talvolta anche antieconomica.
Post-editing
Il post-editing, abbiamo detto, consiste nell’attività di revisione di testi tradotti automaticamente.
Colui che si occupa di questa attività non deve essere necessariamente un traduttore, molto spesso è
una persona che conosce solo la lingua di arrivo e valuta se quel determinato testo che è stato prodotto
è conforme alla lingua in cui è stato redatto oppure presenta degli elementi non corretti.
Distinguiamo tra due tipologie di post-editing:
- Un’attività chiamata light post-editing o anche fast post-editing;
- Un’altra chiamata full post-editing.
La fase di light post-editing è un’attività di revisione minima del testo tradotto automaticamente e si
focalizza su correzioni essenziali, ovvero correzioni di errori che compromettono la trasmissione del
messaggio corretto nonché corretta interpretazione da parte del ricevente, quindi si concentra
principalmente sul contenuto. Questa attività è realizzata soprattutto quando i documenti da tradurre
sono per uso interno.
La fase di full post-editing, invece, è un’attività che revisiona anche errori grammaticali e stilistici,
quindi si concentra anche e soprattutto sulla forma. Questa attività è realizzata quando i documenti
sono pubblicabili, quindi per uso pubblico, di conseguenza è un processo più lento e accurato
finalizzato ad ottenere il massimo sia nel trasferimento del messaggio che nella fruibilità del testo di
arrivo.
La fase di post-editing, rispetto a quella di pre-editing, è stata oggetto di studi di numerosi studi e per
molto tempo questi studi si sono concentrati sul confronto tra la fase di post-editing e la traduzione
umana tradizionale.
Uno dei primi contributi più importanti in merito è stato fornito dalla TAUS, la Translation
Automation User Society, un’associazione che ha come obiettivo la trasmissione di conoscenze nel
campo dell’industria delle lingue. Tale associazione ha realizzato nel 2016 delle linee-guida che
riguardano il post-editing, al fine di addestrare le organizzazioni che intendono adottare tali processi.
A tal proposito, per il ligh post-editing, le linee guida raccomandano una traduzione semanticamente
corretta, assicurandosi che nessuna informazione sia stata aggiunta o omessa, mentre per il full post-
editing si raccomanda di produrre come risultato una traduzione corretta semanticamente,
sintatticamente e grammaticalmente.
Uno dei primi studi che riguarda la traduzione automatica ha confrontato il grado di comprensibilità
di tre tipologie di traduzione, ovvero la traduzione umana, la traduzione automatica grezza e la
traduzione automatica sottoposta a post-editing, e da tali studi è stato rilevato che la differenza fra
traduzione umana e traduzione automatica revisionata quasi non sussiste, a differenza invece della
traduzione automatica grezza che produce gradi di comprensibilità prettamente inferiori rispetto alla
traduzione umana.
Altri studi, sempre analizzano la differenza fra traduzione automatica e umana, hanno indagato in
particolare lo sforzo cognitivo sostenuto durante i due processi, attraverso l’analisi della difficoltà
percepita dal traduttore, attraverso il tempo impiegato durante le pause durante la digitazione su
tastiera o attraverso il tracciamento oculare.
Negli studi sulla traduzione automatica, uno scenario importante lo hanno occupato tutti quegli studi
che si occupano della figura del traduttore, o meglio di quegli studi che si chiedono quali siano le
competenze e le abilità che il traduttore deve possedere soprattutto in campo tecnologico con
l’avvento della traduzione automatica.
A tal proposito sono due i contributi che hanno assunto un’importanza rilevante, quello dello studioso
Anthony Pym e quello del traduttore Enrique Torrejòn e la professoressa Celia Rico.
Anthony Pym, in particolare, ha delineato dieci competenze di base che il traduttore deve possedere
in questa nuova era della traduzione, le quali sono divise in tre ambiti:
1- Il primo ambito è il learning to learning;
2- Il secondo è il learning to trust and mistrust data;
3- Il terzo è il learning to revise with enhances attention to detail.
Secondo il learning to learning, imparare per imparare, il traduttore deve avere la compoetenza di
adattarsi velocemente ai processi tecnologici, di cui deve saper anche valutare l’adeguatezza in
relazione alle necessità tecniche e al prezzo.
Secondo il learning to trust and mistrust data, il traduttore deve avere la capacità di saper valutare i
risultati della traduzione auomatica.
Infine, in base al learning to revise, il traduttore deve essere in grado di revisionare facendo attenzione
al dettaglio, correggendo errori di coesione, punteggiatura e stilistici.
Per quanto riguarda invece Rico e Torrejòn, la professoressa e il traduttore forniscono una descrizione
più dettagliata delle competenze richieste, suddividendo tali competenze in tre tipologie:
- Linguistic skills; si tratta di competenze linguistiche, ovvero la capacità di comunicare in
un’altra lingua nonché di interpretare le culture altrui;
- Instrumental competences; sono le competenze tecnologiche, di cui fanno parte l’MT
knowledge (conoscenza della traduzione automatica), il Term management (la gestione
della terminologia),l’MT dictionary maintenance (la manutenzione e l’aggiornamento
costante dei dizionari del traduttore automatico) e le Basic programming skills, competenze
basiche di programmazione, che riguardano l’utilizzo del PC.
- Core competences, si tratta di competenze attitudinali e psicologiche, come ad esempio la
capacità personale e soggettiva di definire ed applicare le norme per il post-editing o ad
esempio di gestire le aspettative del cliente.
CAPITOLO 6 – QUALITA’ E VALUTAZIONE DELLA TRADUZIONE AUTOMATICA
Attualmente, con l’avvento della traduzione automatica, non è più discutibile che questa tipologia di
traduzione abbia un vantaggio significativo in termini di tempo e costo; ciò che, invece, è ancora in
discussione è la metodologia di valutazione della qualità della traduzione automatica, in quanto non
vi è ancora un accordo preciso che stabilisca i parametri da considerare per valutare la qualità di
questa nuova tipologia di traduzione.
Nel corso del tempo, le metodologie utilizzate hanno oscillato tra due estremi opposti, ovvero
l’adozione di criteri qualitativi ed umani e l’adozione di criteri quantitativi ed automatici.
Il primo tentativo di valutare la traduzione automatica risale al famoso rapporto ALPAC del 1996
commissionato dall’Accademia Nazionale delle Scienze americana per studiare la fattibilità della
traduzione automatica e per valutare soprattutto i risultati ottenuti a fronte di ingenti finanziamenti
nel settore stanziati per circa dieci anni.
In quell’epoca non c’erano ancora dei modi affidabili per valutare la qualità, perciò la commissione
si basò su un esperimento, che valutava la qualità delle traduzioni dal russo all’inglese usando due
criteri: quello dell’intelligibilità e quello della fedeltà.
Il criterio dell’intelligibilità si riferisce ad una traduzione che può essere letta agevolmente e che è
facilmente comprensibile, come se fosse un testo nativo della lingua di arrivo.
Il criterio di fedeltà, invece, valuta la traduzione confrontandola con il testo di partenza, in base al
grado di informatività, secondo cui se per capire un testo bisogna confrontarlo con l’originale, allora
il grado di informatività è basso e quindi la traduzione non è fedele.
L’esperimento venne condotto usando due diversi gruppi di valutatori. Ad un primo gruppo, che
conosceva solo la lingua inglese, venne affidato il compito di confrontare due traduzioni in lingua
inglese, una umana e una automatica. Ad un secondo gruppo, che invece conosceva sia l’inglese che
il russo, venne affidato il compito di valutare le frasi tradotte automaticamente in confronto con quelle
originali in russo.
Questo primo esperimento era basato su aspettative molto alte, in quanto l’obiettivo di quel periodo
era di raggiungere la Fully Automatic High Qualiti Translation, ovvero una traduzione prettamente
automatica che raggiungesse la qualità di traduzione umana. Questo obiettivo ovviamente era ancora
utopico a quel tempo e l’esperimento fu deludente, tanto che per un periodo le ricerche nel campo
furono sospese, ma d’altra parte fu evidenziata la necessità di approfondire gli studi nel campo della
linguistica computazionale.
Un altro documento importante rispetto alle metodologie da adottare nella valutazione è il Van Slype
Report, uno studio commissionato dalla Commissione Europea a seguito dell’adozione del sistema
SYSTRAN.
Questo rapporto è interessante per come considera la qualità della traduzione, in quanto pone
l’accento sul fatto che la qualità è un concetto relativo e come tale deve essere valutata applicando
diversi criteri distinti, ognuno focalizzandosi su aspetti diversi della qualità della traduzione.
Questo rapporto propone oltre a criteri linguistici anche criteri di tipo socio-situazionale (che valutano
ad esempio l’usabilità e l’accettabilità da parte degli utenti), economici (che valutano tempi di lettura,
di correzione, di traduzione) e operativi (che valutano ad esempio l’identificazione automatica della
lingua).
Si passa quindi da un concetto di qualità di tipo statico (misurato in termini assoluti avendo come
modello di riferimento il risultato della traduzione umana,) a un concetto di qualità più dinamico.
Nel 1988 abbiamo un altro modello proposto da due studiosi: Lehrberger e Bourbeau, i quali
cercano di formulare una metodologia generale per la valutazione della traduzione automatica, intesa
sia come processo che come prodotto.
Questo schema prevede tre approcci di valutazione:
- Valutazione linguistica, effettuata sulla traduzione grezza e valuta gli errori effettuati dal
sistema;
- Valutazione dei costi\benefici per l’utente, considera i costi diretti e indiretti connessi alla
traduzione automatica e li confronta con quelli di una traduzione umana della stessa qualità;
- Valutazione da parte dello sviluppatore, finalizzata a identificare le aree critiche del sistema
e il loro miglioramento.
Tutti questi metodi, che hanno prevalso fino agli anni ’90, implicavano il ricorso all’intervento
umano. Un’altra strategia di questo tipo era la back-translation o retro-versione, che consisteva nel
tradurre il TP in TA e successivamente ritradurre il TA in TP, anche se ben presto questa strategia fu
abolita perché considerata inaffidabile, e le strategie che in generale necessitavano dell’intervento
umano, a partire dal 2000, furono sostituite o comunque si tentò di sostituirle con approcci automatici,
perché troppo costosi ed anche troppo lenti.
i principali software di valutazione automatica furono 4: BLEU, NIST, METEOR e Word Error
Rate.
Questi software usano una serie di criteri per valutare la traduzione automatica sulla base di un corpus
di riferimento o gold standard, costituito da testi tradotti da traduttori umani.
Tutte queste metriche si basano sul principio di similarità della traduzione automatica rispetto a quella
umana, calcolando la distanza tra le due, adottando due criteri, quello della precisione e quello del
recupero, in inglese precision and recall.
Per calcolare la precisione vengono calcolati il numero di segmenti tradotti correttamente e divisi per
il numero di segmenti totali della traduzione automatica; per calcolare il recupero, invece, il numero
di segmenti tradotti correttamente viene calcolato per il numero di segmenti totali della traduzione
umana di riferimento. Esiste poi un terzo criterio chiamato F-measure, che integra i due criteri al fine
di produrre parametri più precisi.
I 4 software sopra citati seguono questi criteri e si differenziano tra loro per delle sottili caratteristiche.
BLEU, ad esempio, confronta la traduzione automatica a quella umana segmentando il testo parola
per parola, ed attribuendo ad ogni elemento – che sia lessicale o gramamaticale – uguale peso.
NIST, invece, attribuisce un peso maggiore a segmenti rari, ovvero segmenti che ricorrono meno
spesso nel testo, perché ritenuti maggiormente informatici; per cui se l’errore nel confronto tra le due
traduzioni riguarda la traduzione di un segmento raro, il punteggio calerà maggiormente rispetto a se
l’errore riguardasse un segmento frequebte.
METEOR, quasi seguendo lo stesso metodo di NIST, attribuisce un peso maggiore alle parole
lessicale piuttosto che a quelle grammaticali; infine abbiamo Word Error Rate, che valuta il numero
di parole diverse, che siano state cancellate, sostituite o inserite in aggiunta.
Queste metriche però hanno degli svantaggi, come ad esempio il fatto che non sono rapportabili tra
loro poiché producono differenze sostanziali e che non sono rapportabili al giudizio umano. Al
proposito sono emerse numerose critiche, ad esempio il fatto che:
- quasi tutte le metriche non considerano che la forma superficiale delle parole, non vagliando
altri aspetti come ad esempio la grammaticalità del testo, la fruibilità, il registro o lo stile.
- Non sempre è chiara la provenienza ed accertata la validazione qualitativa dei corpora usato;
- Queste metriche non sono utili nell’individuare e confrontare in maniera più dettagliata punti
di forza e debolezze dei diversi sistemi.
Dinanzi a queste critiche, quindi, si è tentato di sviluppare delle metriche più affidabili e che in
qualche modo conciliassero i diversi punti di vista: sia quelli quantitativi e qualitativi, sia quelli degli
utenti e sviluppatori. Un esempio può essere la Dynamic Quality Framework (DQF) definita cosi
perché considera la qualità “dinamica”, nel senso che la qualità della traduzione è da rapportare a
quelli che sono gli scopi del testo di partenza ma anche gli scopi finali degli utenti della traduzione
finale e si basa su due concetti: l’adeguatezza e la fruibilità.
Il criterio di adeguatezza indica che in un testo di arrivo è stato riportato tutto il contenuto del testo
di arrivo, ed è classificabile secondo una scala di 4 parametri, ovvero:
- Completamente adeguata.
- Per lo più adeguata.
- Poco adeguata.
- Non adeguata affatto.
Il secondo criterio è quello della fruibilità, quindi in che misura la traduzione è grammaticalmente
ben formata e quanti errori di ortografia contiene, se quindi è conforme all’uso comune dei termini,
dei titoli, dei nomi e quanto sia vicino ad un testo nativo della lingua di arrivo.
Anche qui abbiamo una scala di 4 valori:
- Pienamente accettabile.
- Presenta degli errori.
- Totalmente incomprensibile.
Un’altra metrica sviluppata è la Multidimensional Quality Metrics,(MQM), che prende in
considerazione una serie di parametri come l’accuratezza, il desing, lo stile, la verità, la terminologia
e la fruibilità. Questo sistema consente di identificare gli errori in un testo tradotto sia
automaticamente che un testo tradotto da un professionista, adatta le categorie di errori a diversi tipi
di processi e consente di incentrarsi su sistemi di traduzione automatica o di ausilio alla traduzione.
CAPITOLO 7 – LA TRADUZIONE AUTOMATICA PARTECIPATA. IL CONTRIBUTO
DEL CROWDSOURCING
Il termine crowdsourcing è stato usato per la prima volta dal professore Jeff Howe nel suo articolo
intitolato The rise of Crowdsourcing, ed indica un’attività che si basa sul contributo di una moltitudine
di persone su base volontaristica o a pagamento.
Questa pratica può riguardare diverse attività e tra le tante figura anche la traduzione.
Nel settore della traduzione il crowdsourcing fa riferimento all’uso di gruppi professionisti e non, a
pagamento o su base volontaristica, per svolgere tipiche attività di traduzione e localizzazione.
Dal 2006 ad oggi questa forma di uso dell’intelligenza collettiva nel campo della traduzione ha dato
l’avvio a pratiche collaborative di traduzione su larga scala, come nel caso di Facebook, YouTube,
Twitter e Linkedin. Tra questi il caso che avuto sicuramente un notevole successo è Facebook, che
ha creato una strategia molto efficiente: attraverso l’applicazione Translate Facebook, gli utenti del
social network possono contribuire al processo di traduzione. Grazie al crowdsourcing, il social
network è riuscito a localizzare in pochissimo tempo l’interfaccia in tutte le lingue a costo zero.
L’interfaccia di Facebook viene costantemente aggiornata, proponendo continuamente ai volontari
breve stringhe di testo da tradurre. All’interno di Translate Facebook l’utente può scegliere la
traduzione che a suo parere è la migliore tra una serie di proposte, o in alternativa può suggerire una
sua traduzione.
Sulla stessa scia del successo di Facebook, anche altri social network hanno cercato di adottare lo
stesso approccio, anche se non sempre con lo stesso risultato, come nel caso di Linkedin, una
piattaforma per professionisti, in cui i traduttori immediatamente si opposero a questo approccio.
Altri campi di applicazione del crowdsourcing nel settore della traduzione sono ad esempio la
traduzione di audiovisivi, il sottotitolaggio e la traduzione a scopi umanitari.
Il crowdsourcing non è stato utilizzato solo per attività di traduzione fini a sé stesse, ma anche per la
raccolta di dati utili al miglioramento delle tecnologie di traduzione automatica.
Generalmente le iniziative di crowdsourcing avvengono mediante l’uso di piattaforme come Amazon
Mechanical Turk, le quali consentono ai ricercatori l’accesso a costi contenuti, e agli utenti di
collaborare in maniera volontaristica o anche dietro pagamento di piccole somme di denaro.
Esistono varie forme di crowdsourcing per la raccolta dei dati linguistici, ovvero:
- Lavoro meccanizzato, secondo cui si richiede l’esecuzione di un compito ben definito in
cambio di una determinata ricompensa in denaro;
- Wisdom of the Crowd, quando i volontari si prestano liberamente a condividere le loro
conoscenze per eseguire dei compiti, rispondendo a domande o spiegando cose ad altre
persone, come nel caso di Wikipedia o Yahoo! Answer.
- Giochi con uno scopo, in inglese Games with a purpose, quando si usa un gioco per raccogliere
dati linguistici. In questo contesto non sono richieste conoscenze specifiche e l’utente,
immerso nell’ambiente di gioco, deve effettuare scelte ben precise e non è consapevole, a
volte, che le sue risposte verranno raccolte per raccogliere dati.
A partire dai Giochi con uno scopo, in cui i partecipanti a volte non sono consapevoli di ciò che fanno,
è importante fare un’altra classificazione tra due tipologie di Crowdsourcing, ovvero il
crowdsourcing esplicito e il crowdsourcing implicito.
Si parla di crowdsourcing esplicito quando i contribuenti sono consapevoli del fatto che stanno dando
un contributo alla raccolta di dati, come nel caso del lavoro meccanizzato e del Wisdom of the crowd.
Il crowdsourcing non è usato solo a fini di ricerca, bensì viene utilizzato dalle grandi multinazionali
e dai social network per ottenere dati a basso costo o gratuitamente.
Esemplare è il caso di Google Traduttore, che ha messo in atto delle strategie molto efficace per
coinvolgere qualsiasi utente nella realizzazione di risorse preziose. Ad esempio consente all’utente di
suggerire una traduzione diversa da quella proposta dal sistema. Inoltre, all’interno di questa
Community di translate, vengono proposte delle frasi, o sintagmi, che l’utente deve valutare
scegliendo tra le valutazioni utile\errata\offensiva.
All’interno di questa pagina vengono fornite anche delle linee guida, inerenti a come tradurre.
Per quanto riguarda invece il crowdsourcing implicito, in questo caso il contribuente non è
consapevole del fatto che il suo contributo sarà utilizzato per delle raccolte di dati importanti, come
nel caso dei giochi con uno scopo. Un esempio è il caso del gioco 1001 Paraphrases, gioco il cui
obiettivo era quello di collezionare corpora da usare per addestrare un sistema di traduzione
automatica a riconoscere le parafrasi di specifiche espressioni nella lingua di arrivo. Il sistema di
traduzione automatica era un sistema inglese di frasi. Si invitava l’utente a fornire delle parafrasi di
frasi come “This can help you”. Si chiede un altro modo per interpretare questa frase, come “This
could be helpful”, oppure “This could be of help”. In questo caso non è detto esplicitamente a chi
giocava, che in questo modo si sarebbero raccolti dati che sarebbero stati poi riutilizzati.
Questa raccolta di dati ha una serie di vantaggi:
- Non vi sono spese per l’assunzione di lavoratori;

- i costi per remunerare i contribuenti sono molto bassi;
-I tempi per raccogliere i dati sono molto più veloci rispetto a quando questi dati vengono raccolti
nella maniera tradizionale, in quanto le attività vengono completate in parallelo da molte persone.
Ci sono però anche diversi problemi legati all’utilizzo di tale metodologia, che riguardano la qualità
e l’etica.
Per quanto riguarda la qualità, vi sono due problemi:
- Il primo riguarda l’affidabilità dei dati: molto spesso, ad esempio, se si pensi ad Amazon
Mechanical Turk, non si sa bene la nazionalità delle persone che contribuiscono alla raccolta
dei dati.
- Il secondo limite è che molto spesso, le persone per effettuare questi Task che vengono poi
pagati molto poco, possono usare a loro volta la traduzione automatica, quindi rendendo non
affidabile e non usabili i dati prodotti in questo modo.
Alcuni ricercatori hanno cercato di mettere in piedi dei processi per rendere più affidabile l’uso del
crowdsourcing nella raccolta di traduzioni, come nel caso di due ricercatori, Zaidan & Callison-
Burch, i quali hanno raccolto più traduzioni per una stessa frase, in modo tale da fare dei confronti.
Inoltre, il testo da tradurre veniva proposto come immagine e non come testo, proprio per evitare che
venissero utilizzati dei sistemi di traduzione automatica, e infine, un altro criterio è che hanno raccolto
informazioni sulla provenienza geografica dei traduttori.
Un altro problema esistente, è di tipo etico, in quanto molto spesso questi dati (come il caso di
Facebook) vengono raccolti gratuitamente, quindi grazie al contributo degli utenti, ma alla fine questa
metodologia viene utilizzata per produrre dei servizi a pagamento, e quindi sorge un problema di tipo
etico.
Chi è più danneggiato da questo tipo di critica sono i professionisti del settore (dunque traduttori
professionisti), perché generalmente le attività di localizzazione richiedono delle competenze molto
specifiche, e quindi vengono remunerate anche bene nell’ambito del mercato della traduzione.

Zairja

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Zairja

Caricato da

Copyright:

Formati disponibili

JOHANNA MONTI - DALLA ZAIRJA ALLA TRADUZIONE

AUTOMATICA. RIFLESSIONI SULLA TRADUZIONE NELL’ERA

CAPITOLO 1 – TECNOLOGIE PER LA TRADUZIONE. DEFINIZIONI, USI E MODELLI

Approcci di prima generazione – a

Approcci basati su esempi – o

APPROCCI EMPIRICI Approcci statistici

- Metodo a traduzione diretta;

Metodo a traduzione diretta

- Non vi sono spese per l’assunzione di lavoratori;

Potrebbero piacerti anche