Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
- translation prosumption; è il concetto secondo cui gli utenti delle tecnologie creano contenuti
multilingue e partecipano a traduzioni, pur non essendo traduttori;
- post-print translation literacy;è il concetto secondo cui le traduzioni dell’era digitale possano essere
definite usa e getta, in quanto l’utente accede alla traduzione tramite un software, estrapola le
informazioni di cui ha bisogno, e successivamente la traduzione viene eliminata.
- pluri-subjectivity; è il concetto secondo cui la traduzione automatica ha un doppio risvolto, se così
possiamo definirli, uno negativo ed uno positivo. Quello negativo è quello che riguarda la de-
umanizzazione, ovvero il fatto che la traduzione automatica abbia quasi sminuito il ruolo del traduttore
umano; quello positivo, invece, è che la traduzione automatica ha anche un risvolto politico-sociale,
in quanto vi sono gruppi di persone che approfittano delle nuove tecnologie per creare contenuti
interessanti e per supportare con tali contenuti azioni politiche e sociali importanti.
Altri due approcci che sono stati rivalutati con lo sviluppo della traduzione automatica sono quelli cognitivi e
sociologici.
Gli approcci cognitivi si interrogano principalmente sugli aspetti cognitivi del processo di traduzione, quando
all'interno di quest’ultimo vengono utilizzate le tecnologie. Ci si chiede se effettivamente le tecnologie
modifichino il processo decisionale dei traduttori. La risposta è che alcuni studiosi considerano le tecnologie
come una sorta di estensione della mente umana, in quanto esse permettono al traduttore di archiviare meglio
i dati e soprattutto una quantità maggiore di essi. Quindi le tecnologie non possono essere più considerate come
degli artefatti isolati, ma devono essere intesi come parte di una complessa rete, in cui funzionano come
estensione della memoria umana. A tal proposito, alcuni studiosi come Alonso e Calvo, parlano di Trans-
Human-Translation, ovvero traduzione trans-umana, in quanto la traduzione attualmente è un sistema
complesso che integra azione umana e tecnologie.
Un altro approccio è quello sociologico, che analizza il ruolo che la traduzione automatica svolge all’interno
di un contesto sociale.
Ci sono stati diversi studiosi che si sono occupati – soprattutto in tempi recenti - di questo aspetto, quindi del
ruolo della traduzione atomica in questa rete sociale che riguarda la produzione. Uno di questi è Olohan che
pubblica nel 2017 un saggio intitolato “Technology, translation and society. A constructivist, critical theory
approach.” (Tecnologia, traduzione e società: un approccio basato sulla teoria critica e costruttivista).
Questo saggio critica i Translation studies perché questi ultimi non prendono in considerazione in maniera
adeguata il ruolo delle tecnologie, che invece nascono dietro di sé un forte condizionamento sociale.
Quello che mette in evidenza Olohan è che le scelte tecnologiche non sono mai neutrali, ma sono sempre
dettate da qualcosa o da qualcuno, quindi l’adozione di certe tecnologie ha un carattere obbligatorio.
La prima conseguenza sociale che possiamo analizzare è quella che riguarda il ruolo del traduttore e soprattutto
i profitti del traduttore; L’uso delle tecnologie è come se svalutasse l'uso del traduttore soprattutto poi in termini
economici, perché ovviamente se a un traduttore si richiede di tradurre un testo ex novo vengono applicate
determinate tariffe, se gli si richiede di rivedere un testo già pre-tradotto, la tariffa cambia.
A questo poi si collega un altro aspetto, quello del crowdsourcing, il processo secondo cui i software utilizzano
le conoscenze e le esperienze degli utenti per migliorare i propri processi traduttivi. In linea generale, facendo
riferimento agli utenti generici, questo fattore non è molto considerato, ma se ragioniamo da un punto di vista
professionale, a pensiamo a un traduttore che - utilizzando un determinato strumento - produce una memoria
di traduzione, ci rendiamo conto che in qualche modo quest’ultimo ha dei diritti di proprietà intellettuale
rispetto alla produzione di questi testi, che però non gli viene riconosciuto, e che al contrario invece
contribuisce al miglioramento del software e quindi della multinazionale che c’è dietro.
Moorkens mette in evidenza come l'uso delle tecnologie può contribuire ad una maggiore sfiducia dei traduttori
rispetto al proprio lavoro e al proprio contributo e sull'aspetto della condivisione dei dati.
A tal proposito, Moorkens fa anche delle proposte concrete sulle questioni etiche per il riuso dei dati prodotti
dagli utenti, e si propone di utilizzare un modello che è l'Institutional analysis and Development
Framework, che è un approccio che si usa in ambito sociologico per analizzare i dati forniti dai vari utenti, in
che modo e di che qualità, e dovrebbe portare al riconoscimento di diritti d’autore sui dati forniti, diritto che
ogni utente poi dovrebbe essere libero di vendere o di cedere.
Un'altra autrice interessante in questo filone più sociologico è Minako O'hagan, che fa un esempio concreto
del discorso già introdotto da Moorkens; in particolare O’hagan analizza la Massively Open Translation.
La Massively Open Translation è la traduzione su larga scala che viene effettuata grazie al contributo degli
utenti.
Ad esempio, questo tipo di traduzione viene effettuata da Facebook o anche da Wikipedia. Wikipedia è
un'enciclopedia costruita in maniera collettiva grazie al contributo di chiunque, ed è presente su internet in
tantissime lingue.
Anche facebook è dominato dallo stesso principio. Noi siamo in grado di utilizzare Facebook nella nostra
lingua grazie al contributo degli utenti. Infatti, c'è una funzione presente in Facebook che propone agli utenti
stessi la traduzione, ad esempio, dall'inglese all'italiano di stringhe che compongono l'interfaccia. Se si può
interagire con Facebook in lingua italiana è grazie al contributo degli utenti.
Questo approccio alla traduzione ha fatto sì che Facebook potesse essere disponibile in tantissime lingue, senza
ricorrere ai traduttori, gratuitamente e grazie al contributo dei “fan” di Facebook.
Anche in questo caso ci rendiamo conto di come le multinazionali riescano ad ottenere dei grandi profitti in
termini di traduzione, attraverso il contributo gratuito degli utenti e svalutando in questo modo il ruolo e
l’economia dei traduttori professionisti.
CAPITOLO 3 – LA PROSPETTIVA STORICA: DALLA ZAIRJA A GOOGLE
TRADUTTORE
La traduzione automatica rappresenta in termini moderni uno dei più antichi sogni dell’uomo, ovvero la
possibilità di costruire una macchina intelligente in grado di pensare e agire come un essere umano.
L’idea di un meccanismo in grado di riprodurre il ragionamento umano risale al 1200, quando un famoso
filosofo e missionario catalano, Ramòn Llull, inventò, ispirandosi ad un oggetto visto in viaggio, una sorta di
macchina costituta da una serie di dischi di carta sovrapposti che ruotando componevano delle frasi. L’oggetto
che incontra durante i suoi viaggi tra Spagna e Africa del Nord si chiama Zairja. La Zairja era basata sulle 28
lettere dell’alfabeto arabo, queste lettere corrispondevano a delle categorie filosofiche. Llull immagina una
versione cristiana di questa Zairja, basata su dei dogmi medievali e perciò c costruisce questa macchina “di
carta” per combinare, attraverso la rotazione di dischi di carta, delle frasi che in qualche modo risolvono dei
problemi di teologia, di metafisica e di morale senza doversi preoccupare di pensare. Questo, è semplicemente
un inizio di macchine intelligente, ovviamente non si parla di traduzione, ma si tratta del desiderio dell’essere
umano di produrre automaticamente delle frasi.
La prima idea di un dizionario basato su codici numerici risale all’Illuminismo Europeo e fu sviluppata da
Cartesio e Leibniz. Si chiamava characteristica universalis e si trattava di un dizionario di linguaggio
universale, ovvero un linguaggio basato su principi logici e codici comprensibili universalmente, per facilitare
il commercio e lo scambio di conoscenza tra i popoli.
Sulla base dell’idea di Cartesio cominciarono ad essere pubblicati una serie di dzionari meccanici, ovvero
dizionari basati su un sistema numerico che esprimesse un linguaggio universale. Per citarni alcuni abbiamo
The Universal Caracter di Cave Beck o ad esempio Character pro notitia linguarum universali di Johann
Joachim Becher.
In questo periodo quindi si sviluppano una serie di idee sul concetto di linguaggio universale che consentirebbe
di superare le barriere linguistiche. Si arriva poi, nel 1837, alla costruzione della prima macchina analitica, da
parte dello scienziato inglese Charles Babbage, aiutato dalla matematica Ada Lovelace. La macchina prese
il nome di Analytical Engine, e rappresentava il primo prototipo di un computer meccanico sviluppato per
eseguire compiti generici.
Tutto ciò che è stato detto fin ora corrisponde alla preistoria della traduzione automatica, questo perché si
comincia a parlare di primi approcci di traduzione automatica solo nel secolo scorso, intorno agli anni 30,
quando un ingegnere rumeno brevettò quello che viene chiamato il “Cervello meccanico” (Cerveau
mécanique); questa macchina venne presentata nel 1937 all’Expo di Parigi ed era uno strumento per archiviare,
recuperare, stampare informazioni; aveva diverse funzioni tra cui anche quella di dizionario automatico.
Nello stesso periodo un ingegnere russo, Pëtr Petrovič Smirnov-Trojanskij, presentò in Russia il primo
prototipo di traduttore automatico; in questo caso si trattava di una macchina e l’idea di fondo era che in
qualche modo le lingue fossero accomunate da una struttura logica comune.
Questo processo è basato sull’uso di due traduttori umani che non necessariamente conoscono la lingua di
partenza e la lingua di arrivo. Tale processo prevedeva tre fasi:
1. C’è un primo traduttore che trasforma la lingua di partenza in una forma logica, quindi
sostituendo gli elementi con gli elementi dell’analisi logica in riferimento alla struttura della lingua
originale;
2. Nella seconda fase la macchina trasformava gli elementi di analisi logica della lingua di
partenza in elementi di analisi logica della lingua di arrivo;
3. Vi era poi un secondo traduttore che trasformava gli elementi di analisi logica nella lingua di
arrivo.
Si tratta di prototipi, in realtà questi ultimi non hanno prodotto nessuna concreta conseguenza sulla storia della
traduzione automatica. I veri e propri inizi della traduzione automatica si hanno quando vengono sviluppati i
computer, quindi i calcolatori, e questo succederà solo intorno agli anni ’50.
Gli storici della traduzione automatica fanno risalire l’inizio della traduzione automatica al 1949, quando
Warren Weaver (direttore della divisione di scienze naturali della fondazione Rockfeller), in un suo
memorandum, considera la traduzione automatica un problema di criptografia, ovvero un processo secondo
cui dei messaggi in linguaggio naturale vengono codificati in linguaggio artificiale.
Il progresso della traduzione automatica si ha quando si afferma il computer e quando ci sono dei progressi
rispetto all’Intelligenza Artificiale. Uno dei padri dell’Intelligenza Artificiale è Alan Turing. Turing è famoso
soprattutto per il “Test di Turing”: test ancora utilizzato per capire se realmente una macchina può essere
considerata intelligente come un essere umano.
Ovviamente però, anche i primissimi prototipi di traduzione automatica che si sviluppano in questo periodo,
dimostrano fin da subito dei limiti. Uno dei primi ricercatori in questo campo è Yehoshua Bar-Hillel, il quale,
fin da subito, avverte su quelli che sono i limiti della tecnologia nel replicare il linguaggio naturale umano.
Nel 1951 pubblica un saggio in cui avverte la comunità scientifica sul fatto che la parità qualitativa fra
traduzione automatica e umana è difficilmente ottenibile.
Nel 1954 ci fu un avvenimento importante per la traduzione automatica, ovvero ebbe luogo a Georgetown la
prima dimostrazione pubblica di un sistema di traduzione automatica, che basato su un vocabolario di 250
parole e solo sei regole sintattiche, era in grado di tradurre in inglese un insieme selezionato di 49 frasi russe.
Questa dimostrazione, nonostante fosse di scarso valore scientifico, in quanto limitata a un numero di frasi
incentrate su argomenti generali, provò comunque la fattibilità della traduzione automatica e diede impulso a
un finanziamento di ricerca su vasta scala.
Dall’esperimento di Georgetown in poi, tra gli anni ’50 e ’60, si assistette a un gran fermento nel settore
della ricerca, in quanto nacquero gruppi di ricerca negli Stati Uniti, in Unione Sovietica e nel Regno Unito.
Questi gruppi di ricerca si fondarono sull’approccio della grammatica generativa-trasformazionale di
Chomsky, quindi sul principio che tutte le lingue sono fondate su una serie di principi grammaticali e sintattici.
Questi approcci, tuttavia, furono deludenti, perché cominciarono a scontrarsi con il problema della polisemia,
dell’ambiguità e della complessità del linguaggio naturale, che oltre che dalle regole è caratterizzato
damolteplici particolarità. Essendo ormai diventato chiaro che la sola analisi sintattica non consentiva di
disambiguare la polisemia in maniera appropriata, la ricerca cominciò ad orientarsi verso sistemi basati su
modelli semantici.
Sempre intorno agli anni Sessanta, il governo americano vuole capire se a fronte di questi ingenti
finanziamenti ci siano stati effettivamente dei risultati nella ricerca in questo settore, e quindi, commissiona
un rapporto a dei gruppi di ricercatori che va sotto il nome di ALPAC, che nel 1966, conclude che la traduzione
automatica non è molto più vantaggiosa della traduzione umana, i risultati non sono equiparabili e i tempi sono
anche maggiori.
Questo ha come conseguenza il fatto che il governo americano rallenta e ferma il finanziamento alla ricerca
in questo settore.
La ricerca però non si ferma e si sposta altrove. A partire dagli anni 70 in poi, assistiamo ad una rinascita
della traduzione automatica, ma in contesti diversi rispetto a quello americano, ovvero in Europa e in Canada.
In Canada viene sviluppato il progetto TAUM. All’interno di questo progetto viene realizzato un sistema di
traduzione automatica chiamato 'meteo' per la traduzione dei bollettini metereologici dall'inglese al francese e
viceversa, e quindi, per risolvere il problema del bilinguismo che è presente in Canada. Viene sviluppato questo
sistema che opera efficacemente nel ristretto campo dei bollettini metereologici che sono composti da testi
molto brevi, molto sintetici e appartengono a un dominio ristretto.
Contemporaneamente, sempre in questo periodo, la comunità europea acquista un sistema chiamato
SYSTRAN per tradurre la documentazione che circola all'interno della Comunità Europea.
La cosa più importante è che negli anni 80 si cominciano a diffondere sistemi effettivamente utilizzabili,
soprattutto da grossi enti internazionali come l'ONU, la NATO e l'aeronautica americana.
A partire poi dagli anni ’90 si assiste a un nuovo cambiamento di rotta nel campo della traduzione automatica,
in quanto cominciano a diffondersi i primi servizi anche su internet e soprattutto si afferma un approccio
pragmatico rispetto al problema della traduzione. Il fattore internet e il fattore pragmatico portano alla nascita
di una serie di strumenti soprattutto di traduzione assistita e dunque di ausilio al lavoro del traduttore, come
database terminologici e memorie di traduzione, tutto questo in piattaforme online, , offerte gratuitamente da
una serie di produttori Systranet, Bing Translator, Google Translate che colgono l’occasione di diffondere
questi strumenti tramite internet per ampliare la propria base di utenti e allo stesso tempo per raccogliere dati
preziosi per questi sistemi, che per la loro caratteristica di dare-avere sono chiamati open-source (ne traggono
benefici gli utenti, perché accedono a traduzioni gratuite, ma anche il sistema grazie agli utenti trae beneficio
in quanto sono gli utenti a migliorare la qualità del sistema).
Quindi, attualmente, possiamo dire che il sogno dell’uomo di creare una macchina che agisca come l’uomo è
stato quasi raggiunto, non perfettamente, ma l’idea si avvicina molto a quella originale.
CAPITOLO 4 – L’EVOLUZIONE TECNOLOGICA
I diversi approcci alla traduzione automatica, nel corso del tempo, hanno cercato di risolvere i problemi
derivanti dall’ambiguità e dalla complessità del linguaggio naturale ma, ancora oggi, dopo quasi settant’anni
di storia, non li hanno del tutto risolti. È innegabile, però, che è dagli esordi della traduzione automatica ad
oggi sono stati fatti notevoli passi in avanti grazie alla sperimentazione di diversi modelli e approcci teorici,
che possono essere attualmente divisi in tre gruppi, ovvero:
- Approcci linguistici;
- Approcci empirici;
- Approcci ibridi.
A transfer
Approcci a traduzione indiretta
A interlingua
Approcci neurali
APPROCCI IBRIDI
Approcci linguistici
Gli approcci linguistici sono quelli che hanno caratterizzato la traduzione automatica fin dagli esordi, e sono
conosciuti anche come approcci a regole o Rule-Based Machine Translaton, in quanto si basano
principalmente su risorse linguistiche come dizionari e grammatiche.
Gli approcci linguistici, a loro volta, sono praticati attraverso tre strategie:
Approcci ibridi
Un altro approccio di tendenza e che ha riscosso un grande successo nella traduzione automatica, è
l’approccio ibrido, che integra gli approcci linguistici agli approcci statistici, godendo in questo modo
dei benefici offerti da entrambe le metodologie.
Ci sono diversi modi per combinare i due approcci:
- Accoppiamento di sistemi (seriali o paralleli): vengono combinati i due sistemi senza mai
essere integrati del tutto; in questo caso, generalmente, si utilizza prima l’approccio a regole,
e il post-editing si realizza attraverso l’approccio statistico;
- Adattamento dell’architettura dei due sistemi; in questo caso l’architettura di uno dei due
sistemi viene modificato inserendo delle caratteristiche dell’altro sistema;
- Creazione di un reale sistema ibrido; in questo caso viene creato un sistema integrando
completamento le caratteristiche dei due sistemi.
CAPITOLO 5 – IL PROCESSO DI TRADUZIONE AUTOMATICA E LE COMPETENZE
DEL TRADUTTORE NELL’ERA DIGITALE
L’ampliamento del mercato vissuto negli ultimi anni relativo all’adozione della traduzione
automatica ha avuto e continua ad avere tutt’oggi come inevitabile conseguenza l’incremento della
domanda di servizi di post-editing. Infatti, benché il miglioramento della qualità della traduzione
automatica sia veramente significativo negli ultimi anni, l’intervento umano per ottenere traduzioni
di buona qualità è comunque sempre necessario, seppur in maniera diversa rispetto alle forme
tradizionali.
Nella traduzione automatica, che attualmente è considerato un sistema a sé stante, il traduttore umano
interviene attraverso due azioni: azioni di pre-editing ed azioni di post-editing.
Nella fase di pre-editing, il compito dell’uomo è di preparare il testo di partenza al processo di
traduzione automatica, rimuovendone le ambiguità o segnalando le parti più difficili da tradurre
automaticamente. Nella fase di post-editing, invece, l’uomo ha il compito di risolvere problemi
relativi alla lingua di arrivo.
Pre-editing
Per quanto riguarda il pre-editing, l’obiettivo principale è quello di ridurre i tempi di revisione del
testo di arrivo e migliorarne la qualità. Questa fase è generalmente caratterizzata da interventi che
riguardano:
- Correzione di errori ortografici e grammaticali;
- Eliminazione di parti ambigue o complesse attraverso interventi di esplicitazione
(sostituzione di pronomi con nomi), semplificazione (sostituzione di periodi lunghi con
semplici) o normalizzazione (trasformazione di formi particolari come abbreviazioni o usi
dialettali);
- Trasformazione del linguaggio tecnico in linguaggio controllato.
Quando parliamo di linguaggio controllato facciamo riferimento a un tipo di linguaggio sviluppato
principalmente per applicazioni industriali, utilizzati ad esempio nei manuali di istruzione; essi
derivano da lingue naturali ma sono semplificati, per facilitare la lettura della documentazione tecnica
al personale che spesso non possiede un livello linguistico molto alto.
In generale, la ricerca sul pre-editing e sull’uso di linguaggi controllati ha prodotto molti meno
contributi rispetto agli studi sul post editing, probabilmente perché questa fase è vista come una fase
opzionale, non facente parte del vero e proprio processo di traduzione e talvolta anche antieconomica.
Post-editing
Il post-editing, abbiamo detto, consiste nell’attività di revisione di testi tradotti automaticamente.
Colui che si occupa di questa attività non deve essere necessariamente un traduttore, molto spesso è
una persona che conosce solo la lingua di arrivo e valuta se quel determinato testo che è stato prodotto
è conforme alla lingua in cui è stato redatto oppure presenta degli elementi non corretti.
Distinguiamo tra due tipologie di post-editing:
- Un’attività chiamata light post-editing o anche fast post-editing;
- Un’altra chiamata full post-editing.
La fase di light post-editing è un’attività di revisione minima del testo tradotto automaticamente e si
focalizza su correzioni essenziali, ovvero correzioni di errori che compromettono la trasmissione del
messaggio corretto nonché corretta interpretazione da parte del ricevente, quindi si concentra
principalmente sul contenuto. Questa attività è realizzata soprattutto quando i documenti da tradurre
sono per uso interno.
La fase di full post-editing, invece, è un’attività che revisiona anche errori grammaticali e stilistici,
quindi si concentra anche e soprattutto sulla forma. Questa attività è realizzata quando i documenti
sono pubblicabili, quindi per uso pubblico, di conseguenza è un processo più lento e accurato
finalizzato ad ottenere il massimo sia nel trasferimento del messaggio che nella fruibilità del testo di
arrivo.
La fase di post-editing, rispetto a quella di pre-editing, è stata oggetto di studi di numerosi studi e per
molto tempo questi studi si sono concentrati sul confronto tra la fase di post-editing e la traduzione
umana tradizionale.
Uno dei primi contributi più importanti in merito è stato fornito dalla TAUS, la Translation
Automation User Society, un’associazione che ha come obiettivo la trasmissione di conoscenze nel
campo dell’industria delle lingue. Tale associazione ha realizzato nel 2016 delle linee-guida che
riguardano il post-editing, al fine di addestrare le organizzazioni che intendono adottare tali processi.
A tal proposito, per il ligh post-editing, le linee guida raccomandano una traduzione semanticamente
corretta, assicurandosi che nessuna informazione sia stata aggiunta o omessa, mentre per il full post-
editing si raccomanda di produrre come risultato una traduzione corretta semanticamente,
sintatticamente e grammaticalmente.
Uno dei primi studi che riguarda la traduzione automatica ha confrontato il grado di comprensibilità
di tre tipologie di traduzione, ovvero la traduzione umana, la traduzione automatica grezza e la
traduzione automatica sottoposta a post-editing, e da tali studi è stato rilevato che la differenza fra
traduzione umana e traduzione automatica revisionata quasi non sussiste, a differenza invece della
traduzione automatica grezza che produce gradi di comprensibilità prettamente inferiori rispetto alla
traduzione umana.
Altri studi, sempre analizzano la differenza fra traduzione automatica e umana, hanno indagato in
particolare lo sforzo cognitivo sostenuto durante i due processi, attraverso l’analisi della difficoltà
percepita dal traduttore, attraverso il tempo impiegato durante le pause durante la digitazione su
tastiera o attraverso il tracciamento oculare.
Negli studi sulla traduzione automatica, uno scenario importante lo hanno occupato tutti quegli studi
che si occupano della figura del traduttore, o meglio di quegli studi che si chiedono quali siano le
competenze e le abilità che il traduttore deve possedere soprattutto in campo tecnologico con
l’avvento della traduzione automatica.
A tal proposito sono due i contributi che hanno assunto un’importanza rilevante, quello dello studioso
Anthony Pym e quello del traduttore Enrique Torrejòn e la professoressa Celia Rico.
Anthony Pym, in particolare, ha delineato dieci competenze di base che il traduttore deve possedere
in questa nuova era della traduzione, le quali sono divise in tre ambiti:
1- Il primo ambito è il learning to learning;
2- Il secondo è il learning to trust and mistrust data;
3- Il terzo è il learning to revise with enhances attention to detail.
Secondo il learning to learning, imparare per imparare, il traduttore deve avere la compoetenza di
adattarsi velocemente ai processi tecnologici, di cui deve saper anche valutare l’adeguatezza in
relazione alle necessità tecniche e al prezzo.
Secondo il learning to trust and mistrust data, il traduttore deve avere la capacità di saper valutare i
risultati della traduzione auomatica.
Infine, in base al learning to revise, il traduttore deve essere in grado di revisionare facendo attenzione
al dettaglio, correggendo errori di coesione, punteggiatura e stilistici.
Per quanto riguarda invece Rico e Torrejòn, la professoressa e il traduttore forniscono una descrizione
più dettagliata delle competenze richieste, suddividendo tali competenze in tre tipologie:
- Linguistic skills; si tratta di competenze linguistiche, ovvero la capacità di comunicare in
un’altra lingua nonché di interpretare le culture altrui;
- Instrumental competences; sono le competenze tecnologiche, di cui fanno parte l’MT
knowledge (conoscenza della traduzione automatica), il Term management (la gestione
della terminologia),l’MT dictionary maintenance (la manutenzione e l’aggiornamento
costante dei dizionari del traduttore automatico) e le Basic programming skills, competenze
basiche di programmazione, che riguardano l’utilizzo del PC.
- Core competences, si tratta di competenze attitudinali e psicologiche, come ad esempio la
capacità personale e soggettiva di definire ed applicare le norme per il post-editing o ad
esempio di gestire le aspettative del cliente.
CAPITOLO 6 – QUALITA’ E VALUTAZIONE DELLA TRADUZIONE AUTOMATICA
Attualmente, con l’avvento della traduzione automatica, non è più discutibile che questa tipologia di
traduzione abbia un vantaggio significativo in termini di tempo e costo; ciò che, invece, è ancora in
discussione è la metodologia di valutazione della qualità della traduzione automatica, in quanto non
vi è ancora un accordo preciso che stabilisca i parametri da considerare per valutare la qualità di
questa nuova tipologia di traduzione.
Nel corso del tempo, le metodologie utilizzate hanno oscillato tra due estremi opposti, ovvero
l’adozione di criteri qualitativi ed umani e l’adozione di criteri quantitativi ed automatici.
Il primo tentativo di valutare la traduzione automatica risale al famoso rapporto ALPAC del 1996
commissionato dall’Accademia Nazionale delle Scienze americana per studiare la fattibilità della
traduzione automatica e per valutare soprattutto i risultati ottenuti a fronte di ingenti finanziamenti
nel settore stanziati per circa dieci anni.
In quell’epoca non c’erano ancora dei modi affidabili per valutare la qualità, perciò la commissione
si basò su un esperimento, che valutava la qualità delle traduzioni dal russo all’inglese usando due
criteri: quello dell’intelligibilità e quello della fedeltà.
Il criterio dell’intelligibilità si riferisce ad una traduzione che può essere letta agevolmente e che è
facilmente comprensibile, come se fosse un testo nativo della lingua di arrivo.
Il criterio di fedeltà, invece, valuta la traduzione confrontandola con il testo di partenza, in base al
grado di informatività, secondo cui se per capire un testo bisogna confrontarlo con l’originale, allora
il grado di informatività è basso e quindi la traduzione non è fedele.
L’esperimento venne condotto usando due diversi gruppi di valutatori. Ad un primo gruppo, che
conosceva solo la lingua inglese, venne affidato il compito di confrontare due traduzioni in lingua
inglese, una umana e una automatica. Ad un secondo gruppo, che invece conosceva sia l’inglese che
il russo, venne affidato il compito di valutare le frasi tradotte automaticamente in confronto con quelle
originali in russo.
Questo primo esperimento era basato su aspettative molto alte, in quanto l’obiettivo di quel periodo
era di raggiungere la Fully Automatic High Qualiti Translation, ovvero una traduzione prettamente
automatica che raggiungesse la qualità di traduzione umana. Questo obiettivo ovviamente era ancora
utopico a quel tempo e l’esperimento fu deludente, tanto che per un periodo le ricerche nel campo
furono sospese, ma d’altra parte fu evidenziata la necessità di approfondire gli studi nel campo della
linguistica computazionale.
Un altro documento importante rispetto alle metodologie da adottare nella valutazione è il Van Slype
Report, uno studio commissionato dalla Commissione Europea a seguito dell’adozione del sistema
SYSTRAN.
Questo rapporto è interessante per come considera la qualità della traduzione, in quanto pone
l’accento sul fatto che la qualità è un concetto relativo e come tale deve essere valutata applicando
diversi criteri distinti, ognuno focalizzandosi su aspetti diversi della qualità della traduzione.
Questo rapporto propone oltre a criteri linguistici anche criteri di tipo socio-situazionale (che valutano
ad esempio l’usabilità e l’accettabilità da parte degli utenti), economici (che valutano tempi di lettura,
di correzione, di traduzione) e operativi (che valutano ad esempio l’identificazione automatica della
lingua).
Si passa quindi da un concetto di qualità di tipo statico (misurato in termini assoluti avendo come
modello di riferimento il risultato della traduzione umana,) a un concetto di qualità più dinamico.
Nel 1988 abbiamo un altro modello proposto da due studiosi: Lehrberger e Bourbeau, i quali
cercano di formulare una metodologia generale per la valutazione della traduzione automatica, intesa
sia come processo che come prodotto.
Questo schema prevede tre approcci di valutazione:
- Valutazione linguistica, effettuata sulla traduzione grezza e valuta gli errori effettuati dal
sistema;
- Valutazione dei costi\benefici per l’utente, considera i costi diretti e indiretti connessi alla
traduzione automatica e li confronta con quelli di una traduzione umana della stessa qualità;
- Valutazione da parte dello sviluppatore, finalizzata a identificare le aree critiche del sistema
e il loro miglioramento.
Tutti questi metodi, che hanno prevalso fino agli anni ’90, implicavano il ricorso all’intervento
umano. Un’altra strategia di questo tipo era la back-translation o retro-versione, che consisteva nel
tradurre il TP in TA e successivamente ritradurre il TA in TP, anche se ben presto questa strategia fu
abolita perché considerata inaffidabile, e le strategie che in generale necessitavano dell’intervento
umano, a partire dal 2000, furono sostituite o comunque si tentò di sostituirle con approcci automatici,
perché troppo costosi ed anche troppo lenti.
i principali software di valutazione automatica furono 4: BLEU, NIST, METEOR e Word Error
Rate.
Questi software usano una serie di criteri per valutare la traduzione automatica sulla base di un corpus
di riferimento o gold standard, costituito da testi tradotti da traduttori umani.
Tutte queste metriche si basano sul principio di similarità della traduzione automatica rispetto a quella
umana, calcolando la distanza tra le due, adottando due criteri, quello della precisione e quello del
recupero, in inglese precision and recall.
Per calcolare la precisione vengono calcolati il numero di segmenti tradotti correttamente e divisi per
il numero di segmenti totali della traduzione automatica; per calcolare il recupero, invece, il numero
di segmenti tradotti correttamente viene calcolato per il numero di segmenti totali della traduzione
umana di riferimento. Esiste poi un terzo criterio chiamato F-measure, che integra i due criteri al fine
di produrre parametri più precisi.
I 4 software sopra citati seguono questi criteri e si differenziano tra loro per delle sottili caratteristiche.
BLEU, ad esempio, confronta la traduzione automatica a quella umana segmentando il testo parola
per parola, ed attribuendo ad ogni elemento – che sia lessicale o gramamaticale – uguale peso.
NIST, invece, attribuisce un peso maggiore a segmenti rari, ovvero segmenti che ricorrono meno
spesso nel testo, perché ritenuti maggiormente informatici; per cui se l’errore nel confronto tra le due
traduzioni riguarda la traduzione di un segmento raro, il punteggio calerà maggiormente rispetto a se
l’errore riguardasse un segmento frequebte.
METEOR, quasi seguendo lo stesso metodo di NIST, attribuisce un peso maggiore alle parole
lessicale piuttosto che a quelle grammaticali; infine abbiamo Word Error Rate, che valuta il numero
di parole diverse, che siano state cancellate, sostituite o inserite in aggiunta.
Queste metriche però hanno degli svantaggi, come ad esempio il fatto che non sono rapportabili tra
loro poiché producono differenze sostanziali e che non sono rapportabili al giudizio umano. Al
proposito sono emerse numerose critiche, ad esempio il fatto che:
- quasi tutte le metriche non considerano che la forma superficiale delle parole, non vagliando
altri aspetti come ad esempio la grammaticalità del testo, la fruibilità, il registro o lo stile.
- Non sempre è chiara la provenienza ed accertata la validazione qualitativa dei corpora usato;
- Queste metriche non sono utili nell’individuare e confrontare in maniera più dettagliata punti
di forza e debolezze dei diversi sistemi.
Dinanzi a queste critiche, quindi, si è tentato di sviluppare delle metriche più affidabili e che in
qualche modo conciliassero i diversi punti di vista: sia quelli quantitativi e qualitativi, sia quelli degli
utenti e sviluppatori. Un esempio può essere la Dynamic Quality Framework (DQF) definita cosi
perché considera la qualità “dinamica”, nel senso che la qualità della traduzione è da rapportare a
quelli che sono gli scopi del testo di partenza ma anche gli scopi finali degli utenti della traduzione
finale e si basa su due concetti: l’adeguatezza e la fruibilità.
Il criterio di adeguatezza indica che in un testo di arrivo è stato riportato tutto il contenuto del testo
di arrivo, ed è classificabile secondo una scala di 4 parametri, ovvero:
- Completamente adeguata.
- Per lo più adeguata.
- Poco adeguata.
- Non adeguata affatto.
Il secondo criterio è quello della fruibilità, quindi in che misura la traduzione è grammaticalmente
ben formata e quanti errori di ortografia contiene, se quindi è conforme all’uso comune dei termini,
dei titoli, dei nomi e quanto sia vicino ad un testo nativo della lingua di arrivo.
Anche qui abbiamo una scala di 4 valori:
- Pienamente accettabile.
- Presenta degli errori.
- Totalmente incomprensibile.
Un’altra metrica sviluppata è la Multidimensional Quality Metrics,(MQM), che prende in
considerazione una serie di parametri come l’accuratezza, il desing, lo stile, la verità, la terminologia
e la fruibilità. Questo sistema consente di identificare gli errori in un testo tradotto sia
automaticamente che un testo tradotto da un professionista, adatta le categorie di errori a diversi tipi
di processi e consente di incentrarsi su sistemi di traduzione automatica o di ausilio alla traduzione.
CAPITOLO 7 – LA TRADUZIONE AUTOMATICA PARTECIPATA. IL CONTRIBUTO
DEL CROWDSOURCING
Il termine crowdsourcing è stato usato per la prima volta dal professore Jeff Howe nel suo articolo
intitolato The rise of Crowdsourcing, ed indica un’attività che si basa sul contributo di una moltitudine
di persone su base volontaristica o a pagamento.
Questa pratica può riguardare diverse attività e tra le tante figura anche la traduzione.
Nel settore della traduzione il crowdsourcing fa riferimento all’uso di gruppi professionisti e non, a
pagamento o su base volontaristica, per svolgere tipiche attività di traduzione e localizzazione.
Dal 2006 ad oggi questa forma di uso dell’intelligenza collettiva nel campo della traduzione ha dato
l’avvio a pratiche collaborative di traduzione su larga scala, come nel caso di Facebook, YouTube,
Twitter e Linkedin. Tra questi il caso che avuto sicuramente un notevole successo è Facebook, che
ha creato una strategia molto efficiente: attraverso l’applicazione Translate Facebook, gli utenti del
social network possono contribuire al processo di traduzione. Grazie al crowdsourcing, il social
network è riuscito a localizzare in pochissimo tempo l’interfaccia in tutte le lingue a costo zero.
L’interfaccia di Facebook viene costantemente aggiornata, proponendo continuamente ai volontari
breve stringhe di testo da tradurre. All’interno di Translate Facebook l’utente può scegliere la
traduzione che a suo parere è la migliore tra una serie di proposte, o in alternativa può suggerire una
sua traduzione.
Sulla stessa scia del successo di Facebook, anche altri social network hanno cercato di adottare lo
stesso approccio, anche se non sempre con lo stesso risultato, come nel caso di Linkedin, una
piattaforma per professionisti, in cui i traduttori immediatamente si opposero a questo approccio.
Altri campi di applicazione del crowdsourcing nel settore della traduzione sono ad esempio la
traduzione di audiovisivi, il sottotitolaggio e la traduzione a scopi umanitari.
Il crowdsourcing non è stato utilizzato solo per attività di traduzione fini a sé stesse, ma anche per la
raccolta di dati utili al miglioramento delle tecnologie di traduzione automatica.
Generalmente le iniziative di crowdsourcing avvengono mediante l’uso di piattaforme come Amazon
Mechanical Turk, le quali consentono ai ricercatori l’accesso a costi contenuti, e agli utenti di
collaborare in maniera volontaristica o anche dietro pagamento di piccole somme di denaro.
Esistono varie forme di crowdsourcing per la raccolta dei dati linguistici, ovvero:
- Lavoro meccanizzato, secondo cui si richiede l’esecuzione di un compito ben definito in
cambio di una determinata ricompensa in denaro;
- Wisdom of the Crowd, quando i volontari si prestano liberamente a condividere le loro
conoscenze per eseguire dei compiti, rispondendo a domande o spiegando cose ad altre
persone, come nel caso di Wikipedia o Yahoo! Answer.
- Giochi con uno scopo, in inglese Games with a purpose, quando si usa un gioco per raccogliere
dati linguistici. In questo contesto non sono richieste conoscenze specifiche e l’utente,
immerso nell’ambiente di gioco, deve effettuare scelte ben precise e non è consapevole, a
volte, che le sue risposte verranno raccolte per raccogliere dati.
A partire dai Giochi con uno scopo, in cui i partecipanti a volte non sono consapevoli di ciò che fanno,
è importante fare un’altra classificazione tra due tipologie di Crowdsourcing, ovvero il
crowdsourcing esplicito e il crowdsourcing implicito.
Si parla di crowdsourcing esplicito quando i contribuenti sono consapevoli del fatto che stanno dando
un contributo alla raccolta di dati, come nel caso del lavoro meccanizzato e del Wisdom of the crowd.
Il crowdsourcing non è usato solo a fini di ricerca, bensì viene utilizzato dalle grandi multinazionali
e dai social network per ottenere dati a basso costo o gratuitamente.
Esemplare è il caso di Google Traduttore, che ha messo in atto delle strategie molto efficace per
coinvolgere qualsiasi utente nella realizzazione di risorse preziose. Ad esempio consente all’utente di
suggerire una traduzione diversa da quella proposta dal sistema. Inoltre, all’interno di questa
Community di translate, vengono proposte delle frasi, o sintagmi, che l’utente deve valutare
scegliendo tra le valutazioni utile\errata\offensiva.
All’interno di questa pagina vengono fornite anche delle linee guida, inerenti a come tradurre.
Per quanto riguarda invece il crowdsourcing implicito, in questo caso il contribuente non è
consapevole del fatto che il suo contributo sarà utilizzato per delle raccolte di dati importanti, come
nel caso dei giochi con uno scopo. Un esempio è il caso del gioco 1001 Paraphrases, gioco il cui
obiettivo era quello di collezionare corpora da usare per addestrare un sistema di traduzione
automatica a riconoscere le parafrasi di specifiche espressioni nella lingua di arrivo. Il sistema di
traduzione automatica era un sistema inglese di frasi. Si invitava l’utente a fornire delle parafrasi di
frasi come “This can help you”. Si chiede un altro modo per interpretare questa frase, come “This
could be helpful”, oppure “This could be of help”. In questo caso non è detto esplicitamente a chi
giocava, che in questo modo si sarebbero raccolti dati che sarebbero stati poi riutilizzati.
Questa raccolta di dati ha una serie di vantaggi:
Ci sono però anche diversi problemi legati all’utilizzo di tale metodologia, che riguardano la qualità
e l’etica.
Per quanto riguarda la qualità, vi sono due problemi:
- Il primo riguarda l’affidabilità dei dati: molto spesso, ad esempio, se si pensi ad Amazon
Mechanical Turk, non si sa bene la nazionalità delle persone che contribuiscono alla raccolta
dei dati.
- Il secondo limite è che molto spesso, le persone per effettuare questi Task che vengono poi
pagati molto poco, possono usare a loro volta la traduzione automatica, quindi rendendo non
affidabile e non usabili i dati prodotti in questo modo.
Alcuni ricercatori hanno cercato di mettere in piedi dei processi per rendere più affidabile l’uso del
crowdsourcing nella raccolta di traduzioni, come nel caso di due ricercatori, Zaidan & Callison-
Burch, i quali hanno raccolto più traduzioni per una stessa frase, in modo tale da fare dei confronti.
Inoltre, il testo da tradurre veniva proposto come immagine e non come testo, proprio per evitare che
venissero utilizzati dei sistemi di traduzione automatica, e infine, un altro criterio è che hanno raccolto
informazioni sulla provenienza geografica dei traduttori.
Un altro problema esistente, è di tipo etico, in quanto molto spesso questi dati (come il caso di
Facebook) vengono raccolti gratuitamente, quindi grazie al contributo degli utenti, ma alla fine questa
metodologia viene utilizzata per produrre dei servizi a pagamento, e quindi sorge un problema di tipo
etico.
Chi è più danneggiato da questo tipo di critica sono i professionisti del settore (dunque traduttori
professionisti), perché generalmente le attività di localizzazione richiedono delle competenze molto
specifiche, e quindi vengono remunerate anche bene nell’ambito del mercato della traduzione.